<code id='6853j'><strong id='6853j'></strong></code>
    <fieldset id='6853j'></fieldset>
    <span id='6853j'></span>

    <i id='6853j'><div id='6853j'><ins id='6853j'></ins></div></i>
  1. <tr id='6853j'><strong id='6853j'></strong><small id='6853j'></small><button id='6853j'></button><li id='6853j'><noscript id='6853j'><big id='6853j'></big><dt id='6853j'></dt></noscript></li></tr><ol id='6853j'><table id='6853j'><blockquote id='6853j'><tbody id='6853j'></tbody></blockquote></table></ol><u id='6853j'></u><kbd id='6853j'><kbd id='6853j'></kbd></kbd>
    <ins id='6853j'></ins>

      <dl id='6853j'></dl>
      <acronym id='6853j'><em id='6853j'></em><td id='6853j'><div id='6853j'></div></td></acronym><address id='6853j'><big id='6853j'><big id='6853j'></big><legend id='6853j'></legend></big></address>

    1. <i id='6853j'></i>

          深研院信息工程學院鄒月嫻教授課題組在人工智能頂級會議呂福春AAAI上發表論文

          • 时间:
          • 浏览:22

            最近,視覺和語言的多模態任務,例如圖像字幕和視覺問題解答(VQA),引起瞭學術界和工業界的廣泛興趣。但是,大多數現有的模型都專註於單個任務。深圳研究生院信息工程學院鄒月嫻教授課題組研究一路不消停發現,這些任務存在一定的相似性,因此認為如果模型可以同時考慮這些多模態問題,則可以共同學習來自不同任務的不同知識,並且很有可能提高每個任務的效能。

            近日,鄒月嫻課題組的研究“Federated Learning for Vision-and-Language Grounding Problems”被在美國紐約舉行的第34屆人工智能發展協會(AAAI)人工智能會議(AAAI C秋霞新電影onference on Artificial Intelligence, AAAI 2020)接收發表並以口頭匯報(Oral)的形式進行瞭展示。該研究成果提出瞭一種聯邦學習框架,可以從不同的任務中獲得各種類型的圖像表示,然後將它們融影院手機版合在一起以形成細粒度的圖像表示。這些圖像表示融合瞭來自不同視覺和語言的多模態問題的有用圖像表示,因此在單個我是餘歡水任務中比單獨的原始圖像表示強大得多。為瞭學習這種圖像表示,該課題組提出瞭對齊(Aligning)、集成(Integrating)和映射(Mapping)、網絡(aimNet)。aimNet由一個對齊模塊,一個集成模塊和一個映射模塊組成(如下圖)。

          課題組提出的集中式模型aimNet

            其中,對齊模塊通過對提取的視覺和文本特征進行相互關註來構建對齊的圖像表示,其能為顯著圖像區域提供瞭更清晰的語義描述。接下來,集成模塊著重於通過自我註意機制集成視覺和文本泰國電視連續劇特征,該機制捕獲顯天官賜福著區域的分組和屬性的搭配。最後,映射模塊由兩層非線性層組成,用於將學習到的細粒度圖像表示映射到特定任務的特征域。各課題組提出的模塊充分利用瞭圖像中的所有有效信息,並將其作為輸入傳遞給解碼器,以生成有意義的句子或給出問題的準確答案。該課題組在兩個圖像字幕數據集和一個VQA數據集上,以及相應的三個聯邦學習設置上,包括水平聯合學習,垂直聯合學習和聯合遷移學習,進行實驗用於驗證該課題組的動機以及所提翻譯出方法的有效性。

            2019級碩士生劉峰林為該論文第一作者,鄒月嫻為通訊作者,該工作得到瞭數字視頻編解碼技術國傢工程實驗室、深圳市發改委(數據科學與智能計算學科發百度地圖展計劃)和Aoto-PKUSZ聯合實驗室的支持。