INTRODUCTION

目前在影像問答的數據集上的蒐集方法多半是需要人來標註,此方法不僅耗時且耗人力,更重要的是無法巨量化。因此我們在這裡以一個自動化且可巨量化的方法蒐集數據集。 我們首先從影片網站 (jukin media)上爬取了 18100 部使用者上傳的影片(user generated video),其多半具有相當豐富的元資料(例:標題、敘述、標籤等),且影片類型多元。我們採用了卡內基美隆大學(CMU)所提出的問題產生演算法來自動產生問答配對,將影片敘述自動產生成問題與答案。由於目前還沒有人提出專門解決影片問答系統的模型,所以我們把現有的純文字或圖片問答系統延伸成影片問答系統,其中包括:E-E2EMemN, E-SS, E-SA, E-VQA,這些模型都在各自的領域為 state-of-the-art 的架構, 因此我們希望利用這些延伸的模型能夠當作強而有力的 baseline 方法。由於問答是自動產生,仍有雜訊存在於我們的資料當中,因此我們提出了自我調控學習(self-paced learning)使模組能夠自我辨識問答資料的好與壞。在自我調控學習中,我們將會計算兩種不同的偏差值(loss)來幫助訓練資料移除,並重新訓練我們的模型,如此方式可以不停迭代的更新我們的 訓練資料直到正確率不再上升。


Fig. 1


Fig. 2


Fig. 3

心得感想

還記得剛接觸深度學習時,我們只能看stanford的線上課程,一步一步了解CNN,LSTM的架構。一年後我們已經有能力建構且訓練自己的模組,也能從最新的paper中挖掘研究的方向。相當感謝孫民教授對此專題用心的指導,並提供硬體設備使我們能對不同的模型針對巨量資料進行深度學習。兩位碩班指導學長,曾國豪與陳增鴻在影片問答資 料庫的建置收集以及模組的設計建構也提供了相當大的協助;史丹佛大學電腦視 覺研究室的資深研究科學家 Juan Carlos Niebles 也給予我們相當多精闢寶貴的建議。在此次專題中我們學到了相當多關於機器學習與電腦視覺的相關專業知識, 並且能夠針對問題發想並進行研究。