INTRODUCTION

從這個專題中,我們希望能夠達到可以獲取目標物及深度資訊。

目標物體資訊方面。由於我們是設想放在自動移動的機器上面,因此必須要能夠快速辨別物體位置及種類,所以我們認為real time 是我們最重要的選擇,再來是精準度。在探討、嘗試實做出一些物件偵測演算法後,選定以YOLO(You Can Only Look Once),他的速度可達45 FPS,也就是real time( > 30 FPS,即為real time);精度可以到達63.4 mAP。

深度資訊方面。我們先去了解4大CNN網路的架構,包括AlexNet、GoogleNet、VGG和Residual net,最後我們採用了配合Fully Convolution後效果會較好的Fully Convolutional Residual Networks(見Fig.2),來做為深度預測。

以偵測沙發為例,Fig.3為原圖,Fig.4為深度資訊加目標資訊的照片。


Fig. 1


Fig. 2


Fig. 3


Fig. 4

心得感想

鄭敬儒:

這一年專題實作中,踏入了computer vision和machine learning,這個我完全沒碰過的領域。從一開始問題重重,到現在已經對computer vision和machine learning有更多的了解,但接觸這個領域1年後,發現這方面發展速度相當的快,無論現在擁有多少相關知識,都仍要繼續涉獵更多東西,不斷更新自己對這領域的了解。一開始自己各方面的能力都很不足,在這一年磨練後,覺得最大的成長是自我學習及解決問題的能力,但還不足,往後得繼續努力。

陳經貿:

在這一年來的專題實做,從最一開始對這領域完全不了解,直到現在已經可以自己需要學哪個部份,就可以自己上網看懂。相信這一年來自己最大的進步就是自學能力,以及如何切入一個新的領域的一些方法,也讓自己了解其實實作和平常修課的巨大差別,修課是為了讓我們有基本知識去支撐我們實作時所需要的觀念與邏輯。因此如何實作也是非常重要的環節,當中會遇到許多問題,可能是解法觀念的問題,也可能是技術上系統的問題,但自己絕不能因一直出現問題就因此退縮,也期許之後在面對新的學問時,自己要保持著盡力、努力自學、觀念也要認真讀懂的態度,去面對更進階的知識與學問。

王立友:

這一年來的專題實作讓我學到許多上課沒教的實作內容,以及基礎的做研究精神,從念論文的過程中學習他人如何建構演算法,從每周會議的報告中學習如何發現盲點與如何修正錯誤。從一開始大家連軟體安裝都會花一整天的時間,到後面漸漸對程式語法的操作上手,這過程不僅讓我們對電腦視覺及機器學習有基礎認知,也得到許多成就感。