INTRODUCTION

在此專題中影像辨識的部分運用了caffe這個開源的深度學習框架,caffe是由UC Berkeley的Berkeley Vision and Learning Center(BVLC)開發及維護,而由於Raspberry Pi的CPU及GPU都無法與一般電腦相比,所以在做影像辨識這種需要大量運算的工作時會消耗非常多時間,所以我們利用caffe所提供的網頁版來實作這次的專題,將拍好的照片傳到該網站,並將輸出的結果取回來。

事先挑選一些在行駛時常見的景色進行影像辨識,再將得出的結果進行歸類,可以將這些結果分為幾個大類,再由這些項目建立資料夾將音樂分類,而播放音樂的軟體是使用omxplayer,此為Raspberry Pi作業系統Raspbian內建的播放軟體。

事先挑選的照片以海邊、山上、農村及城市為主,利用海邊的圖的辨識結果幾乎都會出現geological formation、natural elevation及shore,而對山上的圖進行影像辨識的結果則多會出現geological formation、volcano及mountain,而農村則多會出現rapeseed、oilseed及seed,城市則多會出現structure及building,圖3是取一些我所採用的圖片所測出的結果。最後我根據這些結果將音樂存放的資料夾分為四大類,分別是shore、mountain、seed、structure及others。

將分類好的主題各自建立一個資料夾,並將符合該主題的音樂放入資料夾中,而在行駛時會在播放完一首歌後拍一張照,並對其進行影像辨識,如果辨識結果與上一次相同則繼續播該類型的音樂,當結果與上次不同時,則進入符合該次結果的資料夾並播放該資料夾內的音樂,如此不斷循環。Fig.1為整個系統的架構圖。


Fig. 1

心得感想

這次專題雖然影像辨識的部分並非自己實作,但是在暑假meeting時學到了不少關於影像辨識的知識,且在尋找適合用於Raspberry Pi的影像辨識工具中也試了不少現在常用的影像辨識工具讓我受益匪淺。