人臉識別技術(shù)簡介
書迷正在閱讀:老舞生、華娛之縱橫、越鳥傳 (1V1, H, 古言,志怪)、【綜武俠】美人如花隔云端、先做后愛【1v1 H】、折翼(調(diào)教與逆調(diào)教)、月光下的傳說之尋夢、臨死前想殺個神、冥冥之中賴定你、蘇錦溪司厲霆
人臉識別技術(shù)相關(guān)問題分為四大塊人臉檢測,特征點提取,人臉校驗,人臉檢索。 其中第一個問題旨在檢查圖片是否是人臉、檢測一張圖像中是否包含人臉,而這個問題早在2005年就已經(jīng)有了解決方案。 即將一張彩制圖片通常是jg格式轉(zhuǎn)化為黑白格式,然后對臨近的像素點中用箭頭標示出黑白區(qū)間變化沒有變化則不標,從而得到一張簡化的hog圖片制式,可以快速而簡便的檢測人臉。 這個步驟oencv中早已存在,基于viojones算法,可以直接拿來用。 第二個問題,特征點提取,這個問題在2015年前后,在ython發(fā)布的ananda支持庫得到了普世化的解決方案。而在2015年以前,這個技術(shù)不能說沒有,而是發(fā)展緩慢。 其基本原理為提取人臉特征中的68個特征點鼻子兩側(cè)、眉心、嘴角等類似位置,也有算法是27個,這個數(shù)量不是固定的,特征點越多越精確熵越低,同樣計算效率也就越低,這是兩個矛盾的對立面,從而確定需要處理的面部區(qū)域。 特征點并不是某個點,而是一個像素集合,主要由卷積核和卷積核周邊的像素構(gòu)成,這個結(jié)構(gòu)就是傳說中的智能領(lǐng)域的神經(jīng)網(wǎng)絡具體分類為卷積神經(jīng)網(wǎng)絡,區(qū)別于遞歸神經(jīng)網(wǎng)絡。它在某種程度上,和正則有著相似之處。 在這個過程之后,需要用到這些特征點,通過算法按照比例扭曲和旋轉(zhuǎn),以及等比縮放,從而得到一張幾乎完全對稱的正臉。 前兩個問題都屬于圖像的預處理步驟。 后兩個問題,人臉校驗和人臉檢索則是兩個相對獨立的問題,前者判斷兩張照片是不是同一個人,后者判斷這是誰。 其中又需要廣泛用到隨機森林和深度學習。 隨機森林這里會用到高斯核不需要過多解釋,就是在臉上隨機描邊,所有的算法都會是在描邊的區(qū)域內(nèi)進行,從而達到某種目的深度學習。 深度學習則可以簡單的理解為結(jié)果推倒論。 通常人類判斷兩個人是否是同一個人,會去仔細對比兩個人的頭發(fā)顏色、眉毛長度、鼻子形狀等,從而而出結(jié)論哦,這是不是同一個人。 而對于計算機來說,則是恰恰相反,而是放兩張照片先告訴它,這是一個人,給他制定一系列的決策標準分類和決策,而后自己算著玩去吧! 計算機視覺最常用的監(jiān)督訓練學習的方法,就是給三張照片,其中兩張是同一個人,第三張是其他人,要求上述所有步驟最終得到正確的計算結(jié)果,從數(shù)萬個決策中得到的128個特征這個數(shù)量也不是固定的。 這128個特征,如果用日志記載下來的話,可能會讓人感覺到啼笑皆非它可能記錄了一個人從左鼻孔到右眼角的距離,也有可能記錄的是眼睛瞳孔的形狀,或者可能只是睫毛的彎曲幅度,或者只是頭皮屑的顏色。 實際上這個過程可能更復雜一些,它會不斷的從a到b,再從b到a,不斷的調(diào)整權(quán)值,從而達到人類要求得到的結(jié)果。 這人類無法完全理解的一套規(guī)則,谷歌兩機器人互相以人類無法理解的語言對話,就是這個原理。 這個就叫做深度學習。 簡單來講,計算機視覺更像是鸚鵡說話,鸚鵡會說“你好”,但是它并不能理解“你好”是什么意思。對于人類來說,鸚鵡說出“你好”就是結(jié)果,也不關(guān)心它是怎么說出來的。 所以身份證取照需要人做出幾個動作,額外多拍幾張照片,這個過程就是為了讓計算機能夠深度學習,得到屬于這個人的“特征庫”。 手機的人臉解鎖,相對于人臉識別的三維檢測,則更為簡單一些,因為手機普遍采用的是紅外拍攝取圖。 相對于彩色制式的標準圖,手機對是不是本人的檢測并不是特別嚴格,這個卷積核,也就是神經(jīng)網(wǎng)絡,它是基于二維結(jié)構(gòu)的。 結(jié)果論是智能領(lǐng)域常用的解決方案,它有一個學名,叫做監(jiān)督學習。 包括雙足行走和跳躍,搬運貨物,下棋,等等機器行為,都非常依賴于監(jiān)督深度學習。 就先記到這里,這半年正在做這方面的項目。