機器學習算法開辟了一個新的可能性領域,可以將視覺嵌入到產品中,使家庭、工作空間以及介于兩者之間的地方更安全、更高效。為了在更多用例中真正發(fā)揮智能視覺的潛力,開發(fā)人員需要更節(jié)能、更靈活的嵌入式解決方案,這些解決方案要求使用電池供電,易于安裝和維護,同時能夠提供對我們想要檢測和監(jiān)控的事物進行有效智能檢測所要求的視覺性能。機器學習建模和處理的先進性也是智能相機廣泛普及的關鍵。
低成本的遠程可視監(jiān)控在過去等同于紅外移動檢測器:便宜、自主,但不一定有效。有些用戶想用一套聯(lián)網的攝像機監(jiān)控后院。攝像頭使用紅外移動檢測喚醒,然后將視頻發(fā)送給應用程序。
問題是,后院中的移動檢測系統(tǒng)會檢測一切事物,從鄰居家的松鼠到微風中吹動的風鈴等。因此被繁多的視頻內容搞得疲憊不堪,這就可以理解為何很多視頻被跳過去——包括有一天,一個竊賊從后院闖入房子。
直到最近有了另一種選擇,人們將視頻引入了控制室,正如能想到的那樣,如果有重要事情發(fā)生,會被值班人員觀察到。這種方法提供了更多的保護,但費用和能源消耗也會大很多。因此,需要介于兩者之間的解決方案:便宜、電池供電,且比簡單的移動檢測更具辨別力。理想情況下,該系統(tǒng)將具有足夠的嵌入式智能,首先將事件確定為“真實事件”,然后再喚醒功能更強大的攝像頭,攝像頭在向應用程序發(fā)送通知的同時將高分辨率視頻進行記錄和傳輸。
今天,機器學習技術的巨大進步,極大地改進了無人值守的視頻分析性能。帶有高性能深度學習推理加速器芯片或與云數(shù)據中心寬帶連接的高清攝像頭,可以顯著增強和改進傳統(tǒng)的安全和監(jiān)控方法。事實上,這樣的深度學習系統(tǒng)已經展示了非凡的能力:面部識別、手勢解釋——例如檢測入店行竊,甚至情緒估計——檢測入店行竊的企圖。或許這些能力已經變得令人刮目相看了。
但這些系統(tǒng)仍然很昂貴,而且需要外部電源和寬帶連接。而且由于它們的能力如此之強,甚至會引發(fā)安全和隱私問題,從而可能限制它們的部署或引起監(jiān)管障礙。
那么天平的另一端、那個不起眼的紅外移動傳感器怎么樣了呢?仍然有許多應用只需檢測是否有人存在就足夠了,不用識別他們的身份或估計他們的心理特征。其中許多應用需要外部電源,并且只能提供有限的連接回傳網絡。也有許多應用成本非常低,它們怎么樣呢?
如今,超低功耗機器學習加速方面所取得的最新重大進展,已經可以回答這個問題了。
為了在實際使用環(huán)境中理解這一突破,讓我們仔細看看一些用例。例如,在許多安全和安保應用中,重要的是要知道監(jiān)控的區(qū)域是否有人在場(圖1)。這可能是為了檢測闖入者,確保沒有人靠近危險設備,或者只是打開一些燈以避免有人在黑暗的房間里絆倒。并不真正關心這個人是誰,但也不會對松鼠和管狀鈴鐺的誤報感興趣,比如上述的用戶后院引發(fā)的那些虛假警報。
圖1:低功耗視覺解決方案可實現(xiàn)會議室占用管理。
事實證明,對于一個非常簡單的機器學習模型來說,這是機器學習的一個很好的應用。在這種情況下,模型實際上是一組數(shù)據和指令,通過運行訓練過程中的大量數(shù)據而建立。機器學習系統(tǒng)使用這些數(shù)據和指令來形成推理——比如在圖像中有人的肯定推理,或者圖像中沒有人而是主人的金毛獵犬的否定推理。
新冠大流行創(chuàng)造了另一類應用,即社交距離監(jiān)控,遺憾的是相關威脅可能會伴隨我們相當長一段時間。非常重要的是,控制人員進入密閉空間,以確保里面的人員不超過空間容量限制(圖2)。要做到這一點,最好的方法是在門口沒有人工看守的情況下,使用一個可以在人員進出時統(tǒng)計人數(shù)的系統(tǒng)。是的,這只是人員檢測的另一種用途。這種系統(tǒng)的一個附加功能是檢測相關嫌疑人員是否戴著口罩。對于經過訓練的機器學習模型來說,這同樣是一項相對簡單的任務。
圖2:可用于體育場和活動場所的排隊管理,并能保護隱私、無需強制個體識別或身份特征識別的人數(shù)統(tǒng)計系統(tǒng)。
事實證明,有一個與此密切相關的完全不同的應用領域。一些機構非常關注他們在辦公空間上的花費,并根據空間的使用方式來決定如何最好地優(yōu)化空間。當公司考慮使用更小(和更便宜)、且通常是共享的工作空間時尤其如此。但這無法優(yōu)化無法衡量的東西,會有許多新的問題冒出來。有人用這個走廊嗎?咖啡室什么時候忙?有多少個公用辦公桌可用?三個會議室都被占用的情況多久發(fā)生一次?此類數(shù)據有助于在不降低生產力的情況下,最大限度地減少辦公費用。需要重申的是,這并不需要識別人員或了解他們在做什么,只想能夠檢測到他們是否存在。
讓我們看一下當今大多數(shù)公司所考慮的實際典型情況:一家公司在曼哈頓或舊金山市中心等昂貴的市中心地區(qū)的高層建筑中設有辦公室。公司有四十個隔間和五個會議室。根據高架攝像頭的人員檢測/計數(shù)輸入數(shù)據,隔間被占用的時間只占工作周的很少一部分,有三個會議室的使用率比其他兩個多得多。現(xiàn)在公司要擴張,需要再雇傭20個人,公司可以分析隔間和會議室的實際使用情況來作出安排,而不是在同一棟樓中租用另一層樓來支付高額租金。解決方案可以是將一個未使用的會議室改造成額外的20個隔間,或者提出一種靈活的混合模型,在人們需要時為他們提供工作空間,并最大限度地利用現(xiàn)有隔間。這將極大地節(jié)省運營成本支出,并且可以隨著容量和勞動力習慣的變化而調整。
這帶來了另一類應用:合規(guī)性檢查??梢杂柧殭C器學習系統(tǒng)來檢測人的外觀屬性。此人是否佩戴有看得見的ID徽章?有沒有戴安全帽或口罩?這人是否將點燃的香煙帶入了有易爆氣體的房間?
經驗表明,機器學習模型可以比舊的視覺處理軟件算法能更好地執(zhí)行這類檢測任務。機器學習模型也可以比人工監(jiān)視器更準確和更可靠,尤其是在需要長時間持續(xù)關注的情況下。當任務僅是檢測時——不是識別個人、解釋手勢或其他需要基于大量精細細節(jié)進行細微推斷的任務時——模型可以做的非常緊湊。
如果模型非常緊湊,并且如果視頻數(shù)據以適中的速率而不是以60Hz的速率涌入,例如逐行掃描UHD,那么所需的處理能力就不需要太強。它的要求可能超過一個典型的微控制器芯片所能提供的,但遠遠低于從為高性能計算設計的推理加速器或從耗電量大的GPU中獲得的東西。
這將成為近年來為超低功耗計算開發(fā)的技術——存儲器、控制器和信號處理器的理想應用場所。這些技術可以使機器學習推理加速器能足夠快地完成視覺檢測任務,而功耗卻足夠低,完全適用無人值守的電池供電操作。
適中的速度還會帶來額外的好處。這種設備有限的速度和內存容量使得它幾乎不可能將芯片用于未經授權的任務,例如面部識別。這一事實可以大大減輕在對隱私監(jiān)管敏感的領域部署系統(tǒng)的監(jiān)管負擔。
事實上,Synaptics公司的Katana KA 10000 SoC就是這樣一種超低功耗機器學習加速器。該芯片集成了一組處理器,包括一個Arm CPU、多個DSP內核和一個定制的神經網絡加速器,可為一系列不同類型的中等規(guī)模機器學習模型提供完整的推理加速平臺。
到目前為止,這樣的描述同樣適用于許多用于高性能計算的人工智能加速芯片。但是,當目標是幾個月的電池壽命而不是每秒數(shù)十次千兆的操作時,必須從一開始就以不同的方式設計。
這意味著從針對低功耗而非最高速度優(yōu)化的半導體工藝技術開始,也意味著設計的電路只消耗僅夠完成手頭任務的功率,并且在不需要時及時關閉,還意味著需要選擇合適的處理器架構,例如Arm Cortex-M33CPU、DSP內核和專門的神經處理單元,它們能夠通過協(xié)作以盡可能少的電池消耗而不是盡可能短的時間延遲來完成給定的推理。它還意味著為攝像頭和麥克風提供片上低功耗存儲器和外圍接口。
對于將在現(xiàn)場使用、需要處理敏感個人數(shù)據的SoC來說,安全性也是首要考慮的問題。密鑰的安全存儲、安全的啟動和代碼更新以及硬件輔助加密,都是必須在硬件層級解決的問題。