一、前言:
農曆春節前,杭州深度求索人工智慧基礎技術研究有限公司(以下簡稱深度求索公司)發表了他們的人工智慧模型DeepSeek-R1(以下簡稱DeepSeek),其無論是在數學、程式或語言推理方面的能力和Claude、Grok或Gemini等主流的人工智慧模型都不相上下,甚至隱約有趕上當前人工智慧龍頭OpenAI發表的人工智慧模型o1的跡象。但DeepSeek被指出是使用了知識蒸餾技術 (knowledge distillation),才能夠突破障礙而後來居上擠進一流的人工智慧模型之列。在此便為大家簡單地科普一下知識蒸餾的技術,探究其縮減人工智慧模型訓練成本的煉金術。
二、說明:
(一)堆積的算力
要訓練一個大語言模型,需要演算法、資料,以及算力等三項基本需求相輔相成,已經是人工智慧產業的基本共識。但是自OpenAI於2024年初發表了聲稱能夠成為通用物理模擬器的Sora人工智慧模型,且Sora借助強大的算力生成模擬現實世界的短影片之後,部分的從業人員開始相信只要擁有了足夠強大的算力,就能夠對大量的資料進行暴力運算、提升人工智慧模型的表現。這也導致了大量採購晶片、堆積算力成為2024年人工智慧競賽的主流策略;這一策略不僅推升了生產圖形處理器的輝達(NVIDIA)股價,甚至還因為進行大量運算需要耗費龐大能量而連帶推升了核能概念股的股價。
(二)知識蒸餾
知識蒸餾並非深度求索公司所獨創的全新技術;在人工智慧的產業,以知識蒸餾來縮減人工智慧模型在運算時所需要的參數數量和計算量,已經是一種被廣泛採用的人工智慧模型壓縮方法;除此之外,剪枝 (Pruning)、量化 (Quantization) 和稀疏化(Sparsification) 等方法也都常被用來縮減人工智慧模型的規模。
其實,早在1965年便已經有科學家著手縮減人工智慧模型的規模;Buciluǎ等人也在2006年提出了模型壓縮 (Model compression) 的概念;而直接與知識蒸餾一詞相關的,則是諾貝爾奬得主Hinton和其他兩位同在Google任職的工程師於2015年所發表的一篇「Distilling the knowledge in a Neural Network」論文。
概略地說,所謂的知識蒸餾是利用已經完成訓練且規模較大的大型人工智慧模型(cumbersome model) 來訓練其他的人工智慧模型,進而得到能夠輸出與大型人工智慧模型相近結果的小規模人工智慧模型 (small model)。具體而言,知識蒸餾讓完成訓練的大型人工智慧模型(也被稱作教師模型)來訓練規模小的人工智慧模型(也被稱作學生模型);教師模型不僅提供對或錯的標準答案給學生模型,更將每種答案候選的機率作為軟指標 (soft target) 來提供給學生模型;藉此,學生模型能得到形成這些機率背後的信息,讓學生模型在得到標準答案之外,還能獲得教師模型運算得到標準答案所依據的背後信息。
其中,知識蒸餾還引入了一種稱作為「溫度 (Temperature)」的變數,在不同的訓練階段改變軟指標 (soft target) 的分佈,讓每種答案候選的信息都能被學生模型參考。例如,在訓練的初期提高溫度變數的數值,增加每種答案候選被學生模型參考的機會,讓學生模型學習教師模型取得標準答案的判斷依據;而在訓練的末期,則將溫度變數的數值調整為1,讓學生模型能夠得到教師模型的標準答案。
利用知識蒸餾能夠讓規模小的人工智慧模型運算得到相近大型人工智慧模型的輸出結果;規模小的人工智慧模型對於硬體的要求較低,運作時的耗能也較低,這使得在個人設備、甚至在行動裝置上運行人工智慧模型成為可能,相應的也能保障使用者的隱私。除此之外,規模小的人工智慧模型再加上軟指標的參考,能夠減少訓練人工智慧模型的時間和成本,讓大型人工智慧模型幫助訓練其他規模小,但是專精於醫療、程式和自動駕駛等各種特殊專業的人工智慧模型。
(三)知識蒸餾的應用方向
先前已經提到知識蒸餾並不是一個全新的技術;直至DeepSeek於2025年1月發表之前,學術界發表了因應不同需求的各種蒸餾方法,例如:讓未經訓練的兩個學生模型進行相互蒸餾 (Mutual Distillation)、讓人工智慧模型保有舊任務和新任務知識的終身蒸餾 (Lifelong Distillation),或者是讓一個人工智慧模型同時擔任教師模型和學生模型的自蒸餾 (Self-Distillation) 等方法。再者,其他諸如Claude、ChatGPT或是BERT等人工智慧模型也都採用了知識蒸餾的技術進行訓練。
就與知識蒸餾相關的兩岸專利來看,至今在中國大陸已經核准公告了2000多件相關的專利,諸如清華大學在2018年申請的基於知識蒸餾與非參數卷積的模型加速方法及裝置 (CN109409500B)、江蘇大學所獲准的面向皮膚腫瘤圖像分類的特徵增強協作關係知識蒸餾方法 (CN118350460B),以及北京航天航空大學申請的一種分布式多相機球形無人系統目標檢測方法 (CN114445688B) 等,上述專利將採用知識蒸餾訓練的人工智慧模型應用在醫學影像和無人機等領域;而其他未提及的核准公告專利,更是將應用的範圍擴及至非破壞檢測、農作物的病蟲害偵測,假影片檢測方法,甚至是文物考古等五花八門的領域。
我國目前也公告核准了17件本國專利,像是公告號TWI779815B的「基於知識蒸餾實現的具備臉部校正效果的臉部辨識網路模型」、公告號TWI793951B的「模型訓練方法與模型訓練系統」,以及公告號TWI809957B的「物件偵測方法及電子裝置」等。但美中不足的是,在我國公告核准的知識蒸餾專利中,僅有半數的專利案為本國申請人所申請,且內容大多涉及影像辨識的領域。
三、結語:
前面提及的縮減人工智慧模型規模方法,都有助於減少人工智慧模型的計算量,進而降低對硬體的要求和運算所消耗的能量。只是,不同的人工智慧模型縮減方法有著不同的優缺點,或者說是有著不同的特性;其中,採用知識蒸餾的人工智慧模型更適合運用在希望輸出結果的品質逼近大規模的人工智慧模型,卻在規模上受到限制的場合。未來,隨著各種縮減人工智慧模型規模方法的進步,能夠運作人工智慧模型的個人設備及穿戴裝置應該會離消費者越來越近;甚至能夠使人工智慧模型離線運作,讓我們擺脫對於網路的依賴。
參考資料:
1.知識蒸餾研究綜述,http://159.226.43.17/online/onlinepaper/HZH315.pdf。
2.Model compression,https://dl.acm.org/doi/10.1145/1150402.1150464。
3.Distilling the knowledge in a Neural Network,https://arxiv.org/abs/1503.02531。
農曆春節前,杭州深度求索人工智慧基礎技術研究有限公司(以下簡稱深度求索公司)發表了他們的人工智慧模型DeepSeek-R1(以下簡稱DeepSeek),其無論是在數學、程式或語言推理方面的能力和Claude、Grok或Gemini等主流的人工智慧模型都不相上下,甚至隱約有趕上當前人工智慧龍頭OpenAI發表的人工智慧模型o1的跡象。但DeepSeek被指出是使用了知識蒸餾技術 (knowledge distillation),才能夠突破障礙而後來居上擠進一流的人工智慧模型之列。在此便為大家簡單地科普一下知識蒸餾的技術,探究其縮減人工智慧模型訓練成本的煉金術。
二、說明:
(一)堆積的算力
要訓練一個大語言模型,需要演算法、資料,以及算力等三項基本需求相輔相成,已經是人工智慧產業的基本共識。但是自OpenAI於2024年初發表了聲稱能夠成為通用物理模擬器的Sora人工智慧模型,且Sora借助強大的算力生成模擬現實世界的短影片之後,部分的從業人員開始相信只要擁有了足夠強大的算力,就能夠對大量的資料進行暴力運算、提升人工智慧模型的表現。這也導致了大量採購晶片、堆積算力成為2024年人工智慧競賽的主流策略;這一策略不僅推升了生產圖形處理器的輝達(NVIDIA)股價,甚至還因為進行大量運算需要耗費龐大能量而連帶推升了核能概念股的股價。
(二)知識蒸餾
知識蒸餾並非深度求索公司所獨創的全新技術;在人工智慧的產業,以知識蒸餾來縮減人工智慧模型在運算時所需要的參數數量和計算量,已經是一種被廣泛採用的人工智慧模型壓縮方法;除此之外,剪枝 (Pruning)、量化 (Quantization) 和稀疏化(Sparsification) 等方法也都常被用來縮減人工智慧模型的規模。
其實,早在1965年便已經有科學家著手縮減人工智慧模型的規模;Buciluǎ等人也在2006年提出了模型壓縮 (Model compression) 的概念;而直接與知識蒸餾一詞相關的,則是諾貝爾奬得主Hinton和其他兩位同在Google任職的工程師於2015年所發表的一篇「Distilling the knowledge in a Neural Network」論文。
概略地說,所謂的知識蒸餾是利用已經完成訓練且規模較大的大型人工智慧模型(cumbersome model) 來訓練其他的人工智慧模型,進而得到能夠輸出與大型人工智慧模型相近結果的小規模人工智慧模型 (small model)。具體而言,知識蒸餾讓完成訓練的大型人工智慧模型(也被稱作教師模型)來訓練規模小的人工智慧模型(也被稱作學生模型);教師模型不僅提供對或錯的標準答案給學生模型,更將每種答案候選的機率作為軟指標 (soft target) 來提供給學生模型;藉此,學生模型能得到形成這些機率背後的信息,讓學生模型在得到標準答案之外,還能獲得教師模型運算得到標準答案所依據的背後信息。
其中,知識蒸餾還引入了一種稱作為「溫度 (Temperature)」的變數,在不同的訓練階段改變軟指標 (soft target) 的分佈,讓每種答案候選的信息都能被學生模型參考。例如,在訓練的初期提高溫度變數的數值,增加每種答案候選被學生模型參考的機會,讓學生模型學習教師模型取得標準答案的判斷依據;而在訓練的末期,則將溫度變數的數值調整為1,讓學生模型能夠得到教師模型的標準答案。
利用知識蒸餾能夠讓規模小的人工智慧模型運算得到相近大型人工智慧模型的輸出結果;規模小的人工智慧模型對於硬體的要求較低,運作時的耗能也較低,這使得在個人設備、甚至在行動裝置上運行人工智慧模型成為可能,相應的也能保障使用者的隱私。除此之外,規模小的人工智慧模型再加上軟指標的參考,能夠減少訓練人工智慧模型的時間和成本,讓大型人工智慧模型幫助訓練其他規模小,但是專精於醫療、程式和自動駕駛等各種特殊專業的人工智慧模型。
(三)知識蒸餾的應用方向
先前已經提到知識蒸餾並不是一個全新的技術;直至DeepSeek於2025年1月發表之前,學術界發表了因應不同需求的各種蒸餾方法,例如:讓未經訓練的兩個學生模型進行相互蒸餾 (Mutual Distillation)、讓人工智慧模型保有舊任務和新任務知識的終身蒸餾 (Lifelong Distillation),或者是讓一個人工智慧模型同時擔任教師模型和學生模型的自蒸餾 (Self-Distillation) 等方法。再者,其他諸如Claude、ChatGPT或是BERT等人工智慧模型也都採用了知識蒸餾的技術進行訓練。
就與知識蒸餾相關的兩岸專利來看,至今在中國大陸已經核准公告了2000多件相關的專利,諸如清華大學在2018年申請的基於知識蒸餾與非參數卷積的模型加速方法及裝置 (CN109409500B)、江蘇大學所獲准的面向皮膚腫瘤圖像分類的特徵增強協作關係知識蒸餾方法 (CN118350460B),以及北京航天航空大學申請的一種分布式多相機球形無人系統目標檢測方法 (CN114445688B) 等,上述專利將採用知識蒸餾訓練的人工智慧模型應用在醫學影像和無人機等領域;而其他未提及的核准公告專利,更是將應用的範圍擴及至非破壞檢測、農作物的病蟲害偵測,假影片檢測方法,甚至是文物考古等五花八門的領域。
我國目前也公告核准了17件本國專利,像是公告號TWI779815B的「基於知識蒸餾實現的具備臉部校正效果的臉部辨識網路模型」、公告號TWI793951B的「模型訓練方法與模型訓練系統」,以及公告號TWI809957B的「物件偵測方法及電子裝置」等。但美中不足的是,在我國公告核准的知識蒸餾專利中,僅有半數的專利案為本國申請人所申請,且內容大多涉及影像辨識的領域。
三、結語:
前面提及的縮減人工智慧模型規模方法,都有助於減少人工智慧模型的計算量,進而降低對硬體的要求和運算所消耗的能量。只是,不同的人工智慧模型縮減方法有著不同的優缺點,或者說是有著不同的特性;其中,採用知識蒸餾的人工智慧模型更適合運用在希望輸出結果的品質逼近大規模的人工智慧模型,卻在規模上受到限制的場合。未來,隨著各種縮減人工智慧模型規模方法的進步,能夠運作人工智慧模型的個人設備及穿戴裝置應該會離消費者越來越近;甚至能夠使人工智慧模型離線運作,讓我們擺脫對於網路的依賴。
參考資料:
1.知識蒸餾研究綜述,http://159.226.43.17/online/onlinepaper/HZH315.pdf。
2.Model compression,https://dl.acm.org/doi/10.1145/1150402.1150464。
3.Distilling the knowledge in a Neural Network,https://arxiv.org/abs/1503.02531。