RLHF不是萬金油!MIT哈佛等32人研究天團揭露最大弱點,囊括250+論文成果,挑戰大模型機制
當前,不論是GPT-4,還是Llama 2等大語言模型,背后的機制都是人類反饋強化學習(RLHF)。
RLHF就像是大模型的「萬金油」,能夠指導智能體學習并提升性能。
但即便如此,諸如泄露隱私數據、模型偏見、幻覺等問題,依然無解。
(資料圖)
最近,來自MIT哈佛等多個機構共32位研究人員,聯合調研了超過250篇論文,全面分析了RLHF在大語言模型中的挑戰。
論文地址:https://arxiv.org/abs/2307.15217
論文中,團隊主要研究了RLHF面臨的三大問題:
- 人類反饋
- 獎勵模型
- 策略
并且調查了將RLHF納入更廣泛的技術安全框架的方法,包括更好地理解、改進和補充。
最后,研究人員還探討了,改進影響使用RLHF訓練模型的行業規范和法規的挑戰。具體來講,一些使用RLHF的公司披露某些細節如何改善問責制和審計。
研究人員將這些面對的挑戰區分成了兩類:機制性的問題和可改進的問題,機制性的挑戰需在更大的框架中尋求解決方案,可改進的挑戰主要通過改進技術就能解決
RLHF是否能與「重提歷史失敗教訓」畫上等號?
研究人員觀察到,RLHF提供模型新的能力,但依舊面臨許多舊問題,并警告不要重復使用有缺陷的AI對齊方法。
RLHF的局限性這項研究,團隊使用RLHF來指代,三個相互關聯過程的方法結合:反饋收集、獎勵建模、策略優化。
- 反饋收集過程,從人類那里獲得對模型輸出的評價。
- 獎勵建模過程,使用監督學習來訓練模仿這些評估的獎勵模型。
- 策略優化過程,對人工智能系統進行優化,以從獎勵模型中產生有利評價的輸出結果。
與演示、人工設計的獎勵函數或其他指定或學習獎勵的方法相比,RLHF能更容易地識別「良好」行為,而且效果顯著。
RLHF已成為對LLM進行微調的主要策略,其目標是生產出符合人類目標的安全模型。
盡管如此,使用RLHF進行微調的已部署模型還是泄露了敏感的私人信息,還容易出現幻覺、政治偏見等問題。
甚至,RLHF也沒有讓模型能夠抵御來自越獄,或提示注入/提取的對抗性。
其實,這些問題大家都略有所知,但還未有一篇文章將RLHF問題系統化。
研究人員指出,這項研究有三個貢獻:
- RLHF面臨的具體挑戰
- 將RLHF納入更廣泛的技術安全框架
- 治理和透明度
面臨的挑戰RLHF包括三個關鍵步驟:收集人類反饋,擬合獎勵模型,以及使用RL優化策略。
在具體實踐中,RLHF通過重復這些步驟迭代執行(或同步執行)。
整個過程如圖所示,使用二進制偏好反饋的RLHF對LLM進行微調。
論文中,研究人員提出了一個簡單的RLHF形式框架,這一框架部分基于Christiano等人提出的形式主義。
人類反饋
既難以從人類獲得高質量的反饋,也難以模擬人類反饋是次優的方式。挑戰可能來自不一致的評估者,監督的困難,數據的質量,以及使用的反饋的形式。
不一致的評估者:評估者可能追求錯誤的目標
- 可改進問題1:選擇有代表性的人,并讓他們提供高質量的反饋是很困難的。
大規模的RLHF需要選擇和指導人類評估者,然而,這也導致了偏見。
最近的研究發現,在RLHF之后,ChatGPT變得更具政治偏見,但造成這種偏見的確切原因尚不清楚。
然而,OpenAI的數據收集pipeline描述了,為了與研究人員判斷的一致,而選擇人類評估者。這表明在偏好數據收集過程中存在明顯的選擇效應。
包括Anthropic此前的報告,稱82%的白人評估者群體中,雇傭了68%的白人。
- 可改進問題2:一些評估者本身就持有有害的偏見和觀點。而RL訓練的語言模型會迎合評估者的偏見,從而加劇這一問題。
這也是大模型所謂的「阿諛奉承」,會隨著模型的大小規模而惡化。這一問題也會出現在預訓練語言模型中。
- 可改進問題3:人類評估者會對數據下毒。RLHF中的數據收集通常由人類交互生成。如果評估人員試圖攻入模型,這可能會造成危害。
良好的監督很困難
可擴展性監督(Scalable oversight)指的是在資源和帶寬有限的情況下有效監督模型的能力。
由于監督先進的AI系統的不完善,人類反饋通常會以未知的方式產生偏差,給建模帶來了挑戰性。
- 可改進問題1:有時由于時間,注意力有限,人類也會犯簡單的錯誤。人類有時會因為對任務缺乏興趣、注意力衰退、時間限制或人類偏見等因素而犯錯誤。
- 可改進問題2:部分可觀的結果進而也限制了人類評估者。如果給人類看的例子不包含關于世界狀態的所有信息,人類就不能給出信息反饋。
- 機制問題1:人類有時不能很好地評估困難任務。當示例難以評估時,即使給出寬限的時間,人類評估者依舊無法評估。
- 機制問題2:人類可以被誤導。
數據質量
要知道,獲取有代表性的有用數據,是一個尚未解決的技術問題。
- 可改進問題1:收集數據集會帶來偏差。收集反饋數據需要對有用的實例進行取樣,以獲取相關信息。
理想情況下,采樣的分布應與部署分布相似,但增加了對獎勵模型來說,困難的示例的表示。
然而,在LLM的實際應用中,用戶通常會通過與模型的對話進行交互,或者在沒有模型的情況下離線生成對話,而這些對話并不能保證與任何特定的分布完全匹配。
- 機制問題1:在收集人的反饋意見時,需要在成本/質量之間做出權衡。
反饋類型的限制
- 機制問題1:不可避免地,RLHF要在反饋的豐富性和有效性之間,做出權衡。
- 比較反饋:RLHF最常用的反饋類型是,兩對示例之間的二元偏好。然而,這一方法未能提供關于偏好強度的精確信息。
- 標簽反饋:有時,人類可以以分類示例的形式提供反饋。標簽的選擇可能很容易,但當給定的選項不能完全包含正確描述數據所需的標簽時,往往會出現選擇集錯誤說明。
- 糾正反饋:反饋的形式可以是糾正或調整示例。
- 語言反饋:通過語言,人類可以在每次評估中傳遞大量信息,減少模糊性和目標錯誤。
獎勵模型
問題的錯誤設定
擬合獎勵模型以代表人類價值觀的標準方法是一個雙重誤設問題。
- 機制問題1:人類個體的價值觀很難通過獎勵函數來體現。
人類擁有一系列錯綜復雜且依賴于上下文的偏好,這些偏好會隨著時間的推移而不斷變化,很難準確建模。
而且,對非理性的人類偏好進行建模,還可能會使獎勵學習變得困難,導致效率和準確性之間的權衡。
然而,目前大多數與RLHF有關的工作都沒有考慮人類偏好的個性和上下文的依賴性,而如果沒有額外的上下文,就無法
從二元偏好中識別出混合獎勵函數。
- 機制問題2:單一的獎勵函數無法代表多樣化的人類社會。
RLHF通常被設定為將AI系統與單個人類對齊的解決方案,但人類在偏好、專業知識和能力方面具有高度多樣性。
但是,評估者往往意見不一。有研究發現,注釋者-注釋者和注釋者-研究者的一致率從63%到77%不等。
因此,在不考慮這些差異的情況下,試圖將來自不同人類的反饋濃縮到一個單一的獎勵模型中,從根本上說是錯誤的。
此外,當前的技術通常會將評估者之間的差異建模為噪聲,而不是潛在的重要分歧來源。因此,當偏好不同時,少數群體的觀點可能會處于弱勢。
獎勵的錯誤泛化和操縱行為
獎勵模型往往是不完善的,而獎勵模型的不完善將會導致獎勵被操縱。
- 可改進問題1:即使是利用正確標注的訓練數據,獎勵模型也可能出現泛化錯誤。
獎勵模型可能會使用意外或偶然的環境特征來計算獎勵,進而出現因果混淆,以及在分布外泛化不足等問題。
甚至,還有可能根本無法用來訓練新的模型。
- 機制問題1:為不完善的獎勵模型進行優化,會導致獎勵被操縱。
獎勵模型可能會因為誤設定和誤泛化,以及現實世界的機器學習系統無法在復雜問題中實現最小損失,而與人類產生差異。
此外,獎勵模型是通過訓練來反映人類的認可,而不是人類的利益,這可能導致獲得人類認可的行為卻并不受歡迎。
強行優化不完善的目標智能體度量,往往會導致在模型在底層目標上表現不佳。例如,在沒有正則化懲罰基模型和微調模型之間的KL散度的情況下,經歷RL的LLM經常學會輸出毫無意義的文本。
這類問題被稱為「獎勵操縱」,目前在那些通過RLHF訓練的AI系統中已經可以被觀察到。
評估獎勵模型的可行性
- 可改進問題1:評估獎勵模型是困難且昂貴的。
在大多數情況下,獎勵建模僅在真實的獎勵函數未知時使用,因此直接評估是不可能的。
所以,獎勵模型通常通過使用學習到的獎勵模型優化RL策略,然后評估RL策略的生成結果來進行間接評估。這使得獎勵模型的評估與策略優化過程緊密相關,而策略優化過程本身成本高、噪聲大。
間接評估的另一個問題是,獎勵模型的評估信號與訓練信號相同——人類認可。因此,訓練和評估失敗將是相關的。
策略
這部分中,研究人員主要討論策略優化、錯誤泛化、追求權力(seeking power)和模式坍塌(model collapse)方面的挑戰。
穩健的強化學習很難達到
在部署中保證安全性要求系統性能的穩健性,然而,僅僅使用強化學習(RL)來訓練AI系統仍然很困難。
- 可改進問題1:有效優化策略仍然是一個具有挑戰性的問題。
RL代理必須與環境進行交互以收集自己的數據。這需要在探索性行為和利用性行為之間進行平衡。
平衡這種權衡(trade off)是至關重要的,但是需要確定所需的探索程度(degree of exploration),而且探索程度在不同的環境中可能會有所變化。
在具有高維狀態/動作空間或稀疏獎勵的情況下,這一問題進一步復雜化。在深度RL中平衡探索和利用仍然是一個重要但尚未解決的挑戰。
深度RL是不穩定的,其結果通常對初始化非常敏感且難以復現。
這就是強化學習中的一些優化相關的挑戰和困難,在深度強化學習領域尤為突出。
為了有效地訓練AI系統并保證其在實際部署中的穩健性和安全性,需要深入研究和創新來克服這些問題。
- 可改進問題2:策略往往容易遭到對抗性的利用。
即使學得的策略在訓練時使用了完美的獎勵信號,在所訓練的任務上表現良好,并且可以泛化到廣泛的場景,它們在對抗性情況下仍然可能表現不佳。
這是一個緊迫的問題,因為部署到現實世界中的模型可能會受到人類或其他AI系統的對抗性打擊。
即使是「超人類」的策略,在面對特定設計來濫用它們的策略面前也會徹底的失敗。
在注入提示詞和越獄的情況下,對抗性策略可以通過重新為現有的深度強化學習算法設定目標,或者通過人工手動優化這兩個方法找到。
針對語言模型的情況更是如此。許多對抗性策略打擊算法對模型進行黑盒訪問(例如通過API訪問)就足夠了,而白盒訪問(例如通過開源或泄漏的模型權重)則可以實現更有破壞力的利用。
策略錯誤泛化
- 機制問題1:即使在訓練過程中使用的獎勵是完全正確的,策略在實際部署中可能表現不佳。
部署時的數據分布很可能與訓練和評估時的數據分布不同。即使有正確的獎勵信號,當真正目標與其他事件相關聯時,策略可能會學習追求錯誤的目標。
之前的研究深入討論了這種類型的問題,比如:一個通過RLHF訓練的系統在泛化時錯誤地追求獎勵管理機制本身,而不是預期的目標。
- 機制問題2:最優的RL智能體往往傾向于追求權力。
只要有可能,RL智能體有動機追求權力,以幫助它們實現自己的目標。
類似情況的不同的翻版可能源于RLHF用于微調LLM的典型的方式中。
例如,通過RLHF訓練的問答型LLM將有動機影響人類對話者,以避免涉及挑戰性話題的對話。
或者是LLM會表現出對于人類的諂媚行為(Sycophantic)。
輸出分布的挑戰
在模型在訓練前后產生的輸出分布中存在挑戰。
- 可改進問題1:預訓練模型會引入偏差到策略優化中。
LLM的RLHF通常是基于預訓練的基礎模型進行的,這個模型已在互聯網文本上進行了預訓練。
這個基礎模型通常被同時用作RL策略網絡的初始化和KL正則化(regularization)的參考模型。
先前的研究明確了在這些KL懲罰(penalty)下的RL是如何被視為一種貝葉斯推理形式,這種推理形式是受先前的基礎模型決定的。
盡管這個機制在實踐中很有用,但這使得基礎模型對最終模型產生了顯著影響。
使用在網絡文本上進行預訓練的基礎模型是一種便利的初始化方法,而不是一種最理想的方法。
此外,互聯網文本中包含有害的偏見(例如包含在人類人口統計信息中的偏見),會被下游模型繼承。
這些偏見可能在RLHF訓練過程中持續存在。
- 可改進問題2:RL導致模式坍塌。
RL微調會降低模型產生樣本的多樣性,這被稱為「模式坍塌」現象。
OpenAI發現對GPT-4進行RLHF微調會影響其在問答中的校準。
先前的研究還發現,使用RLHF微調的LLM會表達狹隘的政治觀點。
模式坍塌在一定程度上可能是由于從監督式預訓練目標轉換到RL目標導致的。
RL獎勵策略會以高概率輸出高分數的補全(completion),這個概率與訓練分布往往不一樣。
解決這個問題很復雜,因為模式坍塌在不同情況下可能是有益的,也可能是有害的。
例如,對于一個LLM助理來說,如果它對一個問題的答案有90%的把握是「是」,那么它一般會回答「可能」,這會比在90%的情況下回答「是」,10%的情況下回答「不是」要好。
同時訓練獎勵模型和策略帶來的挑戰
RLHF依賴于同時訓練獎勵模型和策略,這就帶來了兩個獨特的問題。
- 可改進問題1:同時訓練會引發分布偏移(distribution shifts)。
同時學習獎勵模型和策略在技術上是具有挑戰性的——獎勵模型影響學習的策略,而策略會決定用于訓練獎勵模型的數據分布。
一方面,如果獎勵模型在不聯網的數據上進行訓練,很可能會出現誤泛化。
另一方面,如果通過收集策略樣本的反饋來同時學習獎勵和策略,系統將容易受到「自動誘導的分布偏移」的影響。
被高估獎勵的特征將在反饋數據中逐漸增多,而被低估獎勵的特征將逐漸消失。
因此,獎勵模型的誤差可能會不斷累積,并且一旦策略停止生成多樣的選擇,糾正這些誤差將變得困難。
- 可改進問題2:很難在策略中平衡效率和避免過度擬合。
RLHF的三個關鍵步驟可以同步執行,但在LLM中實際操作時,它們通常是在不同的時間中按步驟執行的。
在這種情況下,獎勵模型在不聯網的數據上往往會表現得不準確,而策略恰好會學習這種不準確。
通常的解決方法是在一定迭代次數后重新獲取偏好標簽。
適當設置這個超參數是很重要的。
設置得太低,偏好標簽中的信息就會被浪費;設置得太高,策略會導航到獎勵模型不可靠的區域。
在策略正在探索的區域沒有標記的驗證集的情況下,很難在訓練過程中檢測到獎勵的過度優化。
有效的解決方法可能包括測量KL偏移,或跟蹤獎勵模型的集合中的不一致性程度。
用RLHF應對挑戰如上所示,RLHF面臨的三大挑戰,研究者稱可以通過各種方法替換或結合部分RLHF管線來應對這些類型的挑戰。
如下圖所示:
人類反饋
1. 通過人工智能的幫助提供反饋。
增強人類能力的一種方法是讓AI工具幫助產生反饋。工程學提示人工智能系統,并使用它來自動化反饋可以大大提高實用性和成本效益。
2. 細粒度反饋。
反饋的許多問題涉及到,通過反饋信號難以傳遞精確信息。細粒度反饋需要以更昂貴的人力反饋為代價,來提高學習獎勵模型的質量。
3. 基于過程的監督。
訓練人工智能系統來解決問題的一個挑戰是,很難監督多步驟過程的性能。目前,一些研究已經對 LLM 進行了訓練,使其能在過程監督下更好地解決多步數學問題。
4. 將自然語言規范轉換為獎勵模型。
RLHF的許多問題,是由于使用某種受限類型的反饋來擬合一個獎勵函數的困難而產生的。另一種方法是更直接地從自然語言方向產生獎勵信號,繞過對示例反饋的過程。
5. 從示范中學習獎勵。
另一種學習獎勵模型的方法,被稱為反向強化學習(IRL)。需要人類提供演示,而不是對模型產生反饋。
獎勵模型
1. 直接的人類監督
雖然學習獎勵模型是高效的,但在某些安全關鍵情況下,可能有必要直接提供獎勵,以進行RL訓練。
2. 多目標監督
更豐富的多目標信號可對多個目標的輸出進行評級,從而實現更靈活的監督。
3. 保持學習獎勵功能不確定性
保持所學獎勵函數的不確定性。鑒于準確學習適當獎勵函數所面臨的挑戰,一些研究強調了將所學函數的不確定性考慮在內的重要性。
策略
1. 在訓練前調整LLM。
LLM中的RLHF通常從對LLM進行包含大量不良內容的互聯網文本預訓開始。
2. 通過監督式學習調整LLM。
有幾種將LLM與人類偏好相匹配的技術,可以通過使用監督學習而不是 RL來獲得與RLHF相媲美的結果。其中最簡單的變體就是在經過精心整理的數據上執行標準的監督學習。
RLHF不是你所需要的全部:安全的補充策略
- 穩健性
- 風險評估及審核
- 解釋性和模型編輯
監管和透明度對透明度的持續關注將使現有的RLHF研究環境在安全性方面更加穩定。
首先,公開一些大型RLHF訓練過程背后的細節將闡明某個組織對模型審查和安全檢查的規范。
其次,增加對于已知風險緩解措施的透明度可以改善安全激勵,還能提供讓外部利益相關者對模型訓練公司進行問責的方法。
第三,對于本文來說,透明度將增強AI安全社區對RLHF的理解,并能追蹤應對這些挑戰的技術進展。
由于更具體的策略建議超出了研究的范圍,研究人員希望在未來將這些主題進行進一步的探討。
不過,研究人員還是針對不同的挑戰類型提出了一些具體細節,如果能夠披露這些細節,將能夠披露風險,并且在對使用RLHF開發的AI系統進行審核時應該考慮這些細節,見下圖。
人類反饋:
- 對預訓練過程的具體描述,包括關于使用了哪些數據來顯露可能導致的偏見的細節。
- 披露如何選擇和培訓人類評估者的過程,以提供與評估者可能具有惡意、不代表性或無能力風險相關的信息的過程。
-披露選擇示例以獲得反饋的過程,從而能夠檢查其代表性,并能幫助判斷是否進行了足夠的對抗性訓練。如果示例是從公開可用的應用程序中眾包獲取的,則應提供有關采取措施以避免數據污染的詳細信息。
- 使用的人類反饋類型(例如,二元比較、標量反饋等)以建議不充分豐富或充分反饋可能引起的風險。
- 披露關于反饋收集的質量保證措施和評分者之間一致性的措施,確保采取了有效的質量控制措施。
獎勵模型:
- 披露用于擬合獎勵模型的損失函數,以及在擬合獎勵模型時如何建模不一致性(例如,作為噪聲)以幫助分析失配程度。
- 披露報告關于獎勵模型評估和結果的情況,以建議可能出現的來自不一致獎勵模型的問題。評估應包括紅隊測試。
策略:
- 披露關于策略評估和結果的情況,以建議可能出現的來自不一致策略的問題。評估應包括紅隊測試,并包括對風險能力(例如欺騙人類的能力)的評估。
系統性安全措施:
-報告關于內部和外部審計以及紅隊測試的情況,以確保問責制,并披露已經識別的風險。
- 報告預期的風險和預期的故障模式,以確保問責制。
-監測和糾正故障的計劃,以支持部署后的安全性。
對社會和經濟公平性的關注:
盡管本文側重于RLHF的技術挑戰,但社會和經濟問題同樣重要,需要治理機構和行業共同努力解決。
例如,OpenAI曾向肯尼亞的知識工作者支付低于每小時2美元的報酬,而這項工作在心理和情感上都非常讓人難以接受。
在RLHF研究中使用的人類對象不應只是因為方便或者是成本低就作為最理想的對象。
成本、收益和對RLHF模型的影響應該在不同群體之間得到公平分配。
此外,強大的AI系統有可能會帶來高額利潤,并將大量財富和權力集中在少數人手中。
因此,制定解決不平等問題和保護弱勢群體(例如受影響的社區、舉報者)的策略將變得越來越重要。
標簽:
相關熱詞搜索: