【黄页88网】-人人干日日干-B2B电子商务平台,人人干人人干,b2b平台免费发布信息网

Hi,歡迎來到黃頁88網(wǎng)!
當(dāng)前位置:首頁 > 人工智能 > ChatGPT運用了哪些高端技術(shù)?

ChatGPT運用了哪些高端技術(shù)?

互聯(lián)網(wǎng)時間: 2023-05-08 10:34:45

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語言模型通過人工反饋強化學(xué)習(xí)來微調(diào)模型,讓模型一方面學(xué)習(xí)人的指令,另一方面學(xué)習(xí)回答的好不好。

核心提升了什么?

ChatGPT在對話場景核心提升了以下三方面:

1)更好的理解用戶的提問,提升模型和人類意圖的一致性,同時具備連續(xù)多輪對話能力。

2)大幅提升結(jié)果的準(zhǔn)確性,主要表現(xiàn)在回答的更加的全面,同時可以承認錯誤、發(fā)現(xiàn)無法回答的問題。

3)具備識別非法和偏見的機制,針對不合理提問提示并拒絕回答。

ChatGPT的提升主要涉及以下三方面技術(shù):

1)性能強大的預(yù)訓(xùn)練語言模型GPT3.5,使得模型具備了博學(xué)的基礎(chǔ)。

2)webGPT等工作驗證了監(jiān)督學(xué)習(xí)信號可大幅提升模型準(zhǔn)確性。

3)InstructGPT等工作引入強化學(xué)習(xí)驗證了對齊模型和用戶意圖的能力。

ChatGPT技術(shù)

整體技術(shù)流程

ChatGPT的訓(xùn)練過程分為微調(diào)GPT3.5模型、訓(xùn)練回報模型、強化學(xué)習(xí)來增強微調(diào)模型三步:

第一步:微調(diào)GPT3.5模型。讓GPT 3.5在對話場景初步具備理解人類的的意圖,從用戶的prompt集合中采樣,人工標(biāo)注prompt對應(yīng)的答案,然后將標(biāo)注好的prompt和對應(yīng)的答案去Fine-tune GPT3.5,經(jīng)過微調(diào)的模型具備了一定理解人類意圖的能力。

第二步:訓(xùn)練回報模型。第一步微調(diào)的模型顯然不夠好,至少他不知道自己答的好不好,這一步通過人工標(biāo)注數(shù)據(jù)訓(xùn)練一個回報模型,讓回報模型來幫助評估回答的好不好。具體做法是采樣用戶提交的prompt,先通過第一步微調(diào)的模型生成n個不同的答案,比如A、B、C、D。接下來人工對A、B、C、D按照相關(guān)性、有害性等標(biāo)準(zhǔn)標(biāo)準(zhǔn)并進行綜合打分。有了這個人工標(biāo)準(zhǔn)數(shù)據(jù),采取pair-wise 損失函數(shù)來訓(xùn)練回報模型RM。這一步實現(xiàn)了模型判別答案的好壞。

第三步:強化學(xué)習(xí)來增強微調(diào)模型。使用第一步微調(diào)GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報模型對答案打分。通過產(chǎn)生的策略梯度去更新PPO模型。這一步利用強化學(xué)習(xí)來鼓勵PPO模型生成更符合RM模型判別高質(zhì)量的答案。

通過第二和第三步的迭代訓(xùn)練并相互促進,使得PPO模型能力越來越強。

主要涉及的技術(shù)細節(jié)

1) GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進行微調(diào)的,這里對GPT-3.5在GPT3基礎(chǔ)上做的工作進行梳理,官方列舉了以下GPT-3.5系列幾個型號:

code-davinci-002 是一個基礎(chǔ)模型,對于純代碼補全任務(wù)。這也是ChatGPT具備超強代碼生成能力的原因。

text-davinci-002 是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型,訓(xùn)練策略是instructGPT+FeedRM。

text-davinci-003 是基于text-davinci-002模型的增強版本,訓(xùn)練策略是instructGPT+PPO。

根據(jù)如下圖官方發(fā)布的模型時間線和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來,這也是ChatGPT模型性能如此強大的核心要素。因為GPT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練,所以我們體驗ChatGPT時候同樣無法回答訓(xùn)練樣本日期之后的問題。

ChatGPT技術(shù)

2) 監(jiān)督信號提升效果顯著

GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標(biāo)準(zhǔn)范式,GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布,用戶不具備微調(diào)的能力,官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力。Prompt方法本質(zhì)是挖掘語言模型本身具備的知識,恰當(dāng)?shù)奶崾救ゼぐl(fā)語言模型的補全能力。監(jiān)督信號微調(diào)可以理解為改變了語言模型的理解能力,InstructGPT的工作可以理解為對GPT3-SFT做了數(shù)據(jù)增強提升,使得模型在理解人類指令方面更出色。但這并不影響監(jiān)督信號對最終效果的價值。

在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺、理解客戶能力上,監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強化學(xué)習(xí)對比有很大的競爭力,甚至在幻覺角度比基于強化學(xué)習(xí)的InstructGPT提升很明顯。

ChatGPT技術(shù)

3) 人類反饋強化微調(diào)效果

ChatGPT通過人類反饋強化學(xué)習(xí)(RLHF)來讓模型理解人類的指令。人類反饋強化學(xué)習(xí)(RLHF)是DeepMind早期提出的,使用少量的人類反饋來解決現(xiàn)代RL任務(wù)。RLHF的思想在很多工作中都有體現(xiàn),例如OpenAI的webGPT、DeepMind中Sparrow等都通過人類的反饋進一步提升大模型的效果。

RLHF整個訓(xùn)練過程如下圖所示:

ChatGPT技術(shù)

目標(biāo)是實現(xiàn)后空翻的任務(wù),智能體Agent在環(huán)境中隨機行動,每隔一段時間,兩個行為的視頻片段給一個人,人判斷兩個視頻哪個更接近目標(biāo)。通過人的反饋數(shù)據(jù),學(xué)習(xí)一個最能解釋人類判斷的獎勵模型Reward Model,然后使用RL來學(xué)習(xí)如何實現(xiàn)目標(biāo)。隨著人類繼續(xù)提供模型無法判斷時候的反饋,實現(xiàn)了進一步完善它對目標(biāo)的理解。智能體Agent從人類反饋中學(xué)習(xí)最終在許多環(huán)境中有時甚至是超過人類的表現(xiàn)。

行動驅(qū)動的大語言模型

盡管學(xué)術(shù)界一直無法真正定義AGI,今年大型語言模型(LLM)的表現(xiàn)讓我們對通用人工智能有了期待,通過OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未來應(yīng)該是行動驅(qū)動的,一個行動驅(qū)動的LLM看起來很像AGI,如下圖所示:

ChatGPT技術(shù)

模型的行為就像一個智能體Agent選擇行動。在中間,我們有開箱即用的基礎(chǔ)模型LLM。用戶通過Prompt詢問模型結(jié)果。

左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù),包括搜索、數(shù)據(jù)庫、代碼解釋器和與人聊天等,它可以增強模型的能力。

右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練,如instruction tuning、RLHF等。instruction tuning相對好實現(xiàn),RLHF需要調(diào)整PPO算法相對較難。整體上RL利用使用日志等專有數(shù)據(jù),通過創(chuàng)建強大的反饋回路,訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化。

ChatGPT ChatGPT智能工具 ChatGPT技術(shù)

本文標(biāo)題: ChatGPT運用了哪些高端技術(shù)?

本文地址: http://www.hzbclean.cn/brand/news-881aaf7b5.html

內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com

2009-2025 黃頁88版權(quán)所有 京ICP備2023012932號-1京公網(wǎng)安備 11010802023561號 京ICP證100626

內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com

主站蜘蛛池模板: SF6环境监测系统-接地环流在线监测装置-瑟恩实业 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 网带通过式抛丸机,,网带式打砂机,吊钩式,抛丸机,中山抛丸机生产厂家,江门抛丸机,佛山吊钩式,东莞抛丸机,中山市泰达自动化设备有限公司 | 广州中央空调回收,二手中央空调回收,旧空调回收,制冷设备回收,冷气机组回收公司-广州益夫制冷设备回收公司 | 富森高压水枪-柴油驱动-养殖场高压清洗机-山东龙腾环保科技有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | BOE画框屏-触摸一体机-触控查询一体机-触摸屏一体机价格-厂家直销-触发电子 | RTO换向阀_VOC高温阀门_加热炉切断阀_双偏心软密封蝶阀_煤气蝶阀_提升阀-湖北霍科德阀门有限公司 | 防爆电机-高压防爆电机-ybx4电动机厂家-河南省南洋防爆电机有限公司 | 不锈钢管件(不锈钢弯头,不锈钢三通,不锈钢大小头),不锈钢法兰「厂家」-浙江志通管阀 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 东莞爱加真空科技有限公司-进口真空镀膜机|真空镀膜设备|Polycold维修厂家 | 汕头市盛大文化传播有限公司,www.11400.cc | 济南网站建设_济南网站制作_济南网站设计_济南网站建设公司_富库网络旗下模易宝_模板建站 | 烟气在线监测系统_烟气在线监测仪_扬尘检测仪_空气质量监测站「山东风途物联网」 | 2-羟基泽兰内酯-乙酰蒲公英萜醇-甘草查尔酮A-上海纯优生物科技有限公司 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 钢制暖气片散热器_天津钢制暖气片_卡麦罗散热器厂家 | TwistDx恒温扩增-RAA等温-Jackson抗体-默瑞(上海)生物科技有限公司 | 北京租车公司_汽车/客车/班车/大巴车租赁_商务会议/展会用车/旅游大巴出租_北京桐顺创业租车公司 | 浙江华锤电器有限公司_地磅称重设备_防作弊地磅_浙江地磅售后维修_无人值守扫码过磅系统_浙江源头地磅厂家_浙江工厂直营地磅 | 电采暖锅炉_超低温空气源热泵_空气源热水器-鑫鲁禹电锅炉空气能热泵厂家 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 济南ISO9000认证咨询代理公司,ISO9001认证,CMA实验室认证,ISO/TS16949认证,服务体系认证,资产管理体系认证,SC食品生产许可证- 济南创远企业管理咨询有限公司 郑州电线电缆厂家-防火|低压|低烟无卤电缆-河南明星电缆 | 即用型透析袋,透析袋夹子,药敏纸片,L型涂布棒-上海桥星贸易有限公司 | 缠膜机|缠绕包装机|无纺布包装机-济南达伦特机械设备有限公司 | 超声波清洗机_超声波清洗机设备_超声波清洗机厂家_鼎泰恒胜 | 成都顶呱呱信息技术有限公司-贷款_个人贷款_银行贷款在线申请 - 成都贷款公司 | 国际金融网_每日财经新资讯网 | 华溶溶出仪-Memmert稳定箱-上海协烁仪器科技有限公司 | 掺铥光纤放大器-C/L波段光纤放大器-小信号光纤放大器-合肥脉锐光电技术有限公司 | 郑州外墙清洗_郑州玻璃幕墙清洗_郑州开荒保洁-河南三恒清洗服务有限公司 | 学生作文网_中小学生作文大全与写作指导 | 液压升降平台_剪叉式液压/导轨式升降机_传菜机定做「宁波日腾升降机厂家」 | 热工多功能信号校验仪-热电阻热电偶校验仿真仪-金湖虹润仪表 | 成都办公室装修-办公室设计-写字楼装修设计-厂房装修-四川和信建筑装饰工程有限公司 | 快速门厂家批发_PVC快速卷帘门_高速门_高速卷帘门-广州万盛门业 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | 莱州网络公司|莱州网站建设|莱州网站优化|莱州阿里巴巴-莱州唯佳网络科技有限公司 | 雨水收集系统厂家-雨水收集利用-模块雨水收集池-徐州博智环保科技有限公司 | 塑胶跑道施工-硅pu篮球场施工-塑胶网球场建造-丙烯酸球场材料厂家-奥茵 |