机械之心编译
编纂:Panda
语言模子 :过长我不看。语言远偷
大型语言模子大实用途,模偏模在妄想 prompt 方面,懒新略过人们个别建议为语言模子提供详尽的钻研中间使命形貌以及布景信息。
近期的高过长一些语言模子有能耐输入较长的高下文 ,但它事实能多好地运用更长的下文高下文 ?这一点却相对于少有人知。
克日,语言远偷斯坦福大学 、模偏模加州大学伯克利分校以及 Samaya AI 的懒新略过钻研者宣告了一篇实证研品评辩说文 ,探究了这个下场。钻研中间
论断使人意外 :假如高下文过长,高过长语言模子会更关注其中的下文先后部份,中间部份却简直被略过不看 ,语言远偷导致模子难以找到放在输入高下文中部的模偏模相关信息。
论文链接 :https://arxiv.org/pdf/2307.03172.pdf
他们对于多种差距的懒新略过开源(MPT-30B-Instruct、LongChat-13B (16K))以及闭源(OpenAI 的 GPT-3.5-Turbo 以及 Anthropic 的 Claude)的语言模子妨碍了比力试验 —— 试验中需要模子取患上并运用输入高下文中的信息 。
钻研者首先试验了多文档问答 ,该使命需要模子基于多个文档妨碍推理,以找到相关信息并将其用于回覆给定下场。这个使命模拟了检索增强式天生使命,其是良多商用天生式搜查以及问答应用(如 Bing Chat)的根基 。在试验中 ,他们的做法是修正输入高下文长度以及输入高下文中相关信息的位置 ,而后比力比力输入服从的展现。
更详细地说