简要介绍ReAct
⚠️ This post is created with the help of an artificial intelligence
ReAct 是一种将LLM的推理(Reasoning)和行动(Acting)能力交替结合的范式。
模式:Question - (Thought - Act - Observation) * n
样例:
这个图里1b和1c就是ReAct对比的两个baseline:只有CoT和只有Act(其实就是正常用prompt搞,但不加CoT)。
优势
- Hallucination,相对CoT而言可以在Act时引入外界真实信息
- Error Propagation(这个选词有点confusing,注意不要和普通BP搞混了),也是相对CoT而言允许模型在每一步根据新的“观察”来纠正之前的错误
- 泛化能力,相对CoT而言可以查外界资料,所以可以更好解决基座训练数据中不存在的问题或有时效性的问题
- 规划能力,相对仅Act而言CoT能提升分解和规划效果
- 在针对ReAct finetune后性能也超过其他方法(实事求是是好事,感慨ing)