close
浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

首先,Agent-Pro以文字的形式设计了一个对任务世界的建模以及对行为准则的描述, 他们一起被当做Policy:

  • World Modeling:任务世界的建模,例如对游戏环境的理解、对手们的风格分析、环境中其他Agent的策略估计等;
  • Behavioral Guideline:行为准则的描述,例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

其次,为了更新World Modeling和Behavioral Guideline,Agent-Pro设计了一个Policy-level Reflection过程。

与Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被引导去关注内在和外在信念是否对齐最终结果,更重要的是,反思背后的世界模型是否准确,行为准则是否合理,而非针对单个Action。

例如,德州扑克游戏中Policy-level的反思是这样的:

  • 在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的指导下,Agent-Pro观察到外部状态,然后生成Self-Belief和World-Belief,最后做出Action。但如果Belief不准确,则可能导致不合逻辑的行动和最终结果的失败;
  • Agent-Pro根据每一次的游戏来审视Belief的合理性,并反思导致最终失败的原因(Correct,Consistent,Rationality…);
  • 然后,Agent-Pro将反思和对自身及外部世界的分析整理,生成新的行为准则Behavioral Guideline和世界建模World Modeling;
  • 基于新生成的Policy(World Modeling & Behavioral Guideline),Agent-Pro重复进行相同游戏,来进行策略验证。如果最终分数有所提高,则将更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行为准则的优化(World Modeling & Behavioral Guideline Evolution)

在Policy-level Reflection之上,面对动态的环境,Agent-Pro还采用了深度优先搜索(DFS)策略评估,来持续优化世界模型和行为准则,从而找到更优的策略。德州撲克

浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
德州撲克
arrow
arrow
    文章標籤
    德州撲克
    全站熱搜
    創作者介紹
    創作者 oodreads 的頭像
    oodreads

    Goodreads | Meet your next favorite book

    oodreads 發表在 痞客邦 留言(0) 人氣()