Agent | Jiangjie Chen

SurveyAgent: A Conversational System for Personalized and Efficient Research Survey

We propose a novel conversational AI system that enhances researchers’ literature review processes by providing personalized knowledge management, literature recommendations, and query answering through a unified platform.

Xintao Wang, Jiangjie Chen, Nianqi Li, Lida Chen, Xinfeng Yuan, Wei Shi, Xuyang Ge, Rui Xu, Yanghua Xiao

SurveyAgent: A Conversational System for Personalized and Efficient Research Survey

Agent Group Chat: An Interactive Group Chat Simulacra For Better Eliciting Collective Emergent Behavior

We propose a simulation to study language’s influence on collective behavior by having agents engage in free chat within various narrative scenarios, with findings suggesting that greater information exchange promotes more orderly and meaningful emergent behaviors.

Zhouhong Gu, Xiaoxuan Zhu, Haoran Guo, Lin Zhang, Yin Cai, Hao Shen, Jiangjie Chen, Zheyu Ye, Yifei Dai, Yan Gao, Yao Hu, Hongwei Feng, Yanghua Xiao

Agent Group Chat: An Interactive Group Chat Simulacra For Better Eliciting Collective Emergent Behavior

TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation

TimeArena enhances LLMs with temporal dynamics for better multitasking, showing advanced models like GPT-4 still trail behind human temporal awareness.

Yikai Zhang, Siyu Yuan, Caiyu Hu, Kyle Richardson, Yanghua Xiao, Jiangjie Chen

TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation

InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews

We propose InCharacter, a method using psychological scales to evaluate the personality fidelity of role-playing agents (RPAs) powered by large language models.

Xintao Wang, Yunze Xiao, Jen-Tse Huang, Siyu Yuan, Rui Xu, Haoran Guo, Quan Tu, Yaying Fei, Ziang Leng, Wei Wang, Jiangjie Chen, Cheng Li, Yanghua Xiao

InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

We introduced TravelPlanner, a benchmark for assessing language agents’ planning abilities, showing that even advanced models like GPT-4 face difficulties with complex tasks.

Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

We propose AucArena to tests LLMs in auctions, showing they can strategize but with variable success, indicating potential for enhancement.

Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena