LYSYS Arena 排名

Rank* (UB)	Rank (StyleCtrl)	Model	Arena Score	95% CI	Organization	License
1	1	chocolate (Early Grok-3)	1403	-0.833333333	xAI	Proprietary
2	4	Gemini-2.0-Flash-Thinking-Exp-01-21	1385	-1	Google	Proprietary
2	3	Gemini-2.0-Pro-Exp-02-05	1380	-0.833333333	Google	Proprietary
2	1	ChatGPT-4o-latest (2025-01-29)	1377	-1	OpenAI	Proprietary
5	3	DeepSeek-R1	1363	-0.857142857	DeepSeek	MIT
5	9	Gemini-2.0-Flash-001	1359	-0.833333333	Google	Proprietary
5	3	o1-2024-12-17	1353	-1	OpenAI	Proprietary
8	9	Qwen2.5-Max	1335	-0.833333333	Alibaba	Proprietary
11	12	DeepSeek-V3	1318	-0.8	DeepSeek	DeepSeek
11	4	Claude 3.7 Sonnet	1313	-1.125	Anthropic	Proprietary
11	15	GLM-4-Plus-0111	1311	-0.875	Zhipu	Proprietary
11	14	Qwen-Plus-0125	1310	-1	Alibaba	Proprietary
12	14	Gemini-2.0-Flash-Lite-Preview-02-05	1308	-0.833333333	Google	Proprietary
12	14	o3-mini	1304	-1	OpenAI	Proprietary
12	18	o1-mini	1304	-1	OpenAI	Proprietary
20	14	GPT-4o-2024-05-13	1285	-1	OpenAI	Proprietary
20	9	Claude 3.5 Sonnet (20241022)	1283	-0.75	Anthropic	Proprietary
20	31	Qwen2.5-plus-1127	1282	-1.2	Alibaba	Proprietary
24	29	GLM-4-Plus	1274	-1.333333333	Zhipu AI	Proprietary
25	31	GPT-4o-mini-2024-07-18	1272	-1	OpenAI	Proprietary
29	20	GPT-4o-2024-08-06	1265	-1	OpenAI	Proprietary
30	32	Qwen-Max-0919	1263	-0.8	Alibaba	Qwen
74	55	GPT-4-0314	1186	-1	OpenAI	Proprietary
87	66	GPT-4-0613	1163	-0.666666667	OpenAI	Proprietary
109	93	GPT-3.5-Turbo-0125	1106	-0.666666667	OpenAI	Proprietary

SuperCLUE性能排名 12月

📈 GPT-4：语言理解的巅峰

🌐 GPT-4o：多模态处理的创新

⚡ GPT-4o mini：轻量化的多模态处理

🧠 o1：深度推理与复杂问题解决

⚙️ o3-mini：高效推理的轻量化模型

🏆 o3-mini-high：极限推理能力的顶尖选择