LYSYS Arena 排名

Rank* (UB)Rank (StyleCtrl)ModelArena Score95% CIOrganizationLicense
11chocolate (Early Grok-3)1403-0.833333333xAIProprietary
24Gemini-2.0-Flash-Thinking-Exp-01-211385-1GoogleProprietary
23Gemini-2.0-Pro-Exp-02-051380-0.833333333GoogleProprietary
21ChatGPT-4o-latest (2025-01-29)1377-1OpenAIProprietary
53DeepSeek-R11363-0.857142857DeepSeekMIT
59Gemini-2.0-Flash-0011359-0.833333333GoogleProprietary
53o1-2024-12-171353-1OpenAIProprietary
89Qwen2.5-Max1335-0.833333333AlibabaProprietary
1112DeepSeek-V31318-0.8DeepSeekDeepSeek
114Claude 3.7 Sonnet1313-1.125AnthropicProprietary
1115GLM-4-Plus-01111311-0.875ZhipuProprietary
1114Qwen-Plus-01251310-1AlibabaProprietary
1214Gemini-2.0-Flash-Lite-Preview-02-051308-0.833333333GoogleProprietary
1214o3-mini1304-1OpenAIProprietary
1218o1-mini1304-1OpenAIProprietary
2014GPT-4o-2024-05-131285-1OpenAIProprietary
209Claude 3.5 Sonnet (20241022)1283-0.75AnthropicProprietary
2031Qwen2.5-plus-11271282-1.2AlibabaProprietary
2429GLM-4-Plus1274-1.333333333Zhipu AIProprietary
2531GPT-4o-mini-2024-07-181272-1OpenAIProprietary
2920GPT-4o-2024-08-061265-1OpenAIProprietary
3032Qwen-Max-09191263-0.8AlibabaQwen
7455GPT-4-03141186-1OpenAIProprietary
8766GPT-4-06131163-0.666666667OpenAIProprietary
10993GPT-3.5-Turbo-01251106-0.666666667OpenAIProprietary

SuperCLUE性能排名 12月

模型名称得分
OpenAl o180.4
DeepSeek-R1
Gemini 2.0 Pro Experimental
GPT-4o70.2
DeepSeek-V368.3
Gemini 2.0 Flash Experimental68.2
Doubao-pro-32k-24121566.5
Qwen-Max66.2
GLM-4-Plus65.1
GPT-4o mini60.1
Kimi59.4
Qwen 2.5-7B-Instruct55.5

OpenAI

📈 GPT-4:语言理解的巅峰

  • GPT-4是2023年发布的语言模型,具备超强的语言理解能力,能够处理复杂的句子结构和细致的语义。
  • 适用场景包括技术写作、文学创作和学术研究,能够生成逻辑清晰且连贯的文本。

🌐 GPT-4o:多模态处理的创新

  • GPT-4o是2024年发布的多模态模型,支持文本、图像和音频的输入与输出,适合虚拟现实、智能家居等复杂应用。
  • 相比于GPT-4,GPT-4o在响应速度和处理效率上有显著提升。

⚡ GPT-4o mini:轻量化的多模态处理

  • GPT-4o mini是GPT-4o的精简版,优化了计算资源消耗,适合在资源有限的环境中使用,如移动设备和物联网设备。

🧠 o1:深度推理与复杂问题解决

  • o1专为高复杂度推理任务设计,能够进行深度分析,适合科学、数学和编程等领域。
  • 尽管响应时间较慢,但其推理能力非常强大,适合需要高度逻辑性和精确推理的环境。

⚙️ o3-mini:高效推理的轻量化模型

  • o3-mini提供更快的推理速度和高效计算,适合实时数据分析和智能推荐系统等任务。

🏆 o3-mini-high:极限推理能力的顶尖选择

  • o3-mini-high是o3-mini的高性能版本,适合高精度推理任务,如复杂的数学建模和高级科研工作。

Gemini

  • Gemini 2.0 Flash
  • Gemini 2.0 Pro Experimental
  • Gemini 2.0 Flash Thinking Experimental
  • Gemini 2.0 Flash Experimental

智谱

  • GLM-4-Flash 永久免费
  • GLM-4-Plus
  • GLM-4 V-Plus
  • GLM-4 V-Flash