大模型排名、特点
LYSYS Arena 排名
| Rank* (UB) | Rank (StyleCtrl) | Model | Arena Score | 95% CI | Organization | License |
|---|---|---|---|---|---|---|
| 1 | 1 | chocolate (Early Grok-3) | 1403 | -0.833333333 | xAI | Proprietary |
| 2 | 4 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1385 | -1 | Proprietary | |
| 2 | 3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | -0.833333333 | Proprietary | |
| 2 | 1 | ChatGPT-4o-latest (2025-01-29) | 1377 | -1 | OpenAI | Proprietary |
| 5 | 3 | DeepSeek-R1 | 1363 | -0.857142857 | DeepSeek | MIT |
| 5 | 9 | Gemini-2.0-Flash-001 | 1359 | -0.833333333 | Proprietary | |
| 5 | 3 | o1-2024-12-17 | 1353 | -1 | OpenAI | Proprietary |
| 8 | 9 | Qwen2.5-Max | 1335 | -0.833333333 | Alibaba | Proprietary |
| 11 | 12 | DeepSeek-V3 | 1318 | -0.8 | DeepSeek | DeepSeek |
| 11 | 4 | Claude 3.7 Sonnet | 1313 | -1.125 | Anthropic | Proprietary |
| 11 | 15 | GLM-4-Plus-0111 | 1311 | -0.875 | Zhipu | Proprietary |
| 11 | 14 | Qwen-Plus-0125 | 1310 | -1 | Alibaba | Proprietary |
| 12 | 14 | Gemini-2.0-Flash-Lite-Preview-02-05 | 1308 | -0.833333333 | Proprietary | |
| 12 | 14 | o3-mini | 1304 | -1 | OpenAI | Proprietary |
| 12 | 18 | o1-mini | 1304 | -1 | OpenAI | Proprietary |
| 20 | 14 | GPT-4o-2024-05-13 | 1285 | -1 | OpenAI | Proprietary |
| 20 | 9 | Claude 3.5 Sonnet (20241022) | 1283 | -0.75 | Anthropic | Proprietary |
| 20 | 31 | Qwen2.5-plus-1127 | 1282 | -1.2 | Alibaba | Proprietary |
| 24 | 29 | GLM-4-Plus | 1274 | -1.333333333 | Zhipu AI | Proprietary |
| 25 | 31 | GPT-4o-mini-2024-07-18 | 1272 | -1 | OpenAI | Proprietary |
| 29 | 20 | GPT-4o-2024-08-06 | 1265 | -1 | OpenAI | Proprietary |
| 30 | 32 | Qwen-Max-0919 | 1263 | -0.8 | Alibaba | Qwen |
| 74 | 55 | GPT-4-0314 | 1186 | -1 | OpenAI | Proprietary |
| 87 | 66 | GPT-4-0613 | 1163 | -0.666666667 | OpenAI | Proprietary |
| 109 | 93 | GPT-3.5-Turbo-0125 | 1106 | -0.666666667 | OpenAI | Proprietary |
SuperCLUE性能排名 12月
| 模型名称 | 得分 |
|---|---|
| OpenAl o1 | 80.4 |
| DeepSeek-R1 | |
| Gemini 2.0 Pro Experimental | |
| GPT-4o | 70.2 |
| DeepSeek-V3 | 68.3 |
| Gemini 2.0 Flash Experimental | 68.2 |
| Doubao-pro-32k-241215 | 66.5 |
| Qwen-Max | 66.2 |
| GLM-4-Plus | 65.1 |
| GPT-4o mini | 60.1 |
| Kimi | 59.4 |
| Qwen 2.5-7B-Instruct | 55.5 |
OpenAI
📈 GPT-4:语言理解的巅峰
- GPT-4是2023年发布的语言模型,具备超强的语言理解能力,能够处理复杂的句子结构和细致的语义。
- 适用场景包括技术写作、文学创作和学术研究,能够生成逻辑清晰且连贯的文本。
🌐 GPT-4o:多模态处理的创新
- GPT-4o是2024年发布的多模态模型,支持文本、图像和音频的输入与输出,适合虚拟现实、智能家居等复杂应用。
- 相比于GPT-4,GPT-4o在响应速度和处理效率上有显著提升。
⚡ GPT-4o mini:轻量化的多模态处理
- GPT-4o mini是GPT-4o的精简版,优化了计算资源消耗,适合在资源有限的环境中使用,如移动设备和物联网设备。
🧠 o1:深度推理与复杂问题解决
- o1专为高复杂度推理任务设计,能够进行深度分析,适合科学、数学和编程等领域。
- 尽管响应时间较慢,但其推理能力非常强大,适合需要高度逻辑性和精确推理的环境。
⚙️ o3-mini:高效推理的轻量化模型
- o3-mini提供更快的推理速度和高效计算,适合实时数据分析和智能推荐系统等任务。
🏆 o3-mini-high:极限推理能力的顶尖选择
- o3-mini-high是o3-mini的高性能版本,适合高精度推理任务,如复杂的数学建模和高级科研工作。
Gemini
- Gemini 2.0 Flash
- Gemini 2.0 Pro Experimental
- Gemini 2.0 Flash Thinking Experimental
- Gemini 2.0 Flash Experimental
智谱
- GLM-4-Flash 永久免费
- GLM-4-Plus
- GLM-4 V-Plus
- GLM-4 V-Flash
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 zhrq95!
评论

