🏆 2026年5月

全球顶尖 AI 模型
多维度评测排行

覆盖综合智能、中文能力、编程能力、数学推理、文本理解等多维度评测,并结合开源/闭源标注、价格、速度、热度和场景推荐辅助 AI 模型选型

📊
0
评测模型总数
🎯
0
评测维度
🏅
0
精选 Top
🧪
0
基准测试
🏢
0
覆盖厂商

参与厂商

各大 AI 厂商竞技,争夺排行榜席位

综合智能排行榜

Intelligence Index

排名 模型 厂商 类型 得分 表现

⚡ 输出速度排行

模型输出速度对比 (tokens/秒),速度越快响应越即时

💰 价格对比

每百万 Token 混合价格 (美元, 输入:输出 = 3:1)

📊 模型能力雷达图

选择模型查看其在各维度的综合能力表现

VS

🌟 模型亮点速览

各类别冠军一览,快速了解最强模型

🎯 按场景选模型

根据聊天、中文写作、编程开发、企业私有化等常见需求快速筛选合适模型

🔓 顶级开源模型推荐

提供开源权重,适合开发者本地私有化部署、深度微调与二次开发

📏 上下文窗口对比

模型支持的最大上下文 Token 数量

🔥 模型热度排行

OpenRouter 平台周 Token 消耗量排名,反映真实市场使用热度

📊 厂商市场份额

各 AI 厂商在 OpenRouter 平台上的 Token 消耗占比

总消耗
385B
tokens/周

🏷️ 使用场景分布

不同使用场景下最受欢迎的 AI 模型

💎 性价比象限图 (智商 vs 价格)

X轴为 API 价格 (每百万 Token 美元),Y轴为综合智能得分。越靠近左上角的模型性价比越高。

🗳️ Chatbot Arena 人类偏好排名

基于 LMSYS Chatbot Arena 真人盲测投票 ELO 评分

🎙️ 端到端语音模型排行 (τ-voice)

基于 TauBench 语音代理基准测试 (Pass@1 成功率),衡量实时语音交互任务完成能力

⏱️ 首Token延迟对比 (TTFT)

从发送请求到收到第一个 Token 的时间,越短体验越流畅

🧩 多模态能力矩阵

各模型支持的输入输出模态一览

🤖 Agent / 工具调用能力排行

基于 Berkeley Function Calling Leaderboard (BFCL) 与 τ-Bench 综合评估,衡量模型在 Function Calling、MCP 工具调用和多步推理方面的可靠性

📚 长文本检索准确率排行

基于 Needle-in-a-Haystack 测试与 RULER 长文本基准,评估模型在超长上下文中精准定位和提取关键信息的能力

🎭 幻觉率 / 事实准确性排行

基于 HaluEval、TruthfulQA 与 FActScore 综合评估,幻觉率越低表示模型回答越可靠

🔬 Scale AI 评测

基于 Scale AI Labs 私有测试数据集 + 专家人工评估,覆盖 Agent 编程实战、代码重构、测试编写、知识极限、工具调用、综合推理和安全诚实性八大维度

📰 网站动态

平台最新资讯、评测解读与行业动态