灵简图片助手 Windows客户端发布
对于摄影爱好者、日常办公人群而言,电脑端图像管理的痛点早…
阅读全文 →覆盖综合智能、中文能力、编程能力、数学推理、文本理解等多维度评测,并结合开源/闭源标注、价格、速度、热度和场景推荐辅助 AI 模型选型
各大 AI 厂商竞技,争夺排行榜席位
| 排名 | 模型 | 厂商 | 类型 | 得分 | 表现 |
|---|
模型输出速度对比 (tokens/秒),速度越快响应越即时
每百万 Token 混合价格 (美元, 输入:输出 = 3:1)
选择模型查看其在各维度的综合能力表现
各类别冠军一览,快速了解最强模型
根据聊天、中文写作、编程开发、企业私有化等常见需求快速筛选合适模型
提供开源权重,适合开发者本地私有化部署、深度微调与二次开发
模型支持的最大上下文 Token 数量
OpenRouter 平台周 Token 消耗量排名,反映真实市场使用热度
不同使用场景下最受欢迎的 AI 模型
X轴为 API 价格 (每百万 Token 美元),Y轴为综合智能得分。越靠近左上角的模型性价比越高。
基于 LMSYS Chatbot Arena 真人盲测投票 ELO 评分
基于 TauBench 语音代理基准测试 (Pass@1 成功率),衡量实时语音交互任务完成能力
从发送请求到收到第一个 Token 的时间,越短体验越流畅
各模型支持的输入输出模态一览
基于 Berkeley Function Calling Leaderboard (BFCL) 与 τ-Bench 综合评估,衡量模型在 Function Calling、MCP 工具调用和多步推理方面的可靠性
基于 Needle-in-a-Haystack 测试与 RULER 长文本基准,评估模型在超长上下文中精准定位和提取关键信息的能力
基于 HaluEval、TruthfulQA 与 FActScore 综合评估,幻觉率越低表示模型回答越可靠
基于 Scale AI Labs 私有测试数据集 + 专家人工评估,覆盖 Agent 编程实战、代码重构、测试编写、知识极限、工具调用、综合推理和安全诚实性八大维度