帮每个开发者评估每个大模型
统一测评标准 + 独立测评 + 覆盖国内开闭源模型
数据更新时间: 2024-10-21
模型 | 供应商 | 测评得分 | 延迟 | ||||||
---|---|---|---|---|---|---|---|---|---|
Humaneval 代码能力 | BBH 推理能力 | TEval(中文) 智能体能力 | 平均 First Token(s) | 5% First Token(s) | 25% First Token(s) | 50% First Token(s) | 95% First Token(s) |
75 | 69.5 | 86.81 | 0.49 | 0.42 | 0.46 | 0.52 | 0.58 | ||
79.87 | 81.73 | 89.41 | 1.26 | 0.45 | 0.48 | 0.57 | 5.53 | ||
19.51 | 21.34 | 0.42 | 0.37 | 0.39 | 0.42 | 0.5 | |||
34.14 | 30.63 | 75.1 | 0.57 | 0.39 | 0.4 | 0.45 | 1.58 | ||
75 | 63.03 | 85.52 | 0.75 | 0.39 | 0.42 | 0.63 | 1.19 |
暂无数据
暂无数据
加载中...
说明
价格
质量
- 数据数据集: OneCompass HUMANEVAL
- 测评原始数据存于 llmrank-cn/evaluate_result
延迟
- 延迟数据说明: 批量发起流式调用(80-200 tokens), 取首Token 返回时间
- 测试环境: 阿里云 杭州Region, 2c4g, 3M带宽