帮每个开发者评估每个大模型

统一测评标准 + 独立测评 + 覆盖国内开闭源模型

数据更新时间: 2024-10-21

模型
供应商
测评得分
延迟
Humaneval
代码能力
BBH
推理能力
TEval(中文)
智能体能力
平均
First Token(s)
5%
First Token(s)
25%
First Token(s)
50%
First Token(s)
95%
First Token(s)
75
69.5
86.81
0.49
0.42
0.46
0.52
0.58
79.87
81.73
89.41
1.26
0.45
0.48
0.57
5.53
19.51
21.34
 
0.42
0.37
0.39
0.42
0.5
34.14
30.63
75.1
0.57
0.39
0.4
0.45
1.58
75
63.03
85.52
0.75
0.39
0.42
0.63
1.19
暂无数据
暂无数据
加载中...

说明

价格

质量

延迟

  • 延迟数据说明: 批量发起流式调用(80-200 tokens), 取首Token 返回时间
  • 测试环境: 阿里云 杭州Region, 2c4g, 3M带宽