帮每个开发者评估每个大模型
统一测评标准 + 独立测评 + 覆盖国内开闭源模型
数据更新时间: 2024-10-21
模型 | 供应商 | 上下文 | 价格 | 测评得分 | 延迟 | 频次限制 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
平均 RMB/1百万Token | 输入 RMB/1百万Token | 输出 RMB/1百万Token | Humaneval 代码能力 | BBH 推理能力 | TEval(中文) 智能体能力 | 平均 First Token(s) | 5% First Token(s) | 25% First Token(s) | 50% First Token(s) | 95% First Token(s) |
32k | 1.50 | 1.00 | 2.00 | 91.46 | 83.78 | 0.83 | 0.76 | 0.78 | 0.84 | 0.97 | ||||
32k | 24.00 | 24.00 | 24.00 | 68.9 | 1.26 | 0.59 | 0.65 | 1.06 | 2.44 | |||||
128k | 60.00 | 60.00 | 60.00 | 67.07 | 0.73 | 0.54 | 0.58 | 0.82 | 1.01 | |||||
8k | 0.00 | 0.00 | 0.00 | 25.6 | 0.58 | 0.41 | 0.5 | 0.64 | 0.83 | |||||
32k | 1.04 | 0.8 | 2.00 | 67.07 | 70.91 | 82.94 | 1.57 | 0.69 | 1.05 | 1.67 | 3.8 | QPM:200,TPM:200K | ||
4k | 1.40 | 0.80 | 2.00 | 25 | 69.54 | 78.25 | 0.28 | 0.26 | 0.27 | 0.29 | 0.32 | QPM:10000,TPM:8000K | ||
128k | 1.00 | 1.00 | 1.00 | 78.05 | 0.56 | 0.48 | 0.51 | 0.59 | 0.73 | |||||
8k | 0.00 | 0.00 | 0.00 | 10.36 | 0.55 | 0.39 | 0.48 | 0.6 | 0.67 | |||||
128k | 100.00 | 100.00 | 100.00 | 67.68 | 0.67 | 0.54 | 0.56 | 0.69 | 0.81 | |||||
8k | 325.35 | 216.90 | 433.80 | 84.14 | 2.38 | 1.41 | 1.67 | 2.93 | 3.98 | |||||
32k | 0.40 | 0.30 | 0.50 | 36.59 | 49.3 | 78.19 | 0.78 | 0.25 | 0.27 | 0.32 | 5.07 | QPM:10000,TPM:8000K | ||
10000k | 1.25 | 0.50 | 2.00 | 66.46 | 5.39 | 2.04 | 2.19 | 8.47 | 10.13 | QPM:100,TPM:unlimited | ||||
32k | 1.50 | 1.00 | 2.00 | 84.14 | 80.18 | 0.92 | 0.77 | 0.81 | 0.94 | 1.22 | ||||
128k | 0.10 | 0.10 | 0.10 | 73.78 | 0.54 | 0.46 | 0.49 | 0.58 | 0.62 | |||||
8k | 12.00 | 12.00 | 12.00 | 67.68 | 0.81 | 0.58 | 0.66 | 0.89 | 1.13 | |||||
128k | 144.60 | 72.30 | 216.90 | 78.65 | 2.08 | 1.17 | 1.38 | 2.4 | 4.87 | |||||
16k | 7.23 | 3.62 | 10.85 | 71.34 | 1.72 | 1.15 | 1.37 | 1.55 | 2.62 | |||||
128k | 100.00 | 100.00 | 100.00 | 75 | 1.18 | 0.5 | 0.53 | 0.65 | 6.52 | |||||
128k | 10.00 | 10.00 | 10.00 | 76.21 | 0.65 | 0.51 | 0.61 | 0.69 | 0.82 | |||||
8k | 40.00 | 20.00 | 60.00 | 76.21 | 2.13 | 1.29 | 1.38 | 2.39 | 4.36 | QPM:60,TPM:100K | ||||
8k | 0.45 | 0.3 | 0.6 | 54.27 | 53.06 | 73.08 | 0.57 | 0.5 | 0.52 | 0.59 | 0.73 | QPM:500,TPM:500K | ||
8k | 0.00 | 0.00 | 0.00 | 46.34 | 0.6 | 0.53 | 0.56 | 0.63 | 0.76 | |||||
8k | 12.00 | 12.00 | 12.00 | 68.29 | 2.06 | 0.67 | 1.58 | 2.53 | 3.54 | |||||
128k | 0.00 | 0.00 | 0.00 | 48.17 | 0.83 | 0.62 | 0.7 | 0.86 | 1.25 | |||||
30k | 80.00 | 40.00 | 120.00 | 74.39 | 16.37 | 7.4 | 11.46 | 20.53 | 28.95 | QPM:5,TPM:1500K | ||||
8k | 120.00 | 120.00 | 120.00 | 75 | 0.88 | 0.73 | 0.78 | 0.92 | 1.21 | |||||
128k | 44.43 | 17.75 | 71.1 | 90.8 | 1.8 | 1.04 | 1.24 | 2.31 | 2.74 | |||||
128k | 0.40 | 0.30 | 0.50 | 37.8 | 50.04 | 78.33 | 0.28 | 0.23 | 0.25 | 0.3 | 0.34 | QPM:1000,TPM:4000K | ||
128k | 4.75 | 0.50 | 9.00 | 62.8 | 79.05 | 78.15 | 3.01 | 0.29 | 0.41 | 5.3 | 9.4 | QPM:1000,TPM:4000K | ||
4k | 0.40 | 0.30 | 0.50 | 35.98 | 50.94 | 78.14 | 0.29 | 0.24 | 0.26 | 0.31 | 0.35 | QPM:10000,TPM:8000K | ||
32k | 1.40 | 0.80 | 2.00 | 57.92 | 80.07 | 78.18 | 0.49 | 0.29 | 0.33 | 0.38 | 0.66 | QPM:10000,TPM:8000K |
暂无数据
暂无数据
加载中...
说明
价格
质量
- 数据数据集: OneCompass HUMANEVAL
- 测评原始数据存于 llmrank-cn/evaluate_result
延迟
- 延迟数据说明: 批量发起流式调用(80-200 tokens), 取首Token 返回时间
- 测试环境: 阿里云 杭州Region, 2c4g, 3M带宽