매일 업데이트 · 2026-05-24 기준 · 5시간 전 업데이트
AI 출력 속도 순위 2026
API 기준 초당 출력 토큰 수(TPS) 실측값 순위
AI 출력 속도 순위 2026 TOP 20
Artificial Analysis 기반1
—
Mercury 2
Inception
100 tok/s
2
—
Granite 4.0 H Small
IBM
78 tok/s
3
▲1
gpt-oss-120b (low)
OpenAI
48 tok/s
4
▲1
gpt-oss-120b (high)
OpenAI
45 tok/s
5
▲2
Nova Micro
Amazon
44 tok/s
6
—
Qwen3.5 2B (Non-reasoning)
Alibaba
43 tok/s
7
▼4
Granite 3.3 8B (Non-reasoning)
IBM
43 tok/s
8
—
Gemini 3.1 Flash-Lite Preview
40 tok/s
9
—
Llama 3.1 Nemotron Instruct 70B
NVIDIA
40 tok/s
10
—
Nemotron 3 Nano Omni 30B A3B Reasoning
NVIDIA
40 tok/s
11
▲3
Gemini 2.5 Flash-Lite (Non-reasoning)
39 tok/s
12
—
gpt-oss-20B (low)
OpenAI
37 tok/s
13
▼2
gpt-oss-20B (high)
OpenAI
36 tok/s
14
▼1
Gemini 2.5 Flash-Lite (Reasoning)
33 tok/s
15
—
NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)
NVIDIA
31 tok/s
16
—
Qwen3.5 Omni Flash
Alibaba
31 tok/s
17
—
Nova 2.0 Lite (Non-reasoning)
Amazon
30 tok/s
18
▲1
Qwen3 0.6B (Reasoning)
Alibaba
30 tok/s
19
▲3
Qwen3 0.6B (Non-reasoning)
Alibaba
30 tok/s
20
▲15
GPT-5.1 Codex mini (high)
OpenAI
29 tok/s
점수는 카테고리별 최고점 기준 정규화됩니다. 전체 순위는 AI 순위 페이지에서 확인하세요.
자주 묻는 질문
가장 빠른 AI 모델은 무엇인가요?
출력 속도는 서버 부하에 따라 변동합니다. 소형 모델(Mini, Flash, Haiku 등)이 일반적으로 더 빠른 경향이 있습니다.
AI 속도는 어떻게 측정하나요?
Artificial Analysis가 API를 통해 초당 출력 토큰 수(tokens/sec)를 실측합니다. 동일 조건에서 반복 측정한 중앙값을 사용합니다.
