LLM API: какой брать в 2026
Рынок LLM API в 2026: OpenAI/Anthropic — топ качества, но closed. Open-source через Together/Fireworks/gpupool — дешевле, прозрачнее, под доменные задачи. Разбираем выбор.
Обновлено: 2026-05-19
TL;DR
Рынок LLM API в 2026 разделён надвое: closed-source топ (OpenAI gpt-4o/o-семья, Anthropic Claude, Google Gemini) и open-source через managed-провайдеров (LLaMA, Qwen, Mistral, DeepSeek на Together/Fireworks/Groq/gpupool). Closed — топ качества, дорого, проблемы с доступом из РФ. Open-source — дешевле в 3-10×, прозрачнее, можно self-host или fine-tune. Этот гайд: как выбирать, на чём строить production, и что доступно из России.
Из чего выбираем
┌──────────────────────── closed-source ─────────────────────────┐
│ OpenAI: gpt-4o, gpt-4o-mini, o1, o3 │
│ Anthropic: Claude Sonnet 4.5, Opus 4.7, Haiku │
│ Google: Gemini 2.x Pro/Flash │
│ xAI: Grok 3 │
└──────────────────────────────────────────────────────────────────┘
┌──────────────────────── open-source ────────────────────────────┐
│ Meta: LLaMA 3.1 / 3.3 (8B, 70B, 405B) │
│ Alibaba: Qwen 2.5 (7B, 14B, 32B, 72B) │
│ Mistral: Mistral Large, Codestral, Pixtral │
│ DeepSeek: V3 (671B MoE), R1 (reasoning) │
│ Microsoft: Phi-4, Phi-3.5 │
└──────────────────────────────────────────────────────────────────┘
Когда брать closed-source
- Сложные задачи рассуждения — o1/o3, Claude Opus 4.7 пока недосягаемы для open-source.
- Длинный контекст с reasoning — Gemini 2.x Pro держит 2M tokens.
- Vision + reasoning — Claude Sonnet 4.5 / GPT-4o выдают стабильно лучше, чем Qwen2-VL.
- Tool use / function calling — у closed-моделей он более надёжен «из коробки».
- Готовый Constitutional AI / safety — встроенная модерация.
Минусы:
- Цена в 3-10× выше open-source.
- Доступ из РФ напрямую не работает (нужен прокси/VPN).
- Vendor lock-in на их формат API (хотя многие копируют OpenAI-format).
- Нет fine-tuning или ограничен (LoRA-tuning есть у OpenAI, но дорого).
- Чёрный ящик — нет понимания, что внутри.
Когда брать open-source
- Цена решает — массовая classification, summarization, простой chatbot.
- Регуляторика — нужно self-host или РФ-резидент-managed.
- Fine-tuning — нужна доменная модель (юр-документы, медицина, поддержка).
- Контроль — нужно знать, что модель не «дрифтует» между версиями.
- Privacy — данные клиентов нельзя слать в OpenAI.
Топ open-source на 2026:
- LLaMA 3.3 70B Instruct — универсал, RU/EN, отличный baseline.
- Qwen 2.5 72B — лучше LLaMA на code и multi-lingual.
- DeepSeek V3 (671B MoE, активно 37B) — открытый ответ GPT-4o уровню, дешевле.
- DeepSeek R1 — open-source reasoning, конкурент o1.
- Mistral Large 2 — компактный 123B, хорош для tool-use.
Базовый API-вызов (OpenAI-format)
Большинство провайдеров (Together, Fireworks, Groq, vLLM, TGI) реализуют OpenAI-compatible API:
curl https://api.together.xyz/v1/chat/completions \
-H "Authorization: Bearer $TOGETHER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
"messages": [
{"role": "system", "content": "You are a concise assistant."},
{"role": "user", "content": "Объясни паттерн CQRS в двух предложениях."}
],
"max_tokens": 200,
"temperature": 0.3
}'
Это значит, что Python OpenAI SDK работает с любым OpenAI-compatible провайдером — нужно только сменить base_url:
from openai import OpenAI
client = OpenAI(
base_url="https://api.together.xyz/v1",
api_key=os.environ["TOGETHER_API_KEY"],
)
resp = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
messages=[{"role": "user", "content": "Hello"}],
)
print(resp.choices[0].message.content)
Это критично для архитектуры: пишите бизнес-логику против OpenAI-формата, провайдеров меняйте через env.
Параметры запроса
| Параметр |
Что делает |
Типичные значения |
temperature |
Случайность |
0.0 — детерминизм; 0.7 — креатив |
top_p |
Nucleus sampling |
0.9 — стандарт |
max_tokens |
Максимум выходных токенов |
200-2000 |
frequency_penalty |
Штраф за повторение |
0.0-0.5 |
presence_penalty |
Штраф за уже упомянутое |
0.0-0.5 |
stop |
Stop-tokens |
["###", "END"] |
stream |
Streaming response (chunks) |
true для UI |
response_format |
Force JSON output (если поддерживается) |
{"type": "json_object"} |
tools |
Function calling schemas |
OpenAI tools spec |
Streaming
Streaming критически важен для UI: пользователь видит ответ по мере генерации, а не ждёт 30 секунд.
stream = client.chat.completions.create(
model="...",
messages=[...],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
В n8n / Make.com streaming не поддерживается — там используют обычный non-streaming. В Web/Mobile UI обязательно streaming.
Tool use / function calling
Все современные LLM умеют вызывать «инструменты»:
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get weather for a city",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string"},
"units": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}
}]
resp = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
messages=[{"role": "user", "content": "Какая погода в Москве?"}],
tools=tools,
tool_choice="auto",
)
Если модель решила вызвать tool, resp.choices[0].message.tool_calls будет содержать вызов. Вы исполняете его, шлёте обратно как role: "tool" сообщение, получаете финальный ответ.
Качество tool-use:
- OpenAI, Anthropic — топ, почти не ошибаются.
- LLaMA 3.3 70B, Qwen 2.5 72B — хорошо, но иногда «фантазируют» tool calls.
- Маленькие модели (7B-14B) — нестабильно, нужно prompt-инжиниринг.
Структурированный вывод
Когда от LLM нужен строго JSON:
resp = client.chat.completions.create(
model="...",
messages=[{"role": "user", "content": "Extract: name, email, phone from..."}],
response_format={"type": "json_object"},
)
data = json.loads(resp.choices[0].message.content)
Или через schema-constrained generation (Together, vLLM поддерживают):
response_format={
"type": "json_schema",
"json_schema": {
"schema": {
"type": "object",
"properties": {
"name": {"type": "string"},
"email": {"type": "string", "format": "email"}
},
"required": ["name", "email"]
}
}
}
Это гарантирует валидный JSON — vLLM/SGLang constrains generation на уровне токенов.
Стоимость (порядок величин на 2026)
| Модель |
Input $/1M tok |
Output $/1M tok |
| OpenAI gpt-4o |
$2.50 |
$10.00 |
| OpenAI gpt-4o-mini |
$0.15 |
$0.60 |
| OpenAI o3-mini |
$1.10 |
$4.40 |
| Anthropic Claude Sonnet 4.5 |
$3.00 |
$15.00 |
| Anthropic Claude Haiku |
$0.80 |
$4.00 |
| LLaMA 3.3 70B (Together) |
$0.88 |
$0.88 |
| LLaMA 3.3 70B (Groq, LPU-fast) |
$0.59 |
$0.79 |
| Qwen 2.5 72B (Together) |
$0.90 |
$0.90 |
| DeepSeek V3 (own API) |
$0.27 |
$1.10 |
| Mistral Large 2 (Mistral API) |
$2.00 |
$6.00 |
Тренд: open-source через managed-провайдеров приближается к 1$/M output. Closed-source держится в районе 5-15$/M output, но качество на сложных задачах ещё ощутимо выше.
Доступ из России
- OpenAI / Anthropic — официально нет. Реально работают через VPN/прокси, но это серая зона, не для критичного prod.
- Open-source через российских managed — gpupool, MWS, Yandex DataSphere. Латентность ниже, рублёвая оплата, ФЗ-152 совместимость.
- Together AI / Fireworks / Groq — формально open, но платежи из РФ затруднены.
- Self-host через российские GPU-облака — A100/H100 у Selectel, MWS. Сами поднимаете vLLM/TGI, своя инфра.
Production-чеклист
Что почитать дальше
Частые вопросы
OpenAI vs open-source — что выбрать?
OpenAI/Anthropic — для топового качества и сложных задач (рассуждения, код). Open-source — для предсказуемых задач, контроля цены, fine-tuning под домен.
Какие open-source LLM лучшие в 2026?
LLaMA 3.x 70B — универсал. Qwen 2.5 — топ для multi-lingual и кода. Mistral Large — компактные модели. DeepSeek V3 — открытый аналог GPT-4o.
Можно ли использовать LLM API из России?
OpenAI/Anthropic — официально нет, но через прокси/VPN. Open-source через российских провайдеров (gpupool, mws-cloud) — да, легитимно.
Сколько стоит LLM API?
OpenAI gpt-4o — ~$2.5/1M input tokens. Open-source 70B на managed — $0.5-1.5/1M. Self-hosted — only railroad cost.