LLM API: какой брать в 2026

Рынок LLM API в 2026: OpenAI/Anthropic — топ качества, но closed. Open-source через Together/Fireworks/gpupool — дешевле, прозрачнее, под доменные задачи. Разбираем выбор.

Обновлено: 2026-05-19

TL;DR

Рынок LLM API в 2026 разделён надвое: closed-source топ (OpenAI gpt-4o/o-семья, Anthropic Claude, Google Gemini) и open-source через managed-провайдеров (LLaMA, Qwen, Mistral, DeepSeek на Together/Fireworks/Groq/gpupool). Closed — топ качества, дорого, проблемы с доступом из РФ. Open-source — дешевле в 3-10×, прозрачнее, можно self-host или fine-tune. Этот гайд: как выбирать, на чём строить production, и что доступно из России.

Из чего выбираем

┌──────────────────────── closed-source ─────────────────────────┐
│ OpenAI:    gpt-4o, gpt-4o-mini, o1, o3                          │
│ Anthropic: Claude Sonnet 4.5, Opus 4.7, Haiku                   │
│ Google:    Gemini 2.x Pro/Flash                                 │
│ xAI:       Grok 3                                                │
└──────────────────────────────────────────────────────────────────┘

┌──────────────────────── open-source ────────────────────────────┐
│ Meta:      LLaMA 3.1 / 3.3 (8B, 70B, 405B)                       │
│ Alibaba:   Qwen 2.5 (7B, 14B, 32B, 72B)                          │
│ Mistral:   Mistral Large, Codestral, Pixtral                     │
│ DeepSeek:  V3 (671B MoE), R1 (reasoning)                         │
│ Microsoft: Phi-4, Phi-3.5                                        │
└──────────────────────────────────────────────────────────────────┘

Когда брать closed-source

Сложные задачи рассуждения — o1/o3, Claude Opus 4.7 пока недосягаемы для open-source.
Длинный контекст с reasoning — Gemini 2.x Pro держит 2M tokens.
Vision + reasoning — Claude Sonnet 4.5 / GPT-4o выдают стабильно лучше, чем Qwen2-VL.
Tool use / function calling — у closed-моделей он более надёжен «из коробки».
Готовый Constitutional AI / safety — встроенная модерация.

Минусы:

Цена в 3-10× выше open-source.
Доступ из РФ напрямую не работает (нужен прокси/VPN).
Vendor lock-in на их формат API (хотя многие копируют OpenAI-format).
Нет fine-tuning или ограничен (LoRA-tuning есть у OpenAI, но дорого).
Чёрный ящик — нет понимания, что внутри.

Когда брать open-source

Цена решает — массовая classification, summarization, простой chatbot.
Регуляторика — нужно self-host или РФ-резидент-managed.
Fine-tuning — нужна доменная модель (юр-документы, медицина, поддержка).
Контроль — нужно знать, что модель не «дрифтует» между версиями.
Privacy — данные клиентов нельзя слать в OpenAI.

Топ open-source на 2026:

LLaMA 3.3 70B Instruct — универсал, RU/EN, отличный baseline.
Qwen 2.5 72B — лучше LLaMA на code и multi-lingual.
DeepSeek V3 (671B MoE, активно 37B) — открытый ответ GPT-4o уровню, дешевле.
DeepSeek R1 — open-source reasoning, конкурент o1.
Mistral Large 2 — компактный 123B, хорош для tool-use.

Базовый API-вызов (OpenAI-format)

Большинство провайдеров (Together, Fireworks, Groq, vLLM, TGI) реализуют OpenAI-compatible API:

curl https://api.together.xyz/v1/chat/completions \
  -H "Authorization: Bearer $TOGETHER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Объясни паттерн CQRS в двух предложениях."}
    ],
    "max_tokens": 200,
    "temperature": 0.3
  }'

Это значит, что Python OpenAI SDK работает с любым OpenAI-compatible провайдером — нужно только сменить base_url:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.together.xyz/v1",
    api_key=os.environ["TOGETHER_API_KEY"],
)
resp = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "Hello"}],
)
print(resp.choices[0].message.content)

Это критично для архитектуры: пишите бизнес-логику против OpenAI-формата, провайдеров меняйте через env.

Параметры запроса

Параметр	Что делает	Типичные значения
`temperature`	Случайность	0.0 — детерминизм; 0.7 — креатив
`top_p`	Nucleus sampling	0.9 — стандарт
`max_tokens`	Максимум выходных токенов	200-2000
`frequency_penalty`	Штраф за повторение	0.0-0.5
`presence_penalty`	Штраф за уже упомянутое	0.0-0.5
`stop`	Stop-tokens	`["###", "END"]`
`stream`	Streaming response (chunks)	true для UI
`response_format`	Force JSON output (если поддерживается)	`{"type": "json_object"}`
`tools`	Function calling schemas	OpenAI tools spec

Streaming

Streaming критически важен для UI: пользователь видит ответ по мере генерации, а не ждёт 30 секунд.

stream = client.chat.completions.create(
    model="...",
    messages=[...],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

В n8n / Make.com streaming не поддерживается — там используют обычный non-streaming. В Web/Mobile UI обязательно streaming.

Tool use / function calling

Все современные LLM умеют вызывать «инструменты»:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get weather for a city",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "units": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }
}]

resp = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "Какая погода в Москве?"}],
    tools=tools,
    tool_choice="auto",
)

Если модель решила вызвать tool, resp.choices[0].message.tool_calls будет содержать вызов. Вы исполняете его, шлёте обратно как role: "tool" сообщение, получаете финальный ответ.

Качество tool-use:

OpenAI, Anthropic — топ, почти не ошибаются.
LLaMA 3.3 70B, Qwen 2.5 72B — хорошо, но иногда «фантазируют» tool calls.
Маленькие модели (7B-14B) — нестабильно, нужно prompt-инжиниринг.

Структурированный вывод

Когда от LLM нужен строго JSON:

resp = client.chat.completions.create(
    model="...",
    messages=[{"role": "user", "content": "Extract: name, email, phone from..."}],
    response_format={"type": "json_object"},
)
data = json.loads(resp.choices[0].message.content)

Или через schema-constrained generation (Together, vLLM поддерживают):

response_format={
    "type": "json_schema",
    "json_schema": {
        "schema": {
            "type": "object",
            "properties": {
                "name": {"type": "string"},
                "email": {"type": "string", "format": "email"}
            },
            "required": ["name", "email"]
        }
    }
}

Это гарантирует валидный JSON — vLLM/SGLang constrains generation на уровне токенов.

Стоимость (порядок величин на 2026)

Модель	Input $/1M tok	Output $/1M tok
OpenAI gpt-4o	$2.50	$10.00
OpenAI gpt-4o-mini	$0.15	$0.60
OpenAI o3-mini	$1.10	$4.40
Anthropic Claude Sonnet 4.5	$3.00	$15.00
Anthropic Claude Haiku	$0.80	$4.00
LLaMA 3.3 70B (Together)	$0.88	$0.88
LLaMA 3.3 70B (Groq, LPU-fast)	$0.59	$0.79
Qwen 2.5 72B (Together)	$0.90	$0.90
DeepSeek V3 (own API)	$0.27	$1.10
Mistral Large 2 (Mistral API)	$2.00	$6.00

Тренд: open-source через managed-провайдеров приближается к 1$/M output. Closed-source держится в районе 5-15$/M output, но качество на сложных задачах ещё ощутимо выше.

Доступ из России

OpenAI / Anthropic — официально нет. Реально работают через VPN/прокси, но это серая зона, не для критичного prod.
Open-source через российских managed — gpupool, MWS, Yandex DataSphere. Латентность ниже, рублёвая оплата, ФЗ-152 совместимость.
Together AI / Fireworks / Groq — формально open, но платежи из РФ затруднены.
Self-host через российские GPU-облака — A100/H100 у Selectel, MWS. Сами поднимаете vLLM/TGI, своя инфра.

Production-чеклист

OpenAI-compatible API — пишете против стандартного формата.
Streaming для UI, non-streaming для batch.
Retry с exponential backoff (5s/15s/45s, max 3 попытки).
Rate limit на ваш API перед вызовом LLM (защита от runaway).
Логирование промптов и ответов с timestamp и user_id (хотя бы для отладки).
PII-фильтрация перед отправкой в чужой LLM (если регуляторика требует).
Стоимость per-request в дашборде, алерт на аномальные пики.
Fallback: если основной LLM упал, переключение на резерв.

Что почитать дальше

vLLM как сервис — self-host серверный LLM-фреймворк.
LLaMA в облаке — где взять LLaMA API, цены.
GPU для LLM — расчёт VRAM по размеру модели.
Хостинг open-source LLM — обзор managed-провайдеров.
Стоимость self-hosted LLM — расчёт TCO vs managed API.

Частые вопросы

OpenAI vs open-source — что выбрать?

OpenAI/Anthropic — для топового качества и сложных задач (рассуждения, код). Open-source — для предсказуемых задач, контроля цены, fine-tuning под домен.

Какие open-source LLM лучшие в 2026?

LLaMA 3.x 70B — универсал. Qwen 2.5 — топ для multi-lingual и кода. Mistral Large — компактные модели. DeepSeek V3 — открытый аналог GPT-4o.

Можно ли использовать LLM API из России?

OpenAI/Anthropic — официально нет, но через прокси/VPN. Open-source через российских провайдеров (gpupool, mws-cloud) — да, легитимно.

Сколько стоит LLM API?

OpenAI gpt-4o — ~$2.5/1M input tokens. Open-source 70B на managed — $0.5-1.5/1M. Self-hosted — only railroad cost.