H100 vs A100 vs RTX 4090: какая GPU для какой задачи в 2026
Разбираем на реальных бенчмарках: на чём обучать Llama 70B, на чём делать инференс, а где хватит одного игрового 4090. С ценами аренды, TFLOPS и честными цифрами tokens/sec.
H100 — только для обучения и тяжёлого инференса LLM от 70B параметров: 80 GB HBM3, 989 TFLOPS FP16, NVLink 900 GB/s, но аренда $2.5–4/час. A100 — универсальная рабочая лошадка: 80 GB HBM2e, тот же NVLink, в 2–3 раза дешевле H100, идёт на файнтюн и продакшн-инференс до 30B. RTX 4090 — для инференса моделей до 13B в 4-bit, генерации изображений (SD, Flux) и домашнего эксперимента: 24 GB, нет NVLink, нет поддержки в AWS/Azure, но $0.3–0.7/час в арендных сервисах. Всё, что больше 70B — только H100/A100 multi-GPU.
Каждую неделю кто-то в чате спрашивает: «Ребята, хочу фаинтюнить свою Llama, что взять — H100 или 4090?» Через пять минут выясняется, что модель 8B, датасет 2000 строк, а бюджет на аренду — 3 тысячи рублей. Тут явно не H100 нужна.
Проблема в том, что выбор GPU под AI — это не про «кто быстрее». Это про то, на какую модель хватит VRAM, удастся ли туда впихнуть нужный batch, потребуется ли NVLink, и сколько вы готовы платить за час. Разберёмся по делу — без маркетинга NVIDIA и без хайпа из Twitter.
Коротко: кто для чего
| Задача | Оптимальная карта | Почему |
|---|---|---|
| Обучение LLM от 70B с нуля | H100 SXM × 8+ | Transformer Engine с FP8, NVLink 900 GB/s для параллелизма |
| Fine-tune 7–13B | A100 80GB × 1–2 | Хватает памяти, дёшево, стабильно |
| Fine-tune 30–70B (LoRA) | A100 80GB × 2–4 или H100 × 2 | Нужен NVLink для tensor parallelism |
| Инференс LLM 70B в FP16 | H100 × 2 или A100 × 4 | Памяти меньше 140 GB — не запустится |
| Инференс LLM 13B в 4-bit | RTX 4090 | 24 GB хватает, задержка ниже |
| Генерация изображений (SD, Flux) | RTX 4090 | Быстрее A100 на батчах до 4, дешевле H100 |
| Обучение диффузии с нуля | A100 80GB / H100 | Нужен VRAM и hi-bandwidth |
| Видеогенерация (Veo, Sora-like) | H100 × 8 | Иначе OOM на кадровых батчах |
| Learning / эксперименты дома | RTX 4090 или 3090 | Купил раз и забыл |
Дальше — объяснение, откуда эти рекомендации.
Что на самом деле важно в GPU для AI
Большинство сравнивает карты по TFLOPS и CUDA cores. Это почти бесполезно. Реально важно вот что, по приоритету:
1. Объём VRAM
Это жёсткий порог. Если модель не помещается в память — она не запустится вообще. Не «будет медленно» — просто CUDA out of memory и всё.
Грубая прикидка, сколько VRAM нужно на инференс LLM:
VRAM (GB) ≈ параметры × 2 байта (FP16)
7B модель → 14 GB (влезет в RTX 4090 24 GB с запасом)
13B модель → 26 GB (в 4090 только в 4-bit, в A100 свободно)
30B модель → 60 GB (только A100 80GB / H100)
70B модель → 140 GB (два A100 80GB минимум)
175B → 350 GB (4 × H100 80GB)
Для обучения и fine-tune умножайте на 3–4× — из-за оптимизатора (Adam), градиентов и активаций. То есть fine-tune 13B модели честно требует ~80 GB. С хитрыми трюками типа LoRA, ZeRO-3, gradient checkpointing — можно влезть в 24 GB, но скорость упадёт в 3–5 раз.
Квантизация меняет эту математику. 4-bit модель весит в 4 раза меньше FP16 → Llama 70B в 4-bit занимает ~40 GB, которые помещаются в одну H100 или A100 80GB. Качество падает на 1–3% по бенчмаркам, что для большинства продакшн-задач допустимо.
2. Memory bandwidth
Для LLM-инференса это узкое горлышко №1. Модель считает не потому, что CUDA-ядра медленные, а потому что веса нужно каждый раз тащить из памяти в ядра. Чем быстрее memory bandwidth — тем больше токенов в секунду.
| GPU | Bandwidth |
|---|---|
| H100 SXM | 3,35 TB/s (HBM3) |
| H100 PCIe | 2 TB/s (HBM3) |
| A100 SXM 80GB | 2 TB/s (HBM2e) |
| A100 PCIe 80GB | 1,9 TB/s (HBM2e) |
| RTX 4090 | 1 TB/s (GDDR6X) |
Видно, что H100 втрое быстрее 4090 именно на memory bandwidth — это главная причина, почему H100 так рвёт в LLM-инференсе на больших моделях.
3. Tensor cores и поддержка форматов
Разные поколения тензорных ядер умеют разное:
- A100 (3-е поколение): FP16, BF16, TF32, INT8
- H100 (4-е поколение + Transformer Engine): + FP8 — это в 2 раза ускоряет LLM-инференс и обучение против FP16
- RTX 4090 (4-е поколение): FP16, BF16, INT8, но урезанный sparsity acceleration
Transformer Engine на H100 — это не просто маркетинг. Реально даёт ускорение обучения Llama-подобных моделей в 1,5–2 раза против A100 при том же размере кластера.
4. Межгу-сное соединение (NVLink / PCIe)
Когда карта одна — это неважно. Когда их 2+ и вы делаете tensor parallelism (раскладываете один слой нейронки на несколько GPU) — это критично.
| Соединение | Bandwidth между GPU |
|---|---|
| NVLink 4 (H100 SXM) | 900 GB/s |
| NVLink 3 (A100 SXM) | 600 GB/s |
| PCIe 5.0 ×16 | 128 GB/s |
| PCIe 4.0 ×16 | 64 GB/s |
RTX 4090 физически не имеет NVLink — NVIDIA урезала его в потребительской серии ещё в поколении Ada Lovelace. Это значит, что multi-GPU на 4090 работает только через PCIe — в 7–14 раз медленнее, чем на A100/H100. Для inference это терпимо, для training 30B+ моделей — практически неприемлемо.
5. Цена
Покупка + аренда в апреле 2026:
| GPU | Покупка (новая) | Аренда (мировой рынок) | Аренда (РФ, Selectel/Yandex) |
|---|---|---|---|
| H100 SXM 80GB | ~$27 000 | $2,50–4,00/час | 380–580 ₽/час |
| H100 PCIe 80GB | ~$22 000 | $2,00–3,20/час | 320–490 ₽/час |
| A100 SXM 80GB | ~$14 000 | $1,30–2,10/час | 230–340 ₽/час |
| A100 PCIe 80GB | ~$10 000 | $1,10–1,80/час | 200–290 ₽/час |
| A100 40GB | ~$7 500 | $0,80–1,40/час | 160–220 ₽/час |
| RTX 4090 | ~$2 000 | $0,30–0,70/час (Vast, RunPod) | 120–180 ₽/час |
| RTX 3090 | б/у $700 | $0,20–0,40/час | 80–120 ₽/час |
Заметьте — H100 в среднем в 2 раза дороже A100 и в 5–8 раз дороже 4090. Окупается только если разница в производительности оправдывает эту премию для вашей задачи.
H100: когда это правда нужно
H100 — это не «быстрая A100». Это карта, созданная под конкретные сценарии, где всё остальное просто не работает.
Обучение моделей от 70B
Если вы — OpenAI / Meta / Anthropic и тренируете frontier-модели на триллионах токенов, вам нужен кластер из сотен H100 SXM с NVLink и InfiniBand 400 Gbps. Transformer Engine с FP8 даёт прирост 1,7–2× против A100, и в масштабе на миллионах GPU-часов это экономит десятки миллионов долларов.
Для «обычного» бизнеса, который хочет fine-tune Llama 70B на своих 100K примеров — H100 избыточна. Lora на A100 × 4 закроет эту задачу за ту же ночь, дешевле в 2,5 раза.
Инференс LLM 70B+ в продакшене
Когда у вас сервис, который отдаёт токены пользователям в реальном времени с SLA по latency, H100 даёт ощутимый прирост:
- Llama 70B FP16: H100 SXM выдаёт ~2 847 tok/s на батче 8 против 1 184 tok/s у A100 SXM
- Llama 405B в 4-bit: на H100 × 4 реально запустить с приемлемой задержкой, на A100 — уже впритык
Но тут есть нюанс: цена за 1 млн токенов почти та же. H100 в 2,4× быстрее, но и в 2× дороже. Экономически это wash — выбирают H100 там, где нужна именно низкая задержка под пользователя, а не общая пропускная способность.
Обучение видеомоделей и диффузий
Современные модели видеогенерации (Veo, Sora, Kling) — это по сути большие диффузионные трансформеры с очень толстыми активациями. На A100 они либо не влезают, либо требуют gradient checkpointing с катастрофическим замедлением. H100 80GB + FP8 делает обучение реальным.
Когда H100 — переплата
- Обучение моделей до 13B — A100 справится, экономия в 2–3 раза
- Инференс моделей до 30B — A100 или 4090 в 4-bit дешевле и по TPS достаточно
- Генерация картинок — 4090 часто быстрее H100 на малых батчах, в 10 раз дешевле
- Академические эксперименты — учёба на H100 как стрельба из гаубицы по голубям
A100: самая практичная карта в 2026
Вопреки хайпу вокруг H100, A100 остаётся рабочей лошадкой продакшн-инференса в большинстве компаний. Она вышла в 2020 году, в 2026 всё ещё отлично справляется и стоит в 2 раза дешевле H100 в аренде.
Сценарии, где A100 оптимальна
- Fine-tune моделей 7–30B — всё влезает в 80GB, LoRA/QLoRA, стабильность CUDA-стека
- Продакшн-инференс 7–70B — 2× A100 80GB с NVLink крутят Llama 70B в 4-bit с хорошей задержкой
- Embeddings и батч-обработка — когда важна пропускная способность за рубль, а не latency
- RAG-системы — обычно LLM + encoder + reranker: 3 модели одновременно на одной A100
- Обучение кастомных диффузий — SD-fine-tune, LoRA для картинок
Экономика
На практике при переходе на A100 в продакшене решение принимается так:
Стоимость инференса:
- H100 SXM: $2,80/час × ~2 847 tok/s = $0,29/1M токенов
- A100 SXM: $1,30/час × ~1 184 tok/s = $0,31/1M токенов
- RTX 4090: $0,40/час × ~290 tok/s = $0,38/1M токенов (с ограничениями)
При одинаковом TPS/$ выбирают тот, где проще доступ
и где не сломается квантизация — это почти всегда A100.
40GB vs 80GB — важно ли
Для моделей до 13B FP16 / до 30B в 4-bit хватает 40GB. Для Llama 70B — только 80GB, иначе не запустится. В аренде 80GB дороже на 30–40%, но даёт существенно больше гибкости — почти всегда берут 80GB.
RTX 4090: когда это правильный выбор
Это любимая карта реддит-энтузиастов — и тому есть причины. Если задача подходит, 4090 по соотношению цена/производительность разрывает и A100, и H100.
Реально хорошо на 4090
- Инференс LLM до 13B в 4-bit — Llama 13B, Qwen 14B, Mistral 22B (в 4-bit) бегут с задержкой ниже, чем на A100, и в 3–5 раз дешевле
- Stable Diffusion и Flux — на батче 1–4 изображений 4090 быстрее A100 за счёт высокой тактовой частоты и 4-го поколения tensor cores. На большом батче A100 догоняет, на очень большом — обгоняет
- LoRA-тренинг малых моделей — 7B LoRA на 100K примеров влезает в 4090, обучается за ночь
- Разработка и прототипирование — пока не упёрлись в память, на 4090 удобно и дёшево
- Whisper, TTS, ASR — модели до 3B, реалтайм нужен — 4090 идеально
- Домашний AI-сервер — собрал один раз в ПК, окупается за 3–6 месяцев против аренды
Проблемы с 4090
- Нет NVLink — multi-GPU масштабирование плохое. Tensor parallelism через PCIe работает, но теряет 30–60% скорости на каждом шаге коммуникации.
- Нет поддержки в крупных облаках — AWS, Azure, GCP, Yandex Cloud не предлагают 4090. Только специализированные сервисы вроде Vast.ai, RunPod, LambdaLabs, Novita.
- Драйверы и ECC — потребительская карта, нет error-correcting memory. При длительном обучении иногда ловит тихую порчу весов (rare, но случается).
- Нет SR-IOV / MIG — карта не шарится между пользователями, всегда выделяется целиком.
- NVIDIA license для дата-центров — NVIDIA формально запрещает коммерческое использование GeForce в дата-центрах с 2018 года (EULA). На практике все делают вид, что не знают. Юридический риск для крупных бизнесов.
Если вы делаете серьёзный коммерческий продукт — инференс в облаке под клиентов на условиях SLA — берите A100 или H100. RTX 4090 — это для экспериментов, внутренних инструментов, разработки и инференса «на своём железе». В корпоративном облаке таким картам не место.
Multi-4090 rigs — да или нет
Это популярная схема у небольших стартапов: собрать сервер на 4–8 × RTX 4090 вместо одного A100/H100. Выглядит выгодно на бумаге:
1× A100 80GB аренда: ~$1,30/час
4× 4090 24GB = 96 GB суммарно: ~$1,60/час (дома: $0)
Пропускная способность 4090 × 4 ≈ 1 × A100 на малых моделях
Но: на 70B модели 4090×4 работает в 2–3 раза медленнее A100
из-за отсутствия NVLink. Tensor parallelism бьётся о PCIe.
Вывод: для инференса моделей, которые помещаются в 24 GB, 4×4090 — рабочая схема. Для моделей 70B+ и для обучения — нет, лучше 1×A100 80GB.
Выбор под конкретную задачу — пошагово
Практический алгоритм, как принять решение:
Шаг 1. Определите размер модели
Модель в параметрах → минимальный VRAM для вашего сценария:
Только инференс FP16: 2 × P (миллиарды параметров) GB
Только инференс 4-bit: 0,5 × P GB
Fine-tune FP16 (LoRA): 4 × P GB (если r=16, alpha=32)
Fine-tune FP16 (full): 16 × P GB (Adam optimizer, gradients)
Training from scratch: 20 × P GB (с буфером)
Пример для Llama 13B (P=13):
- Инференс FP16 → 26 GB → только A100 или 4090 (в 4-bit)
- LoRA fine-tune → 52 GB → A100 80GB
- Full fine-tune → 208 GB → A100 × 3 или H100 × 3
Шаг 2. Оцените нужный throughput
Сколько токенов в секунду нужно под нагрузку?
- < 100 tok/s → любая карта справится, берите самую дешёвую
- 100–500 tok/s → A100 оптимально
- 500+ tok/s с низкой задержкой → H100
Шаг 3. Нужна ли параллелизация
Если модель в одну карту не влезает:
- 2–4 GPU → SXM-версии A100/H100 с NVLink, не 4090
- 8+ GPU → H100 SXM с InfiniBand, иначе коммуникация съест производительность
Шаг 4. Бюджет и формат
- Краткосрочный эксперимент, 1–2 недели → аренда в Vast.ai / RunPod / Novita
- Регулярное использование 50%+ месяца → Selectel / Yandex / Cloud.ru (закрывающие документы в РФ)
- Постоянная 24/7 нагрузка → считайте окупаемость покупки. H100 окупается за 8–14 месяцев при аренде $3/час.
GPU под вашу задачу — без лицензии и CUDA
Выбираем A100 или H100 под ваш workload, разворачиваем модель, отдаём готовый API. Оплата в рублях, закрывающие документы, SLA 99.9%.
Что с B100 / B200 и H200
Blackwell (B100/B200) и H200 — новое поколение, которое массово появилось в 2024–2025. Стоит ли ждать или брать?
H200 (Hopper refresh, конец 2023)
- 141 GB HBM3e (вместо 80 GB у H100)
- 4,8 TB/s bandwidth (vs 3,35 у H100)
- Та же архитектура, те же TFLOPS
На инференсе больших моделей — ~1,8× быстрее H100 просто за счёт памяти. Если вы крутите 70B+ в продакшене — H200 реально окупается. В аренде пока дороже H100 на 30–40%.
B100 / B200 (Blackwell, 2024–2025)
- 192 GB HBM3e
- FP4 tensor cores — ещё один шаг после FP8
- ~2× производительности H100 на LLM-обучении
На апрель 2026 Blackwell только-только появился в коммерческих облаках (AWS, CoreWeave). В России — пока единичные поставки. Аренда начинается от $5/час, окупается только для frontier-тренинга.
GB200 / Grace Hopper — для гипермасштабных сценариев
Это суперчипы, которые Nvidia собирает в системы DGX GH200 — десятки тысяч GPU с когерентной памятью. Для обычного бизнеса нерелевантно, релевантно только OpenAI / Anthropic / xAI.
В 2026 правило простое: если у вас задача уровня «обучить Llama 13B LoRA» — H100/A100 хватит с запасом. B100 и GB200 актуальны только если вы тренируете модели на триллионах параметров или обслуживаете инференс сотен миллионов запросов в день.
Лайфхаки, которые экономят GPU-часы
Квантизация до 4-bit
Через bitsandbytes или llama.cpp — уменьшает модель в 4 раза без заметной потери качества. Llama 70B в 4-bit: 40 GB → помещается в одну H100 или A100 80GB.
Flash Attention 3
На H100 — ускоряет внимание в 1,5–2×. На A100 — Flash Attention 2 даёт ~1,3× ускорения. Включайте всегда — нет причин не использовать.
vLLM / TGI / SGLang вместо HuggingFace Transformers
Обычный model.generate() в transformers использует GPU процентов на 30–40. vLLM с PagedAttention — до 80–90%. Тот же H100 с vLLM = 2× производительности.
Continuous batching
Если у вас много параллельных пользователей — continuous batching (он же dynamic batching) в vLLM/TGI даёт ещё 2–3× к throughput. Основное, что отличает продакшн-инференс от лаборатории.
Speculative decoding
Небольшая модель генерирует драфты, большая верифицирует — 1,5–3× ускорение без потери качества. Работает на всех картах, но особенно хорошо на H100 с FP8.
Чек-лист перед арендой GPU
Пройдитесь до того, как нажали «запустить»:
- Определили размер модели в параметрах и прикинули VRAM с буфером ×1,5
- Решили, нужен ли multi-GPU (для 30B+ и фаинтюна — скорее да)
- Если multi-GPU — точно взяли SXM-вариант с NVLink, а не PCIe без него
- Проверили драйвер и CUDA toolkit в образе (CUDA 12.4+ для H100, 12.1+ для A100)
- Есть ли Flash Attention в вашем стеке — это бесплатное ускорение
- Сравнили vLLM / TGI / SGLang вместо наивного inference — обычно +2× производительности
- Ведётся ли учёт токенов и затрат — без мониторинга легко сжечь 100k за ночь
- У провайдера аренды есть документы на РФ-юрлицо, если это продакшн
- Автостоп по idle — чтобы не платить за простой после завершения джобы
Итого
Выбор GPU для AI в 2026 стал проще, потому что рынок устаканился: H100 для тяжёлых продакшн-нагрузок и обучения больших моделей, A100 для всего среднего и универсального, RTX 4090 для инференса небольших моделей и домашних экспериментов. Blackwell и H200 пока оставим frontier-лабораториям — для подавляющего большинства задач они переплата.
Главное правило: не берите карту мощнее, чем нужно задаче. H100 не ускорит тренировку 7B модели в 5 раз — упор не в железо, а в data loader, алгоритм, batch size и CUDA kernels. Для экспериментов берите 4090, для продакшена — A100, для frontier-работы — H100. Всё остальное — маркетинг.
AI-инференс и обучение на наших мощностях
H100, A100, RTX-кластеры в РФ. Готовый OpenAI-совместимый API за 24 часа или выделенная виртуалка под ваш workload. Автоскейлинг, SLA 99.9%, оплата в рублях.