AI-мощности·14 мин·24 апреля 2026

H100 vs A100 vs RTX 4090: какая GPU для какой задачи в 2026

Разбираем на реальных бенчмарках: на чём обучать Llama 70B, на чём делать инференс, а где хватит одного игрового 4090. С ценами аренды, TFLOPS и честными цифрами tokens/sec.

Команда autollab

H100 vs A100 vs RTX 4090: какая GPU для какой задачи в 2026

Коротко

H100 — только для обучения и тяжёлого инференса LLM от 70B параметров: 80 GB HBM3, 989 TFLOPS FP16, NVLink 900 GB/s, но аренда $2.5–4/час. A100 — универсальная рабочая лошадка: 80 GB HBM2e, тот же NVLink, в 2–3 раза дешевле H100, идёт на файнтюн и продакшн-инференс до 30B. RTX 4090 — для инференса моделей до 13B в 4-bit, генерации изображений (SD, Flux) и домашнего эксперимента: 24 GB, нет NVLink, нет поддержки в AWS/Azure, но $0.3–0.7/час в арендных сервисах. Всё, что больше 70B — только H100/A100 multi-GPU.

Каждую неделю кто-то в чате спрашивает: «Ребята, хочу фаинтюнить свою Llama, что взять — H100 или 4090?» Через пять минут выясняется, что модель 8B, датасет 2000 строк, а бюджет на аренду — 3 тысячи рублей. Тут явно не H100 нужна.

Проблема в том, что выбор GPU под AI — это не про «кто быстрее». Это про то, на какую модель хватит VRAM, удастся ли туда впихнуть нужный batch, потребуется ли NVLink, и сколько вы готовы платить за час. Разберёмся по делу — без маркетинга NVIDIA и без хайпа из Twitter.

Коротко: кто для чего

Задача	Оптимальная карта	Почему
Обучение LLM от 70B с нуля	H100 SXM × 8+	Transformer Engine с FP8, NVLink 900 GB/s для параллелизма
Fine-tune 7–13B	A100 80GB × 1–2	Хватает памяти, дёшево, стабильно
Fine-tune 30–70B (LoRA)	A100 80GB × 2–4 или H100 × 2	Нужен NVLink для tensor parallelism
Инференс LLM 70B в FP16	H100 × 2 или A100 × 4	Памяти меньше 140 GB — не запустится
Инференс LLM 13B в 4-bit	RTX 4090	24 GB хватает, задержка ниже
Генерация изображений (SD, Flux)	RTX 4090	Быстрее A100 на батчах до 4, дешевле H100
Обучение диффузии с нуля	A100 80GB / H100	Нужен VRAM и hi-bandwidth
Видеогенерация (Veo, Sora-like)	H100 × 8	Иначе OOM на кадровых батчах
Learning / эксперименты дома	RTX 4090 или 3090	Купил раз и забыл

Дальше — объяснение, откуда эти рекомендации.

Что на самом деле важно в GPU для AI

Большинство сравнивает карты по TFLOPS и CUDA cores. Это почти бесполезно. Реально важно вот что, по приоритету:

1. Объём VRAM

Это жёсткий порог. Если модель не помещается в память — она не запустится вообще. Не «будет медленно» — просто CUDA out of memory и всё.

Грубая прикидка, сколько VRAM нужно на инференс LLM:

VRAM (GB) ≈ параметры × 2 байта (FP16)

7B модель  → 14 GB   (влезет в RTX 4090 24 GB с запасом)
13B модель → 26 GB   (в 4090 только в 4-bit, в A100 свободно)
30B модель → 60 GB   (только A100 80GB / H100)
70B модель → 140 GB  (два A100 80GB минимум)
175B       → 350 GB  (4 × H100 80GB)

Для обучения и fine-tune умножайте на 3–4× — из-за оптимизатора (Adam), градиентов и активаций. То есть fine-tune 13B модели честно требует ~80 GB. С хитрыми трюками типа LoRA, ZeRO-3, gradient checkpointing — можно влезть в 24 GB, но скорость упадёт в 3–5 раз.

Квантизация меняет эту математику. 4-bit модель весит в 4 раза меньше FP16 → Llama 70B в 4-bit занимает ~40 GB, которые помещаются в одну H100 или A100 80GB. Качество падает на 1–3% по бенчмаркам, что для большинства продакшн-задач допустимо.

2. Memory bandwidth

Для LLM-инференса это узкое горлышко №1. Модель считает не потому, что CUDA-ядра медленные, а потому что веса нужно каждый раз тащить из памяти в ядра. Чем быстрее memory bandwidth — тем больше токенов в секунду.

GPU	Bandwidth
H100 SXM	3,35 TB/s (HBM3)
H100 PCIe	2 TB/s (HBM3)
A100 SXM 80GB	2 TB/s (HBM2e)
A100 PCIe 80GB	1,9 TB/s (HBM2e)
RTX 4090	1 TB/s (GDDR6X)

Видно, что H100 втрое быстрее 4090 именно на memory bandwidth — это главная причина, почему H100 так рвёт в LLM-инференсе на больших моделях.

3. Tensor cores и поддержка форматов

Разные поколения тензорных ядер умеют разное:

A100 (3-е поколение): FP16, BF16, TF32, INT8
H100 (4-е поколение + Transformer Engine): + FP8 — это в 2 раза ускоряет LLM-инференс и обучение против FP16
RTX 4090 (4-е поколение): FP16, BF16, INT8, но урезанный sparsity acceleration

Transformer Engine на H100 — это не просто маркетинг. Реально даёт ускорение обучения Llama-подобных моделей в 1,5–2 раза против A100 при том же размере кластера.

4. Межгу-сное соединение (NVLink / PCIe)

Когда карта одна — это неважно. Когда их 2+ и вы делаете tensor parallelism (раскладываете один слой нейронки на несколько GPU) — это критично.

Соединение	Bandwidth между GPU
NVLink 4 (H100 SXM)	900 GB/s
NVLink 3 (A100 SXM)	600 GB/s
PCIe 5.0 ×16	128 GB/s
PCIe 4.0 ×16	64 GB/s

RTX 4090 физически не имеет NVLink — NVIDIA урезала его в потребительской серии ещё в поколении Ada Lovelace. Это значит, что multi-GPU на 4090 работает только через PCIe — в 7–14 раз медленнее, чем на A100/H100. Для inference это терпимо, для training 30B+ моделей — практически неприемлемо.

5. Цена

Покупка + аренда в апреле 2026:

GPU	Покупка (новая)	Аренда (мировой рынок)	Аренда (РФ, Selectel/Yandex)
H100 SXM 80GB	~$27 000	$2,50–4,00/час	380–580 ₽/час
H100 PCIe 80GB	~$22 000	$2,00–3,20/час	320–490 ₽/час
A100 SXM 80GB	~$14 000	$1,30–2,10/час	230–340 ₽/час
A100 PCIe 80GB	~$10 000	$1,10–1,80/час	200–290 ₽/час
A100 40GB	~$7 500	$0,80–1,40/час	160–220 ₽/час
RTX 4090	~$2 000	$0,30–0,70/час (Vast, RunPod)	120–180 ₽/час
RTX 3090	б/у $700	$0,20–0,40/час	80–120 ₽/час

Заметьте — H100 в среднем в 2 раза дороже A100 и в 5–8 раз дороже 4090. Окупается только если разница в производительности оправдывает эту премию для вашей задачи.

80 GB

HBM3 у H100

3,35 TB/s

memory bandwidth H100

24 GB

GDDR6X у RTX 4090

5×

цена H100 против 4090

H100: когда это правда нужно

H100 — это не «быстрая A100». Это карта, созданная под конкретные сценарии, где всё остальное просто не работает.

Обучение моделей от 70B

Если вы — OpenAI / Meta / Anthropic и тренируете frontier-модели на триллионах токенов, вам нужен кластер из сотен H100 SXM с NVLink и InfiniBand 400 Gbps. Transformer Engine с FP8 даёт прирост 1,7–2× против A100, и в масштабе на миллионах GPU-часов это экономит десятки миллионов долларов.

Для «обычного» бизнеса, который хочет fine-tune Llama 70B на своих 100K примеров — H100 избыточна. Lora на A100 × 4 закроет эту задачу за ту же ночь, дешевле в 2,5 раза.

Инференс LLM 70B+ в продакшене

Когда у вас сервис, который отдаёт токены пользователям в реальном времени с SLA по latency, H100 даёт ощутимый прирост:

Llama 70B FP16: H100 SXM выдаёт ~2 847 tok/s на батче 8 против 1 184 tok/s у A100 SXM
Llama 405B в 4-bit: на H100 × 4 реально запустить с приемлемой задержкой, на A100 — уже впритык

Но тут есть нюанс: цена за 1 млн токенов почти та же. H100 в 2,4× быстрее, но и в 2× дороже. Экономически это wash — выбирают H100 там, где нужна именно низкая задержка под пользователя, а не общая пропускная способность.

Обучение видеомоделей и диффузий

Современные модели видеогенерации (Veo, Sora, Kling) — это по сути большие диффузионные трансформеры с очень толстыми активациями. На A100 они либо не влезают, либо требуют gradient checkpointing с катастрофическим замедлением. H100 80GB + FP8 делает обучение реальным.

Когда H100 — переплата

Обучение моделей до 13B — A100 справится, экономия в 2–3 раза
Инференс моделей до 30B — A100 или 4090 в 4-bit дешевле и по TPS достаточно
Генерация картинок — 4090 часто быстрее H100 на малых батчах, в 10 раз дешевле
Академические эксперименты — учёба на H100 как стрельба из гаубицы по голубям

A100: самая практичная карта в 2026

Вопреки хайпу вокруг H100, A100 остаётся рабочей лошадкой продакшн-инференса в большинстве компаний. Она вышла в 2020 году, в 2026 всё ещё отлично справляется и стоит в 2 раза дешевле H100 в аренде.

Сценарии, где A100 оптимальна

Fine-tune моделей 7–30B — всё влезает в 80GB, LoRA/QLoRA, стабильность CUDA-стека
Продакшн-инференс 7–70B — 2× A100 80GB с NVLink крутят Llama 70B в 4-bit с хорошей задержкой
Embeddings и батч-обработка — когда важна пропускная способность за рубль, а не latency
RAG-системы — обычно LLM + encoder + reranker: 3 модели одновременно на одной A100
Обучение кастомных диффузий — SD-fine-tune, LoRA для картинок

Экономика

На практике при переходе на A100 в продакшене решение принимается так:

Стоимость инференса:
- H100 SXM: $2,80/час × ~2 847 tok/s = $0,29/1M токенов
- A100 SXM: $1,30/час × ~1 184 tok/s = $0,31/1M токенов  
- RTX 4090: $0,40/час × ~290 tok/s = $0,38/1M токенов (с ограничениями)

При одинаковом TPS/$ выбирают тот, где проще доступ
и где не сломается квантизация — это почти всегда A100.

40GB vs 80GB — важно ли

Для моделей до 13B FP16 / до 30B в 4-bit хватает 40GB. Для Llama 70B — только 80GB, иначе не запустится. В аренде 80GB дороже на 30–40%, но даёт существенно больше гибкости — почти всегда берут 80GB.

RTX 4090: когда это правильный выбор

Это любимая карта реддит-энтузиастов — и тому есть причины. Если задача подходит, 4090 по соотношению цена/производительность разрывает и A100, и H100.

Реально хорошо на 4090

Инференс LLM до 13B в 4-bit — Llama 13B, Qwen 14B, Mistral 22B (в 4-bit) бегут с задержкой ниже, чем на A100, и в 3–5 раз дешевле
Stable Diffusion и Flux — на батче 1–4 изображений 4090 быстрее A100 за счёт высокой тактовой частоты и 4-го поколения tensor cores. На большом батче A100 догоняет, на очень большом — обгоняет
LoRA-тренинг малых моделей — 7B LoRA на 100K примеров влезает в 4090, обучается за ночь
Разработка и прототипирование — пока не упёрлись в память, на 4090 удобно и дёшево
Whisper, TTS, ASR — модели до 3B, реалтайм нужен — 4090 идеально
Домашний AI-сервер — собрал один раз в ПК, окупается за 3–6 месяцев против аренды

Проблемы с 4090

Нет NVLink — multi-GPU масштабирование плохое. Tensor parallelism через PCIe работает, но теряет 30–60% скорости на каждом шаге коммуникации.
Нет поддержки в крупных облаках — AWS, Azure, GCP, Yandex Cloud не предлагают 4090. Только специализированные сервисы вроде Vast.ai, RunPod, LambdaLabs, Novita.
Драйверы и ECC — потребительская карта, нет error-correcting memory. При длительном обучении иногда ловит тихую порчу весов (rare, но случается).
Нет SR-IOV / MIG — карта не шарится между пользователями, всегда выделяется целиком.
NVIDIA license для дата-центров — NVIDIA формально запрещает коммерческое использование GeForce в дата-центрах с 2018 года (EULA). На практике все делают вид, что не знают. Юридический риск для крупных бизнесов.

Если вы делаете серьёзный коммерческий продукт — инференс в облаке под клиентов на условиях SLA — берите A100 или H100. RTX 4090 — это для экспериментов, внутренних инструментов, разработки и инференса «на своём железе». В корпоративном облаке таким картам не место.

Multi-4090 rigs — да или нет

Это популярная схема у небольших стартапов: собрать сервер на 4–8 × RTX 4090 вместо одного A100/H100. Выглядит выгодно на бумаге:

1× A100 80GB аренда: ~$1,30/час
4× 4090 24GB = 96 GB суммарно: ~$1,60/час (дома: $0)

Пропускная способность 4090 × 4 ≈ 1 × A100 на малых моделях
Но: на 70B модели 4090×4 работает в 2–3 раза медленнее A100
из-за отсутствия NVLink. Tensor parallelism бьётся о PCIe.

Вывод: для инференса моделей, которые помещаются в 24 GB, 4×4090 — рабочая схема. Для моделей 70B+ и для обучения — нет, лучше 1×A100 80GB.

Выбор под конкретную задачу — пошагово

Практический алгоритм, как принять решение:

Шаг 1. Определите размер модели

Модель в параметрах → минимальный VRAM для вашего сценария:

Только инференс FP16:     2 × P (миллиарды параметров) GB
Только инференс 4-bit:    0,5 × P GB  
Fine-tune FP16 (LoRA):    4 × P GB (если r=16, alpha=32)
Fine-tune FP16 (full):    16 × P GB (Adam optimizer, gradients)
Training from scratch:    20 × P GB (с буфером)

Пример для Llama 13B (P=13):

Инференс FP16 → 26 GB → только A100 или 4090 (в 4-bit)
LoRA fine-tune → 52 GB → A100 80GB
Full fine-tune → 208 GB → A100 × 3 или H100 × 3

Шаг 2. Оцените нужный throughput

Сколько токенов в секунду нужно под нагрузку?

< 100 tok/s → любая карта справится, берите самую дешёвую
100–500 tok/s → A100 оптимально
500+ tok/s с низкой задержкой → H100

Шаг 3. Нужна ли параллелизация

Если модель в одну карту не влезает:

2–4 GPU → SXM-версии A100/H100 с NVLink, не 4090
8+ GPU → H100 SXM с InfiniBand, иначе коммуникация съест производительность

Шаг 4. Бюджет и формат

Краткосрочный эксперимент, 1–2 недели → аренда в Vast.ai / RunPod / Novita
Регулярное использование 50%+ месяца → Selectel / Yandex / Cloud.ru (закрывающие документы в РФ)
Постоянная 24/7 нагрузка → считайте окупаемость покупки. H100 окупается за 8–14 месяцев при аренде $3/час.

GPU под вашу задачу — без лицензии и CUDA

Выбираем A100 или H100 под ваш workload, разворачиваем модель, отдаём готовый API. Оплата в рублях, закрывающие документы, SLA 99.9%.

Посмотреть мощности

Что с B100 / B200 и H200

Blackwell (B100/B200) и H200 — новое поколение, которое массово появилось в 2024–2025. Стоит ли ждать или брать?

H200 (Hopper refresh, конец 2023)

141 GB HBM3e (вместо 80 GB у H100)
4,8 TB/s bandwidth (vs 3,35 у H100)
Та же архитектура, те же TFLOPS

На инференсе больших моделей — ~1,8× быстрее H100 просто за счёт памяти. Если вы крутите 70B+ в продакшене — H200 реально окупается. В аренде пока дороже H100 на 30–40%.

B100 / B200 (Blackwell, 2024–2025)

192 GB HBM3e
FP4 tensor cores — ещё один шаг после FP8
~2× производительности H100 на LLM-обучении

На апрель 2026 Blackwell только-только появился в коммерческих облаках (AWS, CoreWeave). В России — пока единичные поставки. Аренда начинается от $5/час, окупается только для frontier-тренинга.

GB200 / Grace Hopper — для гипермасштабных сценариев

Это суперчипы, которые Nvidia собирает в системы DGX GH200 — десятки тысяч GPU с когерентной памятью. Для обычного бизнеса нерелевантно, релевантно только OpenAI / Anthropic / xAI.

В 2026 правило простое: если у вас задача уровня «обучить Llama 13B LoRA» — H100/A100 хватит с запасом. B100 и GB200 актуальны только если вы тренируете модели на триллионах параметров или обслуживаете инференс сотен миллионов запросов в день.

Лайфхаки, которые экономят GPU-часы

Квантизация до 4-bit

Через bitsandbytes или llama.cpp — уменьшает модель в 4 раза без заметной потери качества. Llama 70B в 4-bit: 40 GB → помещается в одну H100 или A100 80GB.

Flash Attention 3

На H100 — ускоряет внимание в 1,5–2×. На A100 — Flash Attention 2 даёт ~1,3× ускорения. Включайте всегда — нет причин не использовать.

vLLM / TGI / SGLang вместо HuggingFace Transformers

Обычный model.generate() в transformers использует GPU процентов на 30–40. vLLM с PagedAttention — до 80–90%. Тот же H100 с vLLM = 2× производительности.

Continuous batching

Если у вас много параллельных пользователей — continuous batching (он же dynamic batching) в vLLM/TGI даёт ещё 2–3× к throughput. Основное, что отличает продакшн-инференс от лаборатории.

Speculative decoding

Небольшая модель генерирует драфты, большая верифицирует — 1,5–3× ускорение без потери качества. Работает на всех картах, но особенно хорошо на H100 с FP8.

Чек-лист перед арендой GPU

Пройдитесь до того, как нажали «запустить»:

Определили размер модели в параметрах и прикинули VRAM с буфером ×1,5
Решили, нужен ли multi-GPU (для 30B+ и фаинтюна — скорее да)
Если multi-GPU — точно взяли SXM-вариант с NVLink, а не PCIe без него
Проверили драйвер и CUDA toolkit в образе (CUDA 12.4+ для H100, 12.1+ для A100)
Есть ли Flash Attention в вашем стеке — это бесплатное ускорение
Сравнили vLLM / TGI / SGLang вместо наивного inference — обычно +2× производительности
Ведётся ли учёт токенов и затрат — без мониторинга легко сжечь 100k за ночь
У провайдера аренды есть документы на РФ-юрлицо, если это продакшн
Автостоп по idle — чтобы не платить за простой после завершения джобы

Итого

Выбор GPU для AI в 2026 стал проще, потому что рынок устаканился: H100 для тяжёлых продакшн-нагрузок и обучения больших моделей, A100 для всего среднего и универсального, RTX 4090 для инференса небольших моделей и домашних экспериментов. Blackwell и H200 пока оставим frontier-лабораториям — для подавляющего большинства задач они переплата.

Главное правило: не берите карту мощнее, чем нужно задаче. H100 не ускорит тренировку 7B модели в 5 раз — упор не в железо, а в data loader, алгоритм, batch size и CUDA kernels. Для экспериментов берите 4090, для продакшена — A100, для frontier-работы — H100. Всё остальное — маркетинг.

AI-инференс и обучение на наших мощностях

H100, A100, RTX-кластеры в РФ. Готовый OpenAI-совместимый API за 24 часа или выделенная виртуалка под ваш workload. Автоскейлинг, SLA 99.9%, оплата в рублях.

Попробовать бесплатно

GPU под вашу задачу — без лицензии и CUDA

AI-инференс и обучение на наших мощностях

Похожие статьи

Fine-tuning Llama 3.1 на своих данных: гайд с кодом 2026

OpenAI API в России: как использовать ChatGPT без VPN в 2026

Амортизационная премия в строительстве: как сэкономить на налоге на прибыль в 2026