99.9% аптайма — это 8 часов простоя в год. Математика, которую не показывают в рекламе

«Гарантируем 99.9% аптайма» — эта фраза есть в SLA почти каждого облачного провайдера. Звучит внушительно. Но если посчитать, окажется, что три девятки — это почти девять часов простоя в год, которые провайдер считает нормой.

Математика, которую не выносят на первый экран

Аптайм измеряется в процентах от общего времени за период — обычно за месяц или год. Переведём проценты в реальное время простоя:

Аптайм	Простой в год	Простой в месяц
99%	3 дня 15 часов	7 часов 18 минут
99.9%	8 часов 45 минут	43 минуты
99.99%	52 минуты	4 минуты
99.999%	5 минут	26 секунд

Разница между тремя и четырьмя девятками — это разница между «сайт упал на полчаса раз в неделю» и «сайт упал суммарно на час за весь год».

Как считают крупные провайдеры

Дьявол в деталях SLA. AWS S3 гарантирует 99.9% за месяц — но только для определённых регионов, только для определённых операций, и компенсация выплачивается кредитами на аккаунт, а не деньгами. Cloudflare обещает 100% аптайм сети — но в SLA написано, что «недоступность» засчитывается только если затронуто более 10% точек присутствия одновременно.

Дата-центр: тысячи серверов, чья суммарная надёжность всё равно не даёт пяти девяток.

Почему пять девяток стоят непропорционально дорого

Переход от 99.9% к 99.99% требует не «чуть больше» надёжности — он требует кардинально другой архитектуры. Резервирование на каждом уровне: серверы, сети, датацентры, регионы. Автоматическое переключение за миллисекунды. Chaos engineering — намеренные поломки в продакшене, чтобы проверить, что система восстанавливается сама.

Для большинства продуктов 99.9% — разумный баланс. Пять девяток имеют смысл там, где минута простоя стоит миллионы: биржи, банки, телефонные сети. Для SaaS-стартапа гораздо важнее знать о падении за секунды, чем тратить бюджет на архитектуру, которая теоретически не падает.

Именно поэтому мониторинг — не роскошь. Без него вы узнаёте о проблеме от пользователей, а не от системы. А это уже минус к тем самым девяткам.

🐧 Забавный факт

В 2017 году один неверный ввод команды инженером Amazon S3 вызвал масштабный сбой, который затронул значительную часть американского интернета на несколько часов. AWS потом признали, что система восстановления работала дольше ожидаемого, потому что никто не тестировал сценарий «S3 недоступен» — слишком редкая ситуация. В итоге S3 добавил защиту от случайного удаления целых подсистем одной командой.