#собственное мнение
Виталий Москвин, менеджер проектов UCloud
RTO и RPO. Или о чем нужно помнить при резервировании данных?
Люди делятся на 3 типа:
- те, кто делают бэкап (backup);
- те кто УЖЕ делают бэкап (backup);
- те, кто теперь проверяет бэкап (backup).
Народная мудрость
В свете последних событий украинский бизнес обратил свой взор к резервным копиям данных и резервированию инфраструктуры в целом. Но сделать бэкап – дело не хитрое. Больше вопросов возникает с тем, чтоб сделать его правильно. Предлагаю рассмотреть 2 ключевых параметра резервирования данных, без которых бэкапы таковыми не будут:
- время восстановления (recovery time objective (RTO)) — допустимое время простоя сервиса в случае сбоя;
- точка возврата (recovery point objective (RPO)) — допустимый объем возможных потерь данных в случае сбоя.
Эти значения устанавливаются бизнесом индивидуально, исходя из задач. Например, если у вас обычная не автоматизированная автостоянка, то недоступность электронной почты не критична (это про RTO), а потеря статистики в пасьянсе за год, максимум может сказаться на настроении охранника стоянки (это RPO).
Если вы, к примеру, банк, то простой банкоматов пару часов — критично: люди начнут паниковать, активно интересоваться жизнедеятельностью компании — но еще не критично — тут свою роль играет позиции бизнеса на рынке, и насколько проинформированы о инциденте сотрудники и обратившиеся клиенты (RTO). Но если вы как банк потеряете данные по платежам… Вы можете попрощаться с компанией – финансовый, регулятивный и репутационный риски ее похоронят со свистом гильотины (RPO).
RPO и RTO – не абстрактные, а вполне конкретные, временные значения. Точка RPO — это время создание последней резервной копии, на момент которой вы можете вернуться в случае сбоя. RTO — время, которое необходимо потратить на восстановление (например, извлечь данные из резервной копии или запустить резервную площадку).
Стоит заметить, что RPO и RTO – это максимальные значения и должны стремиться к нулю. Но не стоит требовать от резервирования строго нулевого значения – это нереально: всегда будет тратиться несколько минут на запуск аварийной площадки, на разворачивание резервных копий и так далее.
Для лучшего понимания, что такое RPO и RTO, приведу пример:
RPO (точка возврата) = 1 сутки. Значит копирование происходит раз в день (предпочтительно ночью, когда нагрузка на системы и канал передачи данных минимальны). Если резервное копирование запускается в 1:00, а у нас произошел сбой в 0:59, то потеря как раз 1 сутки. Если сбой произошел в 2:00 (после успешного завершения резервного копирования), то все данные целы и легко восстановятся.
Если для Вас затруднительно разобраться с Вашими резервными копиями, обратитесь к специалистам, которые помогут разобраться с сервисами и требованиями по восстановлению.
Рубрика: #собственное_мнение