Обеспечение доступности сервиса для клиентов является важной задачей ИТ. Обеспечить её можно на разных уровнях: 
- На уровне приложений;
- На уровне виртуальной машины (ВМ);
- На уровне СХД.
Далее мы рассмотрим сценарии использования каждого из них. 
1. ОТКАЗОУСТОЙЧИВОСТЬ НА УРОВНЕ ПРИЛОЖЕНИЙ
Обеспечивается за счет избыточного количества компьютеров в группе (узлов или нод в кластере), объединенных каналами связи и представляемых конечному пользователю в виде единичного сервиса, называемого кластером. Вопрос заключается только в размещении этих нод. Можно разместить их в одном ЦОДе и решить проблемы, связанные с необходимостью проведения технологического обслуживания и с техническим отказом одного из узлов, переводя активную ноду с одного хоста на другой.
А можно подойти более глобально и разместить их в разных дата-центрах, тем самым значительно уменьшая риски и увеличивая количество факторов, от которых защищена система (СХД, гипервизоры, каналы связи, географическая распределенность). В инфраструктуре VMware vCloud Director это обеспечивается путем подключения к организации дополнительного виртуального дата-центра. После чего в панели управления облаком становится доступна возможность выбора VDC. 
Каждый VDC является независимым. В нем вы можете создавать свои vApp, независимые сети, VMware vShield Edge и другие объекты виртуальной инфраструктуры. Для этого выберите в панели нужный VDC, находясь на вкладке Datacenters. Выбранный VDC показывается вверху экрана.
Создавая новый vApp, вы всегда можете предварительно выбрать нужный VDC, в котором вы хотите разместить свои виртуальные машины. 
В панели vCloud Diector определить размещение вашего vApp помогает заголовок окна. 
Создавая в различных ЦОДах свои vApp-ы и размещая там ноды виртуальных машины, вы на уровне приложений обеспечиваете отказоустойчивость множества сервисов, например, это решение применимо к:
- Microsoft Exchange, используя кластер DAG (Database Availability Group)
- Microsoft Active Directory, используя механизм репликации между контроллерами домена
- DFS
- Microsoft SQL Server, с использованием технологии AlwaysOn (начиная с MS SQL Server 2012) можно использовать вторичные реплики, при этом возможна репликация как синхронная (медленная, без потери данных), так и асинхронная (быстрее, с возможной потерей данных). Более подробно смотрите: https://docs.microsoft.com/ru-ru/sql/database-engine/availability-groups/windows/overview-of-always-on-availability-groups-sql-server?view=sql-server-2017 
- И другим сервисам.
Сетевая связанность между виртуальными машинами, размещенными в разных ЦОДах может быть обеспечена:
- Путем проброса VLAN между ЦОДами, через подключения дополнительной услуги от Cloud4Y. Это позволяет использовать единую частную сеть (серые адреса) между всеми ВМ.
- Через публичные сети (интернет), путем создания дополнительного VMware vShield Edge с белым IP-адресом во втором ЦОДе и связи по публичным IP адресам, или при настройке VPN канала между EDGE-ами по серым адресам. При этом в разных ЦОДах серые подсети должны быть разными.
Обе эти возможности можно комбинировать. С одной стороны, вы позволите серверам общаться напрямую без VPN. А с другой стороны, обеспечите две публичные точки (белые IP-адреса) в разных ЦОДах для подключения ваших пользователей и предоставите сервис с высоким уровнем доступности.
2. ОТКАЗОУСТОЙЧИВОСТЬ НА УРОВНЕ ВИРТУАЛЬНОЙ МАШИНЫ
Решая стратегическую задачу по обеспечению высокой доступности виртуальной машины, предлагаем воспользоваться возможностями Veeam Backup & Replication. 
Данная технология, используя реплики, позволяет создавать готовые к запуску копии виртуальной машины в другом ЦОДе. Репликация Veeam ускоряет послеаварийное восстановление, предотвращает потерю данных и обеспечивает непрерывность бизнес-процессов.
Если исходная машина в одном из ЦОДов по какой-то причине перестанет работать, вы сможете быстро переключиться на реплику и восстановить критичные для бизнеса службы и приложения с минимальным простоем в другом ЦОДе. Для пользователей это произойдет быстро, и они смогу продолжить свою работу, в то время как ИТ-персонал займётся устранением неполадок в "проблемном" ЦОДе. 
Создание реплики виртуальной машины осуществляется путем создания заданий на репликацию с определенной периодичностью. Во время первой сессии задания репликации Veeam Backup & Replication копирует образ виртуальной машины целиком и регистрирует копию виртуальной машины на целевом хосте ESX(i). При последующих сессиях задания Veeam Backup & Replication копирует только измененные блоки данных виртуальной машины относительно последней сессии (инкрементальные изменения) и создает новую точку восстановления для реплики виртуальной машины. 
Используя эту точку восстановления, вы можете «откатить» виртуальную машину до нужного состояния. Мы рекомендуем поддерживать несколько точек восстановления, чтобы гарантировать работоспособность реплики. В случае, если последняя точка восстановления окажется нерабочей, можно будет использовать более раннюю точку. 
После устранения проблемы в одном из ЦОДов можно переключиться с реплики обратно на исходную виртуальную машину или продолжать использовать реплику в качестве рабочей ВМ.
3. ОТКАЗОУСТОЙЧИВОСТЬ НА УРОВНЕ СХД
Для заказчиков, перед которыми стоят специфические задачи по катастрофоустойчивости, предлагаем решение SyncCluster, обеспечениющее высокую отказоустойчивость и доступность сервисов.
Cloud4Y разработал новое решение на российском рынке облачных услуг — SyncCluster c SLA 99.99%. SyncCluster является уникальной услугой, которая совмещает в себе массив на основе кластеров с синхронным зеркалированием. 
В Москве реализована система хранения, в которой одна половина находится в одном дата-центре уровня Tier 3, а вторая на расстоянии 10 км в другом дата-центре уровня Tier3, при этом обе половины работают синхронно, как единая структура. Этот подход гарантирует, что данные запишутся и в одну и в другую СХД. В случае любого сбоя в одном из дата-центров (отказа питания, выхода из строя любой части системы хранения, выхода из строя контролеров, множества дисков в одной дисковой группе в короткий промежуток времени, каналов связи между дата-центрами) ваши данные останутся доступны, (RPO=0 (Recovery point objective - допустимая потеря данных), RTO=10 минут (Recovery time objective - допустимое время восстановления данных)), т. е. не теряется ни одна транзакция. 
Если в предыдущем решении репликация велась на уровне виртуальной машины и с определенными периодами, то здесь идет синхронная репликация на уровне СХД постоянно, это позволяет избежать излишней нагрузки на серверы, обеспечить максимальный уровень SLA 99,99% и сохранить данные. Указанное решение особенно подходит для программного обеспечения, которые не поддерживают репликацию на уровне приложений. 
SyncCluster от Cloud4Y — это экономически эффективное решение, которое обеспечивает постоянную доступность сервисов и данных для компаний, в которых непрерывность бизнеса является критичной. Мы предлагаем MetroCluster в формате услуги с помесячной оплатой, это позволит нашим клиентам снизить капитальные затраты на покупку оборудования и его техническое содержание. 
СРАВНЕНИЕ РЕШЕНИЙ
Подойти к выбору необходимого уровня сервиса для вашей ИТ-инфраструктуры с учетом факторов риска и требований к реализации вам поможет таблица: 
| 
 | ПРИ РАЗМЕЩЕНИЕ ИТ-ИНРАСТРУКТУРЫ В ДВУХ ЦОДах с защитой на уровне: | ПРИ РАЗМЕЩЕНИЕ ИТ-ИНРАСТРУКТУРЫ В ОДНОМ ЦОДе | ||
| Приложений | Виртуальной машины | СХД | ||
| 
 | ||||
| Отключение основного, резервного электропитания и отказ ДГУ в одном ЦОДе | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Отказ основной и резервной системы кондиционирования | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Пожар в одном ЦОДе | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Техногенные катаклизмы | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Природные катаклизмы | НЕТ | НЕТ | ЕСТЬ | НЕТ | 
| Проведение в одном дата-центре следственных мероприятий | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Множественный отказ (более 4-х) каналов связи в одном ЦОД-е в короткий промежуток времени | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Множественный отказ коммутационного оборудования | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Полный или частичный отказ СХД | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
| Полный или частичный отказ одного гипервизора | ЕСТЬ | ЕСТЬ | ЕСТЬ | ЕСТЬ | 
| Отказ сервера vCenter | ЕСТЬ | ЕСТЬ | ЕСТЬ | НЕТ | 
|   | ||||
| Необходима поддержка со стороны прикладного ПО | ДА | НЕТ | ДА / НЕТ | НЕТ | 
| Потеря данных (RPO) | В зависимости от приложения – ЧАСТИЧНАЯ / ОТСУТСТВУЕТ | ЧАСТИЧНАЯ, до последней рабочей реплики | ОТСУТСТВУЕТ | ЧАСТИЧНАЯ, до последнего бэкапа | 
| Время восстановления (RTO) | В течение нескольких минут | В течение часа | В течение нескольких минут | В течение нескольких часов, в зависимости от размера данных | 
| Стоимость решения | Низкая | Средняя | Высокая | Минимальная | 
* - Более точную стоимость по каждому решению вы можете получить у вашего персонального менеджера