• Звонок по России бесплатный 8 800 200-59-60
  • Москва +7 (495) 232-92-30
  • Санкт-Петербург +7 (812) 327-59-60
  • Екатеринбург +7 (343) 378-41-50

Публикации в СМИ

01.12.2016

Журнал Технологии и средства связи: Виртуализация хранения данных: от RAID-контроллера к облаку

Автор: Сергей Тарасевич, системный инженер "Тринити"

Уровень 1. Виртуализация в дисковых подсистемах серверов.

Виртуализация различных аппаратных ресурсов в вычислительных системах используется уже очень давно. Сам термин «виртуализация» можно определить как предоставление набора вычислительных ресурсов или их логического объединения, абстрагированное от аппаратной реализации. В этом определении ключевым является момент абстрагирования, т.е. виртуализация – это лишь механизм, обеспечивающий удобную форму предоставления ресурсов определенной составляющей всего стека по запросам других его составляющих.

 Виртуализация хранения данных может быть реализована на разных уровнях, но во всех случаях тип, количество и организация систем хранения - все это остается для администратора сервера «за кадром». Для серверов «видны» только выделенные им дисковые тома, независимо от того, на каких системах хранения они находятся и как организованы. Такой подход заметно упрощает администрирование самих серверов, но виртуализация в системах хранения данных позволяет упростить и решение очень многих других задач.

 Виртуализация в подсистемах хранения данных (дисковых подсистемах серверов), появилась задолго до виртуализации вычислительных ресурсов (процессоров), правда в те времена никто это виртуализацией не называл, ведь, по сути своей, даже создание RAID-массива и выделение на нём пространства под логический том уже является виртуализацией, так как скрывает фактическую организацию дискового пространства от операционной системы сервера. Это здорово упрощает жизнь администратору сервера, так как RAID-контроллер позволяет получать логические диски большего объёма, чем физические диски, установленные в сервер. Кроме этого контроллер снижает нагрузку на процессор сервера решая задачи кэширования данных при чтении и записи, защиты данных путём создания RAID-групп и их восстановления при сбое одного или нескольких дисков. Такой способ организации системы хранения получил название Direct Attached Storage (DAS), т.е. системы хранения с прямым подключением к серверу. Главный недостаток таких систем виден из их определения – невозможность подключения к более чем одному-двум серверам и функциональная ограниченность RAID-контроллера.

 

Уровень 2. Системы хранения данных.

Следующим шагом в процессе виртуализации хранения данных явилось выделение локальной дисковой подсистемы сервера в отдельное устройство – систему хранения данных (СХД). Создание СХД позволило не только отделить физическое представление дисков от логического, но и добавить ряд важнейших функций, позволяющих повысить надёжность хранения данных вплоть до уровня «5 девяток» и удобство управления ресурсами хранения. По сути СХД превратились в самостоятельный класс устройств, взяв на себя не только решение задачи надёжного хранения данных за счёт формирования дисковых RAID-групп и введения избыточности для всех модулей системы, но и смежные задачи:

·         создание множества версий данных и предоставления доступа к ним (мгновенные снимки логических дисков, клонирование и зеркалирование томов, в том числе и на внешние системы хранения);

·         оптимизацию дискового пространства и его выделение по требованию, т.е. физически данные занимают меньше места, чем видит пользователь («тонкие тома», сжатие, дедупликация – хранение только одной копии повторяющихся блоков, «упаковка» блоков данных);

·         разграничение доступа к данным с использованием стандартных протоколов аутентификации и авторизации;

·         предоставление доступа к данным с помощью стандартных протоколов как блочного (iSCSI, FibreChannel), так и файлового (SMB, NFS) доступа.

 И, самое главное, СХД позволяют консолидировать все ресурсы хранения в одном месте, что значительно снижает операционные расходы на управление данными и упрощает их защиту, например, архивирование и/или репликацию на резервную технологическую площадку. Такие выделенные СХД получили название сетей хранения - Storage Area Networks (SAN) и систем хранения с подключением по сети - Network Attached Storage (NAS). Традиционно к SAN относятся СХД с блочным доступом к данным, а к NASc файловым. Тем не менее, в настоящий момент, почти все вендоры выпускают универсальные СХД, которые предоставляют как блочный, так и файловый доступ.

  Уровень 3. Виртуализация СХД.

Ещё более высоким уровнем виртуализации хранения является виртуализация нескольких систем хранения данных и объединение их в одну систему. Такая задача может возникнуть в случае, когда в компании уже имеется несколько СХД и требуется дальнейшее увеличение дискового пространства. В результате того, что регулярно осуществляются закупки нового оборудования, а также после нескольких слияний, используются дисковые системы различных поколений и производителей. Эффективное использование такого парка оборудования вызывает существенные трудности, администраторам требуется уметь управлять совершенно различными системами и, как следствие, растут затраты на обслуживание. Решением этой проблемы является внедрение виртуализации СХД, когда одна из систем становится виртуализатором других, т.е. единой точкой «входа» для серверов, а остальные системы для неё выглядят обычными дисковыми ресурсами.

Это значительно упрощает решение следующих задач:

·         Подключение и настройка новых серверов – эта процедура выполняется только для одной СХД;

·         Выделение дополнительного дискового пространства конкретному серверу вне зависимости от того, где физически расположены ресурсы хранения;

·         Миграция данных между системами хранения;

·         Решение проблем недостаточной производительности за счёт 1) кэширования операций чтения/записи в кэш-памяти СХД-виртуализатора и на её SSD и 2) организации многоуровневого хранения (Tiering);

·         Построение катастрофоустойчивых систем, разнесённых территориально;

·         Плановое обслуживание СХД.

 Уровень 4. Гиперконврегентная инфраструктура датацентров.

За годы работы ИТ-департаменты организаций вынуждены были приобретать различные типы технологических компонент, предназначенных для решения частных проблем в уже существующих системах. Например, системы кэширования на SSD внедрялись для повышения производительности систем хранения данных, WAN-ускорители - для более быстрой передачи данных по сети Интернет, дедубликация в системах резервного копирования – из-за быстрого роста сохраняемых данных и т.д., и т.п. Каждый раз, когда добавляется новый компонент – увеличивается сложность всей системы, что приводит к повышению расходов на ИТ и создаёт ещё больший раскол между ИТ и бизнесом. Более того, комплексная защита данных и их послеаварийное восстановление остаются пока ещё недостижимыми целями для многих, особенно не очень крупных, организаций. Эти процессы, зачастую, требуют специального оборудования и программного обеспечения, что означает ещё большее увеличение сложности ИТ-инфраструктуры и дополнительные расходы на обслуживание. 

Тем не менее, в последние несколько лет наблюдается крупный переворот на рынке информационных технологий, в частности для тех производителей, которые создают технологии ориентированные на центры обработки данных. Для этого переворота появился даже специальный термин – гиперконвергентная инфраструктура.

Гиперконвергентная инфраструктура – это быстрорастущий класс решений, которые устраняют необходимость в наличии выделенных систем хранения в центрах обработки данных и, в некоторых случаях, других устройств, таких, как, например, сетевые маршрутизаторы, брэндмауеры, балансировщики нагрузки. Это, конечно, не означает, что системы хранения данных больше не являются важной частью ЦОД. На самом деле гиперконвергентные решения появились из-за того, что организации сталкиваются со значительными сложностями при эксплуатации уже существующих СХД.  В последние годы потребности бизнеса стали намного превосходить возможности обычных СХД по увеличению ёмкости и производительности. Их сложность и стоимость растёт непропорционально увеличению их ёмкости и производительности. Известно, что такие сервисы как виртуализация рабочих столов и анализ данных требуют значительной производительности СХД, но даже базовые сервисы уже требуют увеличения производительности систем хранения, так как компании постоянно расширяют список виртуализированных сервисов и включают в него такие «тяжёлые» приложения как ERP, Microsoft Exchange, Microsoft SQL Server, Oracle и т.п.

В тоже время руководители ИТ-подразделений постоянно работают над тем, чтобы ИТ-сервисы максимально полно соответствовали потребностям бизнеса. С течением времени центры обработки данных превратились в сложнейшие структуры, требующие отдельных подразделений для обслуживания и поддержания их в рабочем состоянии. Чем сложнее становятся системы, тем больше требуется сотрудников для их обслуживания и тем больше расходы организации на ИТ в целом.

Гиперконвергентная инфраструктура была разработана, чтобы решить проблемы производительности, масштабирования, сложности и стоимости, которые преследуют ИТ с расширением бизнеса. Эти системы возвращают ИТ к парадигме DAS, а точнее к концепции использования в качестве подсистемы хранения локальных дисков сервера, но многие решения значительно расширяют эту парадигму новыми возможностями. Такие системы строятся на базе стандартных серверов, с установленным на них традиционным гипервизором, но, дополнительно, применяется специальное программное обеспечение, поставляемое производителем гиперконвергентного решения. Есть разработчики, которые дополняют свои решения функциями дедубликации и сжатия данных, оптимизации WAN-каналов, защиты данных и шлюзами к облачным сервисам.

На базовом уровне данное программное обеспечение объединяет дисковые подсистемы всех узлов в единый пул и предоставляет этот пул гипервизору как общее дисковое пространство для использования виртуальными машинами. В сущности, гиперконвергентная инфраструктура использует концепцию программно-определяемых систем хранения (Software-Defined Storage - SDS).

Международная ассоциация производителей систем хранения данных SNIA (Storage Networking Industry Association) определяет SDS так: «Виртуализированное хранилище с интерфейсом управления сервисами. SDS включает в себя пулы хранения с определяемыми характеристиками, соответствующими требованиям, заданным с помощью интерфейса управления сервисом». И это больше, чем просто виртуализация хранения данных, так как SDS, по версии SNIA, должно предоставлять пользователям пулы хранения с заданными характеристиками и выполнять следующие функциональные требования:

Автоматизация – простое управление, снижающее операционные затраты на содержание инфраструктуры хранения.

Стандартные интерфейсы – API для настройки и управления устройствами и сервисами хранения.

Виртуализаированный интерфейс к данным – интерфейсы для блочного, файлового и объектного доступа к данным из приложений, использующих эти интерфейсы.

Масштабируемость – простые процедуры расширения инфраструктуры хранения, предусматривающие непрерывность доступа к данным и заданные требования по производительности.

Прозрачность – возможность мониторинга и управления хранилищем самими потребителями этого сервиса для увеличения эффективности его использования

И хотя разные вендоры понимают термин «программно-определяемое хранилище» по-разному, но практически все ведущие производители СХД заявили о разработке подобных продуктов и активно работают в этом направлении. Переход к программно-определяемым системам открыл рынок СХД и для разработчиков программного обеспечения, которые никогда не занимались аппаратными системами хранения. Например, одной первых таких компаний стала лидер на рынке виртуализации - компания VMware, создав продукт vSAN, тесно интегрированный с системой виртуализации вычислительных ресурсов - vSphere. Более того, компания VMware предложила термин «программно-определяемый датацентр» для описания более широкой концепции, в которой все виртуализированные хранилища, серверы, сетевые ресурсы и ресурсы безопасности, необходимые приложениям, могут быть определены программным обеспечением и выделены автоматически по запросу пользователя.

Таким образом, гиперконвергентную инфраструктуру можно определить как решение, объединяющее несколько сервисов центра обработки данных в одном устройстве, что повышает скорость разворачивания и гибкость виртуализированных приложений, уменьшает сложность инфраструктуры, улучшает эффективность управления и снижает общие затраты на эксплуатацию.

Основными движущими силами, двигающими рынок виртуализации и гиперконвергентных решений, можно назвать следующие ключевые факторы:

1.    Стоимость инфраструктуры предыдущего поколения слишком высока. Эта проблема видна в причинах, почему организации рассматривают возможность перехода на гиперконвергентную инфраструктуру – они стремятся к уменьшению капитальных затрат.

2.    Организации стремятся улучшить эффективность работы своих ИТ-сервисов. Решения для построения инфраструктуры на территории предприятия (on-premise) конкурируют с облачными решениями и организации ищут способы снижения операционных затрат.

3.    Самая большая проблема ИТ-служб и департаментов – это защита данных от потери. Вероятно, это результат сложности существующей ИТ-инфраструктуры, динамичной природы центров обработки данных и огромного объема данных, который требуется защитить.

4.    Организации ищут способы расширить использование виртуализации. Операционные, финансовые и другие выгоды от внедрения виртуализации уже стали понятны большинству организаций, увеличивая их желание расширить виртуализацию серверов и пользовательских систем, а также использовать преимущества виртуализации для таких сервисов как СХД и сети передачи данных.


Система Orphus