Высокопроизводительные вычисления и VDI

HPC и GPU высокопроизводительные кластеры: типовые задачи и основные компоненты для построения

Высокопроизводительные кластеры (High Performance Computing, кластеры HPC) применяются для решения задач требующих большой вычислительной мощности в научно-исследовательских и производственных целях. В первую очередь, это -расчётное моделирование и анализ технических процессов, а также о прогнозировании поведения сложных систем в различных, в том числе, критических ситуациях.

Примерами типовых задач, при решении которых используются вычислительные HPC-кластеры, являются:

  • Динамика жидкостей и газов (аэродинамика летательных аппаратов и автомобилей, вентиляция помещений, газодинамические расчеты горелок, топочных устройств и камер сгорания с учетом горения и химических реакций, течения в турбинах, компрессорах, насосах, вентиляторах, течения в сепарационных устройствах, гидравлика запорной арматуры и др.)
  • Вычислительная гидродинамика (от внешней аэродинамики и моделирования горения, до биомедицины и изготовлении полупроводников)
  • Механика деформации твердого тела (учитывая кинематику, усталостную долговечность и применение в конструкции композитных материалов)
  • Динамика и прочность, теплообмен, долговечность (прочности сооружений и изделий при статическом нагрузке в линейной и нелинейной постановке, с учетом множества контактов между деталями, больших деформаций, нелинейных моделей материалов и нелинейных длительных нагрузок, на устойчивость параметров механики разрушения, на прочность при вибрационном, динамическом нагружении, таком как: удар, разрушение, взрыв, усталостной долговечности всех видов теплообмена и температурных режимов устройств)
  • Электромагнетизм (высокочастотный и низкочастотный анализа цифровых устройств для разработки современной электроники и электротехники в кротчайшие сроки и без затрат на физические прототипирование)
  • Тепловой анализ (от охлаждения головки ДВС и фазового перехода металлической заготовки, до охлаждения электроники и теплового комфорта в помещении)
  • Многодисциплинарный анализ (достоверно предсказывать поведение разрабатываемых изделий в условиях, близких к реальной эксплуатации)
  • Решение задач большой размерности, таких задач, которые учитывают все геометрические особенности реального изделия.
  • Системы промышленной визуализации и виртуальной реальности, рендеринг и графическая анимация
 

Существуют и многие другие задачи, не описанные выше, но решение которых возможно на HPC-оборудовании. Постоянное совершенствования расчетного ПО, выход новых версий и появление новых разработок и возможностей позволяет нам добавлять новые продукты в текущий пул решений, поддерживающих высокопроизводительные процессорные и графические вычисления.

Вы можете отправить нам свой запрос, указав какое ПО Вы используете или какие задачи Вы решаете, а мы подберем HPC оборудование для ускорения расчетов вашей задачи.

Мы рекомендуем предприятиям заранее избегать нецелесообразных расходов на проектирование и испытания и более рационально планировать свою деятельность. Наряду с этим, область применения HPC-кластеров не ограничивается наукой и различными отраслями промышленности. Широкий спектр возможностей позволяет использовать их в финансовом секторе, в мультимедиа, в интернет-бизнесе и многих других сферах, где для работы с массивами данных требуются значительные вычислительные мощности.

Основу инфраструктуры HPC-кластера составляет набор или пул (группа) серверов, называемых вычислительными узлами (нодами), которые расположены в отдельной стойке или стойках (шкафах) и объединены единой коммуникационной сетью. Вычислительный узел (вычислительная нода) по сути представляет cобой многоядерный сервер с несколькими процессорами, оперативной памятью, дисками (или без дисков), с собственной ОС и необходимым интерконнектом ( в основном – Infiniband, редко – Ethernet). Для построения HPC кластеров мы рекомендуем использовать однородные узлы (ноды), у которых идентичная архитектура и производительность и взаимозаменяемость.

На этапе проектирования HPC-кластера необходимо сформировать четкие технические требования. Во многом параметры эффективности и производительности зависят не только от простоты или сложности решаемой задачи, но и от бюджета организации, ее желания получить такое HPC решение, которое позволит быстро и с необходимой точностью получать необходимые результаты. При расчёте стоимости будущего кластера учитываются такие аппаратные характеристики, как: архитектура решения, количество узлов, их состав (процессоры, объём оперативной памяти и кэша, тип и скорость интерконнекта, форм-фактор, потребляемая мощность и тепловыделение), организация хранения данных (локально или на выделенной СХД), тип операционной системы, тип файловой системы, возможности масштабирования и управления и др.

Составные компоненты вычислительных кластеров:

Вычислительный узел (стандартная нода кластера)

Как уже говорилось ранее, вычислительный узел – это многоядерный сервер, выполняющий часть задачи пользователя и который объединяется в единую структуру, которая своей общей мощностью уже решает полностью всю задачу. По своему значению данный компонент HPC-кластера первостепенный, ведь его параметры влияют на производительность и масштабируемость всей системы. Производительность определяют следующие характеристики процессоров: поколение, тактовая частота, количество ядер (земетим, не все приложения заказчиков умеют полььзоваться многоядерностью процессоров), количество оперативной памяти ( от 4-8 Гигабайт на ядро и это количество напрямую зависит от пользовательской задачи, которая может выполняться на одном, нескольких или всех вычислительных узлах высокопроизводительного кластера).

Управляющий узел кластера

Это сервер высокой производительности, который осуществляет функции планировщика, мониторинга, front-end и некоторые другие. Так, планировщик используется с целью распределения заданий, которые выполняются на вычислительных узлах. Это включает выявление свободных ресурсов, координацию при назначении и распределении заданий, отслеживание общего состояния выполняемых задач. В свою очередь, для того, чтобы производительность распределенных вычислений оставалась высокой, управляющий узел ведёт постоянный мониторинг всех аппаратных и программных компонентов вычислительного комплекса и принимает необходимые действия для эффективной работы. А непосредственно пользователи и администраторы могут в любой момент получить информацию о ходе выполнения заданий и их влиянии на все вычислительные процессы.

Разрабатывая проект организации кластера, важно знать, что управляющий узел напрямую задействован в расчётах. В очереди задач планировщика он является первым ресурсом. Поэтому к составу и производительности управляющего узла предъявляются более жесткие требования.

Дополнительно нужно учитывать, что оперативная память управляющего узла должна превышать в два-три раза память других узлов кластера. Чтобы соответствовать этому требованию и минимизировать время расчетов, необходимо использовать быстродействующие SSD-диски, либо массивы хранения на их основе.

Вычислительный узел c GPU-ускорением

GPU или графическое ускорение требуется для повышения производительности тех приложений, которые умеют работать с графическими ускорителями и которым необходимо максимум вычислительных мощностей. Одновременно с этим, за работу частей приложений, потребляющих меньше мощности, или не умеющих работать с GPU, продолжает отвечать центральный процессор (CPU) узла или узлов кластера.

Главное отличие GPU-ускорителей, например, NVIDIA TESLA, которые оснащены тензорными ядрами Turing и новыми ядрами RT заключается в том, что они включают тысячи ядер, которые более энергоэффективны и могут выполнять одновременно большой комплекс задач. А в основе CPU – всего несколько ядер, выполняющих обработку данных последовательно.

Интерконнект кластера

Поддержка высокопроизводительного интерконнекта необходима для ускоренного обмена и доставки данных приложениям и повышения производительности HPC-кластера. Следовательно, коммутационные решения для интерконнекта должны отвечать таким критериям, как высокая пропускная способность и низкая задержка (latancy, латентность). Необходимо, чтобы интерконнект – даже в условиях интенсивного обмена – не приводил к нагрузке на другие подсистемы вычислительных узлов в вычислительном кластере. В качестве примера таких решений можно привести Infiniband оборудование производства Mellanox (Mellanox был куплен NVidia в 2019 году) . Эти устройства позволяют достигать максимального быстродействия с минимальной задержкой и комплексно поддерживать функционирование спроектированного кластера в целом.

Подсистема хранения данных (СХД)

Для эффективной работы вычислительного кластера необходимо, чтобы промежуточные данные всегда сохранялись. Эту задачу решают системы хранения данных, от которых требуются, в первую очередь, надёжность и производительность. Есть два основных варианта организации СХД: в рамках объединения с управляющим сервером и путем подключения в качестве внешнего устройства с производительным интерфейсом (Fibre Channel, SAS, Infiniband, редко NVMe-over-Fabric). Для наращивания объема хранения данных можно использовать накопители SSD, SAS, SATA.

Источники бесперебойного питания и резервирование электропитания

ИБП – это обязательный компонент для стабильной и безопасной работы вычислительного кластера в силу того, что всегда существует риск потери информации в случае сбоев электропитания. Одно из главных требований к источнику бесперебойного питания – наличие ПО, способного автоматически и в безопасном режиме отключать кластер или отдельные ноды кластера, в том числе при отсутствии пользователя или администратора. Столь же важно обеспечить отказоустойчивость системы ИБП за счёт установки вспомогательных блоков питания. Несмотря на уровень бюджета и специфику задач, организациям никогда не стоит экономить на источниках бесперебойного питания и резервирования.

Система охлаждение всех узлов и компонентов кластера

Как правило, решая задачу построения вычислительного кластера, параллельно решается задача, как максимальную вычислительную мощность (узлы) спроектировать таким образом, чтобы они занимали минимальную физическую площадь, а значит применялся максимально плотный монтаж в корпуса вычислительных нод, в серверные шкафы, и учитывалась максимальная плотность размещения таких шкафов. А при соблюдении всего этого вопрос грамотного охлаждения выходит на первый план, от его решения зависит надежность и длительная работоспособность всего кластерного комплекса в целом. Мы рекомендуем размещать HPC-оборудование в специализированных серверных комнатах, в которых все изначально продумано для правильного охлаждения воздухом, водой или другим образом.


Система Orphus