• Звонок по России бесплатный 8 800 200-59-60
  • Москва +7 (495) 232-92-30
  • Санкт-Петербург +7 (812) 327-59-60
  • Екатеринбург +7 (343) 378-41-50

Коннектор IBM InfoSphere Information Server для IBM Netezza Performance Server

InfoSphere Information Server – ведущая на рынке платформа интеграции данных, позволяющая организациям понимать, очищать, преобразовывать и доставлять достоверную информацию для критически важных бизнес-инициатив. Средства работы с данными позволяют организовать информацию таким образом, чтобы в любой момент времени она была связанной, полностью понятной, точно представленной, преобразованной в соответствии со спецификациями и постоянно обновленной.

Высокопроизводительные комплексы хранилищ данных IBM Netezza позволяют выполнять сложный аналитический анализ просто, быстро и в любой момент времени. Простота развертывания комплексов Netezza минимизирует требования к администратору – система готова выполнять сложные запросы без продолжительного развертывания.

Новый коннектор для комплексов хранилищ данных IBM Netezza Performance Server обеспечивает более тесную интеграцию

Новый коннектор для Netezza, который поставляется вместе с InfoSphere Information Server, позволяет приложениям IBM InfoSphere Information Server и комплексам IBM Netezza Performance Server (IBM Netezza 100 4.6, ранее известный как Netezza Skimmer 4.6.x, и IBM Netezza 1000 6.0, ранее известный как Netezza Twinfin 6.0.x) работать вместе бесшовно и быстро. Он содержит средства для параллельного чтения и записи данных, а также позволяет выполнять полное или частичное преобразование данных внутри комплекса IBM Netezza, что более полно использует мощности Netezza во время загрузки данных, а также повышает производительность процессов загрузки.

Повышение эффективности разработки

Коннектор нового поколения InfoSphere Information Server для комплексов хранилищ данных IBM Netezza Performance Server содержит в себе широкий набор возможностей. По умолчанию в коннекторе настроены стандартные средства подключения, которые в большинстве случаев повышают производительность. В таком состоянии коннектор может выполнять следующие задачи:

  • aвтоматически создавать временную таблицу (TWT);
  • aвтоматически создавать выражения SQL и DDL;
  • по умолчанию использовать временные TWT-таблицы вместо непосредственной загрузки;
  • использовать случайное распределение по ключу при создании таблиц.

 

Если разработчику нужно изменить сценарий интеграции данных, коннектор предоставляет удобную панель выбора вариантов с переключателями и выпадающими списками.

Коннектор также предлагает множество средств автоматизации, которые часто используются в объектах коннекторов Information Server. К этим функциям относятся:

  • Режимы множественных действий, при которых автоматически выполняется вторая операция, если первая операция завершилась ошибкой, включая такие, как “обновить затем вставить”, “вставить затем обновить” и “удалить затем вставить”.
  • Столбцы действий, которые определяют тип операции в базе данных (вставить, обновить, удалить) для текущей строки.
  • Сгенерированные SQL-выражения для операций над таблицами и DDL-выражения, которые передаются внутри ETL-процесса.
  • Чтение на основе разделов позволяет масштабировать ETL-процессы при помощи автоматического объединения результатов нескольких запросов на чтение данных.

    Быстрая интеграция данных при текущих и возрастающих объемах

    Во многих шаблонах интеграции данных предполагается, что данные, которые надо преобразовать, уже находятся в целевой базе данных. Например, разработчику необходимо агрегировать таблицу фактов в обобщающий набор данных. В этом случае такое преобразование эффективнее всего будет выполнить внутри самой базы данных. Коннектор для комплекса IBM Netezza Performance Server использует технологию “Balanced Optimization” InfoSphere DataStage и предоставляет следующие возможности:
  • Разрабатывать функционал ETL-процессов стандартными средствами InfoSphere DataStage и определять, какие части ETL-процесса будут выполняться внутри базы данных.
  • Минимизировать объемы передачи данных по сети за счет обработки данных внутри базы данных.
  • Оптимизировать производительность в случаях, когда исходная и целевая базы данных однородны.
  • Сбалансировать нагрузку между комплексом хранилищ данных IBM Netezza и механизмами InfoSphere Information Server с поддержкой уникальных трансформаций и обеспечением качества данных без временной выгрузки данных на диск при выполнении параллельных вычислений.

Тестирование производительности загрузки и выгрузки данных

Компания IBM выполнила внутреннее тестирование производительности работы сервера InfoSphere Information Server с комплексом IBM Netezza через новый коннектор. Тестирование выполнялось в среде InfoSphere Information Server с трехзвенной конфигурацией (см. рис. 1). Клиентский компьютер использовался только для выполнения клиентского приложения InfoSphere DataStage. Остальные составляющие InfoSphere Information Server (включая InfoSphere DataStage) были установлены на одном сервере с процессором Intel Xeon E7-4870 и 64-разрядной операционной системой Red Hat Enterprise Linux 5.3. Комплекс IBM Netezza 1000-12 выполнял роль хранилища данных. InfoSphere DataStage и IBM Netezza были соединены через 10-гигабитную сеть Ethernet. При пиковой нагрузке коннектор InfoSphere Information Server для IBM Netezza Performance Server обеспечил загрузку и выгрузку данных с производительностью, превышающей 2 Тб/ч. При таком уровне производительности организации могут оперировать исключительно большими объемами данных.

Производительность загрузки и выгрузки данных через коннектор такая же, как и при использовании утилит непосредственной загрузки/выгрузки комплекса IBM Netezza. Кроме того, эта скорость существенно выше той, которой можно достичь с помощью существующей версии компонента Netezza Enterprise в InfoSphere DataStage. (Примечание: измерение быстродействия выполнялось при определенной конфигурации системы. Использование других аппаратных и программных компонентов может повлиять на быстродействие.)

Обеспечение окупаемости за счет быстрой и функциональной связи

IBM InfoSphere Information Server обеспечивает информацию, которой можно доверять: полную, точную, своевременную и в контексте хранилищ данных. Специализированные средства комплекса IBM Netezza Performance Server спроектированы с целью обеспечения наивысших стандартов производительности, простоты использования и масштабирования. Благодаря эффективной совместной работе IBM Netezza с InfoSphere Information Server, предприятия могут быстрее добиться результатов при развертывании надежных хранилищ данных.

Система Orphus