Релиз VMware Tanzu Greenplum 7.5 — что нового?

Недавно вышла новая версия VMware Tanzu Greenplum v7.5, которая уже доступна и предлагает повышенную производительность и меньшие затраты ресурсов при обработке сложных рабочих нагрузок, включая аналитические запросы, машинное обучение, потоковую загрузку данных в реальном времени и геопространственные запросы.

VMware Tanzu Greenplum — один из ключевых компонентов портфеля VMware Tanzu Data — представляет собой мощную платформу для хранилищ данных и аналитики, основанную на открытом исходном коде PostgreSQL. Она предназначена для масштабной агрегации и анализа больших объёмов данных. Tanzu Greenplum идеально подходит для организаций с высокой степенью регулирования и критически важными задачами, которым необходимо обрабатывать данные из множества источников и разных типов, чтобы ускорить принятие решений за счёт более эффективной агрегации, анализа и использования ключевых информационных активов.

Новые возможности

Оптимизатор GPORCA теперь охватывает более широкий спектр пользовательских запросов, а выполнение запросов в Tanzu Greenplum было улучшено для ускорения операций с таблицами, оптимизированными на добавление (Append Optimized, AO).

Обновлённые команды обслуживания ANALYZE и VACUUM снижают нагрузку на систему, обеспечивая более эффективное использование платформы. Greenplum Streaming Server (GPSS) теперь поддерживает масштабируемую архитектуру, способную обрабатывать большие объёмы данных из Apache Kafka и VMware Tanzu RabbitMQ. Компонент gpMLBot автоматизирует машинное обучение с тонкой настройкой гиперпараметров, сокращая время обучения моделей. Также включены расширения для геопространственного анализа: pgPointCloud, 3DCityDB, pgRouting, H3 Index и геокодирование TIGER, что открывает новые сценарии использования.

Ускоренное выполнение запросов

GPORCA в новой версии создаёт планы выполнения запросов с меньшим использованием памяти и более эффективным порядком объединения таблиц. Он поддерживает расширенные возможности SQL, такие как подзапросы по нескольким столбцам, ROW-выражения и оконные агрегаты с квалификатором DISTINCT, ускоряя выполнение сложных запросов. Движок выполнения запросов использует усовершенствования TupleTableSlot, включая частичную и отложенную десериализацию, что снижает нагрузку на CPU. В результате операции с AO-таблицами выполняются до двух раз быстрее, чем в предыдущих версиях.

Сжатые AO-таблицы теперь поддерживают чисто индексное сканирование, устраняя необходимость в дорогостоящих bitmap-сканах. Это обеспечивает значительный прирост производительности, включая ускоренные запросы ORDER BY с LIMIT, более быстрые pg_vector-запросы и более эффективные объединения и агрегирования, делая Tanzu Greenplum подходящей платформой для аналитических нагрузок.

Упрощённое обслуживание и эксплуатация

Процесс ANALYZE в v7.5 стал более эффективным: он пропускает неизменённые партиции и объединяет статистику, уменьшая использование ресурсов и время обслуживания. Это обеспечивает более актуальные статистические данные для планирования запросов без ущерба для производительности системы. Операции COPY, VACUUM и CREATE INDEX для широких таблиц теперь требуют меньше ресурсов CPU благодаря новым оптимизациям десериализации. Инструмент gprecoverseg теперь поддерживает выборочное восстановление сегментов, ускоряя исправление и балансировку. Новый инструмент управления кластером gpctl, основанный на архитектуре gRPC, упрощает и ускоряет развертывание кластера и настройку новых сред.

Масштабируемый приём данных с помощью GPSS

Greenplum Streaming Server теперь использует многозвенную архитектуру на базе Kubernetes. Он работает как распределённая система, способная масштабироваться в зависимости от объёма поступающих данных. GPSS эффективно обрабатывает большие потоки данных из таких источников, как Kafka и RabbitMQ, поддерживая аналитику в реальном времени с низкой задержкой.

Эффективное AutoML с gpMLBot

gpMLBot в версии 7.5 упрощает автоматическое машинное обучение (AutoML), включая подбор гиперпараметров, что помогает находить наилучшую модель и параметры для конкретных наборов данных. Благодаря интеграции с высокопроизводительным движком базы данных Tanzu Greenplum и встроенными библиотеками аналитики, gpMLBot сокращает время обучения и выбора модели, ускоряя работу дата-сайентистов с большими объемами данных или сложными признаковыми пространствами.

Продвинутый геопространственный анализ

Tanzu Greenplum 7.5 поддерживает масштабный геоанализ с помощью расширений pgPointCloud, 3DCityDB, pgRouting, H3 Index и TIGER. pgPointCloud обеспечивает эффективное хранение и запросы к облакам точек LiDAR, 3DCityDB управляет 3D-моделями городов на основе CityGML для планирования и визуализации, pgRouting реализует оптимизированную маршрутизацию в крупных сетях, H3 Index улучшает поиск и распределение данных для объединений, а TIGER геокодирует адреса в координаты, облегчая пространственные запросы.

Итоги

Tanzu Greenplum теперь предлагает более высокую производительность при работе с ресурсоёмкими задачами за счёт оптимизации выполнения запросов, более эффективного обслуживания, масштабируемой потоковой загрузки данных, упрощённого AutoML и мощных геопространственных возможностей. Эти улучшения снижают время обработки и потребление ресурсов, делая платформу надёжным выбором для аналитических и операционных задач.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *