Недавно вышла новая версия VMware Tanzu Greenplum v7.5, которая уже доступна и предлагает повышенную производительность и меньшие затраты ресурсов при обработке сложных рабочих нагрузок, включая аналитические запросы, машинное обучение, потоковую загрузку данных в реальном времени и геопространственные запросы.
VMware Tanzu Greenplum — один из ключевых компонентов портфеля VMware Tanzu Data — представляет собой мощную платформу для хранилищ данных и аналитики, основанную на открытом исходном коде PostgreSQL. Она предназначена для масштабной агрегации и анализа больших объёмов данных. Tanzu Greenplum идеально подходит для организаций с высокой степенью регулирования и критически важными задачами, которым необходимо обрабатывать данные из множества источников и разных типов, чтобы ускорить принятие решений за счёт более эффективной агрегации, анализа и использования ключевых информационных активов.
Новые возможности
Оптимизатор GPORCA теперь охватывает более широкий спектр пользовательских запросов, а выполнение запросов в Tanzu Greenplum было улучшено для ускорения операций с таблицами, оптимизированными на добавление (Append Optimized, AO).
Обновлённые команды обслуживания ANALYZE и VACUUM снижают нагрузку на систему, обеспечивая более эффективное использование платформы. Greenplum Streaming Server (GPSS) теперь поддерживает масштабируемую архитектуру, способную обрабатывать большие объёмы данных из Apache Kafka и VMware Tanzu RabbitMQ. Компонент gpMLBot автоматизирует машинное обучение с тонкой настройкой гиперпараметров, сокращая время обучения моделей. Также включены расширения для геопространственного анализа: pgPointCloud, 3DCityDB, pgRouting, H3 Index и геокодирование TIGER, что открывает новые сценарии использования.
Ускоренное выполнение запросов
GPORCA в новой версии создаёт планы выполнения запросов с меньшим использованием памяти и более эффективным порядком объединения таблиц. Он поддерживает расширенные возможности SQL, такие как подзапросы по нескольким столбцам, ROW-выражения и оконные агрегаты с квалификатором DISTINCT, ускоряя выполнение сложных запросов. Движок выполнения запросов использует усовершенствования TupleTableSlot, включая частичную и отложенную десериализацию, что снижает нагрузку на CPU. В результате операции с AO-таблицами выполняются до двух раз быстрее, чем в предыдущих версиях.
Сжатые AO-таблицы теперь поддерживают чисто индексное сканирование, устраняя необходимость в дорогостоящих bitmap-сканах. Это обеспечивает значительный прирост производительности, включая ускоренные запросы ORDER BY с LIMIT, более быстрые pg_vector-запросы и более эффективные объединения и агрегирования, делая Tanzu Greenplum подходящей платформой для аналитических нагрузок.
Упрощённое обслуживание и эксплуатация
Процесс ANALYZE в v7.5 стал более эффективным: он пропускает неизменённые партиции и объединяет статистику, уменьшая использование ресурсов и время обслуживания. Это обеспечивает более актуальные статистические данные для планирования запросов без ущерба для производительности системы. Операции COPY, VACUUM и CREATE INDEX для широких таблиц теперь требуют меньше ресурсов CPU благодаря новым оптимизациям десериализации. Инструмент gprecoverseg теперь поддерживает выборочное восстановление сегментов, ускоряя исправление и балансировку. Новый инструмент управления кластером gpctl, основанный на архитектуре gRPC, упрощает и ускоряет развертывание кластера и настройку новых сред.
Масштабируемый приём данных с помощью GPSS
Greenplum Streaming Server теперь использует многозвенную архитектуру на базе Kubernetes. Он работает как распределённая система, способная масштабироваться в зависимости от объёма поступающих данных. GPSS эффективно обрабатывает большие потоки данных из таких источников, как Kafka и RabbitMQ, поддерживая аналитику в реальном времени с низкой задержкой.
Эффективное AutoML с gpMLBot
gpMLBot в версии 7.5 упрощает автоматическое машинное обучение (AutoML), включая подбор гиперпараметров, что помогает находить наилучшую модель и параметры для конкретных наборов данных. Благодаря интеграции с высокопроизводительным движком базы данных Tanzu Greenplum и встроенными библиотеками аналитики, gpMLBot сокращает время обучения и выбора модели, ускоряя работу дата-сайентистов с большими объемами данных или сложными признаковыми пространствами.
Продвинутый геопространственный анализ
Tanzu Greenplum 7.5 поддерживает масштабный геоанализ с помощью расширений pgPointCloud, 3DCityDB, pgRouting, H3 Index и TIGER. pgPointCloud обеспечивает эффективное хранение и запросы к облакам точек LiDAR, 3DCityDB управляет 3D-моделями городов на основе CityGML для планирования и визуализации, pgRouting реализует оптимизированную маршрутизацию в крупных сетях, H3 Index улучшает поиск и распределение данных для объединений, а TIGER геокодирует адреса в координаты, облегчая пространственные запросы.
Итоги
Tanzu Greenplum теперь предлагает более высокую производительность при работе с ресурсоёмкими задачами за счёт оптимизации выполнения запросов, более эффективного обслуживания, масштабируемой потоковой загрузки данных, упрощённого AutoML и мощных геопространственных возможностей. Эти улучшения снижают время обработки и потребление ресурсов, делая платформу надёжным выбором для аналитических и операционных задач.

