Posts

Showing posts from June, 2024

Introduction to Apache Hudi

  Introduction to Apache Hudi Data Lake Integration Hudi có thể đẩy dữ liệu realtime vào các hệ lưu trữ distributed file systems (DFS), như là  HDFS  hoặc cloud stores ( MinIO ) Có thể chứa đc dữ liệu lớn trên file ( parquet, … ), tiết kiệm hơn so với lưu trữ trên các hệ OLAP ( Kudu, Pinot ) Tương thích với nhiều loại query engine nên ta có thể dễ dàng query data từ Hudi table Core Components Tables : Hudi tổ chức data dưới dạng bảng, dễ dàng quản lý và query. Transactions : Hudi hỗ trợ những hoạt động transactional như UPDATE , DELETE ( nếu chỉ dùng Hive thì ko có ) trên từng dòng data. Bảo đảm consistency và durability trong các hành động write data ( Tính chất C và D trong ACID ). Upserts/Deletes : Hudi hỗ trợ update và delete, cho phép bạn thay đổi dòng data hiện tại nhưng ko cần phải xử lý hết toàn bộ dataset ( toàn bộ file ) Advanced Indexes : Hudi hỗ trợ đánh index, giúp cải thiện query performance. Streaming Ingestion Services : Hudi hỗ trợ ing...