データ取り込み直後からほぼ即時にインサイトを得られるよう、高速なデータ処理とクエリ実行を可能にします。
データをオープンフォーマットで保存することで、すべてのワークロードを単一の信頼できるデータソースに統合でき、データガバナンスの向上につながります。
データウェアハウスは独自フォーマットでデータを格納するため、処理可能なワークロードがそのシステムの機能に制限されます。一方データレイクハウスはオープンフォーマットとオープンカタログサービスにより、多様な計算エンジンと統合可能。これにより、全データの信頼性ある単一ソースを維持できます。
データをオープンフォーマットで保存することで、すべてのワークロードを単一の信頼できるデータソースに集約でき、データガバナンスの強化につながります。
データガバナンスの強化
データをオープンフォーマットで保存することで、すべてのワークロードを単一の信頼できるデータソースに統合でき、データガバナンスの向上につながります。
柔軟性の向上
コスト効率の最適化
Apache Iceberg
Apache Iceberg は、大規模な分析テーブル向けに設計された高性能なテーブルフォーマットです。
Apache Hudi
Apache Hudi は、トランザクション処理をサポートするデータレイクプラットフォームであり、データベースやデータウェアハウスに求められる機能をデータレイク上で実現します。
Delta Lake
Delta Lake は、フォーマットに依存しないレイクハウスアーキテクチャの構築を可能にする、オープンソースのストレージフレームワークです。
ACID 準拠
トランザクションにおける原子性(Atomicity)、一貫性(Consistency)、分離性(Isolation)、耐久性(Durability)を保証することで、データの整合性を確保します。
コンパクション
小さなファイルを定期的に大きなファイルへ統合することで、ストレージを最適化し、クエリ性能を向上させます。
ニアリアルタイム分析
データ取り込み直後からほぼ即時にインサイトを得られるよう、高速なデータ処理とクエリ実行を可能にします。
スキーマエボリューション
データ構造の変化に応じて、ダウンタイムなしでスキーマを動的に適応させることが可能です。
カタログサービス
異なるテーブルフォーマット間でのシームレスな相互運用性を確保するために、オープンソースのバリアントを備えたカタログサービスを活用します。このアプローチにより柔軟性が高まり、レイクハウスアーキテクチャ全体でのデータの管理とアクセスが容易になります。
コンピュートエンジン
パフォーマンスを最適化するために、各タスクに最も適したコンピュートエンジンを選択します。レイクハウスアーキテクチャでは、異なるコンピュートエンジン間の切り替えが容易であり、要件の変化にも柔軟に対応できます。
テーブルおよびファイルフォーマット
Apache Iceberg のようなオープンテーブルフォーマットを採用し、オープンファイルフォーマットと連携させることで、互換性とスケーラビリティを確保します。これにより、プロプライエタリなソリューションに縛られることなく、レイクハウスを柔軟かつ持続的に拡張・進化させることが可能になります。
当社のソリューション アーキテクトが、当社製品に関するあらゆるご質問にお答えし、CelerData Cloud のカスタマイズされたデモをご案内するために待機しています。