~ アーキテクチャを刷新し、複数のデータモデルを扱えるプラガブルデータストアを実現 ~
東芝デジタルソリューションズ株式会社(本社:神奈川県川崎市、取締役社長:岡田 俊輔、以下 当社)は、高頻度で大量に発生するIoTデータやビッグデータの管理に適した「GridDB®」の新バージョンとして、アーキテクチャを大幅に刷新したGridDB® 5.0 Enterprise Edition(以下、GridDB 5 EE)の提供を本日から開始します。
ビッグデータやIoTシステムにおけるデータベースは高速性や拡張性、信頼性が求められています。GridDBでは、イベント駆動処理技術注1や自律データ再配置技術 (ADDA) 注2を開発し、これらの要件を満たすデータベースを提供してきました。近年、IoTで扱われるデータやその活用方法が多様化しており、その結果、データモデルも多様化しています。新たなデータモデルを扱う際、複数のデータベース管理システム(DBMS)を用意したり、あるいは無理やり単一のDBMSで対応したりしているのが現状です。しかしそのような対応方法では、システムの煩雑化、構築・運用コストの上昇、リアルタイム性の損失などの問題が生じます。
GridDB 5 EEではアーキテクチャを刷新し、単一のDBMSでありながら複数のデータモデルを扱うことを可能とした、プラガブルデータストアを実装しました。これまでGridDBが提供してきた高頻度で大量なデータ登録に適したデータストアに加え、複雑な分析を高速に行うことができるデータストアや、ログなどの文章を蓄積することが得意なデータストアを組み込むことができます。
これまでのIoTシステムでは大量のセンサーデータを貯めて、可視化することで価値を提供してきました。しかし最近では貯めたデータを用いて複雑な分析を行い、新たな知見を得ようとする動きが出てきています。大量高頻度のデータを貯める機能と、複雑な分析を高速に行う機能は、DBMSとしては相反する要件になります。
これをプラガブルデータストア機能により、それぞれに適したデータストアを一つのDBMSの中に実現できるようになります。複数のDBMSを使用するのではなく、単一のDBMSで統合的に処理することが可能となり、複数のDBMSが混在することによるシステムの複雑化や、構築・運用コストの上昇などを避けることができます。
今後、複雑な分析を高速に行うデータストアや、文章の蓄積が得意なデータストアを順次提供していきます。
GridDB 5.0 EEでは、独自の高効率チェックポイント注3アルゴリズム技術 HCAL (Highly efficient Checkpoint Algorithm for Large-scale data) による新チェックポイント方式を導入し、チェックポイント時のファイルへのログ書き込み量を削減し、ディスクI/O負荷を低減させました。これにより頻繁にデータの追加・更新を行うシステムでは、システムの負荷が下がり、その結果、より多くのデータベース処理を実行できるようになりました。
また、テーブルごとに固有のブロックを割り当てることで、テーブル単位のスキャンや削除を高速化できる機能を追加しました。テーブルスキャン注4が多用されるデータ分析クエリなどで有効です。また削除予定のテーブルを指定しておけば、テーブル削除が高速になります。
これらの性能改善を行うことで、データベースの性能比較するためのベンチマークテスト(TPC-H注5)で、17%~46%(平均26%)改善しました。
当社は今後も、IoTやビッグデータによるデジタルトランスフォーメーションやサイバーフィジカルシステムを支えるデータベースとして、GridDBを強化してまいります。
■ ビッグデータ・IoT向けデータベース「GridDB」について
産業や社会を支える多種多様なシステムを構築・運用してきた知見・実績を基に、当社が開発したスケールアウト型データベースです。 膨大な時系列データを効率よく蓄積し、高い性能をスケーラブルに発揮できます。IoTやビッグデータに適した「時系列データ指向」「ペタバイト級の高い処理能力」「高い信頼性と柔軟な拡張性」「開発の俊敏性と使いやすさ」を特長としています。
GridDB商品情報サイト
http://www.griddb.com
GridDB オープンソース公開サイト
https://github.com/griddb
GridDB開発者向けサイト
https://griddb.net/
注1:イベント駆動処理技術:少ないリソースで⾮同期的なデータ処理を絶え間なく実⾏するとともにメモリ、ディスクアクセスの排他処理や同期待ちを極力排除しオーバヘッドを減らした技術
注2:自律データ再配置技術 (ADDA: Autonomous Data Distribution Algorithm) :自律的にDBサーバ間でデータを再配置し、DBサーバの負荷を平衡にする技術
注3:チェックポイント:データベース管理システム(DBMS)で、データベースへの変更をストレージ(外部記憶装置)上のファイルに書き込む処理。データベースの内容の変更はまずメインメモリ(RAM)上で行われ、ストレージへの反映は変更内容がある程度溜まってからまとめて行われる。
注4:テーブルスキャン:SQLで指定された表データにアクセスする際、検索条件を満たす行を1行ずつ探す方法。1行ずつチェックするので、時間がかかる。
注5:TPC-H:データベースシステムの検索処理性能に関する業界標準のベンチマークのひとつ。
GridDBは、東芝デジタルソリューションズ株式会社の日本における登録商標です。
本件の参照先:https://www.global.toshiba/jp/company/digitalsolution/news/2022/0422.html