2020年09月

02

データ分析基盤とは?基本から選定のポイントまで解説!

文字、音声、画像、位置情報など、私たちの身の回りには多種多様なデータが存在しています。
「ビッグデータ活用」や「データドリブン経営」といった言葉が旬なキーワードとなっていますが、理由の1つとして市場やニーズの変化が速い、ということがあります。

この変化の激しい時代において、大量データを市場環境の分析や顧客ニーズの把握などに活かしていくことは、今日の企業にとって競争を勝ち抜くための重要な経営課題となっています。
すでに一部の企業はデータ分析基盤を導入し、多種多様なデータを効率的に分析することで市場の変化を迅速に捉え、自社製品・サービスの改善に活用しています。

そこで本コラムでは、データ分析基盤の基本的な構成や選定ポイントなどを解説します。

 

Index


 

データ分析基盤とは?

データ分析基盤は、多種多様なデータを統合した上で分析・活用するためのソリューションです。Excel や CSVファイルを数個利用してデータを分析するだけであれば、大がかりなデータ分析基盤を用意する必要はないでしょう。

しかし、「大量のデータを分析したい」「複数の担当者で分担して分析したい」といった場合には、効率よく分析を行うためにデータ分析基盤の構築が必要となります。
代表的なのは AI を利用する際です。定期的かつ繰り返し分析を行う必要があるので、データ分析基盤があるとスピーディーに手間をかけず結果を出すことができるようになります。

データ分析基盤は主に以下の機能があります。

    1. データを貯める
    2. 貯めたデータを分析するために整形・加工・クレンジングする
    3. 分析ツールを実行するためにデータを保管する

 

1.データを貯める(データレイク)

データレイク(Data Lake)は、業務システムやデータベースといったデータソースから収集したデータを保管する役割を担う、まさに「データの湖」のような存在です。

データレイクには、何ら加工を加えていない生データ(ローデータ)の状態でデータを保管します。データ分析の過程では、その目的や扱うデータの内容に応じて、非構造化データの構造化データへの変換、データ形式の変換、データクレンジングといった様々な加工を施します。

一方で、加工したデータを元の状態に戻さなければならない場合もあります。そのような場合にも、データレイクに生データを保管していれば、速やかに加工前の元データを手に入れることが可能です。

 

2.貯めたデータを分析するために整形・加工・クレンジングする
(データウェアハウス)

データウェアハウス(Data Warehouse)はデータレイクとは異なり、分析しやすいように加工したデータを保管する役割を担います。

データレイクや個別のデータソースに存在しているデータを ETL(Extract/Transform/Load)ツールで抽出し、分析用途に合わせて加工した上でデータウェアハウスに格納します。
幅広いデータソースから収集した多種多様なデータを用いて分析を行うという場合には、あらかじめ加工済みのデータをデータウェアハウスに集めておいた方が分析をスムーズに進めることができます。

 

3.分析ツールを実行するためにデータを保管する(データマート)

データマート (Data Mart)は、特定の用途で必要となる加工済みのデータのみを保管する役割を担います。

データウェアハウスは、データレイクや個別のデータソースから取り出して加工したデータをすべて保管します。

一方でデータマートは、「売上分析」「顧客行動分析」といった用途に合わせたデータのみを格納します。用途が限られている分、データウェアハウスよりも小規模なサイズでコストを抑えて構築することが可能です。
そのため、データ分析の目的が限定的な場合にはデータウェアハウスを用いることなく、データマートのみでデータ分析基盤を構築する場合もあります。


 

データ分析基盤選定で押さえるべき5つのポイント

実際にデータ分析基盤を選定する際には、次の5つのポイントを押さえることが重要です。

 

1. 属人化を防止できること

データ分析基盤の構築・運用には高い専門性が欠かせないため、専門スキルを持った一部のデータエンジニアだけが利用するといった形で属人化してしまいがちです。

属人化した状態では担当者の退職や異動にともなう引き継ぎがうまくいかず、データ分析の継続が困難になってしまう可能性があります。そのため、データ分析基盤選びでは属人化を防止できるかどうかが重要な選定ポイントになります。

例えば、分析用途に合わせたデータを管理画面上で簡単に抽出できるようなデータ分析基盤であれば、より幅広いメンバーがデータ分析を担うことができるようになり、属人化の防止につながるでしょう。

 

2. 一気通貫でデータ分析基盤を利用できること

前述のとおり、一般的にデータ分析基盤は、データレイク・データウェアハウス・データマートといった複数のソリューションを組み合わせて構築します。

この構築段階で設計を最適化することができず、「構築後の改修や別のソリューションの追加などで思わぬコストが発生してしまった…」というのはよく聞くところです。
さらに、ソリューション間でのデータ連携の不具合によるサイロ化も懸念されます。

このようなリスクを低減するには、複数のソリューションを組み合わせるのではなく、データエンジニアやデータサイエンティスト、ビジネスユーザーといった様々な役割の人が一気通貫で利用できるようなソリューションを選ぶ必要があります。

 

3. スピーディーに分析を開始できること

分析にあたってデータマートを作成することは珍しくありませんが、データウェアハウスからバッチ処理で物理的にデータを抽出してくるので、データ量が多い場合にはどうしても時間がかかってしまいます。

一方で、データをマッピングすることで仮想的なデータセットを作成できるソリューションも登場しています。このようなソリューションであれば、バッチ処理によって物理的にデータを抽出するよりも素早くデータ分析を開始することが可能です。

 

4. 非構造化データを扱えること

従来、企業が扱うデータの多くはリレーショナルデータベースや CSVデータのように、列と行の概念を持った構造化データでした。
一方で、最近では電子メール、会議を録音した音声ファイル、PDF形式の契約書といった列と行の概念を持たない非構造化データが多くなっています。

IoTやスマートデバイスの進歩によってさらに膨大な量の非構造化データが流通するようになっている状況を踏まえると、非構造化データにも対応したデータ分析基盤を選ぶことが重要です。
最近では、AIを活用することで非構造化データの分析を効率化しているデータ分析基盤も出てきています。

 

5. 拡張性が高いこと

スマートデバイスや IoT の普及によってデータ流通量が急増。2022年の世界のデータ流通量は、2017年時点と比べて3倍以上に達すると予測されています(※1)。

このような状況を踏まえると、データ量の増大を見越してホストやリソースの追加が容易で拡張性の高いデータ分析基盤を選ぶ必要があります。

※1:総務省「令和元年版 情報通信白書」


 

IBM Cloud Pak for Dataについて

本コラムは、データ分析基盤の構成要素や選定時のポイントについて解説しました。

IBM Cloud Pak for Data は、企業のデータ活用を強力に推進するデータ分析基盤です。Red Hat OpenShift Container Platform 上で稼働し、クラウド・自社データセンターなど環境を選ばずに利用することができます。

また、IBM Cloud Pak for Data はコンテナ化されているため、自社のデータ環境に合わせてリソース・可用性を柔軟に調整することができます。まさに企業で利用するためのデータ分析基盤として最適な製品です。

こちらのホワイトペーパーでは、今回ご紹介したデータ分析基盤選定のポイントと合わせて IBM Cloud Pak for Data が選ばれる理由を解説しています。データ分析基盤の導入をご検討中の方は、ぜひ、ご一読ください。

 
 


この記事に関するお問い合わせ

エヌアイシー・パートナーズ株式会社
企画本部 事業企画部

この記事に関するお問い合せは以下のボタンよりお願いいたします。


 


関連情報

 

 

その他の記事

2025年06月26日

次世代型のインフラ構築を実現するIBM Fusion HCIがクラウドシフトを加速

公開日:2025-06-26 クラウドファースト時代となり、企業のインフラ構築においてもクラウドネイティブなアーキテクチャをめざす潮流が高まりつつあります。なかでも重要な技術とされるのが、コンテナベースの基盤づくりで、アプリケーションをコンテナ化できれば、その移植性や効率性、スケーラビリティなどが大きく高まり、ビジネスの展開を高速化できると期待が集まっています。 しかし、基盤のコンテナ化は、これまでのシステム構築のあり方と大きく“作法”が異なり、専門のナレッジやスキルが求められます。ただでさえ IT人材が不足している今日、一朝一夕に移行するのは難しく、この点が多くの企業にとって大きなジレンマとなっています。 貴社においても、 「クラウド移行は進めたものの、残るオンプレミスシステムとどう連携させればいいのか」 「自社で腰を据えてAI活用に取り組みたいが、社内リソースが足りない」 などのお悩みはないでしょうか。 今回は、企業が課題を抱えがちな次世代型のインフラ構築をあっさり実現するソリューションIBM Fusion HCIを紹介します。 目次 インフラ基盤が抱える課題 IBM Fusion HCIの概要 インフラ基盤が抱える課題への最適策 IBM Fusion HCIを利用したユースケース 次世代のインフラ基盤への鍵を握るIBM Fusion HCI お問い合わせ インフラ基盤が抱える課題 今日、企業情報システムのインフラ基盤は様々な意味で岐路に立っているといえます。これまで同様の手法では、刻一刻と変化し続けるビジネス環境を受けとめきれず企業競争力を低下させる恐れもあります。 例えば、具体的な危惧の内容として次のようなものがあります。 1. クラウドネイティブなアーキテクチャ導入の高い難易度 クラウドネイティブなアーキテクチャは柔軟性やスケーラビリティを重視した設計手法で、ビジネススピードの向上にも貢献します。しかしその導入には既存のシステムとは手法が異なるため、互換性確保や高度な専門知識を持つ人材の確保といった点に障壁があります。また、従来型の開発手法から移行する際には、文化的変革や技術的理解のギャップが課題になっています。結果、プロジェクトを立ち上げたものの頓挫してしまった、というケースも発生しています。 2. マルチクラウド戦略を推進する上での壁 マルチクラウド戦略とは複数のクラウドサービスを使い分けることで、効率的なリソース管理やリスク分散を実現することを指します。多くの企業が「オンプレとクラウドを統合」または「複数のクラウド環境を最適化」したいと考えています。 しかし、相互接続性やデータ移動に大きな課題があります。また、異なるプロバイダ間での運用調整やコスト管理の複雑化も実践の妨げになりがちです。特に、各クラウド特有の設計要件への対応やパブリッククラウドとプライベートクラウド間のデータ連携には多くのリソースとノウハウが必要です。 3. 自社AIワークロードの拡大 AIワークロードの拡大は、迅速なデータ処理や大量データ解析を可能にします。しかし、これに伴って高性能なインフラ整備が求められます。既存のインフラでは計算負荷が高く、パフォーマンスが著しく制限されるためです。慎重に選定を進めなければ計算資源の増加による費用の急増が発生するリスクがあります。 エッジ環境でのデータ処理や通信コストの抑制に対応できる基盤という観点も重視しなければなりません。開発プロセスの最適化や適切な AIモデルの選定なども大きな課題です。 4. VMware基盤のコスト問題 すべての企業に当てはまるわけではありませんが、仮想化基盤として VMware を採用するのは普遍的なソリューションであり、信頼性の高い仮想化テクノロジーを提供します。 しかし、近年そのコスト問題が大きく取り沙汰されており、ライセンス料や運用費用の高さが企業にとって大きな負担となっています。長期的な予算圧迫を招く可能性があり、特に運用規模が拡大していくビジネス環境の場合、コスト管理が難航するリスクがあります。さらに、技術的な側面では仮想マシン単位でしか運用管理できないという点があり、リソースの効率的な活用に限界があります。 IBM Fusion HCIの概要 IBM Fusion HCI は、上記のようなインフラ課題を解決するために登場したハイパーコンバージドインフラ(HCI)ソリューションです。コンテナ(Red Hat OpenShift、以下 OpenShift)ベースのシステムを構築するために必要な機能をあらかじめすべてパッケージ化しており、コンテナ専用のオール・イン・ワンソリューションといえます。 具体的に必要な機能とは、統合運用管理ダッシュボード、ストレージファイルシステム、バックアップリストア、コンテナ、仮想マシンを指しており、オプションでデータ連携カタログも選択できます。納品後最短4時間で構築が完了し、すぐに使用を開始することができます。 図1:IBM Fusion HCI概念図 これにより、企業において統合データ管理やクラウドとの透過的アクセス、アプリケーションの高速化といった次世代志向のインフラ構築が実現します。また、IBM Fusion HCI はサーバー/スイッチも統合管理でき、サポートを IBM に統一できるという点においても企業の運用管理負荷を大きく軽減することが可能です。AI を含む負荷の高いワークロードにも対応できます。 このプラットフォームで、データ管理、計算リソース、ストレージを効率的に統合できるため、AIアプリケーションの実行に必要な環境がシームレスに整います。例えば、AIモデルのトレーニングや推論処理を高速化するために計算資源にスケーラビリティをもたせるといったことも可能です。さらに、セキュリティ面でも信頼性の高い機能が提供されており、企業の重要なデータを安全に保護します。 インフラ基盤が抱える課題への最適策 IBM Fusion HCI は 導入しやすく柔軟でパフォーマンスに優れたインフラ基盤 です。コンテナベースのシステム構築を進めたい企業にとって最適の選択肢といえ、そのメリットとしては次のようなものがあります。 1. クラウドネイティブへのスムーズな移行を実現 Red Hat OpenShift を基盤とし、これをあらかじめパッケージした HCI であるため、ユーザーはクラウドネイティブなコンテナ基盤を導入する際に設計を始めとした複雑な調整を省けます。また、専用インストーラーを搭載しており導入をスムーズに進めることができるため、製品が到着したその日からデジタルトランスフォーメーションに着手することが可能です。 2. マルチクラウド/エッジ環境への移行 IBM Fusion HCI は、オンプレミス、パブリッククラウド、エッジ環境のどこでも稼働することができます。特に、ハイブリッドクラウドのアプローチを強化するために設計された新しいサービス「IBM Cloud Satellite」を活用すれば、IBM Cloud サービスのメリットを IBM Fusion HCI の環境にも容易に拡張できます。 例えば、データが特定の地域に留まる必要がある法規制に従う際に、IBM Cloud Satellite はその地域でのデプロイメントをサポートしつつ IBM Cloud が提供する最新の AI、セキュリティ、ストレージ機能をオンプレミス環境で利用できます。 この透過的なデータ連携能力は、マルチクラウド環境のデータ制御に大きな力を発揮します。 3. AIワークロードに対する優れた対応力 セルフ型オンプレミスクラウドの提供 IBM Fusion HCI は AIワークロードに特化した柔軟で高度なインフラ基盤を提供します。強みは、watsonx との連携によるセルフ型オンプレミスクラウドの構築が可能 である点です。この連携により、クラウドの利便性をオンプレミス環境に取り入れ、AIモデルのトレーニングやインファレンス(推論)作業をシームレスかつ効率的に進められます。 AI処理に最適化された設計 IBM Fusion HCI には高速な AI処理を実現する設計が施されています。NVIDIA GPU の活用を可能とし、AIモデルのトレーニングや推論の速度を飛躍的に向上させます。また、watsonx.data と組み合わせることでデータクエリのパフォーマンスを従来インフラの最大90倍まで高速化 することが可能です。 エンタープライズグレードのデータ基盤 IBM Fusion HCI はデータレイクハウスとしての機能を提供し、AIワークロードに必要なデータ収集・分析基盤の構築を支援します。エンタープライズ規模の大容量データ管理に対応し高い柔軟性と拡張性を持つため、DX を推進する企業にとって理想的な選択肢と言えます。 4. コスト削減と効率性の向上 VMwareのライセンス費用をカット IBM Fusion HCI は、VMware を利用した仮想化基盤の代替として大幅なコスト削減の可能性とします。物理サーバー上に Red Hat OpenShift環境を直接構築する仕組みによって VMwareライセンス費用や運用コストを削減すると同時に、OpenShift利用における費用も最適化できます。 効率的なリソース管理 コンテナ単位での精細なリソース管理を実現する IBM Fusion HCI は、従来の仮想マシン管理よりも大きな効率性を発揮します。これにより、仮想化環境の課題(例:仮想マシン単位でしかリソースを扱えない問題)を解消し、リソースの使用効率を最大化します。 運用負荷とコストの削減 IBM Fusion HCI は設計・導入・運用にかかる負担を軽減し、運用管理の効率化を達成します。IBM による一元的なサポートが可能なため、トラブル発生時の対応が迅速かつスムーズです。また、watsonx を活用した次世代ワークロードに最適化されており、最新技術を活用しながら長期的なライセンスコストの抑制を実現します。 5. 障害時の運用負荷負担削減 IBM Fusion HCI は、システムの信頼性を高めるために設計された自動監視および報告機能である CallHome機能を搭載しています。そのため、障害発生時に IBM に自動通知でき、運用負担を軽減することができます。統合管理コンソールによりシステムの状態を一元的に確認できるため、トラブルシューティングも容易に行うことができます。 IBM Fusion HCIを利用したユースケース 1. IoTサービスでの利用 製造業で IoTサービスを開始したいという場合、製品や生産機械から IoTデータを収集し、このデータをクラウドなど IoTサービスの拠点に送る必要があります。しかし、生産拠点によってはセキュリティやネットワーク要件が厳しくデータをクラウドに出せないということもあります。 そこで、条件の厳しい工場には IBM Fusion HCI を設置しクラウド同様の IoTサービスを展開することで、エンドユーザーにデータから得られる知見を提供できます。 2. マルチクラウドでの利用 すでに進んでいるクラウド移行を統一管理したい場合にも IBM Fusion HCI は活躍します。例えば、複数クラウドの OpenShift環境に統一したセキュリティポリシーを適用するとした場合、お客様サイトの IBM Fusion HCI を起点として IBM Cloud を介して様々なロケーションの OpenShiftサービスを一元化できます。ポリシーをアップデートする際も変更が自動的に反映されるため、運用管理の負荷が大きく軽減できます。 3. AIワークロードでの利用 AIデータ処理を IBM Fusion HCI上の NVIDIA A100 GPU で実行することができます。これにより、大規模な AIシステムを構成するコアシステムやクラウド上の AIアプリケーションのデータへライブストリーミングすることができます。また、エッジで処理を終えてから、コアシステムやクラウド上のデータレイクやデータウェアハウスに送信するといったことも可能です。 図2:エッジのIBM Fusion HCIでAIデータ処理を実行 次世代のインフラ基盤への鍵を握るIBM Fusion HCI 未来志向のインフラ基盤に求められるのは「柔軟性」「効率性」「スピード」「安全性」です。IBM Fusion HCI は、これらすべてを備えた次世代型のソリューションとして、顧客提案の新しい切り札になると考えられます。 エヌアイシー・パートナーズは、IBM ソフトウェア/ハードウェアの認定ディストリビューターとして、IBM Fusion HCI のお客様への提案をサポートします。また、IBM のソフトウェア製品およびハードウェア製品を組み合わせた最適な提案を提供するとともに、製品の特長や利点をお客様にわかりやすく説明し、お客様・パートナー様のビジネスをサポートしています。 「お客様のニーズや要件に合わせて総合的なIBMソリューションを提案したい」 「IBM製品の機能や適用方法についての問い合わせに適切に対応したい」 「IBM製品の特長や利点を活かしてお客様ビジネスに最適なプランを提示したい」 といったご要望をお持ちの際は、お気軽にエヌアイシー・パートナーズへご相談ください。 お問い合わせ この記事に関するお問い合せは以下のボタンよりお願いいたします。お問い合わせ   .highlighter { background: linear-gradient(transparent 50%, #ffff52 90% 90%, transparent 90%); } .anchor{ display: block; margin-top:-20px; padding-top:40px; } .btn_A{ height:26px; } .btn_A a{ display:block; width:100%; height:100%; text-decoration: none; background:#eb6100; text-align:center; border:1px solid #FFFFFF; color:#FFFFFF; font-size:16px; border-radius:50px; -webkit-border-radius:50px; -moz-border-radius:50px; box-shadow:0px 0px 0px 4px #eb6100; transition: all 0.5s ease; } .btn_A a:hover{ background:#f56500; color:#999999; margin-left:0px; margin-top:0px; box-shadow:0px 0px 0px 4px #f56500; } .bigger { font-size: larger; }

back to top