特集・ブログ | エヌアイシー・パートナーズ株式会社

2020年04月10日

【てくさぽBLOG】H2O Driverless AIをIBM Power System AC922で動かして予想する（その1）

皆さま、こんにちは。てくさぽBLOGメンバーの佐藤です。前回「【てくさぽBLOG】超簡単データ分析！H2O Driverless AIを使ってみた」にて、H2O Driverless AI（以下 Driverless AI）のご紹介をしました。今回は、Driverless AI の第二弾として競馬の予測（回帰分析）に挑戦しました。＊連載の続きはこちら（2020年7月13日公開）「【てくさぽBLOG】H2O Driverless AIをIBM Power System AC922で動かして予想する（その2）」背景 AIは社会的に非常に注目されています。 AIを利用するためにはデータを元に学習させて、学習モデルを元に予測精度がどの程度なのかをテストすることになります。サンプルデータはGit等たくさんあるので、学習と”予測できた”という結果は確認できます。予測結果が実用性があるレベルなのか?何か具体的なデータで予測と実際の結果と照らし合わせて検証してみたいと考えました。尚、弊社ではDriverless AI PoC環境として、IBM Power System AC922 がありますので今回はこちらの環境を利用して、テストしてみたいと思います。こちらのブログを読んでぜひ試してみたいという方は以下リンク先よりお申込みください。(要会員登録) IBM AIソリューション PoC環境ご利用ガイド今回の目的回帰分析(データに基づいた予測)の機能を備えるDriverless AIを使って、予測が有用かどうか検証します。何を予測するか予測に適したデータは何か？を探したところ競馬についてはかなりしっかりしたデータが公開されておりかつ実際に順位という結果が出るため、テスト対象に向いていることがわかりました。 AIの検証ネタとしても複数の方が挑戦されていますし、過去に競馬AIコンテストも開かれたようです。データを探すまず、予測に用いるための競馬データについて調査しました。競馬のデータについて配信を行っているのは主に3つあります。 1.JRA-VAN DataLab. JRA公式のデータ 30年分のデータがある為、データ量は一番豊富 2.netkeiba.com 競馬ファンのための情報サイト人が使うためのコンテンツが多く、動画配信等も充実まとまったデータでの配布はない模様で、今回の用途には向いていない。 3.JRDB 基本的に競馬に関するデータを提供しているサイト調教データ等、データの種類は一番豊富詳細は割愛しますが、JRA-VANはデータの変換に手間がかかるため、JRDBを使用することにしました。手順 Driverless AIで回帰分析をするには5つのSTEPがあります。十分な結果が得られれば1回で終わりますし、もう少し精度が必要の場合は再び1に戻ります。順を追って説明します。 1.データの準備 2.回帰分析 3.予測 4.検証 5.考察(考察結果をもとに必要であれば1へ) 1.データの準備 Driverless AIが受付られるデータはテキストデータになります。データの受け渡しについてはクラウド連携が可能です。 Driverless AIとして受付られるテキストファイルは複数ありますが、今回はCSVファイルを準備することにします。アップロードについても一番簡単なローカルからのドラッグアンドドロップで行います。 JRDBはlzhファイル形式で配布されていますが、T#というツールを使うとCSVに吐き出してくれますのでこちらを利用します。 T#は日付毎にCSVファイル出力されますので連結して解析するデータを作成します。 CSVの連結についてはコマンドプロンプトでtypeコマンドを利用しました。今回は2010年1月5 日～2020年1月5日までのデータを連結して分析元のデータとします。抽出するデータの項目ですが、私自身競馬に詳しくないこともあり項目については何が有効なデータか不明ですので集められるだけ集めました。データとしては99列、50万行の規模です。 CSVファイルで340MB程あります。データ自体はこのような感じです。 Driverless AIのメリット回帰分析するデータについてDriverless AIのメリットを挙げておきます。関係ないデータを回帰分析にかけても大丈夫予測したいデータに関係ないデータは自動的に解析の対象から外します。 Driverless AIの場合、予測に有用なデータかそうでないかを選別する必要はありません。とにかくよくわからなくても入れておけば大丈夫です。データに歯抜けがあっても大丈夫 Driverless AIはデータがすべてそろってなくても実行することができます。ただし歯抜けがあまりにも多いと自動的に除外されます。自動で判断してくれますので手作業は不要です。データの型を指定しなくて大丈夫一般的にデータを読み込ませるという事をする場合は文字列なのか、整数なのか、日付なのか、データの型を指定する作業が必要になるケースが多いです。 Driverless AIはデータの型を自動判別してくれますので、型指定する必要はありません。また、手動での指定も対応しています。項目が自動認識となっています。データの注意点解析元データの注意点を上げます。予測は1項目のみ Driverless AIの予測は一度に1列、1項目のみとなります。複数項目を同時に予測はできません。予測以外のデータは埋まっている必要がある予測をする場合は予測項目以外の列は基本的に埋まっている必要があります。今回のケースの場合、分析元データにレースをしないとわからないデータ、レース走行タイム系は含めることができません。レース前に判明する調教時のタイムは使うことができます。文字コードはUTF-8のみ Driverless AIは文字コードがUTF-8でないと文字化けします。 JRDBの配布データはS-JISのため、テキストエディタやエクセルを使用してUTF-8で保存しなおす必要があります。 S-JISだとこのように文字化けしてしまいます。 2.回帰分析 Driverless AIにログインし、データのアップロードが済んだら、回帰分析をします。 Driverless AIのパラメーターですが、自動的にスコアラーがRMSE選択されますが今回はMAEに変更します。スコアラーは評価指標と呼ばれるもので、どういう指標で回帰分析してほしいか？で選択をします。例としてRMSEとMAEの違いを挙げます。数式や細かい説明については、いろいろなサイトで詳細な解説があるので、今回はかなり簡単に説明します。 MAE MAEは単純な当たりはずれ精度になります。比較的精度がでます。一方はずれ度合いについては評価しないため、当たりはずれの落差が激しい傾向が出ます。 RMSE RMSEは当たり、外れの差分をできる限り減らす評価となります。単純な当たりはずれの精度だけでなく、外れた場合の外れ度合いも評価します。例えば売り上げ予測といった数値予測の場合、精度が80％であっても、売り上げが100と予測したのに実際は1だったという大きな外れが発生しては困るといった場合に利用します。当たりはずれの幅が少ない評価となります。傾向としてMAEより精度が落ちます。 RMSEはデータと結果の相関が強いデータでないと精度が出ないため、今回は予測する値がよりはっきりしやすいMAEに設定します。どちらが正解という事もないため、このブログを参考に試される方は両方試して比較されるのもよいかと思います。 MAEを選択した状態回帰分析をしてみてDiriverlessAIについて印象的なポイントをあげます。全自動とにかく全自動で解析してくれることです。何もしなくてもとりあえずとにかくやってくれるというのが非常にメリットです。傾向分析傾向分析なんてエクセルでもできるじゃないかと思われる方もいらっしゃると思います。 Driverless AIのなにがすごいか? 99列の中から相関関係がある列を自動的に抽出し、相関のないデータは除外します。次に、x列がy％の影響度があるという、具体的な数値で相関を出してくれます。さらには、x列のデータのうち、外れ値を除く数値の範囲だけ相関があるといった一部だけ抜き出して有用といったものも判断してくれたり、それら複数を組み合わせたりして予測したい値に対する相関を様々な組み合わせやアプローチで試してしてくれます。同じことをエクセルでやってみることを想像してみてください。負荷が高い自動で処理してくれるかわりに、非常にCPU負荷が高いです。データ量にもよりますが、高い負荷が長時間続きます。負荷状況を見ますと、Driverless AIはGPUも利用しますが、基本はCPUでの処理となりますので、優先度としてはまずはとにかく高速なCPU、次にGPUとなります。今回、PCやクラウド環境とも比較しましたが結果はどの環境でも出ますが、処理能力が少ないと完了までの時間がとてもかかりますので、やはり運用するのであれば専用機が1台欲しいところです。今回テストする環境のスペック 8335-GTH Power9 40Core 2.4GHz~3.0GHz 160スレッドメモリ1024GB NVIDIA V100 16GB　×2 960GB SSD ×2(RAID1) というシステム構成となっております。 x86CPU(Intel/AMD)は1Coreあたり2スレッドになりますが IBM Powerの優れたポイントとして、1Core当たりのスレッド数が”4”となります。やみくもに増やしているわけではなく、1Coreあたりのパフォーマンスが高いため実現しているテクノロジーとなります。 160Core(!)の画面ショット(Driverless AIはスレッド数=Core数と認識) 今回のデータの場合、テスト環境ではパラメーターをデフォルト設定で約50分で終了します。完了するとこのような画面になります。これで予測の準備が整いました。長くなりましたので、次回、予測をして内容について検証します。お問い合わせこの記事に関するご質問は下記までご連絡ください。エヌアイシー・パートナーズ株式会社技術支援本部 E-Mail：nicp_support@NIandC.co.jp

ブログ

2020年03月04日

ブログ一覧 [2019年度]

コーポレートサイトに掲載している2019年度のブログ一覧です。 (さらに…)

ブログ

2020年03月04日

【てくさぽBLOG】IBM CloudでAI（機械学習）を体験してみた

こんにちは。てくさぽBLOGメンバーの高村です。いきなりですが、AIと聞いてどのようなイメージをお持ちでしょうか？ "人間と同じ様に意識や思考を持ったロボット"や"質問に対して答えてくれる製品”など、様々に思いつかれるのではないでしょうか。 AIの定義は定まっておりませんが、最近は大きく2つに分けることができると言われています。 1つ目は「強いAI」と言われ、前述に挙げた人間と同じ意識や思考をもつ人工知能です。現在のAI製品はこの「強いAI」にまだ至っていないと言われています。 2つ目は「弱いAI」です。「強いAI」に対して意識や思考を持たず、人間の知能の一部に特化した機能を実現します。視覚による画像処理や質問に対する回答、分類が該当します。昨年11月に掲載された「【てくさぽBLOG】H2O Driverless AIを使ってみた」のH2O Driverless AIは「弱いAI」になります。今回のブログはこの「弱いAI」に分類される、機械学習(Machine Learning)をIBM Cloud上でデモを体験しましたのでリポートしたいと思います。機械学習 -Machine Learning- AIの話をしていると"ML"や"DL"という単語を耳にします。"ML"とはMachine Learningの略(以下ML)、”DL"はDeep Learningの略(以下DL)になります。どちらも冒頭で説明した「弱いAI」に分類されますが、簡単に説明します。 MLとは沢山のデータを基にアルゴリズムを使用してパターンや特徴を見つけ予測を行います。図1の様に、分析するデータの状況によってMLは大きく「教師あり学習」「教師なし学習」「強化学習」の3種に分けられます。図1:機械学習の分類 (出典：クラウドオンライン道場資料 Cloud Online dojo_WatsonStudio_20191209.pdf P12) 「教師あり学習」「教師なし学習」は統計学に基づいた「統計的機械学習」が一般的です。よって回帰分析、分類分析、クラスター分析など統計の知識が必要になります。一方「強化学習」は入力されたデータから何らか行動し、それに対して報酬（評価）が与えられ試行錯誤し、より良い行動の選択をしていく学習方法になります。(参考資料：総務省 ICTスキル総合習得教材　［コース3］データ分析　3-5：人工知能と機械学習) これから行うMLデモはIBM Cloud Watson Studioの機能の一つ「機械学習用GUI ツール(以下Auto AI)」を使用します。Auto AIは「教師あり学習」になり、「回帰」「分類」をプログラミング無しで実行することができます。一方DLはMLと別のものと思われがちですが、MLで使用するアルゴリズムの1つを指します。人間の脳神経の仕組みを応用して作られたアルゴリズムにより非構造化データ(画像やスピーチなど)を処理するようコンピューターを訓練します。製品化の例を挙げると、公共施設での顔認証システムなどがDLを応用したシステムとなっています。図2はAI,ML,DLの関係を表したものです。DLはMLの一部であることがわかります。図2:AI,ML,DLの関係図 IBM CloudでMLデモを体験してみた 1.MLデモの概要 IBM Cloud Watson StudioのAuto AIを使用してデモを行います。Auto AIはデータの前処理、機械学習モデル（以下Auto AIモデル）の選定、特徴量の最適化などを自動的に行うことができます。今回のデモは図3の流れで行います。まずWatson Studioでプロジェクト、サービスを作成します。次にcsvファイルのデータをアップロードします。サービスを実行するとAuto AIが自動でAuto AIモデルを作成します。最後に作成されたモデルをデプロイし、テストを行います。図3:MLデモの流れ 2.IBM Cloudのアカウント取得今回のデモはIBM Cloudのライトアカウント(無料)で行うことができます。まずライトアカウントを取得しましょう。ライトアカウントならクレジットカード不要で、期間無制限でWatson含めた多数のAPIとサービスが無料で使用できます。取得方法はこちらのIBM Cloudのライトアカウントを作成しよう- IBM Developer チャンネル-をご参照ください。 3.デモの実行 3-1.データ準備デモで使用する架空の電話会社の顧客データ「customer_churn.csv」をURLからダウンロードし、自分の作業端末に保存します。このデータは顧客の属性と契約を解約したかしないか(CHURN)があります。このデータから顧客の属性とCHURNを予測するモデルを作成します。 3-2.Watson Studioプロジェクト、サービス作成それでは、デモをやってみます。まずIBM Cloudにログインします。「カタログ」から地域をダラスにし、「Watson Studio Lite」を選択します。左上のダッシュボードのサービスからWatson Studioのサービスを選択、「Get Started」をクリックしてWatson Studioを起動します。次にプロジェクトを作成します。「Create a Project」「Create an empty project」をクリックします。任意のプロジェクト名を入力します。「Select Storage Service」の「Add」をクリックし、Cloud Object Storageの画面に入ります。Liteが選択されていることを確認して「Create」をクリックします。これでプロジェクトが作成できました。次にサービスを作成します。Settingから「+Add Services」をクリックしてWatsonを選択します。Machine Learningの「Add」をクリックし、Liteが選択されていることを確認、「Create」をクリックします。Confirm画面でダラスが選択されていることを確認して「Confirm」をクリックします。Settingの画面に戻り、追加したサービスのインスタンスが追加されていることを確認します。 3-3.Auto AIモデルの作成いよいよAuto AIモデルを作成します。「Add to Project」をクリックし、「Auto AI experiment」をクリックします。Asset nameに”Churn Analysis”と入力し、自分のWatson Machine Learning Service Instance がセットされているのを確認して「Create」をクリックします。ダウンロードした「customer_churn.csv」をドラッグ&ドロップしてデータをアップロードします。「Select column to predict 」から予測したい項目で「CHURN 」を選択します。「Run experiment 」をクリックして、モデル作成を開始します。モデルは複数のステップを経て4つのモデルを生成します。「Run Finished」が表示されるまで待ちます。1、2分でしょうか。下にスクロールするとモデルが作成されています。一番上のモデルが最もよいモデルとなっています。このモデルの評価基準は変更でき画面は”ROC AUC”という基準で「1」に近いほど判別能が高いことを示しています。一番上のモデル「Pipeline1」を保存します。「Save as model」をクリックし、Model name を "Churn Analysis Model "に変更して、「 Save 」ボタンをクリックします。 3-4.モデルのデプロイとテスト最後に出来上がったモデルをデプロイして、テストを行います。先ほど保存したChurn Analysis Modelの画面から「Deployments」タブをクリック、「Add Deployment+」をクリックします。Name に”Churn model deployment ”と入力後、「 Save 」ボタンをクリックします。 STATUS が Initializing からready に変わったら「 Churn model deployment 」をクリックします。「Test」タブをクリックします。今回のテストはJSONで入力します。テキストのマークをクリックして右画面のJSON構文を入力します。この構文は記された属性が契約を解約したかしないかをモデルに判別させます。入力後「Predict」をクリックします。「Predict」をクリックすると右側に予測結果が表示されます。この場合はF(解約しない)と表示されました。今回はJSON構文の入力で分析を試みましたがフォーム欄(ID,Genderなどの欄)に直接データを入れても分析できます。JSON構文の経験が無い方でも簡単に操作できますね。 MLデモを体験してみてはじめてIBM CloudでMLを体験してみました。複雑な作業なんだろうな…と思っていたのですが、準備するものは作業端末と分析したいデータ(csvファイル)で難しいインストールや設定作業はありませんでした。任意のファイル名の入力と「Add」や「Start」を押すだけでAuto AIモデルが作れてしまいます。作業もサクッと進みこんなに簡単でいいのかと思ってしまいましたが、この容易さがIBM Cloudサービスの良いところだと思います。オンプレミス製品ではH2O DriverlessAIやIBM製品のPowerAI Visionなどがありますが環境準備、インストール、設定作業が発生します。もちろんオンプレミス製品の良いところもありますが、作業工数に余裕が無い、技術者が不足しているなどの課題がございましたら是非IBM Cloud Watson Studioをお試しください。まとめ今回はIBM Cloud Watson Studioの機能の一つであるAuto AIを体験しました。上述しましたが操作の容易さ、便利さに驚きました。ところでWatson StudioはAuto AIの他にも多くの機能が提供されています。Auto AIは「データ分析」のフェーズで使用する機能ですが、その前段階の「データベースアクセス、データ蓄積」、「データ加工」のフェーズにおいても複数の機能が提供されています。また「データ分析」の機能ではAuto AIの他、SPSS ModelerやCognos Serviceなどのラインナップがあり、目的にあったツールを使用することができます。分析プロセスの「データベースアクセス、データ蓄積」「データ加工」「データ分析」は、少し前まではフェーズ毎に使用ツールが分かれ異なる環境で作業しなければいけませんでした。図4の通り、Watson Studioではこの3フェーズを1つの環境上で使用することができ、作業効率の向上が期待できます。図4：Watson Studio 概念図（出典：クラウドオンライン道場資料 Cloud Online dojo_WatsonStudio_20191209.pdf P17) 「時間が無い、技術者も不足している」「CloudでAIなんて難しい！」と思っている方がいらっしゃいましたら是非一度IBM CloudでAIを体験してみてください。「思った以上に簡単、便利！これならお客様の要件にマッチするかも」と感じて頂ければ幸いです。この記事に関する、ご質問は下記までご連絡ください。エヌアイシー・パートナーズ株式会社技術支援本部 E-Mail：nicp_support@NIandC.co.jp

ブログ

2019年11月29日

【てくさぽBLOG】IBM Cloud Pak for DataのトライアルとCloud Pakシリーズアップデート情報

※「こちら」で2020年8月更新版のアップデート情報をご紹介しています。 (さらに…)

ブログ

2019年11月19日

【てくさぽBLOG】超簡単データ分析！H2O Driverless AIを使ってみた

こんにちは。てくさぽBLOGメンバーの河野です。突然ですが、「Driverless AI」ってご存知ですか？ (さらに…)

ブログ

2019年09月24日

【てくさぽBLOG】IBM Cloud Pak for Dataを導入してみた

こんにちわ。てくさぽBLOGメンバーの佐野です。 2019年7月9日に IBM が RedHat の買収完了を発表しました。 RedHat の買収で IBM が得るものはいくつかありますが、その中でも特に "OpenShift" がハイブリッドクラウドのプラットフォームとして注目を集めています。 IBM は OpenShift を使って、IBM Cloud だけでなく AWS や Azure、GCP 上などのパブリッククラウド上でも簡単に IBM のソリューションを利用できるようにすることを考えています。それを実現するための製品が "IBM Cloud Paks" シリーズとなっています。１．IBM Cloud Paks とは？ IBM Cloud Paks には2019年9月17日時点で5つの製品が出ています。 IBM Cloud Paks は単に既存のIBM のソリューションをコンテナ化して提供しているだけでなく、可用性・拡張性が確保された上で企業ユース向けの様々な機能が実装された状態で利用できるようになっています。そのため、個別に製品を購入し自力で様々なインフラ設計・設定をする必要がありません。そんな IBM Cloud Paks シリーズの中でも今回は IBM Cloud Pak for Data（以下 ICP4D）の導入をしていきます。ちなみに、今回の導入は kubernetes 環境としては OpenShift ではなく IBM Cloud Private を利用します。２．IBM Cloud Pak for Data さて、今回導入する ICP4D はそもそもどういうソリューションなのでしょうか？一言でいうなら、「データ分析のためのプラットフォーム」となります。 ICP4D を使って、データの収集・整形・カタログを整備して分析ツールにデータを渡し活用することができます。このソリューションが特に効果を発揮するのはデータを分析ツールに渡すための前処理の効率化です。データのカタログを作るための自動化支援機能（割り当てる用語の推奨やデータクラスの自動判別）を持っているため、人間がゼロから登録をする必要がありません。また、本ソリューションに組み込まれている製品だけでなく、Add-on として使いたい製品を追加することができるので、「今は使わないけれど将来的に・・・」という対応も可能です。「データ分析を個別の部署内だけでなくて対象を広げたい」「データ分析のためにいろいろなツールを使っていて運用負荷が高くなってきた」というようなお客様には最適なソリューションとなります。３．事前準備 ICP4D 導入前の事前準備としては、システム要件の確認 OS の設定が必要になります。システム要件は IBM の Knowledge Center を確認しましょう。 Installing Cloud Pak for Data 日本語での表示もできますが、最新の情報を確認する場合には英語表示にしてください。今回は検証環境なので3ノードクラスタ（Master/Worker の機能を3台に導入する）構成とします。環境は以下の図のようになっています。今回はオンプレ環境なので ICP4D の画面へアクセスするために割り当てる仮想 IP を2つ用意します。また、Add-on を追加で導入するため、CPU /メモリは最小要件よりも多く確保しています。準備する環境について簡単にポイントを整理しておきます。＜CPU＞最新の CPU であればそれほど気にする必要はありませんが、SSE4.2 や AVX/AVX2 をサポートしている必要があります。また、10ユーザー程度を想定した要件であるため、追加の Add-on やユーザー数が増加する場合には、コア数を多くした方がよいでしょう。特にデータ仮想化機能を使う時にはインスタンスを作成するときに CPU やメモリを割り当てる必要がありますので、事前にどの機能に対してどれぐらいの割り当てをするのか検討をしておきましょう。＜メモリ＞メモリについても CPU 同様に、使う機能やユーザー数に応じてどれぐらいのリソースが必要になるかを検討します。＜ディスク＞ディスクについてはシステム要件内にも記載がありますが、root ファイルシステムで最低 100GB、インストールパス (ex. /ibm) で 500GB、データパス (ex. /data) で 500GB が必要になります。この容量は最小要件なので、追加でインストールする Add-on やデータ容量によって追加のリソースを用意する必要があります。また、root 容量はインストール前に警告が出てくるので 200GB 程度は割り当てしておいた方がよいでしょう。ディスクにはパフォーマンス要件もあります。よっぽど変なディスクでなければ問題ありませんが、Latency テストで 286 KB/s、Throughput テストで 209 MB/s が必要になります。※詳細はこちらの「Disk requirements」パートを参照下さい。パフォーマンスについてもインストール前にチェックされるため、満たさない場合には警告が出てきます。　※警告なのでインストールを進めることはできます。＜OS＞ OS としては Redhat Enterprise Linux 7.5 以上が必須となります。 OS 設定するポイントが多いので簡単ですが以下にまとめます。ネットワークポートへ静的 IP アドレスの付与 DNS サーバーは必須タイムゾーン設定時刻同期設定（chrony） Firewall の無効化 SELinux の設定（permissive）インストールパス/データパスに対してファイルシステムの設定変更（noatime 設定） First Master ノードから他のノードへの SSH 接続設定（パスワード無し接続）（必要に応じて）Docker registry 設定インストールする環境の準備は以上になります。事前準備まで完了したら一度バックアップを取得しておきましょう。インストールに失敗した時に、OS を再導入し、1から設定をやり直すのは結構時間がかかりますので。　※ここは結構重要なポイントです。４．導入 ICP4D を導入するためのプログラムを Passport Advantage サイトからダウンロードしましょう。入手方法はこちらインストールの実行には、当然ファイルに対して実行権限をつけないと進まないので、tar ファイルを解凍した後の "installer.x86_64.nnn" に +x 権限を付与することを忘れずに。 ICP4Dのインストール実行する前に、設定ファイルを作る必要があります。環境に応じてファイルの内容を変える必要がありますので、こちらを参照しながら設定ファイル（wdp.conf）を作成しインストールパスに配置しましょう。インストール実行前に事前チェックツールをダウンロードし実行します。入手方法や実行方法はこちらに記載があります。エラーや警告が出ていれば何か問題が発生していますので、メッセージをよく読んで解消しましょう。事前チェックツールの実行をクリアすればいよいよインストールの実行です。インストールの実行方法は設定ファイル（wdp.conf）作成の URL の項番5に記載があります。が、インストール実行前にちょっと待ってください。 v2.1.0.2 でのインストールには約2.5時間ほどかかります。（環境や設定によって前後することがあります。）インストール開始後にコンソールを切断すると途中経過が分からなくなってしまうので、十分な時間を確保した上で実行するか、screen 上で実行して、切断した後でも途中経過が分かるようにしておくことをお勧めします。また、インストールのログは以下のディレクトリ下に "wdp ほにゃらら"というファイル名で出力されているので、必要に応じて確認してください。 (インストールパス)/InstallPackage/tmp/ インストールを実行したコンソール上で出ないログも表示されるので、止まっているように見える場合にはこちらも確認した方がよいかもしれません。 ※インストールイメージを他ノードへ転送するところで結構時間がかかる場合が多いです。インストール完了するまでの間ずっとログを見ていてもよいですが、（上記のような時間がかかる処理で）止まったり、Warning が大量に出るとドキドキヒヤヒヤしますので、「止まったら対処する」ぐらいの気持ちでいた方が精神衛生上よいです。５．ICP4D 導入後環境や構成にも依存しますが ICP4D v2.1.0.2 では約2.5-3時間程度で導入が完了するので、その間はひたすら待ちます。インストールが無事に終わると、以下のようなメッセージが出てきます。 Installation was successful and took 02:55:05 Access the zen web portal using the following URL: https://xxx.xxx.xxx.xxx:31843 このメッセージが表示されれば無事 ICP4D の導入は完了です。記載されている URL にアクセスをして ICP4D の画面にログインしてみましょう。ログインできて下のような画面が表示されれば OK です。必要に応じて Add-on の導入などを実施ください。 ※画面表示はブラウザの言語設定に依存します。添付画面は日本語設定になっているので日本語で表示されていますが、英語表示になっている場合にはブラウザの言語設定をご確認下さい。 Add-on の導入については Knowledge Center に記載がありますので、導入する Add-on 毎に用意するもの・手順をご確認下さい。該当箇所はこちら。もし、エラーや Warning がログ上に表示されるようであれば、各ノードに対して設定変更をするなどで問題を解消するように対処して下さい。６．まとめ ICP4D のインストーラは自動化されており、実行したらインストールが完了するまで人間が何か操作をする必要がありません。（最初に Y や A や Enter を押す必要はありますが。）半面、途中でインストーラがエラーで止まってしまうと retry で先に進められれば問題は無いのですが、同じ場所で何度も止まってしまい、先に進まない場合にはエラーの原因を取り除くために多大な労力がかかります。なので、本番導入前に何度もインストールを試してみるといった事前準備をしっかりしておくことが重要です。 OS 設定が漏れている、必要スペックが不足している、などの環境・事前設定以外の要因で止まってしまった場合には、原因究明や対処が難しい場合がほとんどです。同じ環境・設定であっても OS レベルから再導入することでうまくいくこともあるので、うまくいかない場合には自力での問題解決にはある程度で見切りをつけて OS レベルから再導入することもご検討ください。この記事に関する、ご質問は下記までご連絡ください。エヌアイシー・パートナーズ株式会社技術支援本部 E-Mail：nicp_support@NIandC.co.jp

ブログ

2019年08月23日

【てくさぽBLOG】「IBM i World 2019」に参加した

こんにちは。2019年7月4日（水）に大手町プレイスカンファレンス・センタービルで開催された「IBM i World 2019 東京」に、高橋・河野の2名で参加してきました。約400人収容の会場は満席、会場参加以外にも LIVE 配信で約200人が聴講との事で、IBM i World への関心度の高さが見受けられます。2019東京のアジェンダは AI にフォーカスしており、IBM i の方向性が示されていると感じました。アジェンダ I (アイ=わたし=お客様ご自身)、AI、IBM i。基幹業務にAIを実装するための最適解とは【お客様講演】検証！AI認識画像は基幹システムを強化できるのか【お客様講演】全社員参加によるデータ分析の実現！データxAIによるDXの実現に向けて【パネルディスカッション】『RPG vs .Java』より快適なビジネスアプリ開発言語は I (アイ=わたし=お客様ご自身)、AI、IBM i。基幹業務にAIを実装するための最適解とはセッション開始時に、毎度のことながら、IBM 久野さんによる IBM i に関する聴講者のイメージ調査があり、「堅牢性」、「継承性」、「信頼性」、「手間いらず」等が上位ワードとして浮かび上がっておりました。従来からの IBM i のイメージ通りですが、最終講演でどのように変わるのか、あるいは変わらないのか、といった点が毎度の楽しみでもあります。当講演のキーワードは”アジリティ”です。IBM i は、その特長である、HW+OS+DB+Application の垂直統合に加え、リアルタイムで AI /モバイル/ DB / Application の水平連携を通じてシステムをアジャイル開発することで、精度を高めつつスピードアップした対応を実現させます。さらに Application では既存資産を活かしつつ機能強化を図れるのが、IBM i です。 [caption id="attachment_68350" align="alignnone" width="600"] IBM i での水平統合・垂直統合のイメージ[/caption] [caption id="attachment_68351" align="alignnone" width="600"] IBM i とAIソリューションの水平連携イメージ1[/caption] [caption id="attachment_68352" align="alignnone" width="600"] IBM i と AI ソリューションの水平連携イメージ2[/caption] 【お客様講演】検証！AI認識画像は基幹システムを強化できるのかお客様講演の1つ目は、コンビニ向け食品や冷凍総菜等の食品製造の会社です。コンビニでの商品の入れ替えは年間1000品目以上あり、さらに今後も増え続けていくことは確実で、それに伴った労働力不足の問題がますます深刻化することが懸念されています。また、不良品の発生は経営に多大な影響を及ぼすため、検品・検査の強化が経営課題でもあります。そこで検品・検査業務への AI 活用を検討しましたが、社内には AI の知識を持った人材がおらず、メンバーとして加入している IBM ユーザー研究会に相談してみましたが、研究会メンバーにも AI に精通した人材がいなかったため、研究会の研究テーマとして取り上げてもらい検討を進める事となりました。その活動の中で、データサイエンティストなしでディープラーニングが可能であり、学習データの加工、ディープラーニング学習モデルの作成、推論と表示を GUI で誰でも実行できる PowerAI Vision であれば今回のニーズにマッチするのではないかとの推論に基づき、PowerAI Vision を用いての検証を進めることになりました。「サンドイッチ製造の最終検品作業で画像解析を用い、NG 商品を検出して作業員により最終確認を行う」というのが命題でしたが、NG となるべき状態が検知できずに OK となるケースがあり、改善が必要でした。そこで、精度を高める施策として「画像判定コンテスト」を実施しました。コンテスト参加者が競い合い試行錯誤した結果、チューニングの勘所として特徴的な NG 画像の学習データ化、一つの画像データを角度を変えて枚数を増やし、学習データを増やす(学習データ数が多いほど、ディープラーニングは精度が高まる)、色を付けずモノクロにする（色の判断要素は、今回のケースでは無駄な要素になるため無くす）等様々なアイデアが生まれ、精度向上に繋がりました。 AI では「100％の精度ではなく、80％を目指して最後は人間が判断する」という完全自動化ではなく、支援システムの位置づけとした事が成功につながった要因とのことでした。今回得られた知見を参考に、今後は IBM i の基幹システムと AI の連携を深め AI 活用の領域を拡げていく予定とのことです。講演者も、「AI 活用がどこまで会社全体の生産性向上に寄与できるか」ということを期待されていました。【お客様講演】全社員参加によるデータ分析の実現！データxAIによるDXの実現に向けてお客様講演の2つ目は、ポリエチレン製ゴミ袋、食品保存袋、水切り袋、紙製ゴミ袋などの製造・販売の会社です。本来の分析の目的とは、何が起きているのかを “早く知り”、“早く施策を打つ”事です。そのためには、「何のために分析を行うのか」、「現状の理解」、「目的の確認」、そして何と言っても「施策の実施」が重要であるということを強調されていました。以前のシステムは基幹システムを IBM i で運用し、データ分析はバッチ処理でした。DWH サーバーは別途構築した専用のシステムで、IBM i のデータと連携していました。その結果、データ準備からバッチ計算で解析するまでの流れで大変時間がかかっていました。そこで、データ準備から解析開始までのタイムラグによるデータの齟齬を発生させず、かつ、分析プログラム開発のためのスキルをカバーしてくれる Db2 Web Query for i を2010年に採用されました。筆者が素晴らしいと感じたのは、この分析システムに「ウェブQ」という愛称まで作り、社内の誰でも使えるところまでデータ分析業務を全社に展開・浸透されていたことです。そうした「全員参加によるデータ分析の実現」が、より高度なデータ分析業務へ進む原動力になったのであろうと納得いたしました。次のステージである機械学習によるデータ分析は、ハードルが高かったものの、2019年5月から1ヶ月間 H2O Driverless AI で検証を行ったことにより、月別販売数予測(時系列データ)で従来の経験者による予測を上回る結果を出せました。 30名の営業がそれぞれ、毎月、数日をかけて計算している予測業務のワークロードを削減し、かつ予測精度も向上するため、営業生産性の大幅な向上が期待されるとのことです。今後は、2020年2月の本番稼働を目指してデータ整備等の準備を進めていくとともに、デジタル化のステップアップを続けていきたいという意気込みを感じました。【パネルディスカッション】『RPG vs .Java』より快適なビジネスアプリ開発言語はパネルディスカッションは、RPG と Java のプロ同士による高質なデュエットのように味わい深いものでした。一方は、IBM iという閉じた世界の中で60年間使い続けられた RPG であり、一方は、オープン・システムの旗手として、あらゆるデバイスで稼働する命題をもった Java です。しかし、どちらもアプリケーション開発の生産性向上とシステム安定性を追求し、どちらが優れているという競合ではなく、企業での開発アジリティを高めることに注目しているというディスカッションになっていきました。既存の RPG コードをすべて Java 化するのではなく、変わらない RPG の基幹系ロジック部分などはそのまま生かして利用し、新しい機能やユーザーインターフェース部分は Java 化するのが効率的ではないかとの結論で、双方言語のプロ同士で合意されていました。これを老舗の温泉旅館のリノベーションに例えて、「古い部分を作り直すのではなく、よい良いところは残しつつ、現代的な空間や機能追加部分を建て増した方がより優れた旅館になるのでは」という説明に、多くの方が頷かれていました。今後 DX と呼ばれるデジタルトランスフォーメーションが進むと、基幹系業務をクラウドやモバイルにて利用しなければならなくなります。そのようになったとき、「基幹系業務を一から作り直すのではなく、一部を取り込む方が生産性も安定性も高くなるだろう」というディスカッションは、IBM i ユーザーやパートナー企業の方々にとって朗報だったと思われます。会場の皆さんは、食いつくように壇上の一挙手一投足に反応されていました。最後に全過程終了後、再び IBM 久野さんによる IBM i に関する再度のイメージ調査があり、上位キーワードは「アジリティ」や「温泉旅館」に変わっておりました。 IBM i の未来を会場の皆様と共有した、一体感を感じる今年の IBM i World でした。 ※この記事は2019年7月5日時点の情報をもとに作成しています。お問い合わせこの記事に関するご質問は下記までご連絡ください。エヌアイシー・パートナーズ株式会社企画本部事業企画部 e-Mail：voice_partners@NIandC.co.jp

ブログ

2019年07月29日

【てくさぽBLOG】「IBM Power Systems テクニカル・ワークショップ 2019」に参加してみた

こんにちは。てくさぽBLOGメンバーの河野です。今回は2019年6月26日（水）～28日（金）の3日間、日本アイ・ビー・エム株式会社本社にて開催されました「Power Systems テクニカル・ワークショップ 2019」に参加してきました。このワークショップは年に1度米国の IBM Power Systems の技術担当者が招聘され、最新情報だけではなく、IBMの今後の戦略と方向性を直接聞けるワークショップになります。今年は IBM ラボサービスから実際にお客様先でデリバリーを実施している技術者によるセッションもありました。複数の OS を統合する Power Systems の特徴などを米国の技術者から直接聞けるため、オーディエンスも多く、非常に盛り上がりました。このあたりからも、参加者の期待が伝わってきたワークショップでした。 3日間の内容は、以下の通りです。 Day 1 26日（水）【Cognitive/AI, High Availability】 Power Systems Software 最新情報 Power HA for Linux/VMRM HA and DR 情報 AI/Watson Studio Local/Watson Machine Learning Accelerator 情報 IBM Cloud Private/Hortonworks Data Platform 情報 Day 2 27日（木）【Power Systems, AIX and IBM i】 AIX アップデート・戦略情報 Nutanix Power Systems H/W 最新情報 Hybrid / Multi Cloud 戦略 IBM i 7.4 最新情報 Power HA for IBM i / Db2 Mirror Day 3 28日（金）【IBM i】 IBM i アップデート・戦略情報 IBM i 開発環境全体感としては、新製品発表などの目新しい情報はありませんでしたが、最新情報と Power Systems の進む方向性という点でハードウェアというよりソフトウェアを含めたクラウドを意識したメッセージを打ち出しており、今まで以上にクラウドを中心としたソリューションへの関心度を高くする必要があると感じました。また何よりも講師の方の説明に力が入っていたのが記憶に残っています。以下、特にメッセージの強かった Day 1、 Day 3 のセッションについてお伝えします。 Day 1 Power Systems Software 最新情報では、クラウドへの移行を容易にするツールが増えている点が印象的でした。特に印象に残っているツールとしては、Private Cloud Management での PowerVC（プライベートクラウド向け管理ツール）や CMC（IBM Cloud Management Console）です。 PowerVCについて PowerVC の説明では、サーバーやストレージ以外に VMware Cloud も管理可能 (VMware vRealise) なツールであり、ユーザーニーズに応じた Edition を揃えている、とのことでした。以下の1～3の内容からもクラウドの技術がベースになってきていることがわかりますし、今後ますます積極的に取り入れていく方針を打ち出していました。 PowerVCのEditionラインナップ 1 Power VC Standard Edition 数分で VM を Deploy、VM の自動回復など 2 IBM Cloud Power VC Manager Power VC Standard Edition に加え単一クリックによる展開 3 IBM Cloud Power VC Manager for SDI IBM Cloud VC Manager に加え IBM Spectrum Scale を包含 ※Data Management Edition 5.0 PowerVC バージョン1.4.3 先月にあたる6月21日にはバージョン 1.4.3 がリリースされ、バージョン1.4.3では次の1～6の機能が提供されるなど、クラウド以外にもマルチベンダー（SW）を意識しています。全 POWER9 エンタープライズサーバーをサポート冗長化された HMC の自動フェールオーバーをサポート Dell EMC の PowerMAX のサポート日立の GAD をサポート VMAX REST のアップグレード OpenStack Stein のサポート上図のように、PowerVC は Software-Defined Network、Software-Defined Storage、Software-Defined Compute と連携され、機能拡張が可能な次世代のシステム基盤となります。 IBM Cloud Management Console (CMC)について CMC は SaaS ベースの管理ツールであり、複数のシステム、地域、データセンターに跨った環境でも、統合ビューの提供を可能にするツールです。運用管理においてクラウド環境の管理を可能にする機能が備わってきています。その他のトピックさらに POWER9 のリリースから PowerVM Enterprise Edition（Power VM EE）は必須機能となっており、これによりいつでもクラウドへの移行が可能となります。今後ますます多くなるワークロード（多くのワークロードを処理する必要がでてくる）を最適なリソースで対応していく基盤には、POWER9 をベースとしてクラウドや仮想化技術を取り入れる方向であることを打ち出していました。 Power HA for Linux/VMRM HA and DR では、VMRM (VM Recovery Manager) HA と VMRM DR を PowerHA の廉価版ソリューションとして発表されている点や、 PowerHA for Linux が AIX 版より廉価な点からも、今後のセリングでクラウドを意識した提案が多くなってくると考えます。（PowerHA に GUI のツールが備わっているというのは個人的には大きなニュースでした。）また、データ量が増え続け、計算機能に強いインフラの必要性が増すことが予想されるため、業界の Hadoop デファクトである Hortonworks と IBM インフラ・AI ソリューションのコラボレーションに対する需要が高まるという説明がありました。一連のイメージとしては、まず IBM Cloud Private for Data をベースに、Watson Studio でベースモデルを構築します。次に Watson Machine Learning で、マシンラーニングやディープラーニングのモデルの管理・展開を実現します。最後に Watson OpenScale でモデルの監視・運用を実施する、という流れです。AI のポートフォリオの（リマインドの観点での）説明もあり、この説明でスッキリとソフトウェアの整理ができました。 Day 3 セッションでの注目は「アプリケーションのモダナイゼーション戦略」です。 IBM i のモダナイゼーションが注力しているのは、”アプリケーション”、”データベース”、”基幹データの分析”の3点でした。ビジネスの迅速な変化に対応するためには、システム基盤の在り方もクラウドやモバイルへの対応を強化する必要があるとメッセージしています。また、 IBM i では多くのアプリケーションやツールをサポートしている点も強調しています。 RPG は IBM i では主力言語であり、パフォーマンスや性能が良くユーザー離れが極めて低いことを強みに昔から根強いファンがいます。一方で新しい技術者の育成という点では、なかなか若い世代を取り込めていないことが懸念されていましたが、RPG は進化してきており、従来のカラム指向が現在ではフリーフォーマットとなっている点など、新しい技術者にも触れ易い環境に進化しているとのことです。 RPG のモダナイゼーション化ツールとして ARCAD (5733-AC1 ARCAD RPG Converter for i) が提供されており、従来の RPG からフリーフォームの RPG への変換を可能にします。また、 ILE によるモジュールやサービス・プログラムにより、迅速な環境提供だけでなく、機能単位でアプリケーションを切り出した構成であるため保守容易性の観点でも利点が多いとメッセージしています。データベースに関しては、Db2 for i は多様なインターフェースを提供しています。従来の CL コマンドや API での手法から、簡単な SQL 文で済ませられることが可能となります。アプリケーションと同様に携わり易い環境に進化しており、パフォーマンスにも効果が表れてきていることもメッセージしていました。また基幹データ分析では、Db2 Web Query for i による機能拡張があり、進化していることを伝えています。まとめ Power Systems の戦略として、システム基盤へのクラウドの取り込みを積極的に推進するなど、ソフトウェアの機能を強化しています。IBM i の開発環境では”モダナイゼーション”というキーワードの元、RPG など従来の開発言語環境（オンプレミス）から、ハイブリッドクラウド環境を意識したサービス指向に向かっています。数年前と比較して、ハイブリッドクラウドや Hadoop、IBM i のモダナイゼーションがリアル・ビジネスに向けたフェーズに移ってきていることを実感できるワークショップでした。今後は IBM が打ち出している方向を意識しながら、提案の幅を広げて訴求していこうと考えます。 ※この記事は2019年6月28日時点の情報をもとに作成しています。この記事に関するご質問は、下記までご連絡ください。エヌアイシー・パートナーズ株式会社技術支援本部 E-Mail：nicp_support@NIandC.co.jp

ブログ

2019年05月09日

IBM iからクラウドへのバックアップソリューションのご紹介

こんにちは。企画推進部の久田です。新時代のバックアップと言われている IBM Cloud Storage Solution for i （以下 CS4i）についてご紹介したいと思います。CS4i はIBM Cloud や Amazon S3 のクラウド上へ IBM i のデータをバックアップし、簡易な災害対策としても注目されているソリューションです。 IBM i でのバックアップ方法従来の IBM i では、多くの場合（バックアップ対象のデータ容量によっては） IBM i 筐体内のディスクへのバックアップや、外部媒体へ保管するケースでも物理テープへのバックアップ（バックアップ後は物理搬送で遠隔地保管）を行っていました。ただし、ここ数年は「生産性向上」や「業務効率化」、「デジタルトランスフォーメーションの推進」により、クラウドファーストへと IT 変革を進める企業が増加しています。 CS4i も2016年の発表以降、年々導入されるユーザー様は増加の傾向にあります。それはまさに、「生産性向上」、「業務効率化」、「コスト削減」においてユーザー様から評価を得られている証拠です。そこで今回、具体的に CS4i 導入のメリットをご紹介いたします。従来の主なIBM i でのバックアップ取得とCS4i を利用したクラウド連携のバックアップイメージ CS4i のメリット CS4i を採用することによるメリットをご紹介いたします。コスト低減クラウドへのバックアップによりコスト低減バックアップ先のハードウェアやメディアを準備する必要がないため、初期および運用時のコストを削減できる圧縮機能によるデータ量削減の結果、クラウド使用料やデータの転送時間短縮が期待できる新スキルの習得が不要 IBM i からのコマンドラインや GUI からバックアップリストアを実行するため、既存のスキルをそのまま流用することが可能 ※既存スキルの流用が可能運用の負担軽減テープ媒体が不要なため、それにまつわる運用コストの低減が期待できる特にメディアの世代管理のわずらわしさから解放されるオンプレミスの VTL 装置と比較して、クラウドの場合バックアップの容量追加が簡単 ※VTL装置は仮想テープライブラリとして、ハードディスク上に仮想のテープドライブを疑似的に作り、システム（OS）からテープドライブが接続されているかのように見せかける仕組み以上のメリットによりユーザー様から評価を得られ、採用実績が増えております。考慮事項 CS4i を導入するうえでは考慮すべき点もあります。障害対策やDR 対策の観点で、データ容量や帯域などがRPO (Recovery Point Objective：目標復旧時点)やRTO (Recovery Time Objective：目標復旧時間)を満たせる構成になるか、事前にシミュレーションをする必要があります。 ※CS4i はレベル1に該当します。クラウドへの保管対象であるバックアップデータ容量でのコストシミュレーションが必要です。具体的には、リカバリーポイントまで定めた業務復旧時間内にリストア処理が完了するかのシミュレーションをクラウド使用時のコスト v.s. オンプレミス構成時のコストの観点で必要になります。また、業務復旧時間内に完了しないシミュレーション結果の場合は、回線帯域を増やした場合のコストシミュレーションも状況に応じて必要になります。クラウドを利用する場合は自社のセキュリティポリシーに抵触しないか確認が必要です。ご参考情報(CS4i V1.2 の参考価格） CS4i を導入するうえでは、CS4iの費用とCloudの費用が必要になります。また、IBM Cloud Object Storage（ICOS）は、IBM CloudのStorageを示します。 ※以下のCS4i V1.2 価格参考情報ではIBM Cloudでの試算ですまとめ CS4i では簡単にクラウド環境へ仮想テープ・イメージをバックアップすることが可能です。操作も OS コマンドと同様なため、実装に際し高度な技術を要しません。クラウドや別拠点へのバックアップを行うことで災害時の対策にもなります。価格も廉価でありますので直ぐに検討に踏み切れるソリューションです。HW の更改時やデータの活用方法を改革される際は、是非、CS4i 導入をご検討下さい。 ※この記事は2019年5月8日時点の情報を基に作成しています。

ブログ

2019年03月11日

【てくさぽBLOG】データ爆発時代の備えとして「高速テープ」と「フラッシュ・ストレージ」を活用したデータ階層管理ソリューションの勧め

こんにちは。てくさぽBLOGメンバーの河野です。昨今、データ分析やAIといったキーワードを目にしない日は無いというくらい日常会話で使われてきています。データ分析やAIが重要視されるようになってきた背景には、流行語にもなったビッグデータの出現により、例えば顧客に商品を買ってもらうために有効な広告を検討するための分析をすることで、購入してもらう確率を上げることができるようになります。このように、大量のデータは企業にとっての価値をもたらす要素であり、戦略を考えるにはとても重要な役割を担っています。このような”ビッグデータ”を効率的に利用・保管/管理するためのソリューションをご紹介いたします増大し続けるデータ量データという観点で一番ホットなトピックは、メディア業界における4K,8Kの商業放送の開始です。4K,8K放送が始まったことで映像コンテンツのデータ容量が爆発的に増えています。どれぐらいデータが増えるのか？については、具体的には画面サイズが HDから4K に変わることで画素数が4倍となり、4Kから8Kに解像度をあげることでも4倍となります。（図フルハイビジョン, 4K, 8Kの画素数参照）更に1画素あたりのビット数や1秒あたりのフレーム数（コマ数）も増加傾向になりますので、データ量もそれに比例して増加していきます。図フルハイビジョン, 4K, 8Kの画素数どれぐらいのデータ量が必要となるのか？についても計算してみましょう。実際の映像データ自身は圧縮して送信されますが、ここでは計算を簡単にするために非圧縮の場合で計算してみます。 1画素あたりはRGBをそれぞれ8bitでの表現と想定し、8bit×3=24bitとなります。 1分あたりに必要な容量は、「総画素数」×24bit×1秒当たりのコマ数（今回は60fpsを想定）×60秒　で計算できます。フルHD・4K・8Kのそれぞれで容量を計算し、1年間に必要な容量とともに表にまとめてみました。 1分程度であれば、フルHDの画質でスマートフォンのストレージに入るぐらいですが、8Kともなると保管が難しくなるぐらいの容量であることが分かります。これを1年分保管するとなると、フルHDでも11.7PBと莫大な容量が必要となってきます。データ分析の観点では、分析対象となるデータが多いほど精度が高まるため大量のデータを保管・準備することが必要になります。このような大容量データを保管するために最適なストレージは”テープ”となります。テープはLTO8で1巻あたり12TB（非圧縮）/30TB（圧縮）の保管が可能で、360MB/s（非圧縮：FHドライブ）/900MB/s（圧縮：FHドライブ）の速度で読み書きが可能です。また、読み書きしないときには電力を消費しないので、消費電力が少なくてランニングコストも少なく済みます。そのため、長期保管するようなデータを保管する先としては最適なストレージといえます。高速な分析処理の重要性データ量の増加とともに着目されるのが、高速な分析処理です。蓄積され続ける大量データを分析するために翌日にならないと結果が出ないというようなタイムスパンでは、情報が飽和している今の時代では適切なアクションのタイミングを逸してしまいます。適切なアクションを適切なタイミングで実施するためにデータの収集や分析に費やす時間を短縮して、ビジネスに反映することができる環境を用意することが重要です。サーバの処理性能はもちろんのことデータを読み書きするストレージも分析処理を高速化する上で重要な検討課題です。分析処理を高速化するための最も簡単な方法がフラッシュ・ストレージの採用です。理想としてはストレージをすべてフラッシュ・ストレージにするオール・フラッシュ化をすることが望ましいところですが、フラッシュ・ストレージはディスクストレージと比べて高価なため、コスト的な観点から導入を躊躇されるユーザーの方も多数いらっしゃいます。そこでお勧めしたいのがフラッシュ・ストレージとテープとを組み合わせたソリューションです。フラッシュ・ストレージとテープ装置を組み合わせたソリューション「コストと性能」という相反する課題は、既存の複数のソリューションを組合せることで解決ができます。コストはテープによって、性能はフラッシュ・ストレージによって得られます。ここで更に組み合わせるSoftware Defined Storage（以降SDS）ソリューションにより、運用面・管理面でもユーザーに負担をかけずに自動化することができます。このソリューションであれば、企業の生産性も向上し導入のハードルも下がってくるのではないかと考えます。この統合ソリューションは、以下3点が特長になります。 (1) フラッシュ・ストレージの性能 (2) 一定期間アクセスの無いするアーカイブ・データはコスト・メリットのあるテープ・ライブラリに自動的に移管 ※フラッシュ・ストレージ上ではアーカイブ・データは削除され、フラッシュ・ストレージの容量に余裕が生まれます (3) テープ・ライブラリのデータは、ユーザーからのアクセスに応じてフラッシュ・ストレージへ簡単にデータ移動および再利用が可能上記により、ユーザーとシステム運用管理者の双方にメリットをもたらします。 IBM製品で実現するソリューション IBM製品で構成すると以下のようなイメージになります。データ管理用にフラッシュ・ストレージとテープ・ライブラリーを接続したサーバーおよびサーバーに導入されたIBM Spectrum ScaleとIBM Spectrum Protect等のSDS製品でこのソリューションが成り立ちます。 IBM Spectrum Scaleは、データ階層管理機能をもち使用頻度の高いデータはフラッシュ・ストレージに配置し、使われなないデータは自動的にテープ・ライブラリーへデータ移管を行います。 IBM Spectrum Protectは、IBM Spectrum Scaleが使われないデータと判断したデータをテープ・ライブラリーへ転送（アーカイブ）させます。テープ・ライブラリー上で管理されているデータであっても、ユーザー自身のディレクトリーやフォルダー上にあるファイルとしてアクセスが可能です。ユーザーは、ファイルをクリックすることにより、テープ・ライブラリーからフラッシュ・ストレージへデータのアップロードさせることも可能です。その後一定期間放置すると、フラッシュ・ストレージからテープ・ライブラリーへ自動的に移管されます。この階層管理の仕組みの中にSASやSATAなどのHDDメディアを組み合わせることも可能ですが、ソリューション全体が複雑になりやすいこと、運用設計や運用管理の検討が不可欠であり、高度なノウハウが必要になるため、どういう構成にするのかは状況次第といったところでしょうか。まとめ今後、増え続けるデータをいかに安く保管するのかは重要な課題です。また、データ分析やAI利用の高速化のためのフラッシュ・ストレージの検討も重要な要素です。コストの観点で利用できるフラッシュ・ストレージのリソースが限られることも考えられますので、フラッシュ・ストレージ上に格納したいが消去してはいけないようなデータをテープ・ライブラリーに移管させる機能をSDSを用いて自動化することで、分析業務の高速化と運用コストの低減を同時に図れます。データ爆発の時代の備えとして”「高速なテープライブラリー」と「フラッシュ・ストレージ」を活用したデータ階層管理ソリューション”を是非ご検討下さい。 ※この記事は2019年2月20日時点の情報を基に作成しています。この記事に関するご質問は、下記までご連絡ください。エヌアイシー・パートナーズ株式会社技術支援本部 E-Mail：nicp_support@NIandC.co.jp

ブログ