2020年07月

13

【やってみた】H2O Driverless AIをIBM Power System AC922で動かして予想する (その2)

皆さま、こんにちは。 てくさぽBLOG メンバーの佐藤です。

前回の続きになります。

【やってみた】H2O Driverless AIをIBM Power System AC922で動かして競馬予想する (その1)

 

今回の目的

Driverless AIによって予測した内容と実際の結果を照らしあわせ、予測の精度が有用かどうか検証します。

前回、回帰分析が終了したところまで、書きました。
回帰分析した内容を確認します。

 

回帰分析結果を確認

イテレーション検証スコア

まず、左下の赤枠の中、イテレーション検証スコアから確認します。
こちらの内容はどのくらいの精度で的中するかになります。
0に近づくほど精度が高くなります。

スコアリングについては前回記載した通りMAEやRMSEをご確認ください。
スコアが、2.6021という値ですので、仮にスコアが1として1着予測としても3着程度までが平均精度になります。

 

特徴量の重要度

次に下中央の特徴量の重要度です。
こちらの内容はどのようなデータを用いて予測するのか?になります。どのデータを元にしどのような割合で利用するのか、予測の調合データです。
上に行くほど高い重要度になりますので、より着順に関係性が深い値ということになります。
一番上の CVTE とは Cross Validation Target Encoding の略で、着順が低いともう一方の数値の傾向があるという関連性を見つけており、CID調教素点は調教データを数値化した指数となります。
つまり、調教が良い状態であれば結果(着順)も良いという事になります。

2行目にご注目ください。
Freq とありますが、Frequency Encoding の略になります。Frequency Encoding とは、こういう条件のときにこうなりやすいという確率です。
例えば、”芝で1枠だと1着になりやすい” といった傾向分析になります。
このケースの場合、”情報指数” “条件” “距離適性” という3つのデータの特定条件が揃うと着順に対して傾向がある事を Driverless AI が発見しています。

Driverless AI の特徴として個々の列データの特徴だけでなく、複数列のデータを組み合わせ新たな条件を作り出せます。
複数の列データの組み合わせ及び抽出条件を様々テストするというのは手作業でやるには大変な労力になります。また人間の目でみて関係なさそうな組み合わせからも有効な組み合わせを発見できる、これが Driverless AI の強味になります。

 

予測

回帰分析が完了しましたので次は予測してみます。

まずは予測したいファイルを用意します。
今回回帰分析したデータは2020年3月頭までになるため、それより後の日付のデータを用意します。
回帰分析したデータを予測データとして読み込むと予測は可能ですが、非常に高い精度で的中してしまいますので、回帰分析に用いたデータより未来の2020年4月~2020年5月16日までのデータを用意しました。



Experience 画面から他のデータセットを用いて予測を押し、データを選択します。
するとしばらく待った後ファイルダウンロードが始まりますので保存します。
Driverless AI の内部では回帰分析で生成された条件式に従い計算するという作業しますが、答え合わせの処理ですので、回帰分析する時間よりはかなり短い時間で終わります。

少し待った後ファイルダウンロードが始まりますので保存します。
保存したファイルを開くと最終列に “着順.predicted” という列が追加されています。
これが Driverless AI が予測した順位になります。


予測結果は小数点で表示されます。

 

検証

実際の結果と予測データを照らし合わせます。

的中率を算出します。
今回は3連複、ボックス6頭という Driverless AI の結果の数字が低い順に6頭を選ぶと仮定して当たりはずれを検証しました。

3連複は任意の3頭が1着2着3着に入ることを予測する買い方になります。BOX は任意の数でのすべての組み合わせとなります。6頭BOX ですと20通りになります。
仮に12~18頭レースとすると三連複の組み合わせは220~816通りありますので、単純な確率ですと6頭BOX の場合の的中率は 2.5%~9% となります。

結果444レース中187レース的中しました。的中率約 41% となります。
純粋に的中率でいえば、完全なランダムと比較して圧倒的に高い数字ですので、予測は機能してるという事はわかります。

 

さらに精度を上げる

ここからはもう少し結果に対して掘り下げを行います。根気よくデータを見ることによってさらに精度を上げることができます。
今回のケース、条件によって的中率に変化があるのか検証します。
エクセルで頑張りましたが、この作業の時に IBM SPSS のような BIツールがあれば便利ではないかなと感じました。

いくつか見方を試してみたところ、レース番号と距離よって的中率にばらつきがあることがわかりました。

 

レース番号と的中率の関係

レース番号 レース数 あたり はずれ 的中率
1 37 23 14 62%
2 37 17 20 46%
3 37 16 21 43%
4 37 19 18 51%
5 37 11 26 30%
6 37 16 21 43%
7 37 19 18 51%
8 37 12 25 32%
9 37 16 21 43%
10 37 17 20 46%
11 37 9 28 24%
12 37 10 27 27%

レース距離と的中率の関係

レース距離 レース数 あたり はずれ 確率
1000 3 0 3 0.0%
1150 13 5 8 38.5%
1200 76 23 53 30.3%
1300 5 4 1 80.0%
1400 57 27 30 47.4%
1600 57 25 32 43.9%
1700 26 11 15 42.3%
1800 97 40 57 41.2%
1900 4 1 3 25.0%
2000 47 21 26 44.7%
2100 5 2 3 40.0%
2200 11 4 7 36.4%
2300 2 0 2 0.0%
2400 15 11 4 73.3%
2500 1 1 0 100.0%
2600 5 3 2 60.0%
2750 5 2 3 40.0%
2770 5 3 2 60.0%
2880 1 0 1 0.0%
2890 3 1 2 33.3%
3140 1 1 0 100.0%
3200 1 0 1 0.0%
3380 1 1 0 100.0%
3930 1 0 1 0.0%
4250 1 0 1 0.0%

第5レースと第11レースと第12が的中率が悪いため、外してみます。

次に20レース以上ある中で的中率が悪い距離を見てみます。
1200mが30%程で悪いので外します。

276レース中137的中で的中率49.6%という事でほぼ半分当てることができました。

 

払戻金傾向

払戻金に傾向があるか回帰分析してみます。
今度は配当金のデータを Driverless AI で解析してみます。
やり方は同じで Terget を配当金にします。


“このモデルを解釈” をクリックすると、データの傾向がわかります。


発走時刻で見ますと14:45以降が配当金が高い傾向がわかります。
14時45分以降ですと10R~12Rとなります。

こちらの条件で絞ると、狙い目のレースを絞ることができます。

 

AC922の優位性

最後に今回のデータを使って、AC922 と一般的な IAサーバとで Driverless AI の回帰分析時間を比較してみました。

条件をそろえるためにどちらもGPUは “無効”、
AC922 については、”48スレッド(Power9は1Coreあたりのスレッド数4)” “メモリ128GB”
に制限して実行しました。

【AC922(8335-GTH)】
Power9 2.4GHz~3.0GHz 40コア160スレッド →48スレッドに制限
メモリ1024GB →128GBに制限
GPU NVIDIA V100 16GB ×2 →GPU無効
960GB SSD ×2(RAID1)

回帰分析完了までの時間:2時間39分43秒

【IAServer】
Xeon E5-2680v3 2.5GHz~3.3GHz 12コア24スレッド
メモリ128GB
GPU Titan RTX ×1 →GPU無効
480GB SSD ×1

回帰分析完了までの時間:4時間23分54秒

 

まとめ

AIで競馬予測のまとめに入ります。

今回、出た予測結果に対して内容を掘り下げることをによって、適用条件を絞ることによりさらに高い精度で運用できる事を確認できました。Driverless AI の結果そのままではうまくいかない場合は範囲を絞って運用し、知見を貯め、追加のデータを用意し、徐々に適用範囲を広げていくのが良いと感じました。
また、AC922 Power9 の強力な演算性能により短時間で終わらせることも確認できました。

その他の記事

2021年12月28日

【10分で早わかり】インタビュー記事「Power10の真の価値とは」(後編)

※当インタビューは「前編」「後編 (当記事)」に分けてお送りしています。   登場者 【ゲスト】 日本アイ・ビー・エム株式会社 テクノロジー事業本部 Power テクニカル・セールス コンサルティングITスペシャリスト 釘井 睦和 氏 【インタビュアー】 エヌアイシー・パートナーズ株式会社 技術支援本部 テクニカル・サポート部 佐藤 正忠 エヌアイシー・パートナーズ株式会社 技術支援本部 ソリューション推進部 村上 文香   さらなる経営課題に応えるIBM Power10 - IBM Power10 はセキュリティもかなり強化されているようですね。 釘井) おっしゃるとおりです。IBM Power10 のプロセッサーは、セキュリティ機能をさらに進化させました。 具体的には、コアの暗号化機能を向上させるとともにパフォーマンス劣化のないメモリー暗号化も実現しています。 暗号化という作業を CPU やソフトウェアに頼らずにすみ、自動的な暗号化が可能であるため処理能力の低下というストレスを経験することなく、それでいて、すべてのデータが常に堅牢に守られている、という状態を享受いただけます。 - 最近の産業界では、環境負荷の軽減も強く求められています。 米国のパリ協定復帰を機に、いわゆる "環境関連銘柄" に再び注目が集まるようになり、日本でも「カーボンニュートラル」をサプライチェーン全体で達成しようといった動きが見られます。 あらゆる企業がその一挙手一投足で、都度「それは環境にとって正しい判断か」を考える時代が来ました。 釘井) この点でも IBM Power10 は大きく貢献できます。 最新の 7nm Power10プロセッサーによる高い集約性とリソースの効果的な活用の実現により、IBM Power E1080は、同じワークロードを実行した場合、IBM Power E880C と比べて52%、IBM Power E980 と比べても33%の消費電力削減を達成できます (※IBMによる自社従来品との比較調査 (2021年))。 IBM Power10 にアップグレードすることで、より少ない CO2排出を実現できることになります。 また、エネルギー効率の向上のみならず、リサイクルや環境に優しい材料の活用促進、製品パーツのアップグレード、修理、再製造、再利用によるプロダクトライフサイクル拡大など、IBM Systems全体でハードウェア製品や製造過程における環境面への影響を考慮したイノベーション活動を続けています。 販売に際しても、導入によって年間約20トンの CO2削減を見こむお客様には、製品の一部を割り引く「SDGs割」制度を導入しています。 こちらもぜひ活用いただきたいと思います。   IBM Power10の最も効果的な利用シナリオ - 釘井さんにとって、IBM Power10 はどのように活用するのが最も効果的だと思いますか。 釘井) いろいろお勧めはありますが、ニーズも高くて効果的だと思うのは、最新型ERPシステムの基盤として動かすことです。 ここで重視すべきなのは、CPU の性能です。 7nm Power10プロセッサーは、8スレッドSMT (Simultaneous Multithreading) をチップあたり最大15コア搭載でき、コアあたりの処理能力は、POWER9プロセッサーと比較して約1.3倍のパフォーマンス向上を実現しています。 また、この高い CPUコア処理能力と高密度・高速なメモリー・アーキテクチャーの実現により、アプリケーションが必要なコア数を削減できます。 結果として、サーバー台数の削減や TCO の改善が可能になります。 「クラウドでERPを動かしてみたけれど満足した性能が得られなかった」「完全クラウドシフトはコスト感が合わない」という経験をされたお客様が "脱クラウド" に向かわれる現象も出てきており、IBM Power10 はそうしたお客様の受け皿になれると考えています。 もう1つは、データベースシステム基盤として活用することです。 例えば、これは実際に合ったケースですが、それまで x86ベースで126台のサーバーを運用されていたのが、IBM Power E980 にリプレースすることにより、なんと3台に統合できました。さらに IBM Power E1080 にアップグレードしたとすると2台にまで集約可能です。 これをエネルギーという観点で見ると、102kW から約20kWと1/5に、ライセンス数としても約1/3に削減可能です (※IBMによる自社従来品との比較調査 (2021年))。 いろいろな意味で大きな節約になります。   手が届く存在にする賢い買い方 - E1080 というフラッグシップ製品から登場したこともあって、お客様からは「理想的なシステムであることは認識しているが、当社には『高嶺の花』」といわれることがあります。 釘井) IBM では、IBM Global Financing という組織を通じて様々なお支払い方法の選択肢を用意しています。 一括購入するのではなく分割月額払いにする、分割月額払いにリースを組み合わせる、また、分割月額払いも、均等割ではなく最初は低い金額で開始する、支払い開始時期を後ろに倒す、現在のリース残を新たなリースに包含してすべてリース払いにする、などの方法があります。 冒頭でご紹介した「Dynamic Capacity」も節約術の1つとして活用いただけます。 ぜひ、ご相談ください。 来年以降も新製品を予定しておりますので、楽しみにお待ちください。 - 本日はありがとうございました。   CEOの直面する経営課題の解決策が全部入った1台 新しい時代に突入し、道を切り拓いていくことが求められている現代の企業。 IBM Power10 は、そうした企業の CEO が抱く切実な "思い" を真摯に受け止め、妥協を許さず様々な機能を実現した製品だと実感しました。 NI+C Pも、「リプレース時期が来たら検討する」ではなく「IBM Power10だから検討する」といっていただけるよう、パートナー企業の皆さんを通じて、このサーバーの魅力やメリットを引き続きお伝えしていきたいと思います。     この記事に関するお問い合わせ エヌアイシー・パートナーズ株式会社 企画本部 事業企画部 この記事に関するお問い合せは、「こちら」からお願いします。   関連情報 IBM Power10 (製品情報) - 効率性と処理能力、セキュリティを重視した設計、さらに、脱炭素への取り組みを通じて環境への配慮を実現します。 早わかり!ここが進化したIBM Power10 (コラム) - よりスピーディに、よりスマートに、企業活動を発展させ、デジタル競争の勝者となるためには…?  

2021年12月28日

【10分で早わかり】インタビュー記事「Power10の真の価値とは」(前編)

登場者 【ゲスト】 日本アイ・ビー・エム株式会社 テクノロジー事業本部 Power テクニカル・セールス コンサルティングITスペシャリスト 釘井 睦和 氏 【インタビュアー】 エヌアイシー・パートナーズ株式会社 技術支援本部 テクニカル・サポート部 佐藤 正忠 エヌアイシー・パートナーズ株式会社 技術支援本部 ソリューション推進部 村上 文香   キーワードは「アジリティー」と「摩擦レス」 今日、日本の企業は様々な経営課題に直面しています。 さらなるスピード経営の実現、クラウドや AI活用による DX推進で継続的な成長を追求する一方で、情報セキュリティ対策を高度化し、脱炭素社会や SDGs の実現に向けた施策も必要です。 こうした中、IBM Power10 は「アジリティー」と「摩擦レス」をキーワードに、このような経営課題に応えるために誕生しました。 具体的にどのような解決策が提供されているのでしょうか。 日本アイ・ビー・エム (以下 IBM) で Power テクニカル・セールスを担当されている、ITスペシャリスト 釘井 睦和 氏にお話を伺いました。 ※当インタビューは「前編 (当記事)」「後編」に分けてお送りします。   世界のCEOが注目しているテーマは「アジリティー」 - 本日はよろしくお願いいたします。 日ごろ日本企業と対話される中で様々な声を聞かれると思いますが、課題としてはどのようなものが多いでしょうか。 釘井) IBMには、お客様の声を聞く媒体の1つとして、定期的にグローバル経営層に対してアンケート調査を行い、その結果を発表している「IBM CEO Study」があります。 世界中の13,000名以上の CxO (最高責任者) レベルの経営層に、今日のデジタル時代をリードするために何が必要かについて尋ねるものです。 2021年度は前年がコロナ禍に見舞われた転換の年であったため、かつてない規模での調査を実施しているのですが、それによると、56%の CEO が「アジャイルで柔軟なオペレーションを積極的に追求する必要がある」と回答しました (図1)。 「アジャイルである」とは、俊敏であること、機敏であること。つまり、状況に合わせて自在に "伸び縮み" できることを意味します。 アンケート回答の結果は、不確実性の高い時代の危機を乗り切るために、企業にとってこの経営判断や組織づくりにおける俊敏性、機敏性を指す「アジリティー」を持つことが必須となっている状況を表しています。 [caption id="attachment_109017" align="alignnone" width="491"] 図1:今後2,3年で最も良い業績を生み出すための最重要課題とは?出典:IBM CEO Study (グローバル経営陣スタディ)[/caption] 確かに、コロナ禍以降の状況が時々刻々と変化したこの2年を振り返れば誰でも実感できることです。 昨日は可能であったことが今日はそうでなくなり、今日禁じられていたことが明日は許可されるという世界。紙の裏表のように変わる環境に即応して適切な対策を講じることができなければ、企業経営はたやすく危機に陥るリスクをはらんでいました。 「アジリティー」とは、俊敏であること、機敏であること。つまり、状況に合わせて自在に "伸び縮み" できることを意味します。 経営と IT が不可分である今日、このような危機を乗り切ろうと思えば、IT こそがこの「アジリティー」を持つことを強く求められているのです。 そして必然と言えますが、「アジリティー」を担うのが IT です。 - 新しく登場した IBM Power10 はまさに「アジリティー」と「摩擦レス」をキーワードとして誕生していますね。 釘井) そのとおりです。この「アジリティー」を象徴する機能として、IBM Power10 には「Dynamic Capacity」が備わっています。以前の IBM Power でも一部のモデルで提供されていましたが、このバージョンで全面展開となります。 どういう仕組みかというと、同じサーバーモデルでエンタープライズプールという形で "チームを組む" ことによって、コアやメモリーといったリソースを全サーバーで共有が可能になります。 超過して使いそうな可能性がある場合は、従量制課金の考え方でそれぞれのサーバーでリソースを事前購入して搭載しておきます。 このようにしておけば、ふだんは最小限に見積もった容量で利用し、一時的に利用が増えるというときも特段の準備なく用意しておいたリソースで事業を継続できます。超過使用量は分単位で課金計算が行われ、それはハードウェア管理コンソールを通じて Cloud Management Console で自動管理されたデータで確認できます。 そして、一時的な利用増大が終了すればまた元の状態に戻れます。 これまでは、利用が増えればサーバーを追加するしか選択肢がなく、調達するまでのタイムラグをどうしのぐか、という問題がありました。さらに、利用が減っても一度増やしたサーバーを減らすのは簡単ではありません (図2)。 [caption id="attachment_109018" align="alignnone" width="547"] 図2:Dynamic Capacityを用いたシナリオ例[/caption] - なるほど。ちなみにリソースを事前購入しておくのはなぜですか。 Cloud Management Console で使用量が確認できるのであれば、すべてオンデマンドで課金計算してもいいように思います。 釘井) 事前購入の方が、発生するコストを想定しやすいからです。 クラウド利用でも見受けられることですが、日本のお客様はコストが予想以上に膨らむことを懸念されます。事前購入はコストコントロールに配慮した仕組みです。 将来的に「Dynamic Capacity」は、IBM Cloud上で動く IBM Power Virtual Server を含めた利用も可能になる予定です。これを併用することによって、より急激な利用増大ニーズにも対応しやすくなります。 コロナ禍でマスク販売サイトやワクチン接種予約サイトへのアクセス集中を私たちは経験しましたが、産業界でも同様のことは起きています。 システムの拡大・縮小対応がますます現実的になる中、ニーズは高いと思われます。 - いつごろ利用可能になりそうでしょうか。 釘井) 現時点では開発意向表明のみが出ていて提供時期をお伝えすることはできませんが、北米の数社でパイロットとして利用が始まっていると聞いていますので、比較的早い段階で提供できるのではと考えています。   IBM Power10で「ハイブリッドクラウド」と「AI」をどう実現するか 釘井) IBM Power10 は、IBM としての方向性である「ハイブリッドクラウド」と「AI」とも足並みを揃えたシステムになっています。 - IBM Power10 で対応する「ハイブリッドクラウド」とはどのようなものですか。 お客様は実際どのように「ハイブリッドクラウド」環境をお使いでしょうか。 釘井) お客様のクラウドニーズはほんとうに様々です。最も多い利用ケースは、開発・検証環境の実装ですね。 従来オンプレミスシステムでは、開発・検証環境の構築は不自由さを強いられていました。 それなりの環境を基幹システム基盤に環境を確保すれば、本番システムの性能に影響を与えてしまいます。かといって制限を設ければ、十分な開発・検証が実施できません。 その点クラウドであれば、必要なときに必要なボリュームを用意して心ゆくまでリソースを活用、作業が終われば即撤収、という使い方ができます。 また、災害対策としても有効です。 これまでは「途切れない事業継続のためには、本番システムと同様のシステムを遠隔地にご用意ください」と申し上げるしかありませんでした。 しかし、クラウドであればハードウェアを別途調達する必要はありませんから、災害対策コストは軽減されます。 しかも、IBM Cloudのコロケーション環境で仮想環境を提供しているIBM Power Virtual Server を利用すれば、オンプレミスの本番システムとまったく同じアーキテクチャーをもった災害対策環境を、オンデマンドで構築することができます。 必要なデータをクラウド・ストレージにコピーしておく、サービス環境を立ち上げるのに必要な定義情報を IBM Cloud に保管しておく、といった準備は必要です。 こうすることで、平常時は最低限のサーバーのみで運用コストを抑えつつ、万が一のときは災害対策用の業務サーバーを自動作成して迅速に事業継続を図れます。この方法もよく選択されるクラウド活用法です。 システム運用からの解放やクラウド先端技術活用のために全面的なクラウドへのリフト&シフトを進められているお客様があるかと思えば、その一方で、パフォーマンスやコストコントロールの観点から「脱クラウド」を掲げ、オンプレミスシステムへ回帰されるお客様もいらっしゃいます。 IBM Power10 は、これらすべてのニーズに対応します。 つまり、オンプレミスシステム志向からクラウド志向まで、お客様がどのフェーズにおられても、また、どのフェーズに移行されようとしても、IBM Power Virtual Server との連携によって「摩擦レス」にシステムの構築・移行を実現します。 - よくわかりました。 それでは「AI」という方向性についてはいかがですか。 AI活用といえば、お客様は「IBM Power AC922」などを用いてディープラーニングによる機械学習を行ってきたかと思うのですが、それが IBM Power10 でも行えるようになるのでしょうか。 釘井) AI活用には、学習と推論という2つの側面があります。 膨大なシステムリソースが必要になる学習には、引き続き「IBM Power AC922」のようなGPUを搭載したサーバーが有利です。 しかし、完成したモデルにデータを投入して推論させる段階になると、必ずしも GPUマシンを用いる必要はありません。 たとえるなら、レーシングコースを走るなら F1カーが最適ですが、街なかを走行するのにも F1カーに乗りますか?ということになります。 IBM Power10 は「Train Anywhere, Deploy Here」をキーワードに掲げ、データの蓄積された場所、つまり基幹システム上で推論を実行することを想定しています。 その意味では「すでにモデルはいくつか作り上げた、そこに生のデータを当てて検証を繰り返し、さらに精度を向上させていきたい」といった、AI活用がある程度進んだお客様にお勧めしたい機能です。 このサーバーは、Matrix Math Assist (以下 MMA) という行列計算などを専門として処理するエンジンが IBM Power10 のチップに組みこまれており、MMA につながるメモリーまわりの帯域幅やキャッシュ容量も増えているため、膨大なデータを高速に処理することができます。 例えば、同じ筐体内に業務システムを動かす IBM i や AIX の区画、AI を動かす Linux区画を置き、IBM i や AIX の区画に続々入ってくる日時の営業トランザクションや製品の需要情報を Linux区画に送って推論を行い、その最新計算結果をまた業務システム側に反映する、といった利用法が考えられます。 「データのある場所でAIを実行しよう」が、IBM Power10 のメッセージです。   後編「さらなる経営課題に応えるIBM Power10」~へ進む     この記事に関するお問い合わせ エヌアイシー・パートナーズ株式会社 企画本部 事業企画部 この記事に関するお問い合せは、「こちら」からお願いします。   関連情報 IBM Power10 (製品情報) - 効率性と処理能力、セキュリティを重視した設計、さらに、脱炭素への取り組みを通じて環境への配慮を実現します。 早わかり!ここが進化したIBM Power10 (コラム) - よりスピーディに、よりスマートに、企業活動を発展させ、デジタル競争の勝者となるためには…?  

back to top