Microsoft Cognitive Servicesで人工知能を体験しよう!(Computer Vison API編)
みなさん、ハッピーハロウィン(happy halloween)
今回から、Microsoft Cognitive Servicesで人工知能を体験しよう!と題して、使い方を簡単に紹介していきたいと思います。
それでは今宵は【Computer Vison API編】いってみましょう~(#^^#)
Computer Vision API
前回に紹介しました、Microsoft Cognitive Servicesは大きく5つのサービス群とそれぞれ特徴を持った21の個別サービスで構成されます。
Computer Vision APIは画像情報の読み取りの特徴を持った人工知能でありAPIとして公開されているサービスになります。
要は、画像を提供するとその画像の特徴を返してくれるものです。
使い方ですが、APIに対してC#のコンソールプログラムを書くのが一般的ですが、今回はより多くの方に体験して頂きたいと思っておりますので、GitHubに既に公開されてあるCogniteive Service関連のSDKとサンプルのリポジトリを使いたいと思います。出来上がりのソフトウェアを使用しますため、プログラムを書く必要はありません。有難く利用させてもらいましょう。
https://github.com/Microsoft/ProjectOxford-ClientSDK
リポジトリの中にVisionAPI-WPF-SamplesというVisualStudioのソリューションがあるのでそれをビルドして実行すればサンプルアプリケーションを利用可能になります。サンプルアプリケーションを利用するには別途認証キーを取得する必要があります。認証キーの取得はMicrosoft Cognitive Servicesのホームページから発行いただけます
https://www.microsoft.com/cognitive-services/
発行した認証キーをサンプルアプリケーションに登録して、準備完了です。
それでは、サンプルアプリケーションで人工知能を体験しましょう!
画像を分析する
◎食べ物の写真を分析
左メニューのAnalyze Imageから食べ物の写真を分析にかけます。
写真は大阪で食べた美味しいカルビラーメン♪
写真をアップロードすると、写真に映る食べ物の特徴が表されていきます。
ここでは、”food”、”green”、”soup”、”hot”、等の見た目から読み取れる特徴が検出されました。
◎ポケモンGOの写真を分析
左メニューのRecognize Text(OCR)から文字が含まれる写真を分析にかけます。
写真は広島にでかけた際にゲットしたポケモン♪
意外ですが日本語文字をちゃんと認識してくれる精度に驚きました。
結果の抜粋:”カ ピ ゴ ン、2.34m、高 さ、ノ ー マ ル 、し た で な め る、ゴ ー ス ト、し し ん、HP152 / 152、584.8 kg”
続いては、
◎デザイン文字が含まれる写真を分析
左メニューのRecognize Text(OCR)から文字が含まれる写真を分析にかけます。
写真は広島にでかけた際に撮影したカープ優勝おめでとうのメッセージボード♪(ちなみに私は阪神ファン)
うーん、結果が返ってこないということは認識されませんでした。
文字が大きく書かれているのですが、デザイン文字に対する認識が十分でないと推察されます。
では、人が書いた文字はどうか?
◎OneNoteで手書き文字が含まれる写真を分析
左メニューのRecognize Text(OCR)から文字が含まれる写真を分析にかけます。
写真はOneNoteに書いた文字の画像キャプチャです。
こちら結果は返ってきたものの精度はイマイチ。
小さいかつ色目薄いですが日時が記載されている文字列の認識はバッチリで、
大きいけど私の字が汚いのか手書き文字の認識はされなかったという結果でした・・・笑
まとめ
コンピューターにより出力される文字については日本語であっても認識精度が良い結果が確認できました。しかし、デザイン文字や人の手書き文字の精度は低く課題であり実用的に使用するにはまだ遠い結果でした。この課題については今後ディープラーニングにより情報量を多くしていき学習を続けることで認識精度が高まることを期待したいと思います。
アーカス・ジャパンへご興味・ご関心ありましたら下記からCRM事業本部へお問い合わせください
※ 記事の内容は個人発信の参考情報です。記事内容のご利用は、ご自身の判断でお願いします。