代表の柳原です。
AI導入を検討する際に課題になる、ブラックボックスなので使いづらい、という課題についてです。
※くどいですが、AIを機械学習・ディープラーニングを中心としたデータからパターンを学習する手法・アルゴリズムを総合していいます。
AIの推論過程を論理的に人が理解できる内容で説明することは従来のルール(if-then)の積み重ねを基にしたアルゴリズム実装とは異なり、現在の技術では困難と考えられています。
加えて、学習に用いたデータの品質がAIの推論結果の品質に大きな影響を与え、データの偏り、不適切なアノテーションなどが誤った推論結果となるリスクがあり、公共性の高い用途、死傷リスクがある用途では、公平性、安全性、透明性およびセキュリティへの一層の配慮が重要だと考えています。
本投稿では、この問題に対して、どのように考えるかについて取り上げます。
説明可能なAI (Explainable AI)とは?
AIの説明可能性は、
「人が理解できる方法で過程・結果を説明できるか?」
と解する事ができます。
主に、AIの推論過程と、学習・検証に用いたデータと方法に対する説明可能性に大別できます。
前者について、手法や類推による説明、勾配可視化による説明、論理的(ルール、ロジックによる)説明など目的、対象により異なりますが、機械学習手法のうち、線形回帰、ロジスティック回帰、決定木、Random Forestなどは、ディープラーニングと比べると推論過程が分かりやすい手法です。しかし、ディープラーニングを用いて学習したモデルの多くは、説明可能性が低いことが課題です。
この課題を解決し説明可能なAI(Explainable AI)を実現するために多くの研究者や様々な取り組みがあり、研究も活発です。
数年前からGardCamなどをベースとした、重要な入力画素・特徴量の可視化をする技術は数年前からあり、Googleの画像認識ディープラーニングでもFeature Attributionとして既に実装されています。
また、近年のAdversarial Example (誤った推論を引き起こすデータの解釈)の研究なども、広義ではディープラーニングの推論過程を解釈する為の研究の一部と考えられるでしょう。
しかし、現時点ではこれらの最先端の研究結果を用いても、一般的な言語で推論過程を説明できているかと言われると難しい状況です。
ただ、ブラックボックスだから使えない、ではAIを提供する者の責務として不十分です。
すべての製造物には製造者に一定の責任が伴うと考えていますので、弊社がAIを提供するときには、可能な範囲で説明可能性を担保することを心がけています。
そのため、今回の投稿では、推論過程の説明可能性ではなく、後者の学習・検証データと手法に関する説明可能性にフォーカスします。
学習データ・検証の説明可能性
学習・検証データと手法に関する説明可能性として、主に以下の5つ観点で予めポリシーを設計し、透明度の高い作業履歴を残す事が重要だと考えています。
- データソース
データが何時どこで誰によってどのように取得されたのか、そして取得時点での加工の有無を特定できることは、データの確からしさを明らかにする際に重要です。センサーが高度化するなか、センサーから取得したデータがRAWデータ(オリジナルのデータ)か、処理されたデータなのかをチェックします。一次処理にAIを用いている場合もあり、その場合はそのAIがどのようなデータ学習されたのかも検討材料に入り、複雑さが増しています。
- アノテーションポリシー
データアノテーションとは、収集したデータに人が意味を持たせるラベル付けの作業を指します。例えば、音声データの場合データの指定時間への文章(スクリプト)の紐づけ、画像データであれば、画像全体もしくは指定エリアへのラベル付けです。ラベル付けの基準(アノテーションポリシー)は、AIシステムが担う責任範囲を保証する上でも特に重要です。例えば、人物検出を行う場合に、足のみが写った人を解析対象とするか、全身がすべてみえる場合対象とするか、などの詳細をアノテーションポリシーで定めることによって、AIが精度保証するべき対象物・シーンが特定されます。
- データクレンジング
データの正規化、不正データ・ノイズの除去など、モデルの精度を向上させるためのデータ処理に加えて、過失もしくは恣意的に改変されたデータがアノテーションプロセスに混在する可能性を排除することも指します。例として、画像認識に使用するAIの学習データの中で、ナイフをペン、線路を横断歩道と、悪意ある作業者が不正なアノテーションをするケースを想定すると、このようなデータをAIが学習した場合、そのAIシステムは問題のある結果を引き起こす可能性があります。(後者の例だと、線路を歩行可能の場所とAIが出力してしまう。)
このようなリスクを低減するためには、適切なアノテーションポリシーを定めるだけでなく、作業者を含む作業記録の監視、アノテーション済データの検証を行う必要があり、データクレンジング行程および作業履歴などの管理の基準が明確である事が重要です。
- データドメイン、バイアス
品質向上のためには通常多くの学習データを確保することが重要ですが、学習データの偏りはAIの品質、出力の偏りとなって現れる事が多い。例として、人物検出の画像認識AIにおいて、日中の画像でのみ学習した場合は夜間では全く機能しません。このように学習対象のデータセットと、実運用時に対象としたいデータの性質が異なることを、ドメインが違うと表現します。学習データのドメインが想定用途のドメインを適切にカバーしているかを検証する必要があります。
また、AIシステムに公平性が求められる用途では、データの量を収集すると同時にデータそのものの均一性が重要となります。北米の研究機関が公開している人物画像のオープンデータセットで学習をすると、北米で収集したデータが多く、北米のデータのバイアスに偏った結果が出たりします。自治体が市民へのサービス提供の為のシステムにAIを用いる場合、学習に使用するデータにおける人種、年齢、地域、性別また注目する対象データに偏りが無いよう配慮することが重要です。近年少ないデータでAIの高い品質を得るための研究が進められていますが、少ないデータになると偏りの影響がより顕著になるリスクがあります。
- AIの精度検証方法とバックアッププラン
AIが想定する利用目的を満たしているかの検証方法は、利用目的、データソース、アノテーションポリシーに深く依存し、学習データとは別途用意した検証データを用いてConfusion Matrixなどを中心に客観的に定量評価します。様々な精度検証方法がありますが、精度保証にあたって重要な点は、検証データ全体で、どれくらい実際に起こりうるケースを検証したか、その際の精度がどれくらいであったかを透明性高く履歴を残すことです。
学習・検証時点で、実利用時に起こりうる全てのケースに対応したデータを網羅することは現実的に厳しいですが、公共性の高いシステムにAIを用いるためには、可能な限り十分な量と種類のデータで検証したこと、および不測のケースに対する対策案を適切に講じている点について説明可能性が求められます。
データと検証方法の可視化はすぐに始められる
このように、AIの品質や挙動に関する説明可能性の課題は、推論過程だけではありません。
学習アルゴリズムやチューニングだけでなく学習に用いるデータの品質、確からしさなど、来歴の把握と透明性の確保が重要です。
適切なアノテーション作業とクレンジングを通して、不適切なデータが混入するリスクを可能な限り避けるとともに、万が一AIの出力で不測の結果が発生した場合にも、早急に該当の不適切なデータを特定し、作業履歴を遡及する仕組みが必要です。
このようなポリシーと履歴を定めることは、AIの運用時に従来のシステム開発と比べて「問題発生時の修正・バグフィックスがしずらい」という課題にも大きく役立ちます。
特に、公共性が高く、説明性が求められるAIシステムの活用においては、AIシステムの用途に応じたリスク評価、AIシステムに求められる保証レベルに応じた学習データの評価および管理の仕組みが求められます。
こういった学習・検証データと方法に関する説明可能性をきちんと担保することは、今すぐ始められることであり、またAIの実用にあたって製造者としての重要な責務であると考えています。
利用者が心配する説明可能性・ブラックボックスの不安感は、推論過程以外の不安からおきている事が多く、きちんと製造者が責任もって説明・保証することで、AIの実用がより進むと考えています。