更新日: 2025年4月3日


IX. 深層強化学習をROS/AnyLogicに導入(1)

1. プログラム作成の背景

「VII. ROSによるAMRのシミュレーション」のエピローグで述べた通り、ROSをいじり出した当初から深層学習/深層強化学習をROSに取込むという目論見があり、AnyLogicでも同様の思いがありました。深層学習(deep learning: DL)というのは人間の脳の神経回路を模したニューラルネットワーク(NN)を用いた機械学習の手法で、NNを多層化したDNN(deep neural network)を使うので"deep"が冠せられています。深層学習で最も有名なのは、同じもの(猫の顔、道路標識、バッグ等々)の色々な画像を大量に学習させることで、新規の画像が何であるかを判定する画像認識技術です。2013~2018年頃には「これぞまさしくAIだ」と喧伝されました。

因みに「これぞAI」は時代とともに変遷しています。1946年に世界最初のコンピュータENIACが登場した10年後の1956年には既に人工知能(artificial intelligence)という言葉が生れており、1950~60年代には探索・推論アルゴリズム(どんな問題でも解ける?!)がAIと呼ばれました。1980年代にはエキスパートシステム(医者の代りに診断ができる)、1990年代には単層のNN(巡回セールスマン問題が解ける)とファジー理論(「手の平で棒立て」ができる)、2010年代には深層学習(猫の顔が分る)がAIだとされました。2020年代は量子コンピュータ(素因数分解ができる)かと思っていたら、生成AIが一世を風靡することになりました。

AIでできることがだんだん小粒になっているような気がしますが、実は探索・推論アルゴリズムで解けたのは「ハノイの塔」(説明しないのでグーグって下さい)だけだし、エキスパートシステムで診断できたのは特異な疾患一つだけです。この「何か一つできたから全てができる」という大言壮語はAI学者の十八番です。ただ、一つでも画期的だと思うのはグーグル(DeepMind社)のAlphaGoです。チェスよりも将棋よりも難しい囲碁で、2017年に世界トップ棋士と対局して3戦全勝を挙げたのです。なぜ画期的なのか知りたい方は、ヒューバート・ドレイファス著「コンピュータには何ができないか: 哲学的人工知能批判」を読んで下さい。

さて、そのAlphaGoでは深層強化学習(deep reinforcement learning: DRL)が使われました。強化学習というのは環境から状況を観察、行動を選択し、その結果得られる報酬を最大化するという学習手法です。代表的な強化学習であるQ学習では、ある状態のときにとったある行動の価値をQテーブルと呼ばれるテーブルで管理し、行動する毎にQ値を更新していきます。このQテーブルをDNNに置換えたものがDQN(Deep Q-Network)であり、DRLはDQNを使う学習手法です。何か禅問答じみてきましたが、DL/DRLの説明はここまでとします。この後はDL/DRLをAMRのシミュレーションに導入しようと奮闘した経緯を述べます。

2. 画像DLでAMRの出発を判断(ROS1)

(以後、現在作成中・・・)