談話会報告

第90回 談話会
(2013年11月18日/私立大学戦略的研究基盤形成支援事業 第1回 講演会)

強化学習の神経回路機構:
Cortico-Striatal Temporal Difference仮説

森田賢治 氏(東京大学大学院 教育学研究科 身体教育学コース 講師)

居酒屋でビールを注文するとき、我々は運ばれてくるビールを見るだけで飲んだ後の快感を想像することができる。しかしながら、若かりし頃にお酒を初めて飲むときには、ビールを飲んだ後に快感を経験することはできるが、運ばれてくるビールを見るだけで快感を想像することはできない。  
同じ環境に繰り返し晒された後に、手がかり(ビールを見ること)から実際の報酬(ビールを飲んだ後の快感)を予想できるように我々は学習していく。このような手がかりと報酬の関連を学習できる枠組みの一つが強化学習である。事実、強化学習における学習信号、Temporal difference error (TD誤差)が中脳のドーパミンニューロンの活動と対応することが報告されており、脳内で強化学習が実装されている可能性が高いと考えられている。  
しかしながら、「どのようにTD誤差が脳内で計算されているのか」という問いは未解決のままである。ある時刻 t でのTD誤差δ(t)は単純には、δ(t)=r(t)+V(t)-V(t-1)として、時刻 t で得られた報酬 r(t)、時刻 t において将来得られると予想した報酬の総量 (価値関数) V(t)、時刻 t-1 での価値関数 V(t-1)の3つの値から計算される。δ(t)をドーパミンニューロン(DA)の活動だと見なすと、r(t)を表現しうるニューロン群が脚橋被蓋核(PPTN)に存在することが報告され、V(t)、V(t-1)は大脳基底核からの入力である可能性が指摘されているものの、大脳基底核で時間の異なる価値関数V(t)、V(t-1)をどのように同時に表現し、DAに入力されているのかは明らかでない。  
森田賢治氏は生理学的な知見に基づきこの問いに対する新たな仮説を提案している。大脳皮質から線条体(大脳基底核の一部)へ投射するニューロンは大まかに同側反対則両方の線条体に投射する「Crossed corticostriatal (CCS) neuron」と脊髄・橋核に軸索を延ばしその側枝を通じ線条体に投射する「Cortico-pontine / Pyramydal tract (CPn/PT) neuron」の2種類に分けることができる。生理学的に、CCS→CPn/PTニューロンの主に一方向性の結合があり、さらにCPn/PTニューロン同士は再帰的結合が強いことが報告されている。森田氏の提案は、時刻 t においてCCSニューロンがその時刻の状態ないし行動を表す一方、CPn/PTニューロンが時刻(t-1)の状態ないし行動を再帰的結合により保持することで、下流の大脳基底核でV(t)とV(t-1)が表現され、PPTNでのr(t)と合わせてTD誤差がドーパミンニューロンで計算できるであろう、というものである。  
この提案が基づく仮定は、CCSニューロンがDAの活動を大脳基底核を通し間接的に興奮させ、CPn/PTニューロンが抑制するというものである。森田氏は報告されていた解剖学的知見に基づきそのことを仮定していた。ただ、その中の主要な仮定である皮質線条体結合の選択性に関して最近論争が繰り広げられているが、森田氏はその仮定が報告されている様々な知見と矛盾がないことを新たな解析によって示そうと試みている。  
脳内における強化学習の現実的な実装方法として大変魅力的な研究発表であり、白熱した議論が繰り広げられた。常日頃、森田氏の柔らかな雰囲気とキレのある返しとの両立は見事なものであると筆者は感じている。

日時 2013年11月18日(月) 16:30-18:00
場所 玉川大学8号館2 階 第2会議室
報告者 瀧山 健 (日本学術振興会 / 玉川大学 脳科学研究所 酒井裕研)

談話会報告一覧に戻る TOP