強化学習の基礎

今回は強化学習に関して自分自身で学んだことをアウトプットしようと思います。基礎中の基礎から書いてあるので、まったくわからないという方の参考になれば幸いです。中には間違ったことも書いているかもしれないのでもし気づいた方はコメントしてくださるととても嬉しいです。

強化学習とは
アルゴリズム
強化学習の難しい点
1. 報酬が遅れてやってくる
2. 大量のデータと計算資源が必要
おわりに
参考リンク・書籍

強化学習とは

基本概念

機械学習の手法の一つで、機械もしくはシステム(エージェント)にあるタスクを与えて、それをエージェント試行錯誤させて解かせる手法。もう少し具体的にいうと、エージェントに現在の状態から、特定の行動を決定させ、この結果に対してフィードバック(報酬)を与える。この報酬を最大化するようにエージェントは学習をしていく。

押さえておくべき用語

エージェント　
強化学習によってタスクを解かせるシステムや機械のことを指す。
行動
エージェントが起こしたアクションのことを指す。例えば将棋を指せる場合なら一手ごとの棋譜のことを指す。
状態
エージェントが今おかれている状況のこと。例えば自動運転であれば、路面の状態や車両の数・自分自身の位置などを指している。
報酬
- エージェントの行動に対する成果のこと。エージェントが起こした行動が良かったものなのかを定義するためにこの報酬を利用する。
- 報酬は「即時報酬」と「累積報酬」の二つに分かれる。前者は行動後すぐに得られる報酬を指し、後者は報酬を足しわせたもので、最終的にこれが最大となるように問題を解いていく。
環境
エージェントに与えられた条件のこと。エージェントは環境下で行動を起こし、行動に伴って得られる報酬を最大化するように学習を進めていく。

「タスクを解くために、ある環境下においてエージェントは現在の状態から何かしらの行動を起こす。エージェントには行動結果に応じた報酬が得られる。エージェントは報酬が最大となるように行動を修正していく」という一連のプロセスが「試行錯誤」につながるというわけです。

強化学習の特性

強化学習の最大のつよみは「最終的な答えはわかっているが、具体的に何をすべきかが不明」といった問題に対してとても強力。

例えば、「自動運転をする」という問題を解くためには「アクセル、ハンドル、ブレーキをどのように操作するか」という問題に帰着するが、この与えられた条件によって最適な答えは変わってくる。様々な状況下でも最適な動作を導くために様々な試行錯誤を繰り返し、答えを見つけていく。なお、長期的な報酬を最大化するように設計されているが、基本的には目の前の状態でもっともよい報酬が得られるように行動するスタンスとなっている模様。