どうも、ねんごたれです。

分散深層強化学習ってご存知ですか。

なんか強そうな感じですが、ぼくは知りません。

「なんじゃそりゃ。」

ってなりますが、そこは置いておいて。

とりあえず、この動画を見てほしい。

youtubeのリンクは、こちら→■分散深層強化学習によるロボット制御

強化学習ってなに?

うん、よくわからない。

↓詳しくはこちらの記事を見てほしい。←丸投げ。

分散深層強化学習でロボット制御

記事から引用

強化学習では、目標とするロボットの最適な動きを正解として与える代わりに、ロボットの各行動に対して報酬を与えます。今回の課題では、道にそって速い速度で進んだときにプラスの報酬を、壁や他の車にぶつかったり、道を逆走したときにマイナスの報酬(罰)を与えています。ロボットはどのように行動するとどれくらいの報酬が得られそうかを学習していき、最も多くの報酬が得られそうな行動を選択することで、結果的に最適な行動をとることができるという仕組みです。

らしいです。

引用したところに(罰)と書かれているが、これは、『間違いが何か。』というのを教えているだけだと思う。

これって機械だけに使えるわけじゃないよね。
8052118a6e9b8157fd6e1640425537ef_s

「人間がどのように学ぶのか」ってのも、これと同じ考えが使える。

正解が何で、間違いが何で。

たったこれだけのことをわかっていれば、人間って学んでいけると思うんだよね。

「あれちゃう、これちゃう」って言って、間違いの指摘ばかり。『正解が何か』わからない。それだと、どうしていいのかわからないのも当然だ。

間違ったときに、罰を与える。これもダメだ。『間違っている』ということがわかるだけでいい。

この2つが大事。

罰を与えたり、叱ったりしたところで多少の学習はするかもしれないが、自分から学習しようとすることはない。自分でやっているという感覚がなくなるからだ。学習しているのは、あくまで自分。そこがぶれてしまえば、自分がやらなくたって、だれがやっても同じだ。

人に指摘されるのではなくて、『正解』『間違い』を自分で理解できれば、あとは手を借りずとも学習することができる。自分が「自分の力」で進んでいけるのだから、楽しくて仕方がない。

ゲームばかりできて、勉強ができない子がいるのはこういうことだろう。

ゲームでは、『正解』のルートを行けば、先に進み。『間違い』のルートに行けば先に進めない。『間違っているから』といって怒られることもない。

あるのは、『先に進めない』だけ。

何度でも試行錯誤できるから、自然と学習することが可能だ。だから、ゲームはできる。

これが勉強になるとどうだろう。

間違えれば、先生に注意され、周りの子には「そんなんもできんの?」と馬鹿にされる。

自分が他者より劣っている。

ということを、嫌でも植え付けられる。すると、どうだ。みじめな気持ちになる。

「自分は何をやってもダメなんだ。」

そう思ってしまうのも無理はない。これが、学習性無力感だ。

「これは正解」「これは間違い」っていうのがわかっていれば、それだけで学んでいける。勉強ができる子っていうのは、それが自分でわかるだけだ。それだけの違いしかない。

また教える側の人は、教わる人が間違いでもないが正解でもない行動をとったときはなにもしない。というのも大事だ。

正解じゃないから罰を与えるというのは、そうとう厳しい。

まだ正解に辿りついていないだけなら、そっとしておくことも必要だ。指摘するだけが教育ではない。ただ、それを実行するのはなかなか難しい。

人は、自分が正しいと思うことには歯止めが利きにくいから。

初めてやることなんで、できるわけないだろう。

そりゃそうだ。初めてなんだから。

ゲームに例えるなら、「LV1だがラスボス付近でレベル上げろ」って言ってるようなもん。そんな縛りプレイするような猛者じゃないのだから、そんなことはやらなくたっていい。落ち着いて、はじめの町周辺でレベル上げをすればいいんだ。

けれど、それがなかなかできない。教わる側は、それがはじめの町なのか、ラスボス付近なのかなんて何もわからない。ただ敵がいるだけだ。

さらに、教える側は、はじめの町じゃなくて、自分がいる町周辺で教えようとする。どう考えても無理だ。まずは、教わる側にあわせるべきだろう。

 

特に体を動かすことなんて、できるようになるのがとても難しい。

「正解」と「間違い」が説明できないからだ。

そんなことは、誰にもわからない。見かけ上できているように見えても、実はできていなかったりする。こればっかりは、自分で試行錯誤してみるしかない。

自分で『これは正解』『これは間違い』というものを勝手に決める。そして試す。

運動ができる人は、それができるだけだと思うんだよね。運動ができたことがないからわからんけど。

ただ、正解の動作っていうのは、何時間やろうが、「疲れない」らしい。

いろいろと試してみるのもいいかもしれない。

【あとがき】できない人なんていない。

「正解」「間違い」この2つが自分で判断できるようになれば、できないことなんてない。

なんでも、できるようになるはずだ。

ただ、時間はかかるし、妨害もたくさんある。

守られた環境(失敗しても誰も何も言わない)が準備できれば、あとは自分でやっていけるはずだ。

うん、口では言えるがなかなか実行できない。また、別の要素が必要なのかな。