AIの進歩は止まらない-AIとマイルが好きなパパのブログ

GPT-3がここ最近のAI界隈の話題を独占してますね。改めてAIの進歩の速さに驚くばかりです。Transformerが発表されたのが2017年で、そこから3年しか経ってないのにBERT、GPT-2、GPT-3と発展を遂げています。

Transformer

Transformerは“Attention Is All You Need”という論文で提案されたモデルで、LSTM・CNNを愛用していた人たちに対する挑発的なタイトルでも話題になりました。

CNNでもLSTMでもない dot product Attentionという機構で、それを積み重ねたモデル(Transformer)で既存手法を大きく上回る成果を上げています。

Transformerで使われる(dot-product) Attentionでは、Query, Key, Valueの３つの変数を使います。端的にいえば、Query単語とKey単語の関連性(Attention Weight)を計算し、それぞれのKeyに紐づくValueをかけるという仕組みです。

GPT-2

GPT-2は大規模なデータセットと表現力の高い大規模モデルを使って自己回帰型言語モデルを構築し、その言語モデルをそのまま使って様々なタスクを解く(zero-shot)研究です。「自己回帰モデルによるzero-shot」「大規模なモデル」「大規模なデータセット」の３要素で構成されています。

GPT2の結果

「自己回帰モデルによるzero-shot」「大規模なモデル」「大規模なデータセット」の３要素で構成されたGPT-2が叩き出した結果が下の表です。様々なデータセットでSOTAを更新しています。それぞれのデータセットでFine-tune学習どころかFew-shot学習さえしていないことに注意してください。GPT-2の論文のタイトル通り”Language Models are Unsupervised Multitask Learners”だということを示しています。

GPT-3

「自己回帰型言語モデルによるzero-shot」「大規模なモデル」「大規模なデータセット」３つの要素をもったGPT-2がとても強力なものだということは分かって頂けたかと思います。では、それらの３要素をさらに強化したらどうなるのでしょうか？

その３要素の強化を実施したのがGPT-3です。具体的にいうと下記のようになります。それぞれどういうことなのか詳しく見ていきます。

自己回帰型言語モデルによるzero-shot → 自己回帰型言語モデルによるFew-shot
大規模なモデル → さらに大規模なモデル
大規模なデータセット → さらに大規模なデータセット

自己回帰型言語モデルによるFew-shot

GPT-2では言語モデルを再学習せずにそのまま使用するzero-shotでタスクをこなしていきました。GPT-3では、モデル構造とパラメータはそのまま使いつつも、複数回サンプルを示すFew-shotでタスクをこなします。zero-shot, one-shot, few-shotを示したのが以下の図です。

zero-shot, one-shot, few-shotの概念図。

MAMLのようなFew-shot “Learning”と異なり、one-shot, few-shotどちらにおいても勾配を使ったモデル更新をしないことに注意してください。あくまで数個のサンプルを言語モデルに指し示すだけです。(GPT-2でも、zero-shotだけでなく、このようなFew-shotを機構的には行うこと自体は可能です)

一方、BERTのようにFine Tuningを使うモデルや、オリジナルのTransformerで翻訳をしようと思うと、基本的には英仏両方のペアデータセットが必要であることに注意してください。

Fine Tuneの概念図。英仏ペアを使った更新が必要

長くなってしまったので今日はここまで。

AIの進歩は止まらない

Transformer

GPT-2

GPT2の結果

GPT-3

自己回帰型言語モデルによるFew-shot

0 件のコメント:

コメントを投稿

このブログを検索

ブログアーカイブ

AD

カテゴリ

自己紹介

AIの進歩は止まらない

Transformer

GPT-2

GPT2の結果

GPT-3

自己回帰型言語モデルによるFew-shot

0 件のコメント:

コメントを投稿

このブログを検索

ブログ アーカイブ

AD

カテゴリ

自己紹介

ブログアーカイブ