GPT作ってみたい

Microsoftのdeepspeedで作れるDeepSpeed Chatを、日本語のREADME1見ながら何とか動かせそう。自分のデータセットで微調整までできるのか?できても、オモチャ程度の性能で終わるのか…?必要なGPUの性能が高すぎて辛い。個人で試すにはキツイ。

京大の黒橋研のHuggingFaceのアカウント発見2。2日前にgpt2-small-japanese-charが上がっていたり、6時間前にbart-[base/large]-japaneseが上がっている。早稲田の河原研のアカウント3にはもうちょい前からFinetuned gpt-2が上がっていたけど、先生方を応援。私は…まぁ、ただの趣味に過ぎないかもしれない…

脚注

  1. 「DeepSpeed Chat: ChatGPTライクなモデルを簡単・高速・低コストに、あらゆるスケールで学習」 https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese
  2. https://huggingface.co/ku-nlp、研究室のHPはここ
  3. https://huggingface.co/nlp-waseda、研究室のHPはここ

投稿日

カテゴリー:

AI, GPT, コンピュータ

タグ: