GPT作ってみたい

2023年5月10日

—

Microsoftのdeepspeedで作れるDeepSpeed Chatを、日本語のREADME¹見ながら何とか動かせそう。自分のデータセットで微調整までできるのか？できても、オモチャ程度の性能で終わるのか…？必要なGPUの性能が高すぎて辛い。個人で試すにはキツイ。

京大の黒橋研のHuggingFaceのアカウント発見²。2日前にgpt2-small-japanese-charが上がっていたり、6時間前にbart-[base/large]-japaneseが上がっている。早稲田の河原研のアカウント³にはもうちょい前からFinetuned gpt-2が上がっていたけど、先生方を応援。私は…まぁ、ただの趣味に過ぎないかもしれない…

脚注

「DeepSpeed Chat: ChatGPTライクなモデルを簡単・高速・低コストに、あらゆるスケールで学習」 https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese
https://huggingface.co/ku-nlp、研究室のHPはここ
https://huggingface.co/nlp-waseda、研究室のHPはここ