Microsoftのdeepspeedで作れるDeepSpeed Chatを、日本語のREADME1見ながら何とか動かせそう。自分のデータセットで微調整までできるのか?できても、オモチャ程度の性能で終わるのか…?必要なGPUの性能が高すぎて辛い。個人で試すにはキツイ。
京大の黒橋研のHuggingFaceのアカウント発見2。2日前にgpt2-small-japanese-charが上がっていたり、6時間前にbart-[base/large]-japaneseが上がっている。早稲田の河原研のアカウント3にはもうちょい前からFinetuned gpt-2が上がっていたけど、先生方を応援。私は…まぁ、ただの趣味に過ぎないかもしれない…
脚注
- 「DeepSpeed Chat: ChatGPTライクなモデルを簡単・高速・低コストに、あらゆるスケールで学習」 https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese
- https://huggingface.co/ku-nlp、研究室のHPはここ
- https://huggingface.co/nlp-waseda、研究室のHPはここ