使用RWKV-Runner进行模型训练（二）数据集准备

发表于2024-04-17|更新于2024-04-17|教程

|总字数:424|阅读时长:1分钟|浏览量:|评论数:

数据格式

RWKV-Runner的微调功能是基于RWKV-LM-LoRA

需要将数据集转化为RWKV-LoRA支持的格式，目前支持的格式如下：

单论问答（JSONL格式）：{“text”: “Q: 问题\n\nA: 答案”}
多轮对话（JSONL格式）：{“text”: “Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二”}
单轮问答（TEXT格式）：
1
2
3
Question:

Answer:
材料问答（TEXT格式）
1
2
3
4
5
Instruction:

Input:

Response:

多轮对话（TEXT格式）

User: 

Assistant: 

User: 

Assistant:

需要注意的事项如下：

JSONL格式必须为单个.jsonl后缀的文件，如有很多训练数据需要在.jsonl文件中另起一行写入，如：

1
2
3

{"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二"}
{"text": "Q: 问题\n\nA: 答案"} 
{"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二\n\nQ: 问三\n\nA: 答三"}

TEXT格式为多个.txt后缀的文件，RWKV-LoRA转换数据时会读取该文件夹下所有的.txt文件，并将其中的内容作为训练数据。需要注意的是，一个.txt文件只能有一种格式的数据，文件结构如下所示。
1
2
3
4
- dataset
- 数据1.txt
- 数据2.txt
- 数据3.txt

参考文档

RWKV语言模型从入门到放弃，保姆级Training、Fine-tuning、Lora入坑教程

RWKV系列2-RWKV-LM

RWKV的微调教学，以及RWKV World：支持世界所有语言的生成+对话+任务+代码

大模型训练数据集介绍

文章作者: InsectMk

文章链接: https://insectmk.cn/posts/38c5674d/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 InsectMk的个人空间！

毕业设计 RWKV 语言模型

相关推荐

本机搭建RWKV语言模型（最低只需2G显存）

每个人都能轻松本地部署语言模型！

使用RWKV-Runner进行模型训练（三）开始训练

开始RWKV微调

使用RWKV-Runner进行模型训练（一）环境搭建

使用第三方可视化工具RWKV-Runner在Windows11下快速搭建RWKV运行与微调环境。

评论

数据加载中