复旦开源 NLP大模型,decoder自回归生成模式,大约 160亿参数

https://github.com/OpenLMLab/MOSS

零. 术语

LLM:Large Language Model

GPT:Generative Pre-trained Transformer

token:语言模型中词的最小单位,模型看到的是一个个的token

词典:提前构建好的token集合,模型只能生成词典中的token

序列:seq ,就是一个集合,token集合/字集合/词集合

embedding:本质是把一个实体用一个向量表示,向量中的数字表示该实体本身的一个属性,多个数字表示多个属性,携带信息更多代表表达能力更强

一. 迭代路线

OpenChat 001

2023.1 内测版本,40万条英文对话数据,在16B基座(CodeGen)上做了一下fine-tune,训练预料中没有中文

MOSS 002

2023.2公开内测版本,OpenChat 001不具备中文能力,不知道关于自己的信息(比如名字、能力等),且安全性较低,因此在此基础上一方面加入了约 300 亿中文token继续训练基座,另一方面也加入了大量中英文helpfulness, honesty, harmlessness对话数据,这部分数据共计116万条对话

MOSS 003

2023.3 开源版本,继续加大中文语料的预训练,