复旦开源 NLP大模型,decoder自回归生成模式,大约 160亿参数
https://github.com/OpenLMLab/MOSS
LLM:Large Language Model
GPT:Generative Pre-trained Transformer
token:语言模型中词的最小单位,模型看到的是一个个的token
词典:提前构建好的token集合,模型只能生成词典中的token
序列:seq ,就是一个集合,token集合/字集合/词集合
embedding:本质是把一个实体用一个向量表示,向量中的数字表示该实体本身的一个属性,多个数字表示多个属性,携带信息更多代表表达能力更强
2023.1 内测版本,40万条英文对话数据,在16B基座(CodeGen)上做了一下fine-tune,训练预料中没有中文
2023.2公开内测版本,OpenChat 001不具备中文能力,不知道关于自己的信息(比如名字、能力等),且安全性较低,因此在此基础上一方面加入了约 300 亿中文token继续训练基座,另一方面也加入了大量中英文helpfulness, honesty, harmlessness对话数据,这部分数据共计116万条对话
2023.3 开源版本,继续加大中文语料的预训练,