复旦开源 NLP大模型，decoder自回归生成模式，大约 160亿参数

零. 术语

LLM：Large Language Model

GPT：Generative Pre-trained Transformer

token：语言模型中词的最小单位，模型看到的是一个个的token

词典：提前构建好的token集合，模型只能生成词典中的token

序列：seq ，就是一个集合，token集合/字集合/词集合

embedding：本质是把一个实体用一个向量表示，向量中的数字表示该实体本身的一个属性，多个数字表示多个属性，携带信息更多代表表达能力更强

一. 迭代路线

OpenChat 001

2023.1 内测版本，40万条英文对话数据，在16B基座（CodeGen）上做了一下fine-tune，训练预料中没有中文

MOSS 002

2023.2公开内测版本，OpenChat 001不具备中文能力，不知道关于自己的信息（比如名字、能力等），且安全性较低，因此在此基础上一方面加入了约 300 亿中文token继续训练基座，另一方面也加入了大量中英文helpfulness, honesty, harmlessness对话数据，这部分数据共计116万条对话

MOSS 003

2023.3 开源版本，继续加大中文语料的预训练，

截止目前MOSS 003的基座语言模型已经在 1000 亿中文token上进行了训练，总训练token数量达到 7000 亿，其中还包含约3000亿代码 token。
以真实用户数据作为seed 生成约 110万条常规对话数据，涵盖更细粒度的helpfulness数据和更广泛的harmlessness数据
还构造了约30万插件增强的对话数据，目前已包含搜索引擎、文生图、计算器、方程求解等