语言模型旨在对人类语言的内在规律进行建模,从而能够准确建模文本序列的生成概率。
其用马尔科夫假设来建立语言序列的生成模型,通常根据词序列中若干连续的上下文单词来预测下一单词的出现概率。
n-gram language model:具有固定上下文长度为n。
其适用于信息检索、自然语言处理(NLP)。
缺陷:维数灾难 。
其使用神经网络来建模文本序列的生成概率(例如:RNN)。
分布式词表示(词嵌入):是一种将词汇映射到高维空间向量的方法,每个维度代表不同的特征属性。它通过将词表示为低维稠密实数向量,捕捉词与词之间的相似性和语义关系。
使用大量的无标注的文本数据训练语言模型,用于学习上下文感知到单词表示。
Transformer架构预训练后得到BERT(仅采用encoder),而GPT-1仅采用decoder。
确立了“预训练->微调”这一任务求解范式,即先建立模型的基础能力,在进行任务分配。
扩展定律:通过规模扩展会带来下游任务模型的性能的提升。
涌现能力:大规模的预训练语言模型再解决复杂的问题时,表现出了与小型语言模型不同的行为。
具有范围广泛的世界知识。
具有较强的通用任务解决能力。
具有较强的人类指令遵循能力。
剧本较好的人类对齐能力。
具有改进的复杂任务的推理能力。
具有可拓展的工具使用能力。
规模扩展
数据工程
高效预训练
能力激发
人类对齐
工具使用