深度学习中的预训练与自训练
几个概念 预训练 自训练 自监督学习 半监督学习 监督学习 无监督学习 区分 预训练 广义上讲:是对一个模型进行“预先训练”,以完成后续的下游任务 狭义上讲(更常用):在大规模无标注语料上,用自监督的方式训练模型 自训练 常应用于CV领域 有一个Teacher模型$M_{teacher}$和一个Student模型$M_{student}$,首先在标注数据上训练$M_{teacher}$,然后用它对大规模无标注数据进行标注,把得到的结果(与少量有标签数据混合)当做伪标注数据去训练$M_{student}$ 使用少量的标记数据和大量的未标记数据对模型进行联合训练 预训练与自训练是同级概念,其中分别可以与“监督/半监督/无监督/自监督”进行组合 监督与无监督 无监督的典型任务是聚类算法 半监督 没有太多意义的一个概念 其中的代表即自训练,甚至基本等同 自监督 是狭义上“预训练”的实现方法 与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签 是一种具有监督形式的特殊形式的非监督学习方法