几个概念

  • 预训练
  • 自训练
  • 自监督学习
  • 半监督学习
  • 监督学习
  • 无监督学习

区分

预训练

  • 广义上讲:是对一个模型进行“预先训练”,以完成后续的下游任务
  • 狭义上讲(更常用):在大规模无标注语料上,用自监督的方式训练模型

自训练

  • 常应用于CV领域
  • 有一个Teacher模型$M_{teacher}$和一个Student模型$M_{student}$,首先在标注数据上训练$M_{teacher}$,然后用它对大规模无标注数据进行标注,把得到的结果(与少量有标签数据混合)当做伪标注数据去训练$M_{student}$
  • 使用少量的标记数据和大量的未标记数据对模型进行联合训练 预训练与自训练是同级概念,其中分别可以与“监督/半监督/无监督/自监督”进行组合

监督与无监督

  • 无监督的典型任务是聚类算法

半监督

  • 没有太多意义的一个概念
  • 其中的代表即自训练,甚至基本等同

自监督

  • 是狭义上“预训练”的实现方法
  • 与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签
  • 是一种具有监督形式的特殊形式的非监督学习方法