阳性-无标记学习,是指仅观察到阳性标记(记作1)而其余未标记的二元分类问题。 由于未标记的数据部分同时包含0和1,因此如果将无标记部分天真地视为0并执行传统监督学习算法将低估了正例的可能性(Ward et al. 2009; Yang et al. 2012)。但是,如果简单排除这些无标记数据,即在训练集中只有结果为1,却没有结果为0的样本,则无法直接使用已经非常成熟的监督学习方法。 为了克服这一难题,我们将在此讨论PU学习算法。
因为术语过多,请参考英文版。
参考文献
Ward, Gill, Trevor Hastie, Simon Barry, Jane Elith, and John R Leathwick. 2009. “Presence-Only Data and the Em Algorithm.” Biometrics 65 (2): 554–63.
Yang, Peng, Xiao-Li Li, Jian-Ping Mei, Chee-Keong Kwoh, and See-Kiong Ng. 2012. “Positive-Unlabeled Learning for Disease Gene Identification.” Bioinformatics 28 (20): 2640–7.