来自RIKEN高级智能项目中心(AIP)的研究团队成功开发了一种新的机器学习方法,允许AI在没有所谓的“负面数据”的情况下进行分类,这一发现可能导致更广泛的应用于各种分类任务。分类事物对我们的日常生活至关重要。例如,我们必须检测垃圾邮件,虚假政治新闻以及诸如对象或面孔等更普通的事物。当使用AI时,这些任务基于机器学习中的“分类技术” - 让计算机学习使用分隔正面和负面数据的边界。例如,“正面”数据将是包括幸福面孔的照片,以及包括悲伤面部的“负面”数据照片。一旦学习了分类边界,计算机就可以确定某个数据是正数还是负数。这项技术的难点在于它需要学习过程中的正面和负面数据,并且在许多情况下不能提供负面数据(例如,很难找到带有标签的照片,“
在现实生活中,当零售商试图预测谁将进行购买时,它可以轻松地找到从他们那里购买的客户的数据(正数据),但基本上不可能获得没有购买的客户的数据。从他们那里购买(负面数据),因为他们无法访问竞争对手的数据。另一个例子是应用程序开发人员的常见任务:他们需要预测哪些用户将继续使用应用程序(正面)或停止(负面)。但是,当用户取消订阅时,开发人员会丢失用户的数据,因为他们必须根据隐私政策完全删除有关该用户的数据以保护个人信息。
根据RIKEN AIP的主要作者Takashi Ishida的说法,“以前的分类方法无法应对无法获得负面数据的情况,但只要我们有一个置信度分数,我们就可以让计算机只用正面数据进行学习。对于我们的积极数据,根据购买意图或应用用户的有效率等信息构建。使用我们的新方法,我们可以让计算机只从充满信心的积极数据中学习分类器。“
Ishida与他的团队和团队负责人Masashi Sugiyama的研究员牛刚一起提出,他们通过增加置信度得分让计算机学得很好,这在数学上对应于数据是否属于正类的概率。他们成功地开发了一种方法,可以让计算机只从正数据和有信心(正可靠性)的信息中学习分类边界,而不是机器学习的分类问题,这些分类问题是积极和消极地划分数据。
为了了解系统运作情况,他们在一组包含各种时尚商品标签的照片上使用它。例如,他们选择“T恤”作为积极的类别和另一个项目,例如“凉鞋”作为消极类。然后他们在“T恤”照片上附上了一张信心分数。他们发现,如果不访问负面数据(例如,“凉鞋”照片),在某些情况下,他们的方法与使用正面和负面数据的方法一样好。
根据Ishida的说法,“这一发现可以扩展可以使用分类技术的应用范围。即使在积极使用机器学习的领域,我们的分类技术也可以用于新的情况,因为数据只能收集正数据监管或业务限制。在不久的将来,我们希望将我们的技术应用于各种研究领域,如自然语言处理,计算机视觉,机器人和生物信息学。
标签: