秒速赛车下注:研究者首先从数据集入手

  秒速赛车官网谷歌今天宣布,旗下 AI 智能相机 Google Clips 的技术再获升级。现在,它已能剪辑并自动捕捉特定时刻的图像——如人们的拥抱和亲吻,或跳跃和舞蹈动作。Google AI 博客对这款智能相机背后的机器学习技术进行了解读。

  对我而言,摄影就是在几秒钟之内认识到一个事件的重要性,同时为这个事件找到恰当表达形式的一种精密组织形式。

  在过去几年里,人工智能经历了一场类似寒武纪的爆发,在深度学习方法的帮助下,计算机视觉算法能够识别出一张优质照片中的许多元素,包括人、微笑、宠物、秒速赛车下注:日落、著名地标等。但是,尽管最近取得了这些进展,自动摄影仍是一个颇具挑战性的问题。相机能自动捕捉不平凡的时刻吗?

  今年 2 月,谷歌发布了 Google Clips,这是一款全新的免持相机,可以自动捕捉生活中的有趣瞬间。在 Google Clips 的设计过程中,谷歌主要遵循以下三个重要原则:

  谷歌希望所有计算都在设备上运行。除了延长电池寿命和减少延迟之外,设备端处理还意味着,除保存或共享视频之外,任何视频都不会离开设备,这是隐私控制的关键一环。

  谷歌希望该设备能够拍摄短视频,而不是单张照片。有动作的时刻可能更深刻,也能留下更真实的记忆。而且,拍摄一个引人注目时刻的视频往往比即时捕捉一个完美瞬间更容易。

  谷歌希望捕捉人和宠物的真实时刻,而不是将精力放在捕捉艺术图像这种更抽象、更主观的问题上。也就是说,谷歌并未试图教 Clips 思考构图、色彩平衡、灯光等问题,而是专注于如何选取包含人和动物进行有趣活动的时刻。

  如何训练算法来识别有趣的时刻?与大多数机器学习问题一样,研究者首先从数据集入手。他们在不同的场景中创建了一个由数千个视频组成的数据集,想象 Clips 在这些场景中得到应用。同时研究者还确保数据集涵盖广泛的种族、性别和年龄。之后,谷歌聘请了专业摄影师和视频编辑仔细查看视频,选出最佳的短视频片段。这些早期的处理为他们的算法提供了可以模仿的实例。然而,仅仅从内容处理者的主观选择来训练算法是有挑战性的,我们需要平滑的标签梯度来教会算法识别内容的质量(从「完美」到「糟糕」)。

  为了解决这个问题,研究者采用了第二种数据收集方法,目标是在视频长度上创建连续的质量分数。研究者将每个视频分割成小段(类似于 Clips 捕捉到的内容),然后随机选择片段对,并要求人类评分者选择他们喜欢的片段。

  研究者采用这种成对比较的方法,而不是让评分者直接给视频评分,因为选择一对中更好的一个要比给出一个数字容易得多。研究者发现评分者在成对比较中非常一致,而在直接评分时分歧大一些。给定任意给定视频足够多的成对比较片段,我们就能计算整个长度上的连续质量分数。在这个过程中,研究者从 1000 多个视频中收集了超过 5000 万对成对比较视频片段。这是一项非常耗费人力的工作。

  基于该质量得分训练数据,研究者的下一步就是训练一个神经网络模型来评估设备捕捉到的任意照片的质量。谷歌研究者首先假设了解照片中的内容(即人、狗、树等)有助于确定「有趣性」(interestingness)。如果该假设正确,则我们可以学习一个使用识别到的照片内容的函数来预测其质量得分(得分基于人类的对比评估结果)。

  为了确定训练数据中的内容标签,研究者使用了支持谷歌图像搜索和 Google Photos 的谷歌机器学习技术,该技术可以识别超过 27000 个描述对象、概念和动作的标签。研究者当然不需要所有标签,也不会在设备端对所有标签进行计算,因此专业摄影师选择了几百个他们认为与预测照片「有趣性」最相关的标签。研究者还将最相关的标签与评分者的质量得分结合起来。

  有了这个标签子集之后,研究者需要设计一个紧凑高效的模型,在能量和发热严格受限的设备端预测任意给定图像的标签。这是一项挑战,因为计算机视觉背后的深度学习技术通常需要强大的 desktop GPU,在移动端设备上运行的算法远远落后于桌面端或云端的当前最优技术。为了训练设备端模型,谷歌研究者首先采用大量照片集合,然后再次使用谷歌基于服务器的强大识别模型来预测上述每个「有趣」标签的置信度。研究者训练了一个 MobileNet 图像内容模型(Image Content Model,ICM。

相关文章

Copyright © 2014-2018 秒速赛车技巧——秒速赛车_【极速下注】 版权所有 粤ICP备6845411-1号