微软公开Project Florence的最新成果,公开预览Florence基础模型,该模型现在已整合至Azure Cognitive Service for Vision,提供新的电脑视觉服务。新的视觉服务提供自动图说、智慧裁切、分类、背景移除和图像搜寻等功能,同时该服务还提供负责任人工智慧功能,用户可以控制追踪活动、分析环境,并接收即时警示。
Project Florence是微软的人工智慧认知服务研究计画,目的是要研发先进的电脑视觉技术,开发下一代电脑视觉辨识框架。官方提到,从2012年深度学习技术有所突破以来,图像分类的准确率,已经从50.9%上升到90.2%。
但是微软认为,距离实际应用电脑视觉技术仍有一段路要走,通用物件侦测的精确度只有65.9%,无法实际应用在关键任务,况且在影片上的应用挑战更大。因此微软想藉由Project Florence,推进电脑视觉技术的发展。
微软在2021年发表《Florence: A New Foundation Model for Computer Vision》论文,Florence是一个电脑视觉的基础模型,在资料集ImageNet-1K零样本分类中,top-1精确度达到83.74%,top-5精确度可达97.18%。微软提到,该模型经数十亿笔图像文字资料进行训练,现在整合至Azure Cognitive Service for Vision,提供生产用电脑视觉服务。
微软开始在旗下的应用程式中整合新的视觉服务,包括Teams、PowerPoint、Outlook、Word、Designer、OneDrive等Microsoft 365应用程式,Teams应用新模型的图像分割功能,而PowerPoint、Outlook和Word以模型替图像自动产生替代文字,以提高无障碍性,Designer和OneDrive则是运用新视觉服务的图像标记、图像搜寻和背景生成,以简化图像搜寻和编辑任务。另外,Microsoft Datacenters也使用新的视觉服务,强化安全性和基础架构可靠性。
用户现在可於Vision Studio立即试用由Florence基础模型所加持的电脑视觉功能,诸如图说生成、图像搜寻、背景移除、模型自订等功能。在Vision Studio中还能试用影片总结功能,不需要额外的後设资料,让用户可直觉地搜寻影片内容。