中兴通讯人工智能白皮书》重磅首
人工智能

Gartner:亚马逊、谷歌、IBM以及微软的“云”人工智能服务

  本文由上海市科学学研究所产业创新研究室副研究员孟海华根据Gartner相关报告翻译撰写。

  当前,国际上一些典型企业推出基于云的人工智能服务,包括机器学习、语言处理和计算机视觉。在过去的两年里,人工智能基于云的拓展应用,提高了其服务的广度和深度,这一趋势预计还会持续下去。许多企业在决定是在现场部署生产解决方案,还是在云中部署产品解决方案,都要使用云AI组合来进行项目的试验和原型的开发。主要供应商在机器学习、语言处理、计算机视觉等领域及其支持工具等方面,都存在着功能和重点的显著差异。

  对于企业用户来说,一是通过使用完全相同的数据集对不同的AI组合功能进行实验,然后选择一个满足自身需求的云策略,从而提高成功实现云AI策略的机会。通过选择能够嵌入数据科学、开发人员和基础设施专业知识的AI云服务,最大限度地利用组织的专业知识。本文重点介绍四家领先供应商:亚马逊(Amazon)、谷歌(Google)、IBM和microsoft提供的机器学习、语言处理或计算机视觉“云”人工智能服务。

  机器学习是CSP(云服务提供商)提供的人工智能组合服务的核心。这些服务能够帮助开发人员、数据从业人员和架构师们生成自己的模型,评估这些模型、训练自己的数据,实现最常见的机器分析类型。这些类型包括分类、聚类和回归。在机器学习中,有一些服务构建得非常简单。当然,简化解决方案可能意味着灵活性或功能限制较小。

  云AI服务中的机器学习系统是通用的,这与计算机视觉和语言处理服务是不同的。计算机视觉服务是预先培训的,具有特定功能的API,用于提取情感或在识别目录中添加人脸。相比之下,机器学习服务可以用于任何分析。自AI CSP的机器学习打包方案统一了端到端的工作流,通过对项目所有阶段的集成访问,来扩展独立机器学习的引擎功能。但是,需要注意的是,这些机器学习的云服务只是在云中运行的一种方式。虽然CSP可以提供带有统一API的打包机器学习服务,但在该提供商的云中运行机器学习系统也可能有无数的选项和体系结构。有两种开发云机器学习的思路:一种关注方便适用,另一种需要结合强大的数据工具。然而这些方法都需要提供一个完整的机器学习环境,一个专用的接口主要用来服务准备数据、开发算法、培训和部署。

  影响机器学习云服务的关键要素包括:机器学习具体算法、实时处理能力、数据准备、数据可视化、任务特征、实例类型、算法市场、训练集生成、电脑硬件等。

  语言处理类别包含用于文本和音频分析的人类语言的云服务和API。在大多数情况下,这些服务为几种语言提供支持。例如,在与计算机视觉类别关联的服务中,语言处理服务及其机器学习模型被分割成不同域,每个服务解决语言处理问题的一个或多个方面。该服务从数字录音中分析和提取语音,而其他服务则支持开发会话接口、多种语言之间的翻译或大文本之topeech处理。这些服务可以单独用于解决一个直观具体的问题,例如将文本字符串转换为一个数字音频文件,用于文本到语音的使用。或者,这些服务可以协同使用来构建丰富的会话人机界面。在这些服务中,会话平台主导了客户的兴趣。

  自然语言处理(NlP)服务提供的会话接口需要大量数据,需要凭借数据来完成会话任务。因而,在设计会话平台时,请将自然语言系统完全视为接口。以旅行社部署聊天机器人帮助客户预订旅行为例。聊天机器人并不取代后端预订系统、客户数据库或与外部旅行系统的集成。聊天机器人只是接口-它将网页或移动应用程序替换为客户定义其事务和与其事务相关的数据的接口。这种区别很重要,因为它定义并阐明了聊天机器人与现有数据和服务的关系。一些AI CSPs提供额外的语言服务,包括翻译、语音到文本(STT)、文本到语音(TTS)和说话人识别等。

  影响语言处理服务的关键包括:每个机器人的最大意向数、每个意向的最强话语、最大实体数、预定义实体、条目验证、情感分析、上下文管理、缺失话语管理、意图和实体的接口、语言支持(英语、法语、中文等)。

  影响会话体验的关键因素包括:支持意图的数目、维护上下文的能力、捕捉失联缺失意图的能力、对有条件对线. 计算机视觉

  计算机视觉服务提供的API允许将数字图像或数字视频传递给经过预先训练的机器学习算法进行分析。不同的目的构建的服务可能凸显在不同的分析对象上,比如一种计算机视觉算法可以被训练用于光学字符识别(OCR)以从数字图像中提取文本,再比如用于图像中的人脸检测的训练的算法,此算法可以分析被检测人的情感。当然,在此种算法支撑之下,也可以执行检测图像中的人脸,并对其进行分类以供识别。此外,还有是在成千上万个预先训练的对象目录中执行广义对象识别或场景检测。

  AI CSP提供广泛的计算机视觉服务,在解决方案组合中包括以下功能:标签提取、面部识别、面孔识别、自定义分类器、人脸匹配、面部情感、光学字符识别、手写识别、相似图像搜索、图像属性、图像描述、标志检测、内容调节、名人识别、地标检测、自动种植等。AI CSP提供额外的视觉服务,包括光学字符阅读器(OCR)、识别潜在不合适的内容或令人反感的图像、名人识别以及地标和标识检测等。

  除了计算机视觉、语言处理和机器学习这三大类之外,AI CSP包括与AI应用程序相关的安全服务;特定领域的应用程序任务;以及端到端的知识探索、搜索和发现服务;云中基于机器学习的应用程序的某些体系结构模式;包括由单个软件组件构建并使用机器学习引擎的应用程序,如apache mxnet或caff.这些其他方法当然是完全有效的,对于需要深入数据科学的复杂解决方案,它是首选的方法。但是,以上不是本文讨论的重点。

  二、主要企业虽然人工智能服务是作为多个提供商的独立解决方案单独提供的,但企业通常更愿意为其所有的AI项目与单一的人工智能提供商合作。随着企业对技术和自身目标的熟悉,他们可能会选择迁移到不同的、独立的提供者,从而更好地满足特定的需求。

  Amazon的AI平台提供一系列成熟且易于使用的机器学习功能,作为一个完全托管的服务。如下图所示,亚马逊提供的服务分为三层。这些解决方案允许具有不同经验的开发人员和数据科学家使用人工智能服务。服务包括托管的、经过预先培训的即插即用API以及用于自定义高级项目的工具性应用。

  谷歌云的人工智能服务基于谷歌云平台(GCP),该平台由一组物理硬件和虚拟计算资源组成。谷歌云的功能得到了其开源计划的补充支持,包括用于预测建模的kaggle平台和Kubernetes平台。google的AI产品如下图所示。除参考指南外,许多google API还包括快速启动和如何指导指南、示例和教程。

  IBM在其云品牌下提供了范围广泛的AI服务,如下图所示,中间是Watson studio,它提供了一种直观的用户体验,可以访问机器和下面的深入学习计算基础设施和智能目录;上面是针对LOB和众多行业垂直的预先构建的AI解决方案。解决方案的一个核心要素是Watson Studio提供管理和部署预测模型的集成工具和服务。

  微软产品设置在蔚蓝云中,分为三部分:人工智能服务、人工智能基础设施和人工智能工具。在人工智能服务领域,培训服务为开发人员提供了一个起点,可以在不需要广泛的人工智能背景的情况下开发和培训模型。培训服务分为以下几类:视觉、语音和语言、知识和搜索。

  三、几点讨论一是所有机器学习服务都试图统一机器学习项目和实现系统的端到端的工作流。但是,它们在目标受众和创建成功项目所需的专门知识方面有所不同。对于很少或根本没有数据科学专业知识的技术专业团队,自动化算法选择和培训集创建等功能将减轻项目的一些复杂性,并利用现有的AI CSP实现分类、聚类、回归和异常检测。然而,由于统计建模的不透明性和实例的局限性。技术人员会发现这些服务最适合于不需要定制算法开发或硬件加速的通用分析问题。

  二是每个供应商的语言处理目录包括一个会话平台及自然语言交付接口应用程序。最先进的NLP要求架构师和开发人员明确定义意图,以及每个意图的示例语句和实体。然而,面对不同供应商的产品值得对聊天接口的目标和平台的功能进行深入地比较。请记住,非常简单的接口通常会产生非常简单的结果。所以,虽然易于使用的平台可能很有吸引力,但是处理不了复杂案例。

  三是针对广义图像分析中标签提取的不确定性处理方案。令人印象深刻的图像分析是从进行标签点的提取,走向未来的开放式数据分析。当前,在图像中检测到的对象缺乏确定性,将需要策略来辅助。该解决方案被设计为能够创建自定义分类器,以增强现有的训练并聚焦图像分析。这种增量式训练是解决确定性不足的首选方法,因为它既能集中分析,又能提高检测和分类的准确性。当服务不支持增强训练时,用户可以尝试通过消除图像中分散注意力的对象来缩小分析的差异,从而改善确定性。除此之外,确保图像清晰、集中且光线充足,可以确保检测算法的运行,不必纠缠于图像中的数据质量问题。