睿诚科技协会

Google Duplex技术会欺骗人类吗?

Google Duplex 是 Google 人工智能研究团队开发的一项 AI 技术,它能够让 AI 以极其自然、流畅的真人语音风格,通过电话自动完成预定任务,比如预约餐厅、理发店或查询营业时间。

Google Duplex技术会欺骗人类吗?-图1
(图片来源网络,侵删)

这项技术的核心突破在于,它不仅能“听懂”和“说”,还能在对话中理解上下文、处理意外情况,并以充满人情味的方式与人互动,让人几乎察觉不到对方是机器人。


核心功能与工作原理

Duplex 的功能远超简单的自动拨号,它是一个完整的对话系统,其工作原理可以分为以下几个关键部分:

目标

Duplex 的主要目标是自动化那些需要通过电话进行的、基于对话的、有明确目标的任务,这些任务通常具有以下特点:

  • 需要预约: 餐厅、理发、牙医、汽车保养等。
  • 需要查询信息: 商家营业时间、节假日安排、库存情况等。
  • 流程固定但细节多变: 需要与真人进行多轮交互,回答对方的提问,并根据对方提供的实时信息做出反应。

核心技术组件

Duplex 不是一个单一的技术,而是一个复杂的系统,融合了多种前沿 AI 技术:

Google Duplex技术会欺骗人类吗?-图2
(图片来源网络,侵删)
  • 自然语言理解:

    • 任务理解: 系统首先需要理解用户下达的指令,用户说“帮我预约周五晚上 7 点在‘意大利妈妈’餐厅,4 个人”,NLU 会解析出:时间(周五晚7点)、地点(意大利妈妈餐厅)、人数(4人)、意图(预约)。
    • 上下文理解: 在通话过程中,AI 需要持续理解对话的上下文,当对方说“周五晚上7点已经满了”,AI 要能明白这是对“7点”这个时间点的否定,并需要继续询问其他可选时间。
  • 对话管理:

    • 这是 Duplex 的“大脑”,它像一个对话向导,决定在每一步该说什么、该做什么。
    • 状态跟踪: 实时跟踪对话的进展,已拨号 -> 对话开始 -> 询问时间 -> 得到否定答复 -> 询问下一个时间 -> 得到肯定答复 -> 确认细节 -> 结束通话”。
    • 决策制定: 根据对话的进展和对方的回应,决定下一步行动,如果对方要求等待,系统会决定是保持通话(播放音乐)还是稍后回拨。
  • 自然语言生成:

    • 这是 Duplex 最惊艳的部分之一,它负责将系统“想”好的信息,用最自然、最像人的方式“说”出来。
    • 填充词和停顿: AI 会使用“呃”、“嗯”、“好的”等自然的口头禅和停顿,模仿人类的说话节奏,避免机械感。
    • 语调变化: 通过语音合成技术,AI 能调整语速、音调和音量,使语气听起来更自然,比如在表示惊讶时提高音调,在确认时放慢语速。
    • 语气词: 使用“好的,没问题”、“太好了”等表达来模拟人类的情感反应。
  • 语音识别与语音合成:

    Google Duplex技术会欺骗人类吗?-图3
    (图片来源网络,侵删)
    • 语音识别: 将对方说的语音转换成文字,供 NLU 和对话管理模块处理。
    • 语音合成: 将 NLG 生成的文字转换成自然流畅的语音,Google 在此领域(如 WaveNet)有深厚积累,保证了合成语音的高质量。

“超逼真”的关键特性

Duplex 之所以能引发巨大轰动,在于它具备一些超越当时其他 AI 的特性:

  • 自主处理意外情况: 这是 Duplex 最核心的能力,人类对话充满了不确定性,餐厅可能会说:“我们周五晚上7点没位置了,但8点可以,或者您看周六下午怎么样?” Duplex 能够理解这种“提议”,并根据自己的逻辑(优先选择周五)做出回应,而不是直接卡住或挂断。
  • 自然的对话节奏: 如前所述,它通过使用填充词、停顿和语调变化,让对话听起来非常舒服,不像是在和冰冷的机器对话。
  • 主动确认与澄清: 当信息不明确时,AI 会主动提问,当对方说“您想几点来?”,AI 会根据用户的初始指令说:“我想预约周五晚上7点,可以吗?”
  • 用户授权机制: 为了防止 AI 被滥用,Google 设计了严格的用户授权流程,在通话前,AI 会向用户确认通话内容,并征求“同意”才能进行,通话结束后,系统会提供完整的通话记录和文本摘要。

实际应用场景

Duplex 技术已经深度集成到 Google 的多个产品中:

  1. Google Assistant (谷歌助手):

    • 核心应用场景。 用户可以直接对手机说:“Hey Google,帮我预约一家下周二晚上 7 点的餐厅,4 个人。” Google Assistant 无法通过在线方式完成,它就会启动 Duplex 功能,以用户的身份自动拨打电话完成预约。
    • 支持的商家类型: 餐厅、理发店、美甲沙龙、汽车经销商等。
  2. Google Maps (谷歌地图):

    当用户在 Maps 上搜索某个商家时,可能会看到一个“Call”按钮旁边显示“Place an automated call”(自动拨打电话),点击后,Duplex 会自动拨号,向商家查询营业时间、是否接受预订等信息,并将结果反馈给用户。

  3. Google Business Messages (谷歌商业信息):

    对于通过短信进行业务往来的商家,Duplex 也可以通过文字对话的方式完成类似的任务。


伦理与社会影响

Duplex 的出现也引发了广泛的伦理讨论和争议,主要集中在以下几点:

  • 欺骗性问题: 这是最主要的争议,AI 在通话时默认不会主动告知对方“我是机器人”,虽然其声音听起来自然,但本质上仍然是一种欺骗,Google 后来回应称,会根据具体情况(法规要求或对方询问时)进行身份披露。
  • 对就业市场的影响: AI 能大规模替代电话客服、预约员等岗位,可能会导致相关就业岗位的减少。
  • 滥用风险: 技术可能被用于恶意目的,比如进行大规模的骚扰电话、诈骗电话等。
  • 信息不对称: 商家在与 AI 对话时,可能处于信息劣势,无法像与真人沟通那样进行灵活的判断和情感交流。

现状与未来

  • 现状: Duplex 技术已经从最初的惊艳演示,逐步落地为 Google 生态系统中的一个实用功能,它不再是科幻概念,而是用户日常可能用到的工具,其应用范围也在不断扩大,从最初的电话扩展到文字消息等渠道。
  • 未来方向:
    • 多模态交互: 结合视频通话,让 AI 不仅“能说”,还能“能看”,理解对方的表情和手势。
    • 更复杂的任务: 处理更开放、更复杂的对话,而不仅仅是结构化的预约和信息查询。
    • 更强的个性化: AI 能学习用户的偏好,用更个性化的语气和方式与对方沟通。
    • 更广泛的行业应用: 在医疗、金融、法律等领域进行更专业的电话沟通。

Google Duplex 是人工智能发展史上的一个重要里程碑。 它标志着 AI 从“能听会说”向“能理解、会思考、善沟通”的更高层次迈进,它不仅展示了 Google 在 AI 领域的强大实力,更重要的是,它向我们描绘了一个未来——AI 将无缝融入我们的生活,帮助我们处理那些繁琐、重复但又必不可少的日常任务,从而让我们有更多时间去做更重要的事情,尽管其伦理问题仍需持续关注和规范,但 Duplex 无疑为我们打开了一扇通往智能交互新时代的大门。

分享:
扫描分享到社交APP
上一篇
下一篇