雙子座現場,Google推出回答ChatGPT進階語音模式的Gemini Live

雙子座現場,Google對OpenAI的ChatGPT最近推出的(在有限alpha版中)進階語音模式做出回應,於星期二推出,距離在Google的I/O 2024開發者大會上宣布已有幾個月。這是在Google的Made by Google 2024活動上宣布的。

雙子座現場讓用戶可以在他們的智能手機上與Gemini展開“深度”語音對話,Gemini是Google基於生成式AI技術的聊天機器人。由於增強的語音引擎提供了更持續、情感豐富和真實的多輪對話,使人們可以在Chatbot說話時打斷Gemini提出跟進問題,而Gemini將實時適應他們的言語模式。

在一篇部落格文章中,Google如此描述:“通過雙子座現場[通過Gemini應用程式],您可以與Gemini交談,並選擇它可以用[10種新的]自然聲音回答。您甚至可以按自己的節奏講話,或在回答中間打斷提問,就像您在任何對話中一樣。”

雙子座現場是一種無需手動操作的功能。您可以繼續與背景中的Gemini應用進行交談,即使您的手機被鎖定,而對話也可以隨時暫停和恢復。

所以這有什麼用處呢?Google舉了一個為工作面試排練的例子——有點諷刺的情節,但沒關係。Google表示,Gemini現場可以與您一同練習,提供演講提示,建議在與招聘經理(或AI)交談時突出的技能。

雙子座現場可能比ChatGPT的進階語音模式擁有更好的記憶力。支撐現場的生成式AI模型Gemini 1.5 Pro和Gemini 1.5 Flash的架構具有較長的“上下文窗口”,意味著它們可以在製作回應之前吸收並推理大量數據,理論上可以是數小時的來回對話。

“現場使用我們已經調整為更具對話性的Gemini進階模型,”Google一位發言人通過電子郵件告訴TechCrunch。“當用戶與現場進行長時間對話時,該模型的大上下文窗口會被利用。”

當然,我們必須看到這一切在實踐中是如何運作的。如果OpenAI對於進階語音模式的挫折是一個指示,很少有演示能夠無縫地轉移到現實世界。

圖片來源:Google

  • 要求Gemini“製作一個讓我想起九十年代晚期的歌曲播放列表”。
  • 拍攝一張音樂會宣傳單並詢問Gemini那天是否有空 — 甚至可以設定提醒購票。
  • 讓Gemini從Gmail挖出一個食譜,要求將食材添加到Keep上的購物清單中。