ChatGPT agora aceita comandos em forma de áudio e imagem

A nova atualização do ChatGPT inclui suporte a comandos por áudio ou imagens. As novidades foram anunciadas pela OpenAI em comunicado oficial nesta segunda-feira (25) e devem chegar aos assinantes do serviço Plus nas próximas duas semanas. SwiftKey ganha IA que cria imagens e ajuda você a escrever melhor Amazon vai investir até US$ 4 bilhões em startup de IA rival da OpenAI Conversas por voz com o ChatGPT No caso dos prompts de áudio, o bot de IA generativa permite gravar mensagens pelo app para celulares, aí ele transcreve o conteúdo e inicia uma conversa com cinco modelos de vozes diferentes. Entre os exemplos, a empresa menciona a possibilidade de criar uma história para dormir, resolver uma discussão em grupo ou obter uma receita. Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.Sound on 🔊 pic.twitter.com/3tuWzX0wtS -Siga no Instagram: acompanhe nossos bastidores, converse com nossa equipe, tire suas dúvidas e saiba em primeira mão as novidades que estão por vir no Canaltech.- — OpenAI (@OpenAI) September 25, 2023
A OpenAI recorreu a atores profissionais para gravar as vozes e usa a tecnologia da API Whisper para identificar a fala e transcrever os comandos em texto. A função estará disponível na aba “New Features”, dentro das configurações do app do ChatGPT para Android e iOS Pesquisa por imagens O chatbot de IA também consegue identificar os elementos presentes em uma imagem e fornecer respostas. Além da opção para combinar uma foto e uma legenda de texto, é possível enviar mais de um arquivo por prompt e ainda usar uma ferramenta nativa de desenho para destacar elementos importantes. ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb — OpenAI (@OpenAI) September 25, 2023
Graças à tecnologia multimodal dos modelos GPT-3.5 e GPT-4, o aplicativo identifica os elementos. Você pode usar o recurso para criar receitas com os itens presentes na geladeira, arrumar móveis e extrair dados de forma similar ao Google Lens, por exemplo. Preocupações da OpenAI A empresa ressaltou que as ferramentas possuem algumas limitações para garantir o uso seguro das novidades. As conversas em áudio podem ser um atalho para clonar vozes em fraudes, por exemplo, e o ChatGPT disponibiliza o recurso apenas para as conversas em áudio com os modelos disponíveis. Com relação às imagens, a OpenAI afirma que limitou a capacidade do ChatGPT para analisar e criar comentários sobre pessoas, como forma de respeitar a privacidade individual. Disponível para assinantes Os dois novos recursos aparecerão no aplicativo móvel da IA nas próximas duas semanas e (ao menos por enquanto) são exclusivos para assinantes do ChatGPT Plus. Posteriormente, a empresa pretende lançar as funções para desenvolvedores no futuro. Recentemente, o chat também ganhou uma integração com a nova versão do DALL-E para geração de imagens.