Como uma Startup Polonesa se Tornou a Voz Multibilionária da IA

Forbes, a mais conceituada revista de negócios e economia do mundo.

Segundo Mateusz (Mati) Staniszewski, filmes dublados na Polônia são horríveis. Um único ator faz todas as falas em um tom monótono e cansativo. “O público jovem detesta. Pergunte a qualquer polonês e ele vai dizer que é terrível”, afirma Staniszewski, cofundador da empresa de tecnologia de voz por IA ElevenLabs. “Acho que foi algo da era comunista que permaneceu como uma forma barata de produzir conteúdo.”

Enquanto trabalhava na Palantir, Staniszewski se uniu ao amigo de ensino médio e engenheiro do Google Piotr Dabkowski para experimentar inteligência artificial.

A dupla percebeu que um projeto em especial — treinador de oratória baseado em IA — poderia resolver o horror tipicamente polonês de ver Leonardo DiCaprio ou Scarlett Johansson “afogados” pela voz de um dublador famoso, como Maciej Gudowski.

Os dois juntaram suas economias e, em maio de 2022, deixaram seus empregos para se dedicar em tempo integral à ElevenLabs. Logo de início, o novo gerador de texto para fala por IA era muito superior às vozes robóticas da Siri, da Apple, e da Alexa, da Amazon. As vozes da ElevenLabs eram capazes de expressar felicidade, empolgação e até risadas.

Em janeiro de 2023, a ElevenLabs lançou seu primeiro modelo. Ele conseguia pegar qualquer texto e usar IA para lê-lo em voz alta em qualquer voz — inclusive uma cópia da sua própria (ou, de forma preocupante, da de outra pessoa).

A demanda foi imediata. Os autores passaram a criar audiolivros instantaneamente com o software. Atualmente, os planos profissionais começam em US$ 99 (R$ 535,59) por mês para maior qualidade e mais tempo de uso.

Criadores do YouTube usaram a ElevenLabs para traduzir seus vídeos para outros idiomas, já que agora os modelos falam 29 línguas.

O modelo

A startup, com bases em Varsóvia e Londres, fechou contratos com aplicativos de aprendizado de idiomas e meditação; em seguida, empresas de mídia como a HarperCollins e a alemã Bertelsmann aderiram.

“Ficou óbvio que aquela era a melhor forma, e todo mundo estava simplesmente pegando direto da prateleira”, diz Jennifer Li, investidora da Andreessen Horowitz, que liderou uma rodada de US$ 19 milhões (R$ 102,79 milhões) em maio de 2023. Um ano depois, os cofundadores foram homenageados na lista Forbes 30 Under 30 Europe.

Outros, porém, encontraram usos bem mais inquietantes: imitações por IA de figuras públicas — como o presidente Trump narrando de forma grosseira duelos de videogame, a atriz Emma Watson lendo Mein Kampf e o podcaster Joe Rogan promovendo golpes — viralizaram rapidamente.

Golpistas também passaram a usar ferramentas de clonagem de voz para se passar por familiares e roubar milhões em fraudes sofisticadas com deepfakes.

Nada disso impediu os investidores de despejar dinheiro na empresa. Ao todo, a ElevenLabs já captou mais de US$ 300 milhões (R$ 1,62 bilhão), alcançando uma avaliação de US$ 6,6 bilhões (R$ 35,71 bilhões) em outubro e se tornando uma das startups mais valiosas da Europa.

Staniszewski, de 30 anos, que atua como CEO, e Dabkowski, também de 30, responsável pela área de pesquisa, agora são ambos bilionários, com fortunas estimadas em pouco mais de US$ 1 bilhão cada (R$ 5,41 bilhões), segundo a Forbes.

Grande demanda

Cerca de metade dos US$ 193 milhões (R$ 1,04 bilhão) em receita dos últimos 12 meses da ElevenLabs vem de clientes corporativos como Cisco, Twilio e a agência suíça de recrutamento Adecco, que usam a tecnologia para atendimento ao cliente ou entrevistas de candidatos.

A Epic Games, por exemplo, utiliza o sistema para dar voz a personagens do jogo Fortnite, incluindo uma interação com Darth Vader, com o consentimento de James Earl Jones.

A outra metade da receita vem de youtubers, podcasters e autores que adotaram a plataforma desde o início. “Quando você conversa com eles, é impressionante o quão bons eles são”, afirma Tom Coshow, analista do Gartner.

Diferentemente da maioria das empresas de IA, a ElevenLabs é lucrativa. A Forbes estima que a empresa tenha obtido US$ 116 milhões (R$ 627,56 milhões) em lucro líquido nos últimos 12 meses, com margem de 60%.

Agora, a startup disputa espaço com gigantes como Google, Microsoft, Amazon e OpenAI para se tornar a voz padrão da inteligência artificial. Não se trata de um mercado novo: empresas de tecnologia começaram a desenvolver produtos de escuta, transcrição e geração de fala há cerca de uma década.

Embora seja uma área secundária para a Microsoft, Satya Nadella se dispôs a pagar US$ 20 bilhões (R$ 108,20 bilhões) pela Nuance, empresa de transcrição de voz listada na Nasdaq, em março de 2022. A OpenAI lançou sua própria ferramenta de voz — capaz de alimentar o ChatGPT com conversas humanas — em outubro de 2024.

A equipe de 300 pessoas da ElevenLabs, porém, não está correndo atrás do prejuízo. Seus modelos são tão avançados que a empresa consegue cobrar até três vezes mais do que as rivais americanas. Sua biblioteca de 10 mil vozes humanas é a maior do mercado e inclui famosos como Michael Caine e Matthew McConaughey.

Além disso, a startup de treinamento de dados Labelbox testou seis dos principais modelos de voz com um teste de leitura e constatou que a ElevenLabs cometeu metade dos erros de sua concorrente mais próxima, a OpenAI. “Somos uma das pouquíssimas empresas que estão à frente da OpenAI — não apenas em voz, mas também em fala para texto e música. Isso é difícil”, afirma Staniszewski.

Por trás do sucesso

A fórmula da ElevenLabs é simples: um grupo enxuto de pesquisadores, com foco em um único problema, e um orçamento controlado. Os cofundadores bancaram os primeiros US$ 100 mil (R$ 541 mil) do treinamento do modelo, impulsionando os avanços tecnológicos. “Ter computação em excesso pode ser uma maldição, porque você deixa de pensar em soluções inteligentes”, diz Dabkowski.

Mas um processo movido por dois narradores de audiolivros aponta para outro ingrediente. Karissa Vacker e Mark Boyett alegam que a ElevenLabs usou milhares de audiolivros protegidos por direitos autorais para treinar seus modelos.

Segundo eles, tantos de seus livros teriam sido extraídos que clones de suas vozes acabaram aparecendo como opções padrão na plataforma. O caso — no qual a ElevenLabs negou irregularidades — foi resolvido fora dos tribunais em novembro. Vacker e Boyett não responderam ao pedido de comentário; a ElevenLabs se recusou a comentar o assunto.

Com isso, a empresa criou uma lista de vozes proibidas, principalmente políticos e celebridades, depois que um clone da voz de Joe Biden, gerado pela ElevenLabs, foi usado para desencorajar eleitores em uma campanha de ligações automáticas durante as prévias democratas de 2024.

Hoje, a ElevenLabs conta com sete moderadores humanos em tempo integral, além de IA, para analisar clipes em busca de uso indevido. Novas vozes clonadas precisam passar por uma verificação de consentimento, e a empresa oferece gratuitamente um detector de deepfakes.

Planos futuros

Staniszewski e Dabkowski têm planos ambiciosos além da voz. Criadores com pouco dinheiro e empresas de mídia com orçamentos apertados queriam músicas de fundo livres de royalties, e a empresa lançou um gerador de música por IA em agosto.

Não há tempo para gravar um vídeo? No próximo ano, a ElevenLabs pretende oferecer avatares de IA para protagonizar vídeos no estilo Sora. A aposta mais ousada é usar sua expertise para criar um único hub onde clientes possam gerenciar todas as suas ferramentas de IA. “Estamos construindo uma plataforma que permite criar agentes de voz e implantá-los de forma fluida”, diz Staniszewski.

Isso, naturalmente, coloca a ElevenLabs em rota de colisão com diversas outras startups que buscam fazer o mesmo. Ajuda o fato da empresa ser lucrativa desde os primeiros dias, mas seus concorrentes também são bem financiados, e as gigantes da tecnologia contam com recursos praticamente ilimitados.

Ainda assim, a inovação é obrigatória. Modelos de voz tendem a se tornar commodities. Quando outras soluções alcançarem o mesmo nível, clientes voláteis — que já reclamam dos preços da ElevenLabs — provavelmente migrarão.

À medida que expande sua atuação de voz para música e vídeo, áreas que exigem muito mais processamento, a ElevenLabs precisa ampliar suas próprias fazendas de GPUs para continuar competitiva. A empresa já investiu US$ 50 milhões (R$ 270,50 milhões) em um projeto de data center no Oregon. “Se quisermos construir a empresa geracional da IA, é preciso ganhar escala — e estamos construindo”, afirma Staniszewski.

De volta à Polônia, o envelhecido grupo de dubladores ainda segue em atividade — por enquanto. Dabkowski não esqueceu a proposta original da ElevenLabs e afirma que o próximo modelo será capaz de traduzir e dublar um filme inteiro de uma só vez. “Nunca desistimos das nossas missões”, diz ele.

O post Como uma Startup Polonesa se Tornou a Voz Multibilionária da IA apareceu primeiro em Forbes Brasil.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima