El uso de la IA en el ámbito de la voz en auge: retos y riesgos
La Inteligencia Artificial está entrando en la industria editorial mediante voces humanas clonadas para narrar audiolibros. En una industria, la del audio en español, que ha crecido un 75% en un año, el uso de IA generativa despierta todavía muchas incógnitas. Precisamente a las diversas cuestiones que suscita el uso de esta tecnología en el ámbito de la voz (radio, podcast, doblaje, audiolibros, canción…) han respondido diferentes expertos del sector de la producción audiovisual y del sector legal en el evento ‘Aspectos legales de la IA generativa en el ámbito de la voz’, que ha organizado el despacho de abogados internacional Bird & Bird en sus oficinas de Madrid de la mano de Intelivoz, compañía especializada en la creación de valor para las empresas a través de la voz.
Aunque el uso de la Inteligencia Artificial sigue siendo motivo de controversia, la postura de los actores de voz frente a la expansión de esta tecnología en su trabajo “se ha vuelto más optimista que respecto a enero del año pasado”, ha indicado Teresa Marcos, locutora de La General de Locutores. Según Marcos, fue entonces cuando se produjo una auténtica explosión en el uso de estas tecnologías.
“Las voces sintéticas existen desde hace mucho tiempo, lo veíamos por ejemplo en los contestadores automáticos, pero conseguir un modelo que replicara de forma parecida la voz de las personas era un proceso muy costoso, que requería grabar más de 10.000 frases y cuyo resultado tampoco era muy bueno. Todo esto cambió en enero de 2023 con la aparición de tecnología que, con tres minutos de captura de voz fonética, clonaba la voz con una calidad mucho más parecida a la natural”, ha indicado Antonio Quirós, socio de Intelivoz.
Una calidad que despierta muchas incógnitas respecto al derecho fundamental a la propia voz. En palabras de la representante de La General de Locutores, “la voz nos parece un bien cultural. Por lo tanto, no se puede y no se debe creer que todos los libros se deben leer de la misma manera. Es necesario defender la identidad propia y de ámbito cultural de la voz, que cuando la Inteligencia Artificial comenzó a usarse en el sector no se tenía en cuenta”.
Además, la mayor sofisticación de Inteligencia Artificial Generativa suscita otra serie de riesgos de seguridad a nivel de biometría. “Si la voz sintética tiene la capacidad de imitar la manera de actuar, la cadencia y la entonación propias de una persona, se produce una brecha de seguridad”.
Hace unos meses se viralizaba en redes sociales el uso de una IA que doblaba automáticamente a otros idiomas las voces de personajes famosos. También se les atribuían frases que no habían pronunciado. “No se le dio importancia porque eran memes que se entendían como una broma, pero esa era una vulneración de los de derechos de imagen. Hay muchos riesgos y muy complejos detrás de todo esto”, ha advertido Raúl Lara, presidente del sindicato de doblaje ADOMA. “Nos preocupa que un derecho fundamental como es la voz pueda ser clonada y entre en un circuito que se escape a nuestro control”. A los ya mencionados, Lara suma además otra serie de peligros que afectarían a los derechos laborales y a nivel sociocultural: “La tecnología avanza tan deprisa que no sabemos qué consecuencias va a tener”.
No obstante, el uso de Inteligencia Artificial generativa en el ámbito de la voz puede representar también una serie de oportunidades. Para Maribel Riaza, Content Acquisition Manager de Storytel, el uso de esta tecnología aporta en términos de “cantidad, diversidad y rentabilidad”, aunque este último punto con matices. “El uso de Inteligencia Artificial nos permite narrar un libro no sólo en castellano, sino que, si el usuario quiere escucharlo, por ejemplo, con acento argentino, la IA nos permite hacerlo. También escoger entre una voz masculina y una femenina. Esa diversificación de otro modo sería imposible”. No obstante, y aunque a día de hoy las voces sintéticas imitan a la voz humana, no están en el mismo nivel de entonación y se requiere de mucho trabajo de posproducción, lo que en muchos casos no es rentable.
¿Aportará más seguridad el Reglamento de IA que prepara la Unión Europea?
La Unión Europea trabaja en un Reglamento de Inteligencia Artificial, que tiene por objeto garantizar que los sistemas de esta tecnología introducidos en el mercado europeo y utilizados en la UE sean seguros y respeten los derechos fundamentales y los valores de la UE. No obstante, “este reglamento que viene, probablemente no vaya a atajar muchas de las dudas que suscita el uso de IA en el ámbito de la voz”, ha indicado Joaquín Muñoz, socio del departamento de Commercial del bufete Bird & Bird. “El uso de la Inteligencia Artificial en el ámbito de la voz se atajará con la normativa que ya existe, relativa a Propiedad Intelectual, Protección de Datos…”. Y es que, tal y como ha explicado el abogado, “el reglamento europeo se centra en determinar los usos o los riesgos que esos usos pueden tener”. Es decir, regulará lo que se puede y no se puede hacer, sin embargo, señala, “se han determinado una serie de usos de alto riesgo en los que probablemente la voz pueda entrar, por ejemplo, si la IA se utiliza para influir en colectivos vulnerables”.
Para Muñoz, en el futuro la regulación irá en el sentido de identificar los contenidos. “El camino será dotar de transparencia a estos contenidos, que el usuario tenga la libertad de consumir el contenido que quiera siempre que esté informado de si lo que está escuchando está generado por una máquina o por una persona”.
¿Y cómo se protege la voz en nuestro ordenamiento jurídico? ¿Qué deben incluir los contratos entre profesionales de la voz y empresas de IA? Julia Ammerman, profesora de Derecho Civil de la Universidad de Santiago de Compostela, ha señalado que “el consentimiento tiene que incluir tanto el permiso para la grabación como para ceder los derechos de voz. Tiene que ser un consentimiento acotado, en el que se autoriza expresamente esa intromisión en los derechos a la voz. Acotado en el tiempo y también en cuanto al contenido y los usos determinados. Será una cuestión de negociar en el ámbito contractual a qué cede cada locutor, cada actor de voz”.
Además, Ammerman ha indicado la necesidad de que exista una facultad de revocación: “Si es una revocación sin causa habría que indemnizar a la otra parte los perjuicios causados”. Además, la cesión de derechos se hará a una empresa concreta o empresas del mismo grupo, y siempre que en el contrato se especifique cuáles son.
¿Se estás cumpliendo estas condiciones? Para María Paz García Rubio, catedrática de Derecho Civil también de la Universidad de Santiago de Compostela, a día de hoy existe “un batiburrillo” contractual donde se mezclan diferentes áreas que complican dotar de seguridad a la industria. “Hay una cantidad de copias literales de cláusulas procedentes de contractos anglosajones que son inadaptables al derecho español, y cuando tienes que interpretar ese contrato, te enfrentas a una inseguridad jurídica total”.
Bird & Bird es un despacho de abogados internacional que acompaña a sus clientes en su transformación digital mediante asesoramiento jurídico y la utilización de sofisticadas herramientas de legaltech. Además de contar con experiencia jurídica en todas las áreas del Derecho de los negocios, poseen experiencia en numerosos verticales en España (Ciencias de la Salud, Energía, Seguros, Tecnología y Telecomunicaciones, Servicios Financieros, Alimentación y Bebidas, sector hotelero y ocio principalmente). Presentes desde 2005, la oficina de Madrid cuenta actualmente con más de 80 abogados.
Privacidad en juego: ¿son las apps de conversión de voz a texto un posible riesgo?
Los programas informáticos que convierten rápidamente y sin esfuerzo las palabras habladas en texto escrito han sido de gran ayuda para muchos de nosotros. Sus capacidades resultan útiles en diversas situaciones; por ejemplo, pueden ahorrarnos la carga de teclear nuestros mensajes en aplicaciones de mensajería, facilitar la toma de notas durante reuniones y entrevistas y ayudar a las personas con discapacidad.
“Si bien estas herramientas son muy convenientes en la conversión de contenido hablado a formato escrito, no podemos ignorar los riesgos inherentes asociados con su uso generalizado. La proliferación de programas de transcripción de audio a texto basados en inteligencia artificial sigue suscitando preocupación por la seguridad y la privacidad, y con razón”, comenta Josep Albors, director de Investigación y Concienciación de ESET España.
En este sentido, la compañía de ciberseguridad destaca algunas consideraciones de seguridad claves asociadas a las aplicaciones de conversión de voz a texto:
- Privacidad
Existen varias aplicaciones y bots dedicados a la transcripción automática de audio a texto. De hecho, al menos algunas de estas funciones ya están integradas en muchos dispositivos y sus sistemas operativos, así como en populares aplicaciones de mensajería y videoconferencia.
“Estas funciones, que se basan en el reconocimiento de voz y en algoritmos de machine learning, pueden ser proporcionadas por la empresa responsable de la aplicación o, sobre todo cuando la eficiencia y la rapidez son esenciales, por un servicio de terceros”, advierte Albors. “Sin embargo, sobre esto último también plantea una serie de cuestiones relativas a la privacidad de los datos, como el uso del audio para mejorar el algoritmo o el almacenamiento del contenido en servidores propios o de terceros”.
A su vez, ESET recuerda que la transcripción manual realizada por humanos tampoco está exenta de riesgos para la privacidad. Esto ocurre especialmente si las personas que transcriben el audio se enteran de información confidencial de las personas y/o si dicha información se comparte con terceros sin el consentimiento de los usuarios. Por ejemplo, Meta se enfrentó a una polémica en 2019 por pagar a cientos de contratistas para transcribir mensajes de audio de los chats de voz de algunos usuarios en Messenger.
- Recopilación y almacenamiento de datos
Muchas aplicaciones de todo tipo solicitan permisos para acceder a información diversa del dispositivo o del usuario, como la ubicación, los contactos o los chats de las aplicaciones de mensajería, independientemente de que los necesiten para su funcionamiento. “La recogida de esta información supone un riesgo si se hace un uso indebido de ella, se comparte con terceros sin el consentimiento informado del usuario o si no está debidamente protegida en los servidores de la empresa que la almacena”, comenta el director de Investigación y Concienciación de ESET.
Las aplicaciones de transcripción de audio, por ejemplo, tienden a recopilar archivos de audio que a menudo capturan las palabras habladas no sólo de una persona, sino posiblemente también las de sus familiares, amigos y compañeros de trabajo. En casos concretos, podrían hacerlos vulnerables a ciberataques o violaciones de la privacidad.
- Aplicaciones maliciosas
ESET advierte que, si buscas un software de voz a texto, también debes tener cuidado con las aplicaciones fraudulentas o los chatbots. “Los ciberdelincuentes también siguen las últimas tendencias y, dado lo popular que se ha vuelto este software, podrían publicar aplicaciones falsas como señuelo para comprometer a las víctimas con malware”, recuerda Albors.
Según ESET, estas aplicaciones maliciosas pueden ser imitaciones de aplicaciones legítimas, lo que dificulta a los usuarios separar el grano de la paja. Las aplicaciones falsas pueden tener mucho éxito en su malévola misión si no compruebas la legitimidad de la aplicación o quién está detrás de ella ni examinas su política de privacidad. Los ciberdelincuentes han descubierto aplicaciones suplantando a otras muy populares, como conversores y lectores de archivos, editores de vídeo y aplicaciones de teclado.
- Robo de información
El audio y el texto robados pueden convertirse en armas para ciberataques, incluidos los que implican falsificaciones de audio que luego pueden aprovecharse para ataques de ingeniería social o la distribución de fake news. El experto explica que, por lo general, el proceso consta de dos etapas: la formación del modelo de machine learning y la utilización del propio modelo. En el primer paso, el modelo utiliza técnicas de procesamiento de señales de audio y de procesamiento del lenguaje natural para aprender cómo se pronuncian las palabras y cómo se estructuran las frases. Una vez entrenado el modelo con suficientes datos, sería capaz de generar texto a partir de un archivo de audio.
En este contexto, un ciberdelincuente podría utilizar el modelo para manipular los audios robados y hacer que las víctimas digan cosas que nunca dijeron, incluso para chantajearlas, extorsionarlas o suplantar su identidad con el fin de engañar a sus jefes o familiares. También podrían hacerse pasar por un personaje público para generar fake news.
Cómo mantenerse a salvo
Para mantenerse a salvo y evitar los posibles riesgos asociados al uso de las apps de conversión de voz a texto, la empresa de ciberseguridad recomienda una serie de medidas sencillas como:
- Utilizar plataformas de confianza: Utiliza proveedores de servicios verificados que cumplan normativas como el GDPR y las mejores prácticas del sector, y descarga tus apps desde las tiendas de aplicaciones móviles oficiales. En otras palabras, mantenerse alejado de fuentes desconocidas o no verificadas puede evitar exponerte a impostores malintencionados.
- Leer la letra pequeña: Examina las políticas de privacidad de los proveedores de servicios, prestando especial atención a las secciones sobre si tus datos de voz se almacenan y comparten con terceros, quién tiene acceso a ellos y si están cifrados durante su transmisión y almacenamiento. Infórmate sobre su política de conservación de datos y sobre si tu información se elimina a petición. Lo ideal sería no utilizar servicios que recojan este tipo de datos o en los que no se anonimicen.
- Evitar compartir información sensible: Abstente de compartir datos confidenciales o delicados, como contraseñas o información financiera, a través de programas de voz a texto.
- Actualizar: Mantén todo tu software actualizado con las últimas correcciones y parches de seguridad para evitar ser víctima de ataques que exploten vulnerabilidades del software. Para aumentar aún más tu protección, utiliza un software de seguridad multicapa de confianza.