Para entrenar a la inteligencia artificial, un desarrollador investigó los mejores medios para extraer una voz limpia de Charly García
Por iProfesional
31/03/2023 – 12,49hs
El usuario de Twitter @petacas_posting publicó el 20 de marzo la canción Spector del último disco de Charly García, Random (2017), cantada con la voz del compositor de 1982/1983. «Reconstrucción vocal de Charly García de principios de los 80s mediante inteligencia artificial» (IA), lo denominó.
El usuario comentó el proceso: «Entrené una IA de nombre Diff-SVC con grabaciones de Charly en vivo que incluyen parte del Luna Park del ’83, y parte del álbum ‘No llores por mí Argentina’».
«No es una IA al público como están apareciendo, por eso no quise dar data muy específica del proceso ya que es complejo e implica tener noción de código y potencia computacional. Para llegar a esos resultados, debí ser meticuloso y tener paciencia. Para entrenar a la IA necesité investigar los mejores medios para extraer una voz limpia de Charly», explicó al diario Tiempo Argentino.
«Luego procesé, separé la voz de los instrumentos (con otra IA que tengo guardada, Demucs) y recorté los audios en porciones de unos cuantos segundos para dárselos a la IA para el ‘entrenamiento’», detalló.
«En total me habrán quedado unos 150 audios aproximadamente y el entrenamiento en sí me habrá llevado unas 9 horas. Acá entra en juego lo artesanal: la minuciosa selección, revisión y preprocesado del dataset (audios con porciones de su voz)», advirtió.
También explicó cómo hizo para trabajar con dos recitales como fuentes: «Al ser una mezcla entre audios de dos recitales diferentes, difieren tanto en calidad sonora, como en técnica vocal. El del Luna es más voz de pecho y gritada, y el del álbum con Serú Girán es más voz de falsetto y aguda».
Un collage vocal
Por lo tanto, «la IA hace una mezcla de ambas dependiendo el contexto del audio de referencia proporcionado (por que sí, para funcionar necesita un audio de referencia cantando eso que querés convertir a la voz de Charly)», dijo.
Si por ejemplo, «el sujeto canta suave, quizás te ponga la voz de falsetto, si el sujeto canta fuerte, te ponga la voz de pecho, y así… Si en el hipotético caso tuviera en mi poder pistas oficiales de estudio de la voz de Charly, pues todo tendría la misma calidad sonora, por lo que las transiciones entre modos de canto serían mucho más homogéneas», reconoció.
Ante la repercusión de la pista, la audiencia le pide reconvertir más temas: «Me comentan canciones a lo loco y lo que les trato de hacer entender que necesito ‘molestar’ a un tercero para que las cante y yo poder hacer la conversión a la voz de Charly, ya que a mí no me da la voz, no soy cantante», aclaró.
Experimenta con otra IA similar llamada So-vits SVC: «Tiende a dar mejores resultados, debo decir… Ya tengo conmigo al Charly IA v3. Fui haciendo varias pruebas y reentrenamientos para ir puliendo detalles. Más adelante vendrán más canciones, y otras voces. ¿Quizás podamos traer de regreso a (el fallecido compositor Gustavo) Cerati? Quien sabe…».
¿La IA podrá lograr que en unos años suene completamente real? Para este usuario, no hace falta esperar tanto, más bien depende de la la calidad y el tipo de grabación de origen con la que se cuente.
«Por supuesto, de hecho, puede sonar completamente real si se entrena con audios completamente limpios en estudio y/o ambiente controlado. Lo ideal sería tener pistas vocales y/o stems oficiales de estudio de Charly, pero como no existen, hay que hacerlo todo caserito«, respondió.