Escribís el texto, lo genera la API y el backend borra el audio temporal apenas termina de servirlo.