Rimani aggiornato!
Iscriviti gratuitamente alla nostra newsletter, e ricevi quotidianamente le notizie che la redazione ha preparato per te.
L’ultimo traguardo appena tagliato da Open AI – l’azienda pioniera nello sviluppo di software di intelligenza artificiale generativa - si chiama Voice Engine e, come suggerisce lo stesso nome, si tratta di un “motore vocale”, ossia una nuova tecnologia in grado di generare una voce sintetica, clonando quella di una persona reale, utilizzandone unicamente un campione audio di 15 secondi.
È stata proprio l’azienda ad annunciarne il debutto con un post pubblicato sul proprio blog ufficiale, precisando tuttavia che, per il momento, il nuovo strumento resterà disponibile in anteprima solo per un numero ristretto di sviluppatori.
Una premessa che dovrebbe servire da rassicurazione, almeno finché non saranno stati valutati concretamente, oltre agli impieghi, anche i possibili rischi che sono connessi all’impiego di questa nuova creatura.
Difatti, la stessa azienda riferisce in premessa di presentazione l’approccio cauto e informato che sta adottando nel pensare ad un impiego più ampio di Voice Engine, in considerazione del potenziale uso improprio della voce sintetica e nell’intento di avviare un dialogo sul suo impiego responsabile.
Ne elenca quindi le concrete applicazioni:
Per ognuno degli impieghi elencati si forniscono poi indicazioni di enti e società che stanno mettendo a punto specifiche App per l’erogazione del relativo servizio, nonché tracce audio d'esempio (per ognuna c’è quello di riferimento e quello generato sinteticamente) che possono essere liberamente ascoltate e che consentono effettivamente di verificare la grande capacità dello strumento di clonare le voci, replicandone le intonazioni, le cadenze, gli accenti, il timbro e perfino quei tratti “emotivi” che in genere le voci sintetiche – perlopiù robotiche o metalliche – non sono in grado di riprodurre.
Tornando poi ai rischi, è la stessa Open AI a mettere in guardia da quelli possibili e fornendo le prime soluzioni: “Riconosciamo che generare discorsi che assomiglino alle voci delle persone comporta seri rischi, che sono particolarmente importanti in un anno elettorale” (il riferimento è alle prossime elezioni presidenziali in USA), e, per questo “stiamo collaborando con partner statunitensi e internazionali provenienti da tutti i settori del governo, dei media, dell'intrattenimento, dell'istruzione, della società civile e altro ancora per assicurarci di incorporare il loro feedback mentre costruiamo”.
Le cautele imposte ai partner che stanno testando Voice Engine vengono quindi così declinate: il divieto di coinvolgere altri individui o organizzazioni senza consenso o diritto legale; la raccolta del consenso esplicito e informato dell'oratore originale; il divieto di creare modalità che consentano a singoli utenti di creare la propria voce; l’obbligo di comunicare chiaramente al proprio pubblico che le voci che sentono sono generate dall'intelligenza artificiale. Inoltre, l’applicazione di filigrane che consentono di tracciare l'origine di qualsiasi audio generato da Voice Engine ed il monitoraggio proattivo del modo in cui viene utilizzato.
Secondo Open AI, l’intento applicativo futuro della nuova tecnologia dovrebbe essere diretto a obiettivi quali l’eliminazione graduale dell'autenticazione vocale come misura di sicurezza per l'accesso ai conti bancari e ad altre informazioni sensibili e l’accelerazione dello sviluppo e dell’adozione di tecniche per tracciare l'origine dei contenuti audiovisivi, così che si possa facilmente identificare quando includono elementi generati tramite AI.
Al momento l’azienda non ha indicato quando e se Voice Engine verrà rilasciato al pubblico, chiosando anzi il suo comunicato con un monito ben preciso: «È importante che le persone in tutto il mondo capiscano dov'è diretta questa tecnologia, sia che alla fine la implementeremo su larga scala o meno».
Ed i motivi di tanta cautela sono chiari, dal momento che i pericoli di un uso improprio sono davvero consistenti e nemmeno interamente prevedibili.