Tra innamoramento, litigi e incomprensioni, gli assistenti vocali si stanno facendo strada tra i consumatori. ?Per conquistarli, le aziende devono imparare a creare interfacce ed esperienze d’uso che fanno a meno dello schermo e dei menu.

Dettare messaggi e promemoria, chiedere istruzioni sul miglior percorso stradale o selezionare una canzone usando solo la voce per dare istruzioni all’assistente personale che vive dentro al mio smartphone è tra le tra le situazioni quotidiane in cui sperimento contemporaneamente l’ebbrezza dei progressi fatti dall’industria digitale o, quando invece non riusciamo a intenderci, la frustrazione dei limiti che ancora la tecnologia deve superare.

Del resto, è comprensibile. Dal bancomat ai primi cellulari, fino ad arrivare alle interfacce grafiche dei computer, dei siti web e degli smartphone, la stragrande maggioranza della popolazione ha imparato a interagire con macchine e applicazioni attraverso un’interfaccia basata su menu. Uno schermo mostra le diverse opzioni tra cui scegliere – attraverso tasti, mouse o toccando direttamente lo schermo – fino a raggiungere il risultato desiderato.

Sistemisti e programmatori sono invece abituati a impartire comandi diretti in un terminale. Un metodo più veloce e immediato, ma che richiede di conoscere a fondo i comandi, la loro sintassi e i parametri accettati.

Per certi versi, stiamo tornando a un’interfaccia testuale (anche se si usa la voce), di cui però non esistono né una lista dei comandi ammessi, né tantomeno un manuale d’uso. Questo presenta per chi deve sviluppare applicazioni e servizi per gli assistenti personali sfide e difficoltà, su almeno tre diversi livelli.

Riconscere e riprodurre la voce

La buona notizia è che il processo di conversione da voce a testo e viceversa sono ormai problemi risolti dai creatori delle principali piattaforme e disponibili come servizi da integrare nei propri software a costi davvero irrisori e basati sull’effettivo utilizzo.

Più complicato, ma affrontabile con gli stessi strumenti è la scomposizione del testo nelle sue componenti grammaticali e semantiche per riconoscere e interpretare l’intenzione dell’utente.

La sintesi vocale, necessaria per rispondere alle richieste, ha fatto passi notevoli e oggigiorno offre non solo una dizione corretta, ma anche inflessioni specifiche per trasmettere rendere più umano non solo il contenuto, ma anche il tono del messaggio (serio, allegro, perentorio…).

Le interfacce per un computer senza schermo

Quella cattiva è che quando si tolgono di mezzo schermo, menu, icone e opzioni, tutto quel che sappiamo delle interfacce utente diventa inutile. Come far scoprire all’utente quali funzioni ha l’applicazione? Come insegnargli a formattare correttamente una richiesta? Come risolvere eventuali ambiguità, segnalare che la richiesta non è comprensibile, o che il sistema sta elaborando una risposta?

Piattaforme e software house stanno cercando di rispondere a queste e altre domande con diversi approcci e si stanno delineando fondamenta e best practice per creare interfacce ed esperienze utente attivate dalla voce (Voice User Interface/Interaction), ma siamo ancora agli inizi per quanto riguarda gli studi “sul campo”, su grandi porzioni di pubblico. E si sa che il pubblico di massa spesso sorprende i creatori di servizi per opposti motivi: dall’incapacità o rifiuto di utilizzare una funzione che sembra ben progettata (credo di essere tra i pochi a effettuare la rimozione sicura dell’hardware Usb), all’incredibile creatività dimostrata nel distorcere ed estendere una funzione molto al di là degli usi per cui era stata progettata (gli SMS erano nati per permettere agli operatori di inviare notifiche sul servizio telefonico, per dirne una).

Aspetti personali e sociali dell’interazione vocale con una IA

Il terzo aspetto non riguarda la macchina o il software, ma i cambiamenti che queste tecnologie stanno apportando all’esperienza quotidiana delle persone e alla loro percezione. L’uso in pubblico di un assistente vocale è ancora abbastanza tabù per molte persone, e spesso per buoni motivi (davvero vogliamo far sapere all’intero vagone della metropolitana dell’appuntamento che abbiamo col medico il giorno seguente?). Non a caso i principali luoghi in cui questi dispositivi vengono utilizzati sono la casa e l’automobile.

Alcune applicazioni sono davvero utili solo se hanno accesso ai nostri dati personali: rubrica, appuntamenti, posizione geografica, documenti… Non tutti sono disponibili a fornire a terzi l’accesso a queste informazioni. La cronaca recente sui furti o la malagestione dei dati, anche da parte di colossi del digitale, sembra dar loro ragione.

Applicazioni che presentino difficoltà all’utilizzo rischiano di provocare non solo l’abbandono del servizio specifico, ma della funzionalità stessa. La regola qui è che l’uso deve essere più pratico e veloce rispetto all’aprire un’applicazione e usare un’app sullo smartphone.

C’è poi un rischio opposto: che le applicazioni funzionino così bene che le persone arrivino a umanizzare l’assistente, stabilendo con esso una “relazione” carica di aspettative, anche emotive, difficili da realizzare, e probabilmente poco sane. O che, come nell’esperimento fatto da Google alla sua convention Google I/O, diventi quasi impossibile capire se si stia interagendo con un software o con una persona.

Una sfida che vale la pena raccogliere

Malgrado le difficoltà tecniche e non, cominciare a progettare servizi compatibili con gli assistenti vocali è una strada che le aziende dovrebbero percorrere per guadagnare più utenti, aumentare l’utilizzo da parte degli utenti attuali e offrire loro esperienze soddisfacenti, costruendo così un legame con il brand più forte e duraturo. È ancora un’impresa pionieristica e dai risultati immediati incerti, ma a lungo termine questo territorio ancora inesplorato sarà senz’altro molto popolato.