Kai DI prabyla
Ar jums kada teko klausytis, kaip jūsų draugas bando dainuoti karaoke? Atrodo, kad jis stengiasi iš visų jėgų, bet kažkas vis tiek skamba… keistai. Galima sakyti trūksta emocijų.
Lygiai taip pat būna su įgarsinimu - tik čia igarsintoju arba daininku tampa dirbtinis intelektas.
Ir, patikėkite, DI gali skambėti labai įvairiai:
Linksmai - tarsi jis ką tik laimėjo loteriją (ar bent jau papildomą darbo pertrauką).
Piktai - lyg būtų jūsų GPS, kuris 5-ą kartą kartoja „Pasuk kairėn!!!“.
Perdėtai dramatiškai - kai net paprastas sakinys „Prašome atnešti kavos“ skamba taip, lyg prasidėtų nauja „Sostų karų“ serija.
Pavyzdžiai iš mūsų DI laboratorijos
Mes turime kelis audio sintezės pavyzdžius, kur mūsų DI įrankis bando įgarsinti tekstą su emocija.
Ar jam pavyko? Na… spręsti jums.
Pabandykite atspėti, kuris balsas yra piktas, kuris laimingas, o kuris neutralus:
Deja, visi šie įrašai buvo… pikti. Arba bent jau turėjo būti pikti.
Ar pavyko tai suprasti? Ar pajutote emociją ypač paskutiniame garso įraše? :)
Nes mums - nelabai. Trečiasis įrašas skambėjo kaip visiškas garsų kratinys, iš kurio emocijų buvo tiek pat, kiek emocijų turi šaldytuvas.
Trumpai tariant - visi šie bandymai buvo nepavykę. Ups.
Po daugybės pataisymų, derinimo ir ne vienos vėlyvos nakties ginčų laboratorijoje mūsų inžinieriams galiausiai pavyko. Modelis neskambėjo kaip robotas, o pagaliau ėmė formuoti žodžius su emocijomis.
Atspėkite dabar, kuris įrašas yra piktas, kuris nustebęs, o kuris laimingas?
🚨 Atsakymai:
Nustebęs
2. Piktas
3.Laimingas
Taigi Iš pradžių buvo katastrofa, garsai buvo tik garsai. Dabar jie kalba, šypsosi, pyksta - beveik kaip mes patys dabar. Reikia tik kantrybės ir kelių šimtų klaidų.