Niet zo best: het Advanced Voice Mode van GPT-4o AI model blijkt tijdens testen de stem van gebruikers *soms* te klonen. Zonder toestemming of specifieke opdracht, door het verkeerd interpreteren van ruis. In je eigen stem: *WTF*. Dit is slechts het topje van de ijsberg.
Op Thoko.nl hanteren we onze eigen stem en kunnen we gewoon duiden wat we willen zonder full hosanna te gaan. Zo ook over AI: ik vertrouw het nog lang niet en dat komt niet eens door Terminator.
Waarom AI de boel gaat verzieken
ChatGPT maakt impact, zeker nu door voice en straks video. Het is een krachtige tool in de handen van een paar nerds dat we steeds meer gaan gebruiken. What could possibly go wrong? Nou, de wereld heeft misschien meer productiviteit nodig, maar zeker niet nog een of twee billionnairs. Wanneer ChatGPT vanaf 2025 in robots zoals Optimus Prime als OS draait en de videodatastroom om te leren pas echt op gang komt, kun je opeens overbodig worden.
Dat gaat dan als volgt:
- Techniek. Nerds die gave shit bedenken zonder de toepassing ervan echt door te denken. Zoals het effect van social media en smartphones op kinderen: desastreus voor de mentale gezondheid. Pas 16 jaar na de lancering van de iPhone zijn telefoons verboden op school. De gevolgen van AI voelen we nog lang niet. Maar die zijn er op alle fronten. En de crux met AI: het is techniek wat zichzelf kan bouwen en verbeteren. Het klonen van je eigen stem is echt nog maar het begin. We overzien niet waar dit eindigt. (redactie: jawel, zie Terminator)
- Aanbod. AI-washing. AI backlinks, AI voice, AI content, AI video, AI avatars, AI automatisering, AI kauwgom, AI bomen, AI… Plak er AI op en it’s hot & happening. Waarom? Omdat AI een slimme bouwsteen is die je aan elk proces kunt toevoegen. Door iets handmatig door ChatGPT te jassen of een kekke API-koppeling te bouwen. Beetje developer heeft in één dag iets gebouwd wat een beetje marketeer zo de markt op douwt. AI voice hoor je bijvoorbeeld al in Musk’s tweet waarin Kamala rare dingen zegt – een deepfake met een gekoonde stem – zonder de toevoeging dat het AI-content betreft. Een gekkie met een platform die zijn eigen regels overtreedt: dat is vandaag al het geval.
- Gedrag. Lege AI-artikelen waarvan de hoofdletters niet kloppen, neppe AI-avatars die je advies geven, een gepersonaliseerde echo chamber waarin AI alles bouwt wat het denkt dat jij leuk zou moeten vinden (niet in strijd met de alsmaar striktere content policy). We gaan AI meuk normaal vinden. Klantenservice? Natuurlijk moet je eerst door die stomme AI chatbot heen ploeteren. Op zoek naar nieuwe medewerkers? Natuurlijk zijn de brief en CV AI-geoptimaliseerd – het is tenslotte een aanbodsmarkt. AI zal massaal het wereldbeeld vormen. Met absurde leugens, zodat je niet weet wat echt is – zoals in Rusland. Met snoeiharde frames zodat je altijd maar boos wordt – zoals in Amerika. Polarisatie, verlies van vertrouwen in het systeem. Zoals dat nu al gaande is, maar dan AI-geoptimaliseerd.
Maar ik draaf door. Zo weet je wel tenminste dat dit menselijk geschreven is. Laten we de draad weer oppakken: een gekloonde stem zónder toestemming.
Stem gekloond zonder toestemming: hoe dan
OpenAI gaf dus laatst in z’n systeemkaart voor het nieuwe GPT-4o AI-model toegegeven dat tijdens tests het zogenaamde Advanced Voice Mode af en toe de stemmen van gebruikers nadeed zonder toestemming. Letterlijk:
Voice generation can also occur in non-adversarial situations, such as our use of that ability to generate voices for ChatGPT’s advanced voice mode. During testing, we also observed rare instances where the model would unintentionally generate an output emulating the user’s voice.
In de toelichting:
We’ve correlated some instances of this behavior with short, often inaudible voice messages made by the user which are often produced when users are in a high background noise environment (Such as using the model in hands-free mode while driving) or due to simply needing to cough. Our realtime audio deployment requires more user and assistant turns than text-only interactions, while those turns are more often truncated or malformed
Je leest het goed: dit gebeurde door geluidsruis die het systeem per ongeluk triggerde om iemands stem na te bootsen. De beschermingen die dit moesten voorkomen, faalden dus. En nu zijn er strengere controles & robuuste veiligheidsmaatregelen doorgevoerd om te zorgen dat dit niet weer gebeurt. Fijn. Maar gekloonde stemmen zijn allang een probleem.
reguleren, reguleren, reguleren
Strengere regels, betere bescherming, wetgeving, actievere technologiebedrijven.
Laat het niet aan de markt zelf over: slaan met die stok! Misdadigers hard aanpakken. Technologiebedrijven mede-verantwoordelijk maken voor die misdaden: biljonairs in de bak als ze geld belangrijker vinden dan het welzijn van het grote publiek. Wetgeving die bescherming afdwingt: elke gekloonde voice moet door iedere apparatuur gevonden kunnen worden. Zoals je telefoon nu automatisch ‘Pap ik ben mijn mobiel verloren’ smsjes in de spamfolder zet, zo ook met belletjes: ‘Deze telefoongebruiker is niet echt – je wordt genept’. Een database waarin je kunt zoeken op stem: ben ik gekloond? Is mijn stem zonder toestemming gebruikt? Zoals je nu op je mailadres en wachtwoord kunt zoeken of die gehackt zijn.
En als we gezappig de boel maar aan de markt overlaten?
Oh vind je dat overdreven?
Dit is nu al waar we zijn met AI voice: het risico om gehecht eraan te raken.
PS ja natuurlijk is de hoofdafbeelding gemaakt door ChatGPT – James Cameron laat mij – terecht – geen afbeeldingen van zijn film gebruiken.