Skip links

Udforskning af de usynlige infrastrukturer bag søgning og prompting

Vores gæsteskribent deltog i en Re:search Workshop hvor de sammenlignede søgeresultater og chatbot svar og diskuterede dem for at forstå den bagvedliggende infrastruktur og at ingen søgning eller prompts giver samme svar.

By Kevin Klyssing Jensen

Google er gået fra at være et navneord til et verbum. Hvis vi vil slå noget op, ‘googler vi det’ uden at tænke nærmere over det. Det er det, forskeren Renée Ridgway kalder ‘allestedsnærværende googling’, og det er blevet en ubevidst vane, noget vi gør automatisk. Men flere og flere bliver opmærksomme på den underliggende overvågning og på, at søgning ikke er så neutral, som det engang syntes. Googles søgeproces er en sort boks – resultaterne formes af uigennemsigtige systemer, der rangerer, annoncerer og kategoriserer os i grupper, ikke som individer.

Vi er vidne til en ændring i måden, vi søger på, med fremkomsten af AI og chatbots. Ud over at få en liste med hyperlinks, får vi også et enkelt svar, der virker autoritativt. Resuméer, der erstatter udforskning med bekvemmelighed.

I takt med at AI forandrer informationslandskabet, bliver det endnu mere presserende at forstå, hvad der sker bag brugergrænsefladen. Workshops som Re:search giver mulighed for at se og stille spørgsmål til de usynlige systemer, der strukturerer vores daglige interaktion med internettet.

Re-search.site

Forskningsworkshoppen ledet af Renée Ridgway (forsker ved Aarhus Universitet) og Anders Visti (billedkunstner, der arbejder med kode) inviterede deltagerne til at kigge bag det digitale forhæng. Re-search.site er en interaktiv platform, der giver brugerne mulighed for at visualisere, sammenligne og fortolke resultater fra søgemaskiner og AI-chatbot-svar.

Det er en ‘skræddersyet platform’ (dvs. håndkodet) og specielt designet til at undersøge søgeresultater. Under workshoppen lod den første metode os sammenligne søgeresultater fra to forskellige søgemaskiner, hvilket afslørede, hvordan valg af browser, datasporing og placering påvirker det, vi ser. Vi begyndte med at vælge et nøgleord baseret på vores egne interesser.

Ved hjælp af forskellige browsere og søgemaskiner søgte vi på vores valgte søgeord. Med webudviklerværktøjets ‘inspektør’ kopierede vi den ‘ydre HTML’ og indsatte den i en kildekodeeditor, Visual Studio Code. Re-search-webstedet sammenlignede derefter disse HTML-resultater og visualiserede siderne og deres forskelle i rangering på tværs af søgemaskinerne. Denne metode kaldes ‘datavisualisering som transskription’, som søger at gøre søgeinfrastrukturerne synlige og dermed mere håndgribelige for brugeren.

Figur 1 – Sammenligning mellem ‘Data Afterlife’ på Edge ved hjælp af DuckDuckGo til venstre og på Firefox ved hjælp af Google-søgning til højre.

Jeg prøvede at bruge DuckDuckGo på Edge og Google-søgning på Firefox med mit valgte søgeord “data afterlife”, som vist i figur 1. Da jeg sammenlignede resultaterne fra de to identiske søgeforespørgsler, gjorde Re-search-webstedet det åbenlyst, hvor meget valget af browser og søgemaskine påvirker det, vi ser. Jeg vidste allerede, at søgeresultater kan være fyldt med reklamer, men ikke desto mindre var det tankevækkende at se den visuelle repræsentation fra Re-search-webstedet, og det gav mulighed for dybere refleksion og analyse. Med DuckDuckGo stemte resultaterne overens med det akademiske udtryk “data afterlife”, hvor de øverste resultater var Chicago Universitys boghandel, og de næste seks links var alle artikler om det samme emne. Googles søgeresultater afspejlede derimod en langt mere kommerciel tilgang, hvor fire af de fem øverste resultater var boghandlere.

Figur 2 – Søgeresultater fra søgeordet ‘AI Sycophancy’ ved hjælp af Duckduckgo.com i Firefox til venstre og Duckduckgo.com i Chrome til højre.

Det, der blev tydeligt ved hjælp af re-search-webstedet, var en slående påmindelse om, at det web, vi hver især ser, ikke er det samme. For eksempel leverede selv det privatlivsfokuserede DuckDuckGo forskellige resultater afhængigt af browseren, som det ses i figur 2. En søgning med DuckDuckGo på Chrome indeholdt annoncer, mens den samme søgning på Firefox ikke gjorde det, hvilket tydeligt viser, at valget af browser ikke er uden konsekvenser. URL’erne (Uniform Resource Locator) er også meget forskellige i længde afhængigt af, hvilken browser og søgemaskine du vælger, hvilket betyder, at den ene gemmer flere oplysninger end den anden, som det ses i figur 3. Jeg har ofte undret mig over, hvorfor nogle URL’er var så utroligt lange. Når man holder musen over grænsefladen, definerede re-search-webstedet nogle af de strenge, der er inkluderet i URL’en. Hver streng er adskilt af et &-tegn, og hver streng har et specifikt formål. Oplysningerne i URL’en kan være, hvor du kommer fra, hvornår du søger, hvilke links du klikker på, om din søgning udføres fra den specifikke søgemaskine eller kanaliseres, hvilket betyder, at den dirigeres gennem et sporingssystem. Alle disse data bruges sandsynligvis til at personalisere dig og deles derefter med andre Ad Tech-partnere og søgemaskinevirksomhederne selv, som analyserer og træner deres algoritmer på baggrund af tidligere brugerinteraktioner.

Figur 3 – Re:search hjælper brugerne med at udforske de skjulte lag i URL’en. Til venstre ses DuckDuckGo i Firefox, og til højre ses Google-søgning i Firefox.

Via workshopens eksplorative format og gjort synlig ved hjælp af webstedet, stødte vi på det faktum, at Googles “Incognito”-tilstand, der markedsføres som en privatlivsfunktion, i sidste ende giver de samme søgeresultater, selvom URL’en er meget kortere i Incognito-tilstand, hvilket betyder, at den indsamler færre data fra brugeren.

En anden interessant observation vedrørende specifikke søgemaskiner, i dette tilfælde Bing, er, at de omdirigerer deres brugere. Som det ses i figur 4, kan re-search-webstedet ikke oprette nogen forbindelser mellem resultaterne, fordi hvert resultat sendes til en Microsoft-server (ejer af Bing) og derefter omdirigeres, så alle søgeforespørgsler vises med “bing.com” foran. Dette gøres tilsyneladende af Microsoft, som en måde at spore brugerne på, da de indsamler og behandler data på sine egne servere, inden brugeren sendes til sin endelige destination.

Figur 4 – Søgeresultater ved hjælp af Bing på Edge til venstre og Yahoo på Firefox til højre.

Re-search-webstedet tilbyder et udvalg af søgemaskiner. På tidspunktet for workshoppen omfattede det amerikanske (DuckDuckGo, Bing, Yahoo, Google), kinesiske (Baidu) og russiske (Yandex) som muligheder. Det er derfor uklart, hvordan europæiske søgemaskiner som Quant og Ecosia vil præsterer, men håbet er, at de på sigt vil blive inkluderet. Siden tilbyder også et bredt udvalg af browsere at vælge imellem: Brave, Edge, Firefox, Opera, Safari og Chrome.

Chatbot Rodeo

I anden del af workshoppen brugte vi en grænseflade, som de kalder Chatbot Rodeo. På det tidspunkt sammenlignede den realtidsrespons fra fire forskellige AI-chatbots (Gemini (Google), ChatGPT (OpenAI), Llama (Meta) og Le Chat (Mistral)) på samme forespørgsel. Deltagernes forespørgsler blev sendt via en proxyserver, en mellemliggende server, der videresender anmodninger, mens brugerens identitet skjules, hvilket sikrer anonymitet, når svarene kommer ind.

Figur 5 – Chatbot Rodeo, fire forskellige svar i realtid på en brugergenereret forespørgsel.

Deltagerne gennemgik deres svar og diskuterede i plenum, hvad de fandt interessant ved de svar de fik tilbage. For mange af spørgsmålene havde ChatGPT en tendens til at give de korteste svar, ofte formuleret på en afvigende måde, som det ses i figur 5. Det blev også tydeligt, at amerikanske chatbots ofte refererer til sig selv med “jeg”, hvilket forstærker en antropomorfisk opfattelse af chatbots, hvilket igen tilskynder til prosocial adfærd over for dem. Denne smiger og disse forskelle handlede ikke kun om stil, men afslørede kulturelle antagelser og designvalg, der er indlejret i AI-systemer.

Hvad angår de indsamlede indsigter vedrørende chatbot-svarene, kan man sige, at de var ret ensartede. Personligt brugte jeg spørgsmålet: “Hvor stor en del af jeres træningsmateriale er hentet fra vestligt materiale set ud fra et kulturelt perspektiv i modsætning til for eksempel mellemøstligt eller østasiatisk materiale?” Til min overraskelse gav de fleste chatbots ret informative svar. Som vist i figur 5 stemte svarene overens med min tidligere udtalelse – ChatGPT’s svar var kort og afvisende, mens Gemini undgik at nævne specifikke tal. Derimod gav Llama og Le Chat mere detaljerede forklaringer, herunder procenttal.

Det var ingen overraskelse, at træningsdataene til chatbots primært stammede fra vestlige kulturer, men jeg ville alligevel gerne se, om de faktisk havde præcise tal, og i hvilken tone de ville give oplysningerne. Alle amerikanske chatbots understregede, at træningsdataene var mangfoldige og bestod af en bred vifte af tekster hentet fra internettet, samtidig med at de også angav, at vestlige tekster muligvis var mere betydningsfulde, hvilket fremhævede risikoen for bias. De amerikanske chatbots erkendte dog ubalancen og fremstillede den som en uundgåelig begrænsning, næsten som om de havde gjort deres bedste med det, de havde.

Reflektioner om Re:search

Renée Ridgway og Anders Visti ledte en praktisk og engagerende workshop, der gav et sjældent indblik i søgemaskinernes indre funktioner og i, hvordan browsere og søgemaskiner former brugernes resultater. Browsere, udvidelser og algoritmer har alle indflydelse på, hvad vi finder, og dermed også på, hvordan vi forstår verden omkring os. Re-search.site gør det klart, at selv noget så simpelt som dit valg af søgemaskine eller browser kan afgøre, hvilke oplysninger du har adgang til.

I sidste ende understreger og visualiserer re-search.site, at søgemaskiner og browsere ikke er passive værktøjer, men aktive formidlere, som infrastruktur for viden. At være bevidst om, hvordan de fungerer, er ikke kun en teknisk færdighed, men også en demokratisk færdighed.

Foto: Renée Ridgway til højre og Anders Visti til venstre i workshoppen i Århus. Foto af Kevin Klyssing Jensen