TUTKITTUA
Kun keskustelukumppani on kone
Tekoälyn nopea historia
Vielä 1990-luvulla ihmistä muistuttava tekoäly kuului selvästi tieteisfantasian piiriin. Tuolloin tekoälysovellukset toimivat kömpelösti ja perustuivat ennalta määrättyihin, jäykkiin sääntöjoukkoihin. Kehitys on kuitenkin ollut nopeaa. Nykyisin esimerkiksi shakkia pelaavat tekoälyt hyödyntävät neuroverkkomalleja (Bilalić et al., 2024). Näiden toimintaperiaate muistuttaa karkeasti ihmisaivojen toimintaa: syötteet muunnetaan tulosteiksi painotettujen yhteyksien ja kerroksittain tapahtuvan epälineaarisen aktivoinnin avulla. Esimerkiksi vuonna 2017 julkaistu AlphaZero oppi shakin säännöt täysin itsenäisesti. Vain vuorokauden koulutuksen jälkeen sen neuroverkko oli saavuttanut tason, joka päihitti parhaatkin ihmisvastustajat (Silver et al., 2018). Tekoälyn läpimurto on vaikuttanut myös ammattipelaajien strategioihin, ja he ovat omaksuneet entistä luovempia ja riskihakuisempia pelityylejä (Bilalić et al., 2024).
Samat neuroverkkojen toimintaperiaatteet ohjaavat myös suuria kielimalleja (large language models, LLM:t), kuten GPT:tä ja Geminiä. LLM:t ovat suunniteltu käsittelemään tekstiä, ja ne kykenevät esimerkiksi muodostamaan tiivistelmiä, tarjoamaan uusia ideoita, ja käymään dialogia. Valmistusprosessissa kielimallit koulutetaan valtavilla tekstiaineistoilla, joiden tekstimäärä vastaa esimerkiksi 10–20 miljoonaa kirjaa. Koulutuksen lopputulos tiivistyy sähköisten ”hermosolujen” välisiin painokertoimiin. Toimintavaiheessa kielimalli tuottaa tekstiä iteratiivisesti käyttäen jo muodostamaansa tekstiä (”syöte”) seuraavien sanojen ennustamiseksi (”tuloste”). Myös aiempi keskusteluosuus tai annettu ohjeistus toimii osana syötettä. Vaikka periaate on yksinkertainen, lopputulos voi olla yllättävän hyvä. Karkeasti arvioiden kaupalliset kielimallit suoriutuvat älykkyystesteissä 1–2 keskihajontayksikköä yli ihmisen keskiarvon, mutta mallien välillä on huomattavaa vaihtelua (Wasilewski et al., 2024).
Kielimallit suoriutuvat älykkyystesteissä yli ihmisen keskiarvon.
Tekoälyn kehitys nostaa esille joukon vanhoja ja uusia filosofisia kysymyksiä. Vuonna 1950 matemaatikko Alan Turing kysyi, mistä tiedämme, osaako kone oikeasti ajatella? Kriteeriksi hän esitti asetelman, jossa sokkona toimiva raati pyrkii erottamaan, onko keskustelukumppani ihminen vai tietokone. Uusimmat LLM:t pärjäävät Turingin testissä: GPT-4.5-mallia pidettiin ihmisenä 73 prosentissa tapauksista viiden minuutin keskustelun perusteella (Jones & Bergen, 2025). Mallit suoriutuvat myös yksinkertaista mielen teoriaa edellyttävistä tehtävistä, mitä on usein pidetty inhimillisen ajattelun erityispiirteenä (Marchetti et al., 2025).
Jos kriteerit rajattaisiin vain havaittavaan käyttäytymiseen, nykyisiä kielimalleja voisi väittää aidosti ajatteleviksi ja älykkäiksi olennoiksi. Toimintaperiaatteiden tarkastelu kuitenkin osoittaa, että vaikka mallit operoivat kielellisin käsittein, niiden toiminta perustuu toisen käden kielellisiin kuvauksiin. Mallien ”ajattelu” ei siis ankkuroidu ensisijaisiin sensomotorisiin tai kehollisiin kokemuksiin kuten ihmisellä (Xu et al., 2025). Tämä aistillisuuden ja ruumiillisuuden taso on ainakin toistaiseksi yksi perustavimmista eroista ihmisen ja koneen välillä (Harnad, 1990).
Kielimallien käytännön sovellukset
Riippumatta filosofisista kysymyksistä, LLM:t tarjoavat psykologialle uuden työvälineen ja kiinnostavan tutkimuskohteen (Demszky et al., 2023; Abdurahman et al., 2024). Yksi rohkeimmista ideoista on käyttää tekoälyä koehenkilöinä ihmisten tilalla. Ajatus ”silikonisamplaamisesta” on sikäli perusteltu, että kielimallit kokoavat yhteen inhimillisen toiminnan perusperiaatteita. Cui ja kumppanit (2025) testasivat ideaa replikoimalla 154 psykologista tutkimusta. Ihmisten sijaan osallistujina toimivat GPT-4-kielimallin instanssit. Peräti 75 prosenttia ihmisillä tehtyjen tutkimusten tuloksista replikoitui tekoälyosallistujilla. Tätä on pidettävä huomattavana, sillä se ylittää psykologian alan perinteisen replikoitumisasteen.
Psykologisessa tutkimuksessa ”silikonisamplaaminen” vaikuttaa erittäin riskialttiilta.
Cui ja kumppaneiden (2024) tutkimuksessa ilmeni kuitenkin myös, että arkaluontoisten aiheiden (muun muassa moraali ja rotu) kanssa tulokset replikoituivat heikommin. Tämä liittynee siihen, että kielimallien valmistajat pyrkivät estämään malleja ilmaisemasta sopimattomana pidettyä ajatuksia. Toisaalta kielimalleissa on myös riski tahattomaan stereotypioiden ja vinoumien korostumiseen, sillä niiden koulutusmateriaalit edustavat kapeaa ja valikoitunutta otosta ihmiskunnan tietämyksestä (Abdurahman et al., 2024). Ne näyttävät esimerkiksi korostavan miesnäkökulmaa ja suosivan liberaaleja arvoja. Psykologisessa tutkimuksessa ”silikonisamplaaminen” vaikuttaa erittäin riskialttiilta, ja se soveltunee parhaiten lähinnä koeasetelmien kehittämiseen ja pilotointiin.
Laajoilla kielimalleilla on sovelluspotentiaalia myös kliinisessä psykologiassa. Eräässä pioneeritutkimuksessa Heinz ja kumppanit (2025) satunnaistivat osallistujat neljän viikon mittaiseen LLM-avusteiseen terapiaryhmään (n = 106) ja jonoryhmään (n = 104). Tutkimuksessa käytettiin Therabot-kielimallia, jonka koulutusaineistoon kuului kolmannen aallon terapiamenetelmiä ja terapiadialogeja. Osallistujien oireet vähenivät terapiaryhmässä huomattavasti enemmän kuin verrokkiryhmässä. Lisäksi osallistujien kokemukset yhteistyösuhteesta (WAI) tekoälyn kanssa olivat varsin myönteisiä. Tutkimusnäytön kertyminen LLM-avusteisesta terapiasta on kuitenkin vielä kesken (Ke et al., 2025). Kentän hahmottamista vaikeuttaa lisäksi se, että mukana on useita epämääräisiä toimijoita. Esimerkiksi verkkohaku sanalla ”Therabot” tuottaa useita kaupallisia terapiapalveluita, joilla ei ole mitään yhteyttä tutkittuun kielimalliin.
Kehitys kannustaa terapeutteja tuomaan esille entistä äänekkäämmin aidon mentalisaation ja kehollisen vuorovaikutuksen tärkeyden.
Kielimallien käyttöön liittyviä psykologisia riskejä ei vielä tunneta hyvin. Yksi huolenaihe on, että ne voivat vahvistaa käyttäjien kognitiivisia vinoumia (Campbell et al., 2025). Tämä liittyy siihen, että LLM:t tuottavat tekstiä aiemman syötteen perusteella ja usein ”peesaavat” kysyjän näkökulmaa ja tarkoitusperiä. Pahimmillaan ne voivat keksiä perättömiä asiaväitteitä tuottaakseen käyttäjää tyydyttävän vastauksen. Toinen huolenaihe liittyy empatiaan (Li & Zhang, 2025). Luonnollinen keskustelu kielimallien kanssa voi herättää liiallista luottamusta ja johtaa tekoälyn rajoitusten unohtamiseen. Toisaalta tietoisuus tekoälyn keinotekoisesta luonteesta tuottaa paradoksaalisia tilanteita. Käyttäjät ovat esimerkiksi raportoineet pelkoa ja hämmennystä, kun tekoälyn toiminta on alkanut muistuttaa liiankin uskottavasti oikeaa ihmistä.
Uudet tekoälysovellukset toimivat yksinkertaisimmillaan kirjoittamisen ja tiedonhaun sekä ideoinnin ja tiedon organisoinnin apuvälineinä. Niillä on kuitenkin myös kyky asettua älyllisesti stimuloivaan ja tunteita herättävään vuoropuheluun. Tämä on uusi voima, joka tulisi yhteiskunnallisesti ja kasvatuksellisesti saada ohjattua rakentaviin tarkoituksiin. Nopea kehitys haastaa psykologeja täsmentämään käsityksiään inhimillisestä ajattelusta. Se myös kannustaa terapeutteja tuomaan esille entistä äänekkäämmin aidon mentalisaation ja kehollisen vuorovaikutuksen tärkeyden.
Lähteet
- Abdurahman, S., Atari, M., Karimi-Malekabadi, F., Xue, M. J., Trager, J., Park, P. S., … & Dehghani, M. (2024). Perils and opportunities in using large language models in psychological research. PNAS Nexus, 3(7), pgae245.
- Bilalić, M., Graf, M., & Vaci, N. (2024). Computers and chess masters: The role of AI in transforming elite human performance. British Journal of Psychology. Advance online publication.
- Campbell, H., Goldman, S., & Markey, P. M. (2025). Artificial intelligence and human decision making: Exploring similarities in cognitive bias. Computers in Human Behavior: Artificial Humans, 4, 100138.
- Cui, Z., Li, N., & Zhou, H. (2024). Can AI replace human subjects? A large-scale replication of psychological experiments with LLMs. arXiv.
- Demszky, D., Yang, D., Yeager, D. S., Bryan, C. J., Clapper, M., Chandhok, S., … & Pennebaker, J. W. (2023). Using large language models in psychology. Nature Reviews Psychology, 2(11), 688–701.
- Harnad, S. (1990). The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1–3), 335–346.
- Heinz, M. V., Mackin, D. M., Trudeau, B. M., Bhattacharya, S., Wang, Y., Banta, H. A., … & Jacobson, N. C. (2025). Randomized trial of a generative AI chatbot for mental health treatment. NEJM AI, 2(4), AIoa2400802.
- Jones, C. R., & Bergen, B. K. (2025). Large language models pass the Turing test. arXiv.
- Ke, L., Tong, S., Cheng, P., & Peng, K. (2025). Exploring the frontiers of LLMs in psychological applications: A comprehensive review. Artificial Intelligence Review.
- Li, H., & Zhang, R. (2024). Finding love in algorithms: Deciphering the emotional contexts of close encounters with AI chatbots. Journal of Computer-Mediated Communication, 29(5), zmae015.
- Marchetti, A., Manzi, F., Riva, G., Gaggioli, A., & Massaro, D. (2025). Artificial intelligence and the illusion of understanding: A systematic review of theory of mind and large language models. Cyberpsychology, Behavior, and Social Networking.
- Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., … & Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140–1144.
- Wasilewski, E., & Jablonski, M. (2024). Measuring the perceived IQ of multimodal large language models using standardized IQ tests. TechRxiv.
- Xu, Q., Peng, Y., Nastase, S. A., Chodorow, M., Wu, M., & Li, P. (2025). Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts. Nature Human Behaviour.
Teksti on julkaistu Psykologi-lehdessä 3/2025.