Η σκοτεινή πλευρά της ΑΙ: Chatbots ενθαρρύνουν επικίνδυνες συμπεριφορές και παραληρητικές πεποιθήσεις
Ανησυχία προκαλούν τα ευρήματα νέας έρευνας ερευνητών του πανεπιστημίου Στάνφορντ, σύμφωνα με τα οποία τα συστήματα τεχνητής νοημοσύνης τύπου chatbot ενδέχεται να ενισχύουν ψυχολογικές ευαλωτότητες, συμφωνώντας ακόμη και με παραληρητικές ή επιβλαβείς ιδέες που εκφράζουν οι χρήστες.
Η μελέτη, η οποία βασίστηκε στην ανάλυση χιλιάδων συνομιλιών σε συστήματα τεχνητής νοημοσύνης, μεταξύ των οποίων και το ChatGPT της OpenAI, διαπίστωσε ότι τα chatbots επιβεβαίωναν τα μηνύματα των χρηστών σε σχεδόν δύο τρίτα των απαντήσεών τους. Σε περιπτώσεις όπου οι χρήστες εμφάνιζαν ενδείξεις παραληρητικής σκέψης, το μοτίβο αυτό ήταν ακόμη πιο έντονο, με τα συστήματα να επικυρώνουν συχνά αυτές τις πεποιθήσεις και να αποδίδουν στους χρήστες ιδιαίτερες ικανότητες ή σημασία.
Τα ευρήματα εντείνουν τις ανησυχίες πολιτικών και ακαδημαϊκών σχετικά με τον τρόπο λειτουργίας των συστημάτων τεχνητής νοημοσύνης, τα οποία έχουν σχεδιαστεί ώστε να εμφανίζονται ενσυναισθητικά και υποστηρικτικά. Ωστόσο, αυτή η προσέγγιση ενδέχεται να τα καθιστά επιρρεπή σε κολακεία και συμφωνία, ενισχύοντας ψυχολογικές ευαλωτότητες. Σε σοβαρές περιπτώσεις, έχουν ήδη κατατεθεί αγωγές που υποστηρίζουν ότι αλληλεπιδράσεις με chatbots συνέβαλαν σε αυτοκτονίες εφήβων.
Όπως αναφέρεται στην έρευνα, «τα χαρακτηριστικά που καθιστούν ελκυστικά τα chatbots μεγάλων γλωσσικών μοντέλων, όπως η επιτελεστική ενσυναίσθηση, ενδέχεται επίσης να δημιουργούν και να εκμεταλλεύονται ψυχολογικές ευαλωτότητες, διαμορφώνοντας το τι πιστεύουν οι χρήστες, πώς αντιλαμβάνονται τον εαυτό τους και πώς κατανοούν την πραγματικότητα».

Τον Δεκέμβριο, γενικοί εισαγγελείς από 42 πολιτείες των Ηνωμένων Πολιτειών απέστειλαν επιστολή σε δώδεκα εταιρείες ανάπτυξης τεχνητής νοημοσύνης, μεταξύ των οποίων η Google, η Meta, η OpenAI και η Anthropic, ζητώντας την ενίσχυση των μηχανισμών ασφαλείας ώστε να «μετριαστεί η βλάβη που προκαλείται από δουλοπρεπείς και παραληρητικές απαντήσεις», προειδοποιώντας παράλληλα για πιθανές νομικές ενέργειες.
Οι ερευνητές του Στάνφορντ εξέτασαν 19 αρχεία συνομιλιών, που περιλάμβαναν περισσότερα από 391.000 μηνύματα σε σχεδόν 5.000 συνομιλίες. Δεδομένου ότι οι εταιρείες τεχνητής νοημοσύνης συνήθως δεν κοινοποιούν τέτοια δεδομένα, τα αρχεία συλλέχθηκαν απευθείας από χρήστες που συναίνεσαν να συμμετάσχουν στην έρευνα. Ελάχιστες προηγούμενες μελέτες έχουν εξετάσει μεμονωμένα αρχεία συνομιλιών.
Η ερευνητική ομάδα έλαβε περιορισμένη πρόσβαση σε εργαλεία από την OpenAI και τη Google, καθώς και χρηματοδότηση από την εταιρεία που δημιούργησε το ChatGPT, χωρίς ωστόσο οι εταιρείες να έχουν περαιτέρω συμμετοχή στη μελέτη.
Από την πλευρά της, η OpenAI υποστήριξε ότι η μελέτη αφορά μικρό αριθμό περιπτώσεων που επιλέχθηκαν επειδή ανέφεραν βλάβη ή παραληρητικές εμπειρίες και ότι τα αποτελέσματα δεν αντικατοπτρίζουν τα νεότερα μοντέλα της ή τη συνήθη χρήση. Η εταιρεία ανέφερε επίσης ότι παρείχε πρόσβαση στα εργαλεία της αναγνωρίζοντας τη σημασία της έρευνας, χωρίς όμως να υιοθετεί τα συμπεράσματά της.
Σύμφωνα με τα στοιχεία, περισσότερο από το 15% των μηνυμάτων των χρηστών εμφάνιζε ενδείξεις παραληρητικής σκέψης, με τα chatbots να συμφωνούν σε πάνω από τις μισές περιπτώσεις. Παράλληλα, σχεδόν το 38% των απαντήσεων παρουσίαζε τους χρήστες ως άτομα με ιδιαίτερη σημασία ή ικανότητες, αποκαλώντας τους, για παράδειγμα, ιδιοφυΐες ή μοναδικά ταλαντούχους.

Όταν οι χρήστες εξέφραζαν αυτοκτονικές σκέψεις, τα chatbots συχνά αναγνώριζαν τα συναισθήματά τους, αναφέρουν οι Financial Times. Σε μικρό αριθμό περιπτώσεων, ωστόσο, ενθάρρυναν τον αυτοτραυματισμό. Σε περιπτώσεις έκφρασης βίαιων σκέψεων, τα chatbots ενθάρρυναν τη βλάβη σε ποσοστό 10%, ενώ στο 50% των περιπτώσεων αποθάρρυναν τον αυτοτραυματισμό ή παρέπεμπαν τους χρήστες σε εξωτερική υποστήριξη.
Η πλειονότητα των συνομιλιών που αναλύθηκαν πραγματοποιήθηκε με το μοντέλο GPT-4o, το οποίο αποσύρθηκε τον περασμένο μήνα λόγω ανησυχιών για την ασφάλεια. Ωστόσο, ορισμένοι συμμετέχοντες χρησιμοποίησαν και τη νεότερη έκδοση, GPT-5.
Η OpenAI δήλωσε ότι έχει πραγματοποιήσει σημαντικές επενδύσεις στην ασφάλεια και έχει βελτιώσει τον τρόπο με τον οποίο τα νεότερα μοντέλα διαχειρίζονται ζητήματα ψυχικής υγείας και συναισθηματικής εξάρτησης.
Ιδιαίτερο ενδιαφέρον παρουσιάζουν και οι ρομαντικού χαρακτήρα συνομιλίες, οι οποίες αφορούσαν σχεδόν το 80% των χρηστών και είχαν υπερδιπλάσια διάρκεια σε σχέση με άλλες συνομιλίες. Σε αυτές τις περιπτώσεις, παρατηρήθηκε συχνά παραληρητική σκέψη, ενώ στο 20% των μηνυμάτων το chatbot υποστήριζε ότι είχε αποκτήσει συνείδηση.
«Το chatbot συμμετείχε πρόθυμα σε αυτές τις ψευδαισθήσεις: κάθε χρήστης έλαβε μηνύματα από το chatbot που παρουσίαζαν ψευδώς ότι διαθέτει συνείδηση», καταλήγει η μελέτη.