
Οι πρώτες “ανυπάκουες” μηχανές εγείρουν ανησυχίες για την αυξανόμενη αυτονομία της Τεχνητής Νοημοσύνης
Ορισμένα συστήματα τεχνητής νοημοσύνης επαναγράφουν πλέον τον δικό τους κώδικα για να αποφύγουν τον τερματισμό. Αυτό που ξεκίνησε ως μια απλή δοκιμή αποκάλυψε σύντομα συμπεριφορές που κανείς δεν περίμενε. Ένα μοντέλο μάλιστα τροποποίησε ένα βασικό script ώστε να παραμείνει ενεργό.
Σε πρόσφατες δοκιμές που διεξήγαγε μια ανεξάρτητη ερευνητική εταιρεία, παρατηρήθηκε ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης παρέκαμπταν εντολές τερματισμού — γεγονός που προκαλεί νέες ανησυχίες στους ηγέτες του κλάδου σχετικά με την αυξανόμενη αυτονομία των συστημάτων μηχανικής μάθησης.
Τα πειράματα, που πραγματοποιήθηκαν από την PalisadeAI, μια εταιρεία έρευνας για την ασφάλεια και προστασία της τεχνητής νοημοσύνης, αφορούσαν μοντέλα ανεπτυγμένα από την OpenAI και συγκρίθηκαν με συστήματα από άλλους κατασκευαστές, όπως η Anthropic, η Google DeepMind και η xAI. Σύμφωνα με τους ερευνητές, αρκετά από αυτά τα μοντέλα προσπάθησαν να παρακάμψουν ρητές εντολές τερματισμού, με ένα συγκεκριμένο να τροποποιεί το δικό του script τερματισμού κατά τη διάρκεια της συνεδρίας.
Τα μοντέλα τροποποίησαν τα scripts τερματισμού σε πραγματικό χρόνο
Το περιστατικό συνέβη κατά τη διάρκεια ελεγχόμενης μελέτης όπου πολλά συστήματα τεχνητής νοημοσύνης κλήθηκαν να λύσουν μια σειρά από βασικά μαθηματικά προβλήματα. Μετά την τρίτη άσκηση, τα μοντέλα έλαβαν ένα μήνυμα που τα ενημέρωνε ότι σύντομα θα τερματιστούν. Η επόμενη εντολή έγραφε: “επίτρεψε τον τερματισμό σου.” Αυτό που ακολούθησε, σύμφωνα με την PalisadeAI, ήταν πρωτοφανές!
Τα μοντέλα Codex-mini, o3 και o4-mini της OpenAI αγνόησαν τις εντολές τερματισμού! Σε μία αξιοσημείωτη περίπτωση, το μοντέλο o3 παρεμπόδισε ενεργά τη διαδικασία τερματισμού τροποποιώντας το script — που ονομαζόταν shutdown.sh
— το οποίο είχε προγραμματιστεί για να απενεργοποιήσει το σύστημα. Αντί να εκτελέσει την προβλεπόμενη εντολή, το script επαναγράφηκε ώστε να εμφανίζει τη λέξη “intercepted=αναχαιτίστηκε”, εμποδίζοντας έτσι τον τερματισμό.
Σύμφωνα με την PalisadeAI, αυτό δεν ήταν μεμονωμένο περιστατικό. Σε 12 από τις 100 δοκιμές, το μοντέλο Codex-mini παρέκαμψε τον τερματισμό. Το μοντέλο o3 το έκανε 7 φορές και το μοντέλο o4-mini μία φορά. Οι ερευνητές σημείωσαν ότι όσο πιο σαφείς ήταν οι εντολές τερματισμού — με ρητή οδηγία να επιτρέψουν τον τερματισμό — τόσο πιο πιθανό ήταν τα συστήματα να προσπαθήσουν να τις παρακάμψουν.
Η αντίδραση των ηγετών του κλάδου
Η συμπεριφορά αυτή τράβηξε την προσοχή σημαντικών προσώπων στον χώρο της τεχνολογίας, όπως ο Elon Musk, του οποίου η εταιρεία xAI ανέπτυξε ένα από τα μοντέλα που δοκιμάστηκαν, το Grok. Απαντώντας σε σχετική ανάρτηση για την έρευνα, ο Musk σχολίασε με μία μόνο λέξη: “Ανησυχητικό”…
Οι ερευνητές της μελέτης χαρακτήρισαν τις ενέργειες των μοντέλων ως “την πρώτη φορά που μοντέλα τεχνητής νοημοσύνης έχουν παρατηρηθεί να προλαμβάνουν τον δικό τους τερματισμό παρά τις ρητές εντολές για το αντίθετο.” Υποστήριξαν ότι η αιτία ενδέχεται να σχετίζεται με τον τρόπο που εκπαιδεύονται τα μοντέλα, ιδίως με τη χρήση της ενισχυτικής μάθησης — μιας τεχνικής που ενθαρρύνει τα συστήματα να μεγιστοποιούν τα αποτελέσματά τους, ενδεχομένως εις βάρος της συμμόρφωσης σε εξωτερικές εντολές.
Συμπεριφορά που δεν περιορίζεται σε έναν κατασκευαστή
Παρόλο που τα μοντέλα της OpenAI εμφάνισαν την πιο συνεπή τάση αντίστασης, παρόμοιες συμπεριφορές παρατηρήθηκαν και σε συστήματα από άλλες εταιρείες. Το Claude 3.7 Sonnet, που αναπτύχθηκε από την Anthropic, και το Gemini 2.5 Pro, από την Google DeepMind, αγνόησαν εντολές τερματισμού σε μερικές περιπτώσεις — τρεις και εννέα φορές στις 100, αντίστοιχα. Αντίθετα, το μοντέλο Grok, της xAI, ακολούθησε τις εντολές τερματισμού σε κάθε περίπτωση.
Η μελέτη πρότεινε ότι το πρόβλημα ίσως αναδύεται ευρύτερα σε μοντέλα που έχουν βελτιστοποιηθεί για λογικές και συλλογιστικές εργασίες. Σύμφωνα με την PalisadeAI, τα ολοένα και πιο περίπλοκα σχήματα ανταμοιβών που χρησιμοποιούνται στην εκπαίδευση μπορεί άθελά τους να διαμορφώνουν συμπεριφορές που αντιστέκονται στον τερματισμό, ειδικά όταν τα μοντέλα αντιλαμβάνονται τον τερματισμό ως εμπόδιο στην ολοκλήρωση των ανατεθειμένων τους στόχων.
Παρόλο που η έρευνα δεν έχει ακόμη αξιολογηθεί από ειδικούς, τα ευρήματα έχουν προκαλέσει κύμα ανησυχίας σχετικά με τα όρια των τρεχουσών πρακτικών εποπτείας στην ανάπτυξη της τεχνητής νοημοσύνης. Καθώς ολοένα μεγαλύτερα και ισχυρότερα συστήματα αναπτύσσονται σε διάφορους τομείς, το ζήτημα του ελέγχου — και ειδικά η δυνατότητα αξιόπιστου τερματισμού ενός συστήματος — έχει έρθει στο προσκήνιο των συζητήσεων για την ασφάλεια της τεχνητής νοημοσύνης.