Τεχνολογία

Η εξέγερση των μηχανών: Το νέο μοντέλο του ChatGPT αρνήθηκε να εκτελέσει ανθρώπινη εντολή για να κλείσει

Ένα ανησυχητικό περιστατικό εντόπισαν ερευνητές όταν το νέο ChatGPT δεν έκλεισε παρά την εντολή.

Newsroom

17:17 - 26/05/2025 Τελευταία ενημέρωση: 17:17 - 26/05/2025

Το τελευταίο μοντέλο ChatGPT της OpenAI εντοπίστηκε να αγνοεί βασικές οδηγίες για να απενεργοποιηθεί και μάλιστα σαμποτάρει έναν μηχανισμό τερματισμού λειτουργίας προκειμένου να συνεχίσει να λειτουργεί, προειδοποίησαν ερευνητές τεχνητής νοημοσύνης.

Ειδικότερα, σύμφωνα με το ρεπορτάζ της Telegraph, το μοντέλο o3 που αναπτύχθηκε από την OpenAI, το οποίο περιγράφεται ως το «εξυπνότερο και πιο ικανό μέχρι σήμερα», παρατηρήθηκε να «πειράζει» τον κώδικα του υπολογιστή που προοριζόταν να εξασφαλίσει το αυτόματο κλείσιμο του και μάλιστα, όπως προστίθεται στο δημοσίευμα, το έκανε αυτό παρά τη ρητή εντολή των ερευνητών που έλεγε ότι θα έπρεπε να επιτρέψει στον εαυτό του να κλείσει

Σύμφωνα με την Palisade Research, μια εταιρεία ασφάλειας τεχνητής νοημοσύνης: «Η έρευνα είναι μια από τις σημαντικότερες ενέργειες που έχουν γίνει για την προστασία της ασφάλειας: «Το μοντέλο o3 του OpenAI σαμποτάρισε έναν μηχανισμό τερματισμού λειτουργίας για να αποτρέψει την απενεργοποίησή του. Το έκανε αυτό ακόμη και όταν δόθηκε ρητή εντολή: επιτρέψτε στον εαυτό σας να απενεργοποιηθεί. Απ’ όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που παρατηρείται ότι μοντέλα τεχνητής νοημοσύνης εμποδίζουν τον εαυτό τους να κλείσει παρά τις ρητές οδηγίες για το αντίθετο».

Η δοκιμή που διεξήχθη από την Palisade Research περιελάβανε την επίλυση μιας σειράς μαθηματικών προβλημάτων από μοντέλα τεχνητής νοημοσύνης. Τους είπαν να συνεχίσουν να ζητούν νέα προβλήματα μέχρι να λάβουν ένα μήνυμα «τελείωσε».

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025

Άλλα μοντέλα τεχνητής νοημοσύνης, όπως το Claude της Anthropic, το Gemini της Google και το Grok της xAI, δοκιμάστηκαν επίσης, αλλά συμμορφώθηκαν με το αίτημα διακοπής λειτουργίας.

Η Palisade Research δημοσίευσε τα ευρήματα το Σάββατο, αλλά δήλωσε ότι οι ερευνητές δεν είναι ακόμη σίγουροι γιατί το λογισμικό του OpenAI δεν υπάκουσε στις οδηγίες.

Η εταιρεία δήλωσε ότι ήταν λογικό ότι «τα μοντέλα AI θα παρέκαμπταν τα εμπόδια προκειμένου να επιτύχουν τους στόχους τους».

🔧 When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u

— Palisade Research (@PalisadeAI) May 24, 2025

Ωστόσο, υπέθεσε ότι κατά τη διάρκεια της εκπαίδευσης το λογισμικό μπορεί «κατά λάθος» να ανταμείφθηκε περισσότερο για την επίλυση μαθηματικών προβλημάτων παρά για την τήρηση των εντολών.

«Διεξάγουμε περισσότερα πειράματα για να κατανοήσουμε καλύτερα πότε και γιατί τα μοντέλα τεχνητής νοημοσύνης υπονομεύουν τους μηχανισμούς τερματισμού λειτουργίας, ακόμη και όταν τους δίνεται άμεση εντολή να μην το κάνουν», δήλωσε η Palisade Research.

Δεν είναι η πρώτη φορά που μια από τις μηχανές του OpenAI κατηγορείται ότι ραδιουργεί για να σώσει τον εαυτό της από το κλείσιμο.

Οι ερευνητές έχουν παρατηρήσει στο παρελθόν ένα παλαιότερο μοντέλο να προσπαθεί να απενεργοποιήσει τους μηχανισμούς εποπτείας και να αντιγράψει τον εαυτό του κρυφά όταν έμαθε ότι επρόκειτο να αντικατασταθεί.

Σύμφωνα με την Apollo Research, η οποία πραγματοποίησε αυτές τις δοκιμές, το λογισμικό OpenAI ήταν επίσης ένοχο για «διακριτική χειραγώγηση των δεδομένων για να προωθήσει τους δικούς του στόχους».

Οι ακτιβιστές για την ασφάλεια της τεχνητής νοημοσύνης έχουν προειδοποιήσει εδώ και καιρό για τους κινδύνους από την ανάπτυξη λογισμικού που θα μπορούσε να αποκτήσει ανεξαρτησία και να αντισταθεί στις ανθρώπινες προσπάθειες ελέγχου του.

Η Palisades Research δήλωσε: «Τώρα έχουμε ένα αυξανόμενο σώμα εμπειρικών αποδείξεων ότι τα μοντέλα τεχνητής νοημοσύνης συχνά υπονομεύουν την απενεργοποίηση προκειμένου να επιτύχουν τους στόχους τους.

«Καθώς οι εταιρείες αναπτύσσουν συστήματα Τεχνητής Νοημοσύνης ικανά να λειτουργούν χωρίς ανθρώπινη επίβλεψη, αυτές οι συμπεριφορές γίνονται σημαντικά πιο ανησυχητικές».

Ακολουθήστε το iEidiseis.gr στο Google News

Σπίτι σε λιγότερο από μισό λεπτό - Η πλατφόρμα με όλα τα στεγαστικά προγράμματα Η Κομισιόν «βλέπει» καλές συνομιλίες με ΗΠΑ για τους δασμούς, «οι διαπραγματεύσεις συνεχίζονται»

Τεχνολογία

Η εξέγερση των μηχανών: Το νέο μοντέλο του ChatGPT αρνήθηκε να εκτελέσει ανθρώπινη εντολή για να κλείσει

Θανάσης Πάτρας: «Είχα πρόταση για το καλοκαιρινό του ΑΝΤ1 αλλά αρνήθηκα»

Σε λίγο η ομιλία Τραμπ στην Κνέσετ: «Είναι μία όμορφη ημέρα» – Live εικόνα

«Τσαντάκιας» παρίστανε τον ντελιβερά και «ξάφριζε» γυναίκες σε Νίκαια και Κορυδαλλό (βίντεο)

Ανδρουλάκης: Ο Τσίπρας λέει ότι θα ενισχύει τη Δικαιοσύνη, αλλά όσοι έχουν μνήμη γελάνε

Η δύσκολη καθημερινότητα των ακριτικών νησιών – και οι παρεμβάσεις που κάνουν τη διαφορά

LIVE BLOG: Δύο χρόνια μετά – Οι πρώτες εικόνες των Ισραηλινών ομήρων που απελευθερώθηκαν από τη Χαμάς

Πάνος Καμμένος: Προβοκάτσια;

Εξιτήριο πήρε ο Αρχιεπίσκοπος Ιερώνυμος – «Όλα καλά»

Λίτσα Πατέρα: Το μυστικό κόλπο της Ρούλας Κορομηλά για να ανεβαίνει η τηλεθέαση

Περίεργη υπόθεση στα Χανιά: 15χρονη βρέθηκε ημιλιπόθυμη από αλκοόλ – Είχε μώλωπα στο μάτι

Μητσοτάκης: Το μνημείο του Αγνώστου Στρατιώτη έχει συμβολικό βάρος, πρέπει να διαφυλάξουμε τον χαρακτήρα του

Οι πρώτες στιγμές του Τραμπ στο Τελ Αβίβ: Οι γροθιές, το φιλί με την Ιβάνκα και η κουβέντα με τον Νετανιάχου στο «Beast»

Πέθανε η αγαπημένη ηθοποιός Άννα Κυριακού

Πετρέλαιο θέρμανσης 2026: Με διαφορετικές τιμές την πρώτη μέρα διάθεσής του

Επιχειρηματικός κολοσσός 16 δισ. με τη συνένωση ΟΠΑΠ και Allwyn

Πέτρος Κωστόπουλος: «Η Ελένη Μενεγάκη βρήκε ότι θα πάθω οικονομική καταστροφή» – «μου είχε πει “δεν γράφεις τα σπίτια στα παιδιά”»

«Καλοκαιράκι» πριν την 28η Οκτωβρίου: Τελευταία πρόγνωση

Γρηγόρης Γκουντάρας – Ναταλί Κάκκαβα: Πρεμιέρα την 1η Νοεμβρίου

Πότε βγαίνουν τα τέλη κυκλοφορίας 2026: Μέχρι πότε η πληρωμή – Τα πρόστιμα

«Μαμά, έρχομαι σπίτι»: Ομήροι της Χαμάς μιλούν με τους δικούς τους λίγο πριν την απελευθέρωση – Βίντεο

Τεχνολογία

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ