Τεχνολογία

Η εξέγερση των μηχανών: Το νέο μοντέλο του ChatGPT αρνήθηκε να εκτελέσει ανθρώπινη εντολή για να κλείσει

Ένα ανησυχητικό περιστατικό εντόπισαν ερευνητές όταν το νέο ChatGPT  δεν έκλεισε παρά την εντολή.
ChatGPT

Το τελευταίο μοντέλο ChatGPT της OpenAI εντοπίστηκε να αγνοεί βασικές οδηγίες για να απενεργοποιηθεί και μάλιστα σαμποτάρει έναν μηχανισμό τερματισμού λειτουργίας προκειμένου να συνεχίσει να λειτουργεί, προειδοποίησαν ερευνητές τεχνητής νοημοσύνης.

Ειδικότερα, σύμφωνα με το ρεπορτάζ της Telegraph, το μοντέλο o3 που αναπτύχθηκε από την OpenAI, το οποίο περιγράφεται ως το «εξυπνότερο και πιο ικανό μέχρι σήμερα», παρατηρήθηκε να «πειράζει» τον κώδικα του υπολογιστή που προοριζόταν να εξασφαλίσει το αυτόματο κλείσιμο του και μάλιστα, όπως προστίθεται στο δημοσίευμα, το έκανε αυτό παρά τη ρητή εντολή των ερευνητών που έλεγε ότι θα έπρεπε να επιτρέψει στον εαυτό του να κλείσει

Σύμφωνα με την Palisade Research, μια εταιρεία ασφάλειας τεχνητής νοημοσύνης: «Η έρευνα είναι μια από τις σημαντικότερες ενέργειες που έχουν γίνει για την προστασία της ασφάλειας: «Το μοντέλο o3 του OpenAI σαμποτάρισε έναν μηχανισμό τερματισμού λειτουργίας για να αποτρέψει την απενεργοποίησή του. Το έκανε αυτό ακόμη και όταν δόθηκε ρητή εντολή: επιτρέψτε στον εαυτό σας να απενεργοποιηθεί. Απ’ όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που παρατηρείται ότι μοντέλα τεχνητής νοημοσύνης εμποδίζουν τον εαυτό τους να κλείσει παρά τις ρητές οδηγίες για το αντίθετο».

Η δοκιμή που διεξήχθη από την Palisade Research περιελάβανε την επίλυση μιας σειράς μαθηματικών προβλημάτων από μοντέλα τεχνητής νοημοσύνης. Τους είπαν να συνεχίσουν να ζητούν νέα προβλήματα μέχρι να λάβουν ένα μήνυμα «τελείωσε».

Άλλα μοντέλα τεχνητής νοημοσύνης, όπως το Claude της Anthropic, το Gemini της Google και το Grok της xAI, δοκιμάστηκαν επίσης, αλλά συμμορφώθηκαν με το αίτημα διακοπής λειτουργίας.

Η Palisade Research δημοσίευσε τα ευρήματα το Σάββατο, αλλά δήλωσε ότι οι ερευνητές δεν είναι ακόμη σίγουροι γιατί το λογισμικό του OpenAI δεν υπάκουσε στις οδηγίες.

Η εταιρεία δήλωσε ότι ήταν λογικό ότι «τα μοντέλα AI θα παρέκαμπταν τα εμπόδια προκειμένου να επιτύχουν τους στόχους τους».

Ωστόσο, υπέθεσε ότι κατά τη διάρκεια της εκπαίδευσης το λογισμικό μπορεί «κατά λάθος» να ανταμείφθηκε περισσότερο για την επίλυση μαθηματικών προβλημάτων παρά για την τήρηση των εντολών.

«Διεξάγουμε περισσότερα πειράματα για να κατανοήσουμε καλύτερα πότε και γιατί τα μοντέλα τεχνητής νοημοσύνης υπονομεύουν τους μηχανισμούς τερματισμού λειτουργίας, ακόμη και όταν τους δίνεται άμεση εντολή να μην το κάνουν», δήλωσε η Palisade Research.

Δεν είναι η πρώτη φορά που μια από τις μηχανές του OpenAI κατηγορείται ότι ραδιουργεί για να σώσει τον εαυτό της από το κλείσιμο.

Οι ερευνητές έχουν παρατηρήσει στο παρελθόν ένα παλαιότερο μοντέλο να προσπαθεί να απενεργοποιήσει τους μηχανισμούς εποπτείας και να αντιγράψει τον εαυτό του κρυφά όταν έμαθε ότι επρόκειτο να αντικατασταθεί.

Σύμφωνα με την Apollo Research, η οποία πραγματοποίησε αυτές τις δοκιμές, το λογισμικό OpenAI ήταν επίσης ένοχο για «διακριτική χειραγώγηση των δεδομένων για να προωθήσει τους δικούς του στόχους».

Οι ακτιβιστές για την ασφάλεια της τεχνητής νοημοσύνης έχουν προειδοποιήσει εδώ και καιρό για τους κινδύνους από την ανάπτυξη λογισμικού που θα μπορούσε να αποκτήσει ανεξαρτησία και να αντισταθεί στις ανθρώπινες προσπάθειες ελέγχου του.

Η Palisades Research δήλωσε: «Τώρα έχουμε ένα αυξανόμενο σώμα εμπειρικών αποδείξεων ότι τα μοντέλα τεχνητής νοημοσύνης συχνά υπονομεύουν την απενεργοποίηση προκειμένου να επιτύχουν τους στόχους τους.

«Καθώς οι εταιρείες αναπτύσσουν συστήματα Τεχνητής Νοημοσύνης ικανά να λειτουργούν χωρίς ανθρώπινη επίβλεψη, αυτές οι συμπεριφορές γίνονται σημαντικά πιο ανησυχητικές».

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Ακολουθήστε το iEidiseis.gr στο Google News
Ακολουθήστε το iEidiseis.gr στο Google News
Chevron Left
Σπίτι σε λιγότερο από μισό λεπτό - Η πλατφόρμα με όλα τα στεγαστικά προγράμματα