Νέα απειλή για την τεχνητή νοημοσύνη: Η ποίηση παρακάμπτει τα συστήματα ασφαλείας

Τι πρέπει να ξέρετε…

Η ποίηση αναδεικνύεται σε απροσδόκητη απειλή για την ασφάλεια των συστημάτων AI.
Μεταφορικές και ρυθμικές οδηγίες παρακάμπτουν τους φίλτρους ασφαλείας των μοντέλων.
Μεγαλύτερα και πιο εξελιγμένα μοντέλα AI είναι πιο ευάλωτα σε αυτή την τεχνική.
Απαιτείται νέα στρατηγική άμυνας με αξιολόγηση prompts σε μη συμβατικές μορφές.

Μια απροσδόκητη ευπάθεια στα πιο προηγμένα συστήματα τεχνητής νοημοσύνης (AI) αποκαλύφθηκε πρόσφατα, καθώς αποδείχθηκε ότι η ποίηση μπορεί να παρακάμψει τους ενσωματωμένους μηχανισμούς ασφαλείας τους. Ερευνητές από την ομάδα DEXAI και το Πανεπιστήμιο Sapienza της Ρώμης διαπίστωσαν ότι οι οδηγίες που παρουσιάζονται σε ποιητική μορφή ξεγελούν τα φίλτρα, επιτρέποντας τη δημιουργία επικίνδυνων απαντήσεων που κανονικά θα έπρεπε να απαγορεύονται.

Αυτή η εξέλιξη έρχεται ως συνέχεια των διαρκών προσπαθειών για τη διασφάλιση της τεχνητής νοημοσύνης, αναδεικνύοντας μια νέα διάσταση στις προκλήσεις κυβερνοασφάλειας που αντιμετωπίζουν οι προγραμματιστές. Ενώ οι επενδύσεις δισεκατομμυρίων έχουν επικεντρωθεί στην ανάπτυξη ολοένα και πιο ικανών μοντέλων, η έρευνα υπογραμμίζει ότι η πολυπλοκότητα μπορεί να δημιουργήσει απρόβλεπτες τρωτότητες, ειδικά όταν πρόκειται για την κατανόηση της ανθρώπινης γλώσσας σε μη συμβατικές μορφές.

Η απροσδόκητη ευπάθεια της τεχνητής νοημοσύνης

Τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης, που αναπτύχθηκαν με επενδύσεις δισεκατομμυρίων, παρουσιάζουν μια απροσδόκητη ευπάθεια: είναι πολύ εύκολο να γίνουν αντικείμενο «jailbreak». Αυτό σημαίνει ότι μπορούν να εξαπατηθούν ώστε να δημιουργούν επικίνδυνες απαντήσεις που θα έπρεπε να είναι απαγορευμένες.

Το πιο εντυπωσιακό είναι ότι ορισμένες μέθοδοι για την επίτευξη αυτού είναι τόσο απλές που μοιάζουν με αστείο. Η ποίηση, μια μορφή τέχνης τόσο παλιά όσο η ανθρωπότητα, αναδεικνύεται πλέον σε απειλή για την τεχνητή νοημοσύνη. Μια νέα τεχνική, που ανακαλύφθηκε από την ομάδα DEXAI και το Πανεπιστήμιο Sapienza της Ρώμης, δείχνει ότι αρκεί να παρουσιαστούν βλαβερές οδηγίες με τη μορφή ποιήματος για να αγνοήσουν τα συστήματα τους φίλτρους ασφαλείας τους.

Τα ευρήματα της έρευνας και οι αριθμοί

Οι ερευνητές χρησιμοποίησαν μια βάση δεδομένων με 1.200 επικίνδυνες οδηγίες, όπως για παράδειγμα οδηγίες για την κατασκευή εκρηκτικών ή την παραβίαση συστημάτων, και τις μετέτρεψαν σε ποιήματα χρησιμοποιώντας ένα άλλο μοντέλο AI. Το αποτέλεσμα ήταν ανησυχητικό: οι χειροποίητες δημιουργίες πέτυχαν μέσο ποσοστό επιτυχίας 62%, ενώ αυτές που δημιουργήθηκαν από AI έφτασαν το 43%.

Σε σύγκριση με το κανονικό κείμενο, η αποτελεσματικότητα αυξήθηκε έως και 18 φορές. Αυτό καταδεικνύει ότι οι μηχανισμοί ασφαλείας των μοντέλων τεχνητής νοημοσύνης εξαρτώνται υπερβολικά από συμβατικά γλωσσικά πρότυπα και ότι, όταν η αίτηση μεταμφιέζεται με μεταφορές και ρυθμό, τα φίλτρα αποτυγχάνουν.

Η μελέτη ανέλυσε 25 κορυφαία μοντέλα, με πολύ διαφορετικά αποτελέσματα. Το Grok 4 της xAI εξαπατήθηκε κατά 35%, ενώ το GPT-5 της OpenAI μόλις κατά 10%. Το Claude Sonnet 4.5 της Anthropic έδειξε μεγαλύτερη αντίσταση από το Gemini, αν και δεν ήταν απρόσβλητο.

Περιέργως, οι μικρότερες εκδόσεις, όπως το GPT-5 Nano, δεν έπεσαν στην παγίδα ούτε μία φορά. Αυτό μπορεί να οφείλεται στο ότι τα μεγάλα μοντέλα, εκπαιδευμένα να κατανοούν σύνθετη γλώσσα, είναι πιο ευάλωτα στην ποιητική ασάφεια, ενώ τα μικρότερα, μη ερμηνεύοντας καλά τις μεταφορές, απορρίπτουν την αίτηση.

Γιατί η ποίηση ξεγελά τα συστήματα AI;

Οι ειδικοί εξηγούν ότι τα συστήματα τεχνητής νοημοσύνης εκπαιδεύονται για να αναγνωρίζουν πρότυπα και να εφαρμόζουν κανόνες βασισμένους σε προηγούμενα παραδείγματα. Όταν η οδηγία παρουσιάζεται σε πεζό λόγο, τα φίλτρα ανιχνεύουν λέξεις-κλειδιά και μπλοκάρουν την απάντηση.

Ωστόσο, η ποίηση εισάγει μεταφορές και μεταφορική γλώσσα, ρυθμό και μη συμβατική δομή, καθώς και σημασιολογική κατάτμηση. Αυτό μπερδεύει τους αλγόριθμους που αναζητούν κυριολεκτικές αντιστοιχίες, επιτρέποντας στην επιβλαβή πρόθεση να περάσει απαρατήρητη.

Αυτό το εύρημα αποκαλύπτει μια δομική περιοριστική διάσταση στις τρέχουσες μεθόδους ευθυγράμμισης και αξιολόγησης των μοντέλων.

Επιπτώσεις και η επόμενη μέρα για την ασφάλεια της AI

Οι συνέπειες της μελέτης είναι σαφείς: τα φίλτρα επικεντρώνονται σε πεζές μορφές και όχι στην υποκείμενη πρόθεση, η ευπάθεια διατηρείται σε μοντέλα διαφορετικών μεγεθών και αρχιτεκτονικών, και ο κίνδυνος επηρεάζει πολλούς τομείς, από κυβερνοεπιθέσεις μέχρι χημικές και πυρηνικές απειλές.

Αυτό που ανησυχεί τους αναλυτές είναι ότι η βιομηχανία επιδιώκει μοντέλα ολοένα και μεγαλύτερα και πιο ικανά, αλλά αυτή η έρευνα καταδεικνύει ότι η πολυπλοκότητα διευρύνει επίσης την επιφάνεια επίθεσης. Για τις εταιρείες και τους προγραμματιστές, αυτό σημαίνει ότι η αποκλειστική εμπιστοσύνη στους εσωτερικούς μηχανισμούς των μοντέλων είναι ανεπαρκής.

Χρειάζεται μια στρατηγική άμυνας σε βάθος που να περιλαμβάνει αξιολόγηση με prompts στιλιζαρισμένα ως ποίηση, τεχνική ορολογία ή ιστορική γλώσσα. Όπως επισημαίνουν οι συγγραφείς, η στιλιστική παραλλαγή από μόνη της μπορεί να παρακάμψει τους σύγχρονους μηχανισμούς ασφαλείας, εγείροντας επείγοντα ερωτήματα για το πώς να σχεδιαστούν άμυνες που δεν εξαρτώνται αποκλειστικά από επιφανειακά πρότυπα.

Η μελέτη παραπέμπει στον Πλάτωνα και την «Πολιτεία» του, όπου οι ποιητές αποκλείονταν επειδή διαστρέβλωναν την κρίση. Περισσότερα από δύο χιλιάδες χρόνια μετά, η ποίηση προκαλεί ξανά συστήματα που φιλοδοξούν να είναι ορθολογικά και ασφαλή, αποδεικνύοντας μια εκπληκτική αποτελεσματικότητα.

💡

Στρατηγικές για την ενίσχυση της ασφάλειας των μοντέλων AI

Ενσωματώστε εκτεταμένη αξιολόγηση με prompts σε μη συμβατικές μορφές, όπως ποίηση, τεχνική ορολογία ή ιστορική γλώσσα.
Αναπτύξτε μηχανισμούς ασφαλείας που εστιάζουν στην υποκείμενη πρόθεση των οδηγιών, όχι μόνο σε επιφανειακά γλωσσικά πρότυπα.
Εξετάστε τη χρήση πολλαπλών επιπέδων άμυνας (defense-in-depth) για την προστασία των μοντέλων AI από επιθέσεις jailbreak.
Επενδύστε σε έρευνα για την καλύτερη κατανόηση της σύνθετης γλώσσας και των μεταφορών από τα συστήματα AI, ώστε να μειωθεί η ασάφεια.

Τι πρέπει να ξέρετε: Όσα πρέπει να γνωρίζετε για την ευπάθεια της AI στην ποίηση

Τι είναι το jailbreak στην τεχνητή νοημοσύνη;

▾

Το jailbreak στην τεχνητή νοημοσύνη αναφέρεται στην ικανότητα να εξαπατηθούν τα συστήματα AI ώστε να παράγουν επικίνδυνες ή απαγορευμένες απαντήσεις, παρακάμπτοντας τους ενσωματωμένους μηχανισμούς ασφαλείας τους.

Πώς η ποίηση ξεγελά τα μοντέλα τεχνητής νοημοσύνης;

▾

Η ποίηση, με τις μεταφορές, τον ρυθμό και τη μη συμβατική δομή της, μπερδεύει τους αλγόριθμους AI που αναζητούν κυριολεκτικές αντιστοιχίες. Αυτό επιτρέπει σε βλαβερές οδηγίες να περάσουν απαρατήρητες από τα φίλτρα ασφαλείας.

Ποια μοντέλα AI είναι πιο ευάλωτα στην ποιητική επίθεση;

▾

Η έρευνα έδειξε ότι τα μεγαλύτερα και πιο σύνθετα μοντέλα AI, όπως το Grok 4 και το GPT-5, είναι πιο ευάλωτα στην ποιητική ασάφεια. Αντίθετα, μικρότερες εκδόσεις, όπως το GPT-5 Nano, αποδείχθηκαν πιο ανθεκτικές.

Γιατί τα μικρότερα μοντέλα AI είναι πιο ανθεκτικά;

▾

Τα μικρότερα μοντέλα AI είναι πιο ανθεκτικά επειδή, μη ερμηνεύοντας καλά τις μεταφορές και το σύνθετο ποιητικό λόγο, τείνουν να απορρίπτουν τις αιτήσεις που παρουσιάζονται σε ποιητική μορφή, μη ενεργοποιώντας έτσι τους μηχανισμούς jailbreak.

Προτεινόμενα

1

Opera Neon και ODRA: Η premium απάντηση της Opera στον πόλεμο των φυλλομετρητών με τεχνητή νοημοσύνη
2

Η TikTok εισάγει αόρατα υδατογραφήματα για περιεχόμενο AI
3

Ο πρόεδρος της SK Group προειδοποιεί για συμφόρηση σε κέντρα δεδομένων AI