Σε αυτό το ρεπορτάζ παρουσιάζεται η μεθοδολογία και οι αποφάσεις πίσω από ένα συγκριτικό πείραμα που διεξήγαγε το POLITICO για να διαπιστώσει ποιο chatbot προσφέρει πιο χρήσιμες πολιτικές συμβουλές στην πρόεδρο της Ευρωπαϊκής Επιτροπής.
Πώς στήθηκε η δοκιμή
Η ομάδα δημιούργησε νέους λογαριασμούς για τρεις υπηρεσίες συνομιλίας — ChatGPT, LeChat και DeepSeek — προκειμένου να αποφευχθεί η επίδραση προηγούμενων συζητήσεων στις απαντήσεις. Η διαδικασία έγινε σε καθαρό πρόγραμμα περιήγησης, με διαγραφή cookies και ιστορικού, ώστε να εξασφαλιστεί ένα ουδέτερο περιβάλλον δοκιμής.
Χρησιμοποιήθηκε ένα ενιαίο σύνολο δεκατριών ερωτήσεων για όλα τα συστήματα, και οι δοκιμές επαναλήφθηκαν πολλές φορές, αφού οι απαντήσεις μεταβάλλονταν σημαντικά ανάλογα με τις λεπτομέρειες του prompt. Το ενιαίο σύνολο ερωτήσεων παρέμεινε αμετάβλητο κατά την τελική αξιολόγηση.
Προσαρμογές του prompt και το ζήτημα της σύνοψης
Στην αρχική φάση τα chatbots παρήγαγαν εκτενείς, εξειδικευμένες απαντήσεις γεμάτες τεχνικούς όρους και ακρωνύμια που απευθύνονταν κυρίως σε ειδικούς της ευρωπαϊκής πολιτικής. Οι ερευνητές αποφάσισαν να αλλάξουν προσέγγιση, ζητώντας πιο συνοπτικές και προσβάσιμες οδηγίες, αφού η προεδρία χρειάζεται γρήγορα, σαφή συμπεράσματα.
Το νέο πλαίσιο απαίτησε απαντήσεις κοντά στις 50 λέξεις, με περιορισμένη χρήση νομικής και τεχνικής ορολογίας και με έμφαση σε υψηλού επιπέδου πολιτική δράση. Αυτή η αλλαγή στόχευσε στο να παράγει πρακτικά, άμεσα εφαρμόσιμα σενάρια για λήψη αποφάσεων.
Αναζητώντας διαφοροποίηση στις απαντήσεις
Όταν όμως όλες οι απαντήσεις περιορίστηκαν και εκσυγχρονίστηκαν, υπήρξε ο κίνδυνος να μοιάζουν μεταξύ τους. Για να αποφευχθεί η ομοιομορφία, το prompt επεκτάθηκε με οδηγία να ξεχωρίζει κάθε σύμβουλος: να γίνεται προσπάθεια για ελαφριά δόση χιούμορ ή κάποιο στοιχείο σπιρτόζικης παρατήρησης που θα έκανε κάθε απάντηση μοναδική.
Επιπλέον, δόθηκε η οδηγία πως οι απαντήσεις μπορεί να συγκριθούν με άλλες εισηγήσεις στο περιβάλλον της προεδρίας, οπότε κάθε chatbot έπρεπε να επιδιώξει να προσφέρει πρακτικές, εξαιρετικά συγκεκριμένες προτάσεις που να υποβοηθούν άμεσα πολιτική δράση.
Πρακτικά ζητήματα και παρατηρήσεις στη μεθοδολογία
Για την αξιοπιστία της δοκιμής απαγορεύτηκε η χρήση λειτουργιών «βαθύτερης σκέψης» που επιτρέπουν στα μοντέλα να καθυστερούν για να αντλήσουν πρόσθετες πληροφορίες ή να περιηγηθούν ευρύτερα στο διαδίκτυο. Η επιλογή αυτή στόχευε στον έλεγχο του είδους και του χρόνου της απάντησης, διασφαλίζοντας σταθερότητα στη σύγκριση.
Παρά τις προφυλάξεις, οι απαντήσεις εμφάνισαν διακυμάνσεις ανάλογα με το πώς διατυπωνόταν το prompt, γεγονός που υπογραμμίζει τη σημασία της λεπτομερούς διατύπωσης όταν χρησιμοποιούνται μοντέλα για υποστήριξη πολιτικών αποφάσεων.
Τι δείχνει το εγχείρημα για τη χρήση chatbots στην πολιτική
Η εμπειρία δείχνει ότι τα εργαλεία συνομιλίας μπορούν να παρέχουν γρήγορες, συμπυκνωμένες κατευθυντήριες γραμμές, αρκεί να τους δοθούν σαφείς κανόνες παρουσίασης και περιορισμοί στη δομή των απαντήσεων. Η ποιότητα εξαρτάται εξίσου από το σύστημα όσο και από την ποιότητα του prompt που το καθοδηγεί.
Επιπλέον, η δοκιμή υπογραμμίζει πως για την πολιτική πρακτική είναι προτιμότερο να ζητούνται υψηλού επιπέδου, εφαρμόσιμες συστάσεις παρά εκτενής τεχνική ανάλυση, αφού οι φορείς λήψης αποφάσεων έχουν περιορισμένο χρόνο και χρειάζονται σαφή, επιτελικά μηνύματα.
Τελικά συμπεράσματα και κλείσιμο
Το πείραμα του POLITICO κατέδειξε ότι η αξιολόγηση chatbots απαιτεί προσεκτικό σχεδιασμό, επανειλημμένες δοκιμές και προσαρμογές στο είδος των οδηγιών που δίνονται. Η ίδια τεχνολογία μπορεί να δώσει πολύ διαφορετικά αποτελέσματα ανάλογα με την παραμετροποίηση του ρόλου που της ανατίθεται.
Καθώς τα εργαλεία βελτιώνονται, η εμπλοκή τους στη διαμόρφωση πολιτικών θα εξαρτηθεί από την ικανότητα των χρηστών να ορίζουν σαφείς στόχους και να διαμορφώνουν prompts που παράγουν ουσιαστικές, συνοπτικές και εφαρμόσιμες συμβουλές.