- Η λειτουργία φωνής του ChatGPT ενσωματώνεται απευθείας στο chat.
- Προσφέρει πολυτροπικές συνομιλίες με οπτικές πληροφορίες σε πραγματικό χρόνο.
- Στοχεύει σε πιο φυσική και hands-free αλληλεπίδραση με την AI.
- Υπάρχει επιλογή για ξεχωριστό τρόπο φωνής μέσω των ρυθμίσεων.
- Η ενημέρωση κυκλοφορεί σταδιακά και εντείνει τον ανταγωνισμό με το Gemini Live.
Η OpenAI προχωρά σε μια σημαντική ενημέρωση, ενσωματώνοντας τη λειτουργία φωνής του ChatGPT απευθείας στις συνομιλίες, τόσο στην εφαρμογή για κινητά όσο και στην web έκδοση. Αυτή η αλλαγή εξαλείφει την ανάγκη για ξεχωριστή οθόνη, προσφέροντας μια ενιαία και πολύ πιο φυσική εμπειρία αλληλεπίδρασης με την τεχνητή νοημοσύνη. Η εξέλιξη αυτή υπόσχεται πιο ελεύθερες και πολυτροπικές συνομιλίες, επιτρέποντας στους χρήστες να βλέπουν μεταγραφές σε πραγματικό χρόνο και να λαμβάνουν οπτικές πληροφορίες χωρίς διακοπή.
Αυτή η εξέλιξη έρχεται ως συνέχεια της συνεχούς μεταμόρφωσης της αλληλεπίδρασης με τις τεχνητές νοημοσύνες. Ενώ πριν από λίγο καιρό η ικανότητα δημιουργίας κειμένου προκαλούσε έκπληξη, σήμερα η μάχη δίνεται στον τομέα της ρευστότητας και της φυσικότητας της επικοινωνίας. Η OpenAI, με αυτή την κίνηση, στοχεύει να άρει τα εμπόδια μεταξύ χρήστη και μηχανής, κάνοντας την εμπειρία πιο άμεση και διαισθητική.
Η ενοποίηση της φωνής στο ChatGPT
Μέχρι πρότινος, η χρήση της φωνής στο ChatGPT απαιτούσε μια αλλαγή πλαισίου χρήσης. Πατώντας το εικονίδιο των ακουστικών, η εφαρμογή μετέφερε τον χρήστη σε μια διεπαφή αποκλειστικά αφιερωμένη στον ήχο. Αν και καθηλωτική, αυτή η διαχωριστική λειτουργία δημιουργούσε τριβή, ειδικά αν κάποιος ήθελε να ανατρέξει σε κάτι οπτικό ή να ελέγξει τι είχε ειπωθεί νωρίτερα. Πλέον, η πρόσβαση στον τρόπο φωνής γίνεται εντός του ίδιου νήματος συνομιλίας, ενοποιώντας την εμπειρία κειμένου και ήχου σε μία ροή εργασίας. Αυτό αποτελεί μια σημαντική βελτίωση στην ευχρηστία του εργαλείου.
Η νέα, ενημερωμένη έκδοση του ChatGPT εμφανίζει μια ζωντανή μεταγραφή ενώ ο χρήστης συνομιλεί με την AI. Έτσι, μπορεί κανείς να παρακολουθεί τις δικές του λέξεις και τις απαντήσεις της μηχανής να εκτελούνται σε πραγματικό χρόνο στην οθόνη, διατηρώντας ορατό το ιστορικό του chat. Αυτή η λειτουργία ενισχύει την αίσθηση της συνεχούς ροής και της αμεσότητας.
Πολυτροπικές δυνατότητες και φυσική συνομιλία
Η ενσωμάτωση αυτή προσφέρει ένα τεράστιο πλεονέκτημα: την πολυτροπική ικανότητα. Η τεχνητή νοημοσύνη, εκτός από τη μεταγραφή της συνομιλίας, θα είναι σε θέση να εμφανίζει σχετικές οπτικές πληροφορίες χωρίς να αναγκάζει τον χρήστη να εγκαταλείψει το παράθυρο συνομιλίας ή τον τρόπο φωνής. Αυτό σημαίνει ότι οι χρήστες θα μπορούν να βλέπουν χάρτες, να ελέγχουν την κατάσταση του καιρού και να έχουν πρόσβαση σε άλλα γραφικά δεδομένα σε πραγματικό χρόνο, ενώ η συνομιλία παραμένει ορατή και ενεργή. Αυτή είναι η μεγάλη υπόσχεση της ενημέρωσης.
Το τελικό ζητούμενο αυτών των βελτιώσεων είναι η μείωση των χρόνων χρήσης και αναμονής, επιτρέποντας στους χρήστες να συμμετέχουν σε συνομιλίες hands-free με την AI που να μοιάζουν γνήσια ανθρώπινες. Σε αυτό το πλαίσιο, η ενημέρωση του ChatGPT επιδιώκει να μιμηθεί και να ανταγωνιστεί άμεσα το Gemini Live της Google, το οποίο έχει επίσης επικεντρωθεί στην ρευστή λεκτική αλληλεπίδραση. Αναλυτές της αγοράς επισημαίνουν ότι αυτή η κίνηση εντείνει τον ανταγωνισμό στον τομέα των φωνητικών βοηθών, καθώς οι τεχνολογικοί κολοσσοί προσπαθούν να προσφέρουν την πιο διαισθητική και ολοκληρωμένη εμπειρία χρήστη.
Προσαρμογή και διαθεσιμότητα
Είναι σημαντικό να σημειωθεί ότι υπάρχουν δύο εκδόσεις του τρόπου φωνής του ChatGPT, και η εμπειρία μπορεί να διαφέρει ελαφρώς ανάλογα με αυτή που χρησιμοποιείται. Από τη μία πλευρά, υπάρχει η τυπική έκδοση, διαθέσιμη για όλους τους χρήστες, η οποία χρησιμοποιεί πιο παραδοσιακά μοντέλα αναγνώρισης και σύνθεσης φωνής. Από την άλλη, υπάρχει ο Προηγμένος Τρόπος Φωνής, που προορίζεται για τους συνδρομητές επί πληρωμή και αξιοποιεί τις εγγενείς δυνατότητες ήχου του μοντέλου GPT-4o.
Παρά την τάση προς την ενοποίηση των διεπαφών, η OpenAI αναγνωρίζει ότι οι αλλαγές σχεδιασμού δεν είναι πάντα άμεσα ευπρόσδεκτες από όλους τους χρήστες. Έτσι, για όσους προτιμούν την ολική εμβύθιση της οθόνης ήχου και δεν θέλουν να βλέπουν τη μεταγραφή ή το chat ενώ μιλούν, υπάρχει μια λύση: η ενεργοποίηση του ξεχωριστού τρόπου (Separate mode) μέσα από τις ρυθμίσεις της εφαρμογής. Συγκεκριμένα, πρέπει να μεταβείτε στις Ρυθμίσεις και να αναζητήσετε την ενότητα Τρόπος Φωνής.
Η επόμενη μέρα στην επικοινωνία με την AI
Όσον αφορά τη διαθεσιμότητα, αυτή η ενημέρωση κυκλοφορεί σταδιακά και προοδευτικά, όπως συνηθίζεται σε βελτιώσεις λογισμικού αυτού του μεγέθους. Αυτό που αρχικά εντοπιζόταν σε αναλύσεις κώδικα (γνωστές ως APK teardowns) υλοποιείται πλέον στις συσκευές των χρηστών. Η ενσωμάτωση αυτή σηματοδοτεί ένα νέο κεφάλαιο στην αλληλεπίδραση ανθρώπου-AI, καθιστώντας την πιο διαισθητική, αποτελεσματική και, εν τέλει, πιο ανθρώπινη. Η συνεχής βελτίωση των φωνητικών βοηθών, όπως το Gemini και το ChatGPT, αναμένεται να αλλάξει ριζικά τον τρόπο που χρησιμοποιούμε την τεχνητή νοημοσύνη στην καθημερινότητά μας.
Πώς να προσαρμόσετε την εμπειρία φωνής στο ChatGPT
- Ενεργοποιήστε τον ενσωματωμένο τρόπο φωνής απευθείας μέσα από το παράθυρο συνομιλίας για άμεση χρήση.
- Παρακολουθήστε τη ζωντανή μεταγραφή της συνομιλίας για να παρακολουθείτε τις απαντήσεις της AI και το ιστορικό.
- Αξιοποιήστε την πολυτροπική λειτουργία για να βλέπετε χάρτες ή άλλες οπτικές πληροφορίες κατά τη διάρκεια της συνομιλίας.
- Αν προτιμάτε την παλαιότερη, αποκλειστική οθόνη ήχου, μεταβείτε στις Ρυθμίσεις > Τρόπος Φωνής και επιλέξτε τον «ξεχωριστό τρόπο».