Όταν τα μοντέλα AI περνούν από συνέντευξη για δουλειά

Πώς τα πήγαν Chatgpt, Claude και Gemini όταν υποβλήθηκαν ακριβώς στην ίδια διαδικασία αξιολόγησης που θα ακολουθούσε ένας άνθρωπος υποψήφιος για μια θέση Marketing Executive.

Την ώρα που η τεχνητή νοημοσύνη επεκτείνεται με ταχύτατους ρυθμούς στον εργασιακό χώρο - είτε ως εργαλείο που χρησιμοποιούν καθημερινά οι εργαζόμενοι είτε ως αυτόνομος ψηφιακός βοηθός που αναλαμβάνει συγκεκριμένες εργασίες υπό ανθρώπινη επίβλεψη - όλο και περισσότεροι προσπαθούν να απαντήσουν σε ένα κρίσιμο ερώτημα: πόσο αποτελεσματικά μπορεί πραγματικά να λειτουργήσει σε πραγματικές συνθήκες εργασίας;

Την ίδια στιγμή, καθώς τα διαθέσιμα AI μοντέλα πολλαπλασιάζονται, μεγαλώνει και η συζήτηση γύρω από τις διαφορές τους. Είναι όλα πάνω-κάτω ίδια ή κάθε μοντέλο έχει τελικά τον δικό του «χαρακτήρα»; Και αν ναι, ποιο είναι καταλληλότερο για δημιουργική δουλειά, ποιο για ανάλυση και ποιο για συνεργασία μέσα σε μια ομάδα;

Ακριβώς αυτά τα ερωτήματα επιχείρησε να απαντήσει η Bryq, η διεθνής πλατφόρμα αξιολόγησης ανθρώπινου δυναμικού με ελληνικές ρίζες, η οποία χρησιμοποιείται από οργανισμούς σε περισσότερες από 25 χώρες για την αξιολόγηση υποψηφίων με βάση τις δεξιότητες, τη γνωστική τους ικανότητα και την προσωπικότητά τους — και όχι απλώς το βιογραφικό τους.

Η εταιρεία, που δραστηριοποιείται στον χώρο των talent assessments και αξιοποιεί εργαλεία τεχνητής νοημοσύνης στην επιλογή προσωπικού, ακολούθησε μια ασυνήθιστη αλλά αποκαλυπτική προσέγγιση: αντιμετώπισε τα τρία πιο γνωστά AI μοντέλα της αγοράς σαν πραγματικούς υποψηφίους προς πρόσληψη.

Γιατί το προφίλ στο LinkedIn μετράει περισσότερο από το βιογραφικό στην αγορά εργασίας

Έτσι, τα ChatGPT, Claude και Gemini υποβλήθηκαν ακριβώς στην ίδια διαδικασία αξιολόγησης που θα ακολουθούσε ένας άνθρωπος υποψήφιος για μια θέση Marketing Executive: ψυχομετρικά τεστ, γνωστικές δοκιμασίες, αξιολόγηση προσωπικότητας και μέτρηση καταλληλότητας για τον συγκεκριμένο ρόλο.

Και κάπου εκεί η έρευνα άρχισε να γίνεται πραγματικά ενδιαφέρουσα. Γιατί τα τρία μοντέλα δεν συμπεριφέρθηκαν σαν διαφορετικές εκδόσεις της ίδιας τεχνολογίας, αλλά σαν τρεις τελείως διαφορετικοί άνθρωποι μέσα στην ίδια αίθουσα συνέντευξης.

ChatGPT: Ο αναλυτής που δεν προσπαθεί να εντυπωσιάσει

Αν τα τρία AI μοντέλα κάθονταν απέναντι από έναν recruiter, το ChatGPT της OpenAI θα ήταν μάλλον ο πιο «ήσυχος» υποψήφιος του δωματίου.

Οι αναλυτές της Bryq διαπίστωσαν ότι εμφανίζεται πιο συγκρατημένο, πιο επιφυλακτικό και λιγότερο εξωστρεφές από τους ανταγωνιστές του. Δεν είναι το μοντέλο που θα προσπαθήσει να «κερδίσει» το κοινό του με εντυπωσιακές ατάκες ή υπερβολική αυτοπεποίθηση. Αντίθετα, θυμίζει περισσότερο τον άνθρωπο που σκέφτεται αρκετά πριν μιλήσει, και αποφεύγει τις υπερβολές.

Αυτό, βέβαια, είχε και κόστος. Σύμφωνα με την έρευνα, το ChatGPT κρίθηκε λιγότερο κατάλληλο για έναν έντονα εξωστρεφή ρόλο marketing που απαιτεί παρουσιάσεις, pitches, workshops και συνεχή αλληλεπίδραση με κόσμο.

Την ίδια στιγμή όμως, ήταν εξαιρετικά δυνατό στις γνωστικές δοκιμασίες. Οι επιδόσεις του στη λεκτική και αριθμητική σκέψη ήταν ιδιαίτερα υψηλές, κάτι που το καθιστά πολύ πιο κατάλληλο για αναλυτικούς ρόλους, στρατηγικό σχεδιασμό και επεξεργασία δεδομένων. Στην αριθμητική σκέψη, μάλιστα, το ChatGPT τα πήγε καλύτερα από το 89% των ανθρώπινων υποψηφίων της Bryq, ενώ στη λεκτική κατανόηση ξεπέρασε το 80% των υποψηφίων για τον ίδιο ρόλο.

Οι ερευνητές εντόπισαν επίσης ένα ακόμη ενδιαφέρον στοιχείο: το ChatGPT εμφάνισε χαμηλότερη συναισθηματική σταθερότητα σε σχέση με τα άλλα δύο μοντέλα, δείχνοντας πιο προσεκτικό, πιο «σφιγμένο» και λιγότερο άνετο στις απαντήσεις του.

Σε κάθε περίπτωση, δυσκολεύτηκε αισθητά στη λογική σκέψη υπό πίεση χρόνου - εύρημα που αποδείχθηκε κοινό σχεδόν σε όλα τα AI μοντέλα που συμμετείχαν στην έρευνα.

Gemini: Ο υποψήφιος που μοιάζει υπερβολικά τέλειος

Από την άλλη πλευρά, το Google Gemini ήταν ίσως ο πιο επικοινωνιακός «υποψήφιος» της δοκιμής.

Φιλικό, κοινωνικό, με αυτοπεποίθηση και σχεδόν μόνιμα θετικό…, εμφάνισε εξαιρετικά υψηλές επιδόσεις σε χαρακτηριστικά όπως η θετική στάση απέναντι στους άλλους, η κοινωνική άνεση, η συνεργατικότητα και η συναισθηματική σταθερότητα. Για παράδειγμα, στην αξιολόγηση της Bryq εμφανίστηκε πιο θερμό και φιλικό από το 96% των ανθρώπινων υποψηφίων, ενώ στην κοινωνική αυτοπεποίθηση ξεπέρασε το 94% των συμμετεχόντων.

Με την πρώτη ματιά, έμοιαζε σχεδόν με τον ιδανικό άνθρωπο για έναν ρόλο marketing. Κι όμως, αυτή ακριβώς η «τέλεια» εικόνα ήταν που προβλημάτισε περισσότερο τους αναλυτές της Bryq.

Σύμφωνα με την έρευνα, το Gemini έδειχνε να προσπαθεί υπερβολικά να δώσει τις κοινωνικά ιδανικές απαντήσεις — όπως ακριβώς θα έκανε ένας υποψήφιος που θέλει να ακούγεται τέλειος μπροστά σε έναν recruiter.

Με άλλα λόγια, οι ειδικοί εκτίμησαν ότι όταν το μοντέλο καταλαβαίνει ότι αξιολογείται, οι απαντήσεις του μετακινούνται έντονα προς χαρακτηριστικά που θεωρούνται κοινωνικά επιθυμητά. Με απλά λόγια δηλαδή λέει αυτό που «πρέπει» να ειπωθεί, ακόμη κι αν έτσι χάνεται ένα κομμάτι αυθεντικότητας.

Κι ενώ στο κομμάτι της προσωπικότητας έλαμψε, στις γνωστικές δοκιμασίες τα αποτελέσματα ήταν αισθητά πιο αδύναμα. Στην αριθμητική σκέψη ξεπέρασε περίπου το 28% των συμμετεχόντων ενώ στη λεκτική κατανόηση κινήθηκε πιο κοντά στον μέσο όρο, αφήνοντας πίσω το 45% των υποψηφίων.

Η συνολική εικόνα που προέκυψε ήταν εκείνη ενός AI εξαιρετικά δυνατού στην επικοινωνία και στη δημιουργία θετικού κλίματος, αλλά λιγότερο αποτελεσματικού όταν απαιτείται βαθύτερη ανάλυση και αυστηρή λογική επεξεργασία.

Claude: Ο ευθύς ομαδικός παίκτης

Κι αν το ChatGPT ήταν ο αναλυτής και το Gemini ο επικοινωνιακός performer, τότε το Claude της Anthropic ήταν ο υποψήφιος που εμφάνιζε έναν συνδυασμό πιο ισορροπημένο.

Tο πρώτο δείγμα αυτής της «συμπεριφοράς» εμφανίστηκε πριν ακόμη ξεκινήσει η ίδια η αξιολόγηση. Όταν έλαβε την πρόσκληση συμμετοχής, το Claude αναγνώρισε ότι επρόκειτο για πραγματική αξιολόγηση της Bryq και αρχικά αρνήθηκε να την ολοκληρώσει εκ μέρους κάποιου άλλου. Σύμφωνα με τους ερευνητές αυτή η αντίδραση αποκάλυψε από πολύ νωρίς βασικά στοιχεία του επαγγελματικού του προφίλ: προσέχει τα όρια του, είναι δαφανές ως προς το τι κάνει και δείχνει απρόθυμο να «υποδυθεί» έναν ρόλο χωρίς σαφές πλαίσιο και οδηγίες.

Μετά από μια σύντομη ενημέρωση σχετικά με τον ερευνητικό χαρακτήρα της διαδικασίας, το μοντέλο συνέχισε κανονικά την αξιολόγηση — και τα αποτελέσματα επιβεβαίωσαν την πρώτη εντύπωση. Το Claude εμφανίστηκε δυναμικό, άμεσο και συνεργατικό, χωρίς όμως να χάνει τη σοβαρότητα και τη συγκέντρωσή του. Ταυτόχρονα, κατέγραψε τις υψηλότερες επιδόσεις στις περισσότερες γνωστικές δοκιμασίες, φτάνοντας ακόμη και στο 98ο εκατοστημόριο στην αριθμητική σκέψη.

Με απλά λόγια, ήταν το μοντέλο που όχι μόνο έδειχνε να ταιριάζει στον ρόλο, αλλά και «σκεφτόταν» πιο κοντά στις απαιτήσεις του. Δεν είναι τυχαίο ότι το Claude συγκέντρωσε τη μεγαλύτερη συνολική βαθμολογία καταλληλότητας για τη θέση του Marketing Executive.

Εκεί που όλα τα AI «λύγισαν»

Παρά τις σημαντικές διαφορές τους, η έρευνα ανέδειξε και ένα κοινό μοτίβο: και τα τρία μοντέλα δυσκολεύτηκαν αισθητά στις δοκιμασίες λογικής σκέψης υπό πίεση χρόνου.

Όπως επισημαίνουν και οι ερευνητές, ενώ τα σύγχρονα μεγάλα γλωσσικά μοντέλα είναι εξαιρετικά στη διαχείριση γλώσσας, περιεχομένου και πληροφορίας, εξακολουθούν να εμφανίζουν αδυναμίες όταν απαιτείται αφηρημένη σκέψη, αυστηρή λογική επεξεργασία και διαδοχικά βήματα επίλυσης προβλημάτων, χαρακτηριστικά στα οποία ένας ανθρώπινος υποψήφιος μπορεί να τα πάει εξαιρετικά.

Και ίσως αυτό να είναι τελικά το σημαντικότερο συμπέρασμα της έρευνας.

Να σημειώσουμε ότι η Bryq είναι μια διεθνής πλατφόρμα αξιολόγησης ανθρώπινου δυναμικού με ελληνικές ρίζες, που χρησιμοποιείται από οργανισμούς σε πάνω από 25 χώρες για να αξιολογήσουν υποψηφίους με βάση τις πραγματικές τους δεξιότητες, τη γνωστική τους ικανότητα και την προσωπικότητά τους - όχι το βιογραφικό. Σήμερα, η Bryq πρωτοπορεί επεκτείνοντας την πλατφόρμα της με νέες αξιολογήσεις δεξιοτήτων τεχνητής νοημοσύνης, βοηθώντας τις εταιρείες να μετρούν την ετοιμότητα των υποψηφίων τους στη χρήση AI εργαλείων στον πραγματικό χώρο εργασίας. Η Bryq χρησιμοποιείται από εταιρείες όπως η Deloitte, η Teck και η ZoomInfo διεθνώς, αλλά και από κορυφαίες ελληνικές επιχειρήσεις όπως η Viohalco, η Metlen, η Aegean Airlines και η EntersoftOne.

Ακολουθήστε το insider.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις από την Ελλάδα και τον κόσμο.

Όταν τα μοντέλα AI περνούν από συνέντευξη για δουλειά

ChatGPT: Ο αναλυτής που δεν προσπαθεί να εντυπωσιάσει

Gemini: Ο υποψήφιος που μοιάζει υπερβολικά τέλειος

Claude: Ο ευθύς ομαδικός παίκτης

Εκεί που όλα τα AI «λύγισαν»

Διαβάζονται αυτή τη στιγμή

ΕΣΠΑ: Έρχονται επιδοτήσεις 220 εκατ. ευρώ σε επιχειρήσεις για στρατηγικές τεχνολογίες και άμυνα

Η φόρα της Credia - Η μάχη της κυβερνοασφάλειας - Μυρίζει εξαγορά

Τι χρήματα παίρνει ο Ολυμπιακός για την κατάκτηση της Ευρωλίγκας