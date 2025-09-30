Η Deepseek αναστάτωσε τη Silicon Valley όταν κυκλοφόρησε το πρώτο της μοντέλο R1 ξαφνικά πέρσι, δείχνοντας ότι είναι δυνατόν να «εκπαιδευτούν» μεγάλα γλωσσικά μοντέλα (LLMs) γρήγορα, με λιγότερο ισχυρά chip και λιγότερους πόρους.

Το νέο της πειραματικό μοντέλο παρουσίασε η κινεζική startup DeepSeek, το οποίο υπόσχεται να αυξήσει την αποδοτικότητα και να βελτιώσει την ικανότητα της τεχνητής νοημοσύνης να χειρίζεται μεγάλο όγκο πληροφοριών με μικρότερο κόστος. Ωστόσο, σύμφωνα με το CNBC, παραμένουν τα ερωτήματα για το πόσο ασφαλής και αποδοτική είναι η αρχιτεκτονική της.

Τη Δευτέρα, η εταιρεία κυκλοφόρησε το DeepSeek-V3.2-Exp, μία πειραματική εκδοχή του τρέχοντος μοντέλου της DeepSeek-V3.1-Terminus, το οποίο εντάσσεται στην ευρύτερη αποστολή της να αυξήσει την αποδοτικότητα των συστημάτων AI, σύμφωνα με ανάρτηση στο φόρουμ Hugging Face.

«Το DeepSeek V3.2 συνεχίζει να επικεντρώνεται στην αποδοτικότητα, την περικοπή πόρων και τον open - source διαμοιρασμό δεδομένων. Η μεγάλη βελτίωση αφορά ένα νέο στοιχείο που ονομάζεται DSA (DeepSeek Sparse Attention) το οποίο κάνει το AI καλύτερο στον χειρισμό μακρών κειμένων και συζητήσεων. Επιπλέον, μειώνει το κόστος λειτουργίας της τεχνητής νοημοσύνης στο μισό σε σχέση με την προηγούμενη έκδοση», δήλωσε στο CNBC ο Adina Yakefu, επικεφαλής της κοινότητας στο Hugging Face.

«Είναι σημαντικό γιατί θα κάνει το μοντέλο πιο γρήγορο και πιο αποδοτικό οικονομικά στη χρήση χωρίς εμφανή μείωση της απόδοσης. Αυτό καθιστά την τεχνητή νοημοσύνη πιο προσβάσιμη σε προγραμματιστές, ερευνητές και μικρότερες εταιρείες οδηγώντας πιθανότατα σε ένα κύμα καινοτόμων εφαρμογών», σημείωσε ο Nick Patience, αντιπρόεδρος και υπεύθυνος του τομέα AI στην εταιρεία The Futurum Group.

Τα υπέρ και τα κατά του μοντέλου sparse attention

Ένα μοντέλο τεχνητής νοημοσύνης, λαμβάνει αποφάσεις με βάση την εκπαίδευσή του και τις νέες πληροφορίες όπως ένα prompt. Για παράδειγμα, μία αεροπορική εταιρεία θέλει να βρει την καλύτερη διαδρομή από το σημείο Α στο σημείο Β και ενώ υπάρχουν αρκετές επιλογές, δεν είναι όλες εφικτές. Φιλτράροντας τις λιγότερο βιώσιμες επιλογές, μπορεί να μειώσει τον χρόνο, τα καύσιμα και στην τελική τα χρήματα που θα απαιτηθούν για να πραγματοποιηθεί η εν λόγω διαδρομή. Αυτό ακριβώς είναι που κάνει το μοντέλο sparse attention. Λαμβάνει υπ' όψιν μόνο δεδομένα που θεωρεί σημαντικά με βάση το task που έχει αναλάβει, αντίθετα με άλλα μοντέλα μέχρι στιγμής που επεξεργάζονταν όλα τα δεδομένα.

Το sparse attention αποτελεί πλεονέκτημα για την αποδοτικότητα και την επεκτασιμότητα της τεχνητής νοημοσύνης, δεδομένου ότι απαιτούνται λιγότεροι πόροι, όμως ένα ερώτημα που παραμένει είναι εάν μπορεί να μειώσει την αξιοπιστία των μοντέλων, λόγω της έλλειψης διαφάνειας στον τρόπο που απορρίπτεται η πληροφορία.

«Η πραγματικότητα είναι ότι αυτά τα μοντέλα έχουν χάσει πολλές αποχρώσεις. Το ερώτημα είναι: είχαν τον σωστό μηχανισμό για να αποκλείσουν μη σημαντικά δεδομένα ή μήπως απέκλεισαν και σημαντικά, ώστε το αποτέλεσμα να είναι πολύ λιγότερο σχετικό;», διερωτάται η Ekaterina Almasque, πρώιμη υποστηρίκτρια των Dataiku και Darktrace και επενδύτρια στη Graphcore.

Αυτό μπορεί να είναι ιδιαίτερα προβληματικό όσον αφορά την ασφάλεια της AI και την ενσωμάτωση (inclusivity), προσθέτει, σημειώνοντας ότι μπορεί να μην είναι «ούτε το πιο βέλτιστο, ούτε το ασφαλέστερο» μοντέλο σε σύγκριση με άλλα.

Η DeepSeek, ωστόσο, υποστηρίζει ότι το πειραματικό της μοντέλο λειτουργεί εξίσου καλά με το V3.1-Terminus. Παρά τη φημολογία περί «φούσκας», η τεχνητή νοημοσύνη παραμένει στο επίκεντρο του γεωπολιτικού ανταγωνισμού μεταξύ ΗΠΑ και Κίνας για την πρωτοκαθεδρία στον χώρο.