Είχαμε το ChatGPT, ήρθαν ο Bard και το Bing, κι εμείς πιστεύαμε ότι η Τεχνητή Νοημοσύνη είχε φτάσει στο απόγειό της για φέτος. Ε, δε θα μπορούσαμε να κάνουμε μεγαλύτερο λάθος. Γιατί μετά το chatbot της, η Microsoft έρχεται με νέο πολυλειτουργικό εργαλείο Τεχνητής Νοημοσύνης που μπορεί να αναλύει εικόνες, να φτιάχνει ψηφιακά παζλ, να αναγνωρίζει κείμενα, να περνά από οπτικά τεστ IQ και να καταλαβαίνει οδηγίες σε φυσική γλώσσα. Το Kosmos-1, όπως ονομάζεται, θεωρείται βήμα-κλειδί για τη δημιουργία Γενικής Τεχνητής Νοημοσύνης (AGI) η οποία μπορεί να λειτουργεί σαν άνθρωπος.
«Η πολυλειτουργική αντίληψη είναι απαραίτητη για να πετύχουμε την AGI, όσον αφορά στην απόκτηση γνώσεων και στην προσομοίωση στον πραγματικό κόσμο», έγραψαν οι ερευνητές στην εργασία τους με τίτλο «Η Γλώσσα Δεν Είναι Το Μόνο Που Χρειάζεσαι: Ενώνοντας Μοντέλα Γλώσσας και Αντίληψης».
Το Kosmos-1, λοιπόν, μπορεί να διαβάζει κείμενα από εικόνες, να γράφει λεζάντες για εικόνες, να ολοκληρώνει τεστ νοημοσύνης με ακρίβεια 22-26%. Τέτοιου είδους εργαλεία, σύμφωνα με ειδικούς, δείχνουν πως ένα υποθετικό είδος τεχνολογίας θα μπορέσει, δυνητικά, να αντικαταστήσει τον ανθρώπινο παράγοντα σε οποιαδήποτε νοητική διαδικασία – κι αυτό, φυσικά, περιλαμβάνει οποιοδήποτε μη χειρωνακτικό επάγγελμα.
Οι επιστήμονες της Microsoft εκπαίδευσαν το Kosmos-1 χρησιμοποιώντας δεδομένα από το διαδίκτυο, ανάμεσά τους αποσπάσματα από το The Pile και το Common Crawl. Στη συνέχεια, αξιολόγησαν τις δυνατότητές του με μία σειρά από τεστ, ανάμεσά τους η κατανόηση και η παραγωγή γλώσσας, η αναγνώριση και η ταξινόμηση κειμένου, η προσθήκη λεζάντας σε εικόνες, η απάντηση διαδικτυακών ερωτήσεων και η ταξινόμηση εικόνων.
Αυτό είναι μόνο το πρώτο βήμα. Όταν το συγκεκριμένο είδος τεχνολογίας εξελιχθεί, και η Τεχνητή Νοημοσύνη μπορεί να ερμηνεύσει και να επεξεργαστεί κάθε είδους μέσο, θα μπορέσουμε να έχουμε ακόμη και μοντέλα με ικανότητα ομιλίας.