Ένας εγκέφαλος για όλα: Η Κίνα δημιουργεί ενιαίο μοντέλο τεχνητής νοημοσύνης για τη διαχείριση σύνθετων πολυεργασιακών ρομποτικών συστημάτων

Η εταιρεία ShengShu Technology παρουσίασε το Motubrain, ένα ενοποιημένο μοντέλο τεχνητής νοημοσύνης που έχει σχεδιαστεί για να λειτουργεί ως ένας γενικής χρήσης «εγκέφαλος» για ρομπότ, συνδυάζοντας αντίληψη, συλλογισμό, πρόβλεψη και δράση σε ένα ενιαίο σύστημα. Σύμφωνα με την εταιρεία, το νέο αυτό μοντέλο αντικαθιστά τις κατακερματισμένες αρχιτεκτονικές που χρησιμοποιούνται συνήθως στη ρομποτική και βασίζονται σε επιμέρους, εξειδικευμένα υποσυστήματα, προσφέροντας ένα ενιαίο πλαίσιο ικανό να διαχειρίζεται πολλαπλές εργασίες και περιβάλλοντα, μειώνοντας την εξάρτηση από ξεχωριστές μονάδες για αισθητήρες, σχεδιασμό και εκτέλεση.

Το Motubrain έχει ήδη επιδείξει ισχυρές επιδόσεις σε benchmarks, επιτυγχάνοντας σκορ 63,77 στο WorldArena και μέσο όρο 96,0 σε 50 εργασίες στο RoboTwin 2.0, ενώ αναφέρεται ότι είναι το μοναδικό μοντέλο που ξεπερνά το 95,0 σε τυχαιοποιημένα περιβάλλοντα. Το σύστημα βασίζεται στην προηγούμενη δουλειά της ShengShu στον τομέα του generative video μέσω της πλατφόρμας Vidu, αξιοποιώντας μεγάλης κλίμακας δεδομένα βίντεο για να εκπαιδεύσει τα ρομπότ να κατανοούν και να αλληλεπιδρούν με πραγματικά περιβάλλοντα.

Ένας εγκέφαλος για πολλές εργασίες

Το Motubrain έχει σχεδιαστεί ως ένα ενοποιημένο πολυτροπικό μοντέλο που μαθαίνει ταυτόχρονα από βίντεο, γλώσσα και δράση. Αυτό επιτρέπει στα ρομπότ να επεξεργάζονται το περιβάλλον τους, να προβλέπουν αποτελέσματα και να ενεργούν σε πραγματικό χρόνο χωρίς να χρειάζεται να μεταβαίνουν μεταξύ διαφορετικών συστημάτων. «Ένα πραγματικό world model πρέπει να μπορεί να δημιουργεί μια ενιαία αναπαράσταση του πραγματικού κόσμου και να προβλέπει πώς αυτός εξελίσσεται», δήλωσε ο ιδρυτής της ShengShu Technology, Τζουν Ζου.

Το μοντέλο χρησιμοποιεί μια αρχιτεκτονική τριών ροών τύπου Mixture-of-Transformers, η οποία ενσωματώνει εισροές από διαφορετικές μορφές δεδομένων. Με αυτή τη διάταξη, τα ρομπότ μπορούν να κατανοούν εντολές, να προβλέπουν αλλαγές στο περιβάλλον και να παράγουν κατάλληλες ενέργειες μέσα σε έναν συνεχόμενο κύκλο λειτουργίας. Σε αντίθεση με τα συμβατικά συστήματα που βασίζονται σε μεγάλο βαθμό σε επισημασμένα δεδομένα, το Motubrain εκπαιδεύεται με έναν ευρύτερο συνδυασμό μη επισημασμένων βίντεο, δεδομένων προσομοίωσης και καταγραφών εργασιών από πολλαπλά ρομπότ. Ένα πλαίσιο λανθάνουσας δράσης εξάγει μοτίβα κίνησης απευθείας από αυτά τα δεδομένα, μειώνοντας την ανάγκη για χειροκίνητη επισήμανση.

Η συγκεκριμένη προσέγγιση εκπαίδευσης επιτρέπει στο μοντέλο να κλιμακώνεται πιο αποτελεσματικά, ενώ σε εσωτερικές αξιολογήσεις το Motubrain διατήρησε υψηλότερα ποσοστά επιτυχίας σε σύγκριση με ανταγωνιστικά συστήματα, καθώς αυξάνονταν τόσο η πολυπλοκότητα των εργασιών όσο και τα δεδομένα εκπαίδευσης.

Από τα δεδομένα στη δράση

Το Motubrain μπορεί να εκτελεί σύνθετες εργασίες πολλαπλών βημάτων που περιλαμβάνουν έως και 10 βασικές ενέργειες, σημαντικά περισσότερες από τις 2–3 που μπορούν να διαχειριστούν πολλά από τα σημερινά ρομποτικά συστήματα, σύμφωνα με το interestingengineering. Αυτό επιτρέπει στα ρομπότ να ολοκληρώνουν πιο πολύπλοκες δραστηριότητες πραγματικού κόσμου σε μία ενιαία ακολουθία ενεργειών. «Πιστεύουμε ότι τα γενικά world models δεν πρέπει να κατασκευάζονται ως συρραφή επιμέρους μονάδων, αλλά ως μια ενοποιημένη αρχιτεκτονική που συνδυάζει αντίληψη, συλλογισμό, πρόβλεψη, παραγωγή και δράση σε ένα σύστημα», σημειώνεται χαρακτηριστικά.

Σε δοκιμές πραγματικών συνθηκών, ρομπότ που εκπαιδεύτηκαν με το Motubrain έδειξαν ικανότητα προσαρμογής κατά την εκτέλεση εργασιών. Για παράδειγμα, όταν μια ενέργεια αποτύγχανε ενδιάμεσα, όπως η αποτυχημένη προσπάθεια σύλληψης ενός αντικειμένου, το σύστημα μπορούσε να αναγνωρίσει την αποτυχία και να επαναλάβει την προσπάθεια χωρίς να έχει προηγουμένως εκπαιδευτεί σε αυτό το συγκεκριμένο σενάριο.

Η εταιρεία αναφέρει ότι το μοντέλο χρησιμοποιείται ήδη από εταιρείες ρομποτικής σε ενεργά προγράμματα εκπαίδευσης σε βιομηχανικά, εμπορικά και οικιακά περιβάλλοντα. Συνεργασίες με εταιρείες όπως οι Astribot, SimpleAI και Anyverse Dynamics στοχεύουν στην περαιτέρω επέκταση της εφαρμογής του.

Με χρηματοδότηση ύψους 293 εκατομμυρίων δολαρίων σε γύρο Series B υπό την ηγεσία της Alibaba Cloud, η ShengShu τοποθετεί το Motubrain ως ένα κρίσιμο βήμα προς την ανάπτυξη γενικής χρήσης ενσωματωμένων συστημάτων τεχνητής νοημοσύνης, ικανών να λειτουργούν σε ποικίλα πραγματικά περιβάλλοντα.

ΑΙ (τεχνητή νοημοσύνη)κινα Ρομπότ ΤΕΧΝΟΛΟΓΙΑ