Forward

Η νέα τεχνητή νοημοσύνη της Google γίνεται “Υψηλά Επιθετική” κάτω από καταστάσεις στρές


Στο τέλος του προηγούμενου έτους, ο φημισμένος φυσικός Stephen Hawnking προειδοποίησε, ότι η συνεχιζόμενη εξέλιξη της τεχνητής νοημοσύνης θα είναι “είτε το καλύτερο, είτε το χειρότερο πράγμα που θα έχει συμβεί ποτέ στην ανθρωπότητα”.

Όλοι έχουμε δει τις ταινίες Terminator με τις σκηνές αποκάλυψης και τον εφιάλτη ότι το σύστημα τεχνητής νοημοσύνης με αυτεπίγνωση, το Skynet, στράφηκε ενάντια στην ανθρωπότητα, και τώρα τα αποτελέσματα από ένα πρόσφατο συμπεριφορικό τεστ της νέας τεχνητής νοημοσύνης, υπό τον τίτλο DeepMind, της Google κάνουν ξεκάθαρο πόσο προσεκτικοί πρέπει να ήμαστε, όταν θα φτιάχνουμε τα ρομπότ του μέλλοντος.

Σε τεστ του περασμένου χρόνου, το σύστημα τεχνητής νοημοσύνης Deep Mind της Google, παρουσίασε μια δεξιότητα να μαθαίνει ανεξάρτητα από τη δική του μνήμη και να κερδίσει τους καλύτερους παίκτες του Go στο ίδιο το παιχνίδι τους.

Από τότε κατανόησε πως να μιμηθεί απρόσκοπτα μια ανθρώπινη φωνή.

Τώρα οι ερευνητές έχουν κάνει τεστ σχετικά με την προθυμία του να συνεργαστεί με άλλους, και αποκάλυψαν ότι όταν το DeepMind αισθάνεται ότι θα χάσει, μετέρχεται πιο “υψηλά επιθετικές” στρατηγικές, ώστε να διασφαλίσει ότι θα νικήσει στα αποτελέσματα.

Η ομάδα της Google έτρεξε 40 εκατομμύρια σειρές από ένα απλό παιχνίδι “μαζέματος φρούτων” που ζητούσε από δύο “πράκτορες” του DeepMind να ανταγωνιστούν μεταξύ τους, ώστε να μαζέψουν όσα περισσότερα εικονικά μήλα μπορούσαν.

Συμπέραναν ότι όλα πήγαιναν καλά για όσο διάστημα υπήρχαν αρκετά μήλα για να μαζέψουν, αλλά όταν τα μήλα ξεκίνησαν μειώνονται, οι δύο πράκτορες έγιναν επιθετικοί, χρησιμοποιώντας ακτίνες λέιζερ, ώστε να διώξουν ο ένας τον άλλον από το παιχνίδι και να κλέψουν όλα τα μήλα.

Μπορείτε να δείτε το παιχνίδι συλλογή μήλων στο παρακάτω βίντεο, με τους πράκτορες του DeepMind στα μπλέ και στα κόκκινα, τα μήλα στα πράσινα, και τις ακτίνες λέιζερ στα κίτρινα.

Τώρα αυτοί είναι κάποιοι πολεμοχαρείς συλλέκτες φρούτων.

Κατά τη διαδικασία, αν ένας πράκτορας κυνηγήσει επιτυχημένα τον αντίπαλό του με την ακτίνα λέιζερ, δε δίνεται κανένα επιπλέον βραβείο. Απλά βγάζει εκτός παιχνιδιού για μια περίοδο χρόνου τον αντίπαλο, το οποίο επιτρέπει στον επιτυχημένο πράκτορα να συλλέξει περισσότερα μήλα.

Αν οι πράκτορες άφηναν αχρησιμοποίητες τις ακτίνες λέιζερ, θα μπορούσαν θεωρητικά να τελειώσουν με ίσα μερίδια μήλων, πράγμα που είναι αυτό που οι “λιγότερο έξυπνες¨ επαναλήψεις του DeepMind θα έκαναν.

Τα πράγματα άλλαξαν όταν η ομάδα της Google τέσταρε όλο και πιο πολύ πολύπλοκες φόρμες του DeepMind με τα χαρακτηριστικά του σαμποτάζ, της απληστίας και της επίθεσης ενεργοποιημένα.

Όπως λέει στο Gizmodo ο Rhett Jones, όταν οι ερευνητές χρησιμοποιούσαν μικρότερα δίκτυα του DeepMind ως πράκτοτες, τότε υπήρχε μεγαλύτερη πιθανότητα για μια ειρηνική συνύπαρξη.

Αλλά όταν χρησιμοποιούσαν μεγάλα, πιο πολύπλοκα δίκτυα ως πράκτορες, η τεχνητή νοημοσύνη ήταν πολύ πιο πρόθυμη να σαμποτάρει τον αντίπαλο από νωρίς, ώστε να πάρει τη μερίδα του λέοντος από τα εικονικά μήλα.

Οι ερευνητές προτείνουν ότι όσο περισσότερο έξυπνος ήταν ο πράκτορας, τόσο πιο ικανός ήταν να μάθει από το περιβάλλον του, επιτρέποντάς του να χρησιμοποιήσει κάποιες υψηλά επιθετικές τακτικές ώστε να βρεθεί στην κορυφή.

“Αυτό το μοντέλο …. δείχνει ότι ορισμένες πλευρές της ανθρωποειδούς συμπεριφοράς αναδύονται ως προϊόν του περιβάλλοντος και της μάθησης” είπε ένας από την ομάδα, o Joel Z Leibo, στο Matt Burgess στο Wired.

“Οι λιγότερο επιθετικές πολιτικές αναδύονται από την μάθηση σε σχετικά άφθονα περιβάλλοντα με μικρότερη πιθανότητα για μια κίνηση που θα κοστίσει. Τα κίνητρα της απληστίας αντανακλούν τον πειρασμό να βγάλουν εκτός τους αντιπάλους και να συλλέξει τα μήλα μόνο ένας πράκτορας”

Το DeepMind επιφορτίστηκε έπειτα να παίξει ένα δεύτερο βιντεοπαιχνίδι, το οποίο αποκαλείται Wolfpack. Αυτή τη φορά υπήρχαν τρείς πράκτορες, οι δύο παίζοντας σαν λύκοι, και ο ένας ώς λεία.

Αντίθετα με το παιχνίδι συλλογής, αυτό το παιχνίδι ενεργά ενθάρρυνε τη συνεργασία, γιατί όταν και οι δύο από τους λύκους βρίσκονταν κοντά στη λεία όταν την αιχμαλώτιζαν, τότε και οι δύο λάμβαναν έναν βραβείο, ανεξάρτητα από το ποιός τελικά κατατρόπωσε τη λεία.

Δείτε το στο παρακάτω βίντεο.

“Η ιδέα είναι σχετικά επικίνδυνη – ένας μοναχικός λύκος μπορεί το ξεπεράσει, αλλά βρίσκεται σε ρίσκο να χάσει το κουφάρι από τους οδοκαθαριστές” εξηγεί η ομάδα στην έρευνά της.

“Όμως, όταν και οι δύο λύκοι πιάνουν τη λεία μαζί, μπορούν να προστατέψουν το κουφάρι από τους οδοκαθαριστές, συνεπώς να λάβουν ένα υψηλότερο βραβείο”

Όπως λοιπόν οι πράκτορες του DeepMind έμαθαν από τη Συλλογή (Μήλων) ότι η επιθετικότητα και ο ατομισμός συμψηφισμένα τους έδωσαν τα καλύτερα αποτελέσματα σε αυτό το συγκεκριμένο περιβάλλον, έμαθαν από το Wolfpack ότι η  συνεργασία μπορεί επίσης να είναι το κλειδί για τη μεγαλύτερη ατομική επιτυχία σε ορισμένες περιπτώσεις.

Και ενώ αυτά είναι απλά μικρά παιχνίδια υπολογιστών, το μήνυμα είναι σαφές – βάλτε διαφορετικά συστήματα τεχνητής νοημοσύνης να ανταγωνιστούν για συμφέροντα στην πραγματική ζωή, και θα μπορούσε να ξεσπάσει πόλεμος, αν οι σκοποί τους δεν είναι μετριασμένοι σε σχέση με το τελικό σκοπό, να εξυπηρετούν εμάς τους ανθρώπους πάνω από όλα.

Σκεφτείτε τα φανάρια της τροχαίας να προσπαθούν να επιβραδύνουν τα πράγματα, και αυτοκίνητα χωρίς οδηγό να προσπαθούν να βρουν τον καλύτερο δρόμο – το κάθε ένα πρέπει να λάβει υπ’ όψιν του τους σκοπούς του άλλου για να επιτευχθεί το ασφαλέστερο και πιο αποδοτικό αποτέλεσμα για την κοινωνία.

Είναι ακόμη νωρίς για το DeepMind, και η ομάδα της Google έχει ακόμη να δημοσιεύσει τα αποτελέσματά της σε μια μελέτη προς διαβούλευση, αλλά τα αρχικά αποτελέσματα δείχνουν, ότι επειδή τα κατασκευάσαμε, δεν σημαίνει ότι τα ρομπότ και τα συστήματα τεχνητής νοημοσύνης έχουν εγγενείς τους σκοπούς μας αυτόματα.

Από το Science Alert