Ένας διάσημος AI έμαθε ένα νέο κόλπο: Πώς να κάνετε χημεία

Η τεχνητή νοημοσύνη έχει αλλάξει τον τρόπο με τον οποίο γίνεται η επιστήμη, επιτρέποντας στους ερευνητές να αναλύουν τις τεράστιες ποσότητες δεδομένων που παράγουν τα σύγχρονα επιστημονικά όργανα. Μπορεί να βρει μια βελόνα σε ένα εκατομμύριο θημωνιές πληροφοριών και, χρησιμοποιώντας βαθιά μάθηση, μπορεί να μάθει από τα ίδια τα δεδομένα. Η τεχνητή νοημοσύνη επιταχύνει τις προόδους στο κυνήγι γονιδίων, την ιατρική, το σχεδιασμό φαρμάκων και τη δημιουργία οργανικών ενώσεων.

Η βαθιά μάθηση χρησιμοποιεί αλγόριθμους, συχνά νευρωνικά δίκτυα που εκπαιδεύονται σε μεγάλες ποσότητες δεδομένων, για να εξάγει πληροφορίες από νέα δεδομένα. Είναι πολύ διαφορετικό από τον παραδοσιακό υπολογιστή με τις βήμα προς βήμα οδηγίες του. Αντίθετα, μαθαίνει από δεδομένα. Η βαθιά μάθηση είναι πολύ λιγότερο διαφανής από τον παραδοσιακό προγραμματισμό υπολογιστών, αφήνοντας σημαντικά ερωτήματα – τι έχει μάθει το σύστημα, τι γνωρίζει;

Ως καθηγητής χημείας, μου αρέσει να σχεδιάζω τεστ που έχουν τουλάχιστον μια δύσκολη ερώτηση που διευρύνει τις γνώσεις των μαθητών για να διαπιστώσει εάν μπορούν να συνδυάσουν διαφορετικές ιδέες και να συνθέσουν νέες ιδέες και έννοιες. Επινοήσαμε μια τέτοια ερώτηση για το παιδί της αφίσας των υποστηρικτών της τεχνητής νοημοσύνης, το AlphaFold, το οποίο έχει λύσει το πρόβλημα της αναδίπλωσης των πρωτεϊνών.

Αναδίπλωση πρωτεΐνης

Οι πρωτεΐνες υπάρχουν σε όλους τους ζωντανούς οργανισμούς. Παρέχουν στα κύτταρα δομή, καταλύουν αντιδράσεις, μεταφέρουν μικρά μόρια, αφομοιώνουν την τροφή και κάνουν πολλά περισσότερα. Αποτελούνται από μακριές αλυσίδες αμινοξέων σαν χάντρες σε κορδόνι. Αλλά για να κάνει μια πρωτεΐνη τη δουλειά της στο κύτταρο, πρέπει να στρίψει και να λυγίσει σε μια πολύπλοκη τρισδιάστατη δομή, μια διαδικασία που ονομάζεται αναδίπλωση πρωτεΐνης. Οι λανθασμένες πρωτεΐνες μπορεί να οδηγήσουν σε ασθένεια.

Στην ομιλία του για την αποδοχή του Νόμπελ χημείας το 1972, ο Christiaan Anfinsen υπέθεσε ότι θα πρέπει να είναι δυνατός ο υπολογισμός της τρισδιάστατης δομής μιας πρωτεΐνης από την αλληλουχία των δομικών στοιχείων της, τα αμινοξέα.

Ακριβώς όπως η σειρά και η απόσταση των γραμμάτων σε αυτό το άρθρο δίνουν νόημα και μήνυμα, έτσι και η σειρά των αμινοξέων καθορίζει την ταυτότητα και το σχήμα της πρωτεΐνης, γεγονός που έχει ως αποτέλεσμα τη λειτουργία της.

ένα γραφικό που δείχνει μια γραμμή που μοιάζει με νήμα στα αριστερά και μια περιελιγμένη δομή στα δεξιά
Μέσα σε χιλιοστά του δευτερολέπτου από την έξοδο μιας αλυσίδας αμινοξέων (αριστερά) από το ριβόσωμα, διπλώνεται στο σχήμα 3D με τη χαμηλότερη ενέργεια (δεξιά), το οποίο απαιτείται για τη λειτουργία της πρωτεΐνης.
Μαρκ ΖίμερCC BY-ND

Λόγω της εγγενούς ευελιξίας των δομικών στοιχείων αμινοξέων, μια τυπική πρωτεΐνη μπορεί να υιοθετήσει περίπου 10 έως την ισχύ 300 διαφορετικών μορφών. Αυτός είναι ένας τεράστιος αριθμός, μεγαλύτερος από τον αριθμό των ατόμων στο σύμπαν. Ωστόσο, μέσα σε ένα χιλιοστό του δευτερολέπτου, κάθε πρωτεΐνη σε έναν οργανισμό θα διπλωθεί στο δικό της συγκεκριμένο σχήμα – τη διάταξη με τη χαμηλότερη ενέργεια από όλους τους χημικούς δεσμούς που συνθέτουν την πρωτεΐνη. Αλλάξτε μόνο ένα αμινοξύ στα εκατοντάδες αμινοξέα που συνήθως βρίσκονται σε μια πρωτεΐνη και μπορεί να αναδιπλωθεί λάθος και να μην λειτουργεί πλέον.

AlphaFold

Επί 50 χρόνια επιστήμονες υπολογιστών προσπάθησαν να λύσουν το πρόβλημα της αναδίπλωσης των πρωτεϊνών – με μικρή επιτυχία. Στη συνέχεια, το 2016 η DeepMind, θυγατρική τεχνητής νοημοσύνης της μητρικής Alphabet της Google, ξεκίνησε το πρόγραμμά της AlphaFold. Ως εκπαιδευτικό σετ χρησιμοποίησε την τράπεζα δεδομένων πρωτεϊνών, η οποία περιέχει τις πειραματικά προσδιορισμένες δομές περισσότερων από 150.000 πρωτεϊνών.

Σε λιγότερο από πέντε χρόνια, το AlphaFold είχε ξεπεράσει το πρόβλημα της αναδίπλωσης των πρωτεϊνών – τουλάχιστον το πιο χρήσιμο μέρος του, δηλαδή τον προσδιορισμό της δομής της πρωτεΐνης από την αλληλουχία αμινοξέων του. Το AlphaFold δεν εξηγεί πώς οι πρωτεΐνες διπλώνουν τόσο γρήγορα και με ακρίβεια. Ήταν μια σημαντική νίκη για την τεχνητή νοημοσύνη, επειδή όχι μόνο απέκτησε τεράστιο επιστημονικό κύρος, ήταν επίσης μια σημαντική επιστημονική πρόοδος που θα μπορούσε να επηρεάσει τις ζωές όλων.

Σήμερα, χάρη σε προγράμματα όπως το AlphaFold2 και το RoseTTAFold, ερευνητές όπως εγώ μπορούν να προσδιορίσουν την τρισδιάστατη δομή των πρωτεϊνών από την αλληλουχία των αμινοξέων που συνθέτουν την πρωτεΐνη –χωρίς κόστος– σε μία ή δύο ώρες. Πριν από το AlphaFold2 έπρεπε να κρυσταλλώσουμε τις πρωτεΐνες και να λύσουμε τις δομές χρησιμοποιώντας κρυσταλλογραφία ακτίνων Χ, μια διαδικασία που κράτησε μήνες και κόστισε δεκάδες χιλιάδες δολάρια ανά δομή.

Τώρα έχουμε επίσης πρόσβαση στη βάση δεδομένων AlphaFold Protein Structure, όπου η Deepmind έχει καταθέσει τις τρισδιάστατες δομές σχεδόν όλων των πρωτεϊνών που βρίσκονται σε ανθρώπους, ποντίκια και σε περισσότερα από 20 άλλα είδη. Μέχρι σήμερα έχει λύσει περισσότερες από ένα εκατομμύριο δομές και σχεδιάζει να προσθέσει άλλες 100 εκατομμύρια δομές μόνο φέτος. Η γνώση των πρωτεϊνών έχει εκτοξευθεί στα ύψη. Η δομή του μισού όλων των γνωστών πρωτεϊνών είναι πιθανό να τεκμηριωθεί μέχρι το τέλος του 2022, μεταξύ των οποίων πολλές νέες μοναδικές δομές που σχετίζονται με νέες χρήσιμες λειτουργίες.

Σκέφτομαι σαν χημικός

Το AlphaFold2 δεν σχεδιάστηκε για να προβλέψει πώς οι πρωτεΐνες θα αλληλεπιδράσουν μεταξύ τους, ωστόσο ήταν σε θέση να μοντελοποιήσει πώς συνδυάζονται μεμονωμένες πρωτεΐνες για να σχηματίσουν μεγάλες σύνθετες μονάδες που αποτελούνται από πολλαπλές πρωτεΐνες. Είχαμε μια προκλητική ερώτηση για το AlphaFold – το δομικό σετ εκπαίδευσης του είχε διδάξει κάποια χημεία; Θα μπορούσε να πει αν τα αμινοξέα θα αντιδρούσαν μεταξύ τους – ένα σπάνιο αλλά σημαντικό φαινόμενο;

Είμαι ένας υπολογιστικός χημικός που ενδιαφέρεται για τις φθορίζουσες πρωτεΐνες. Αυτές είναι πρωτεΐνες που βρίσκονται σε εκατοντάδες θαλάσσιους οργανισμούς όπως οι μέδουσες και τα κοράλλια. Η λάμψη τους μπορεί να χρησιμοποιηθεί για να φωτίσει και να μελετήσει ασθένειες.

δύο πολύχρωμες σταγόνες με φωτεινές γραμμές στο εσωτερικό τους σε μαύρο φόντο
Οι νευρώνες που εκφράζουν φθορίζουσες πρωτεΐνες αποκαλύπτουν τις δομές του εγκεφάλου δύο προνυμφών από μύγες φρούτων.
Wen Lu and Vladimir I. Gelfand, Feinberg School of Medicine, Northwestern University

Υπάρχουν 578 φθορίζουσες πρωτεΐνες στη τράπεζα δεδομένων πρωτεϊνών, από τις οποίες οι 10 είναι «σπασμένες» και δεν φθορίζουν. Οι πρωτεΐνες σπάνια επιτίθενται στον εαυτό τους, μια διαδικασία που ονομάζεται αυτοκαταλυτική μετα-μεταφραστική τροποποίηση, και είναι πολύ δύσκολο να προβλεφθεί ποιες πρωτεΐνες θα αντιδράσουν με τον εαυτό τους και ποιες όχι.

Μόνο ένας χημικός με σημαντική γνώση της φθορίζουσας πρωτεΐνης θα μπορούσε να χρησιμοποιήσει την αλληλουχία αμινοξέων για να βρει τις φθορίζουσες πρωτεΐνες που έχουν τη σωστή αλληλουχία αμινοξέων για να υποστούν τους χημικούς μετασχηματισμούς που απαιτούνται για να γίνουν φθορίζουσες. Όταν παρουσιάσαμε το AlphaFold2 με τις αλληλουχίες 44 φθοριζουσών πρωτεϊνών που δεν βρίσκονται στη βάση δεδομένων πρωτεϊνών, δίπλωσε τις σταθερές φθορίζουσες πρωτεΐνες διαφορετικά από τις σπασμένες.

ένα διάγραμμα που δείχνει μια λάμπα στα αριστερά και το στέλεχος μόνο μιας λάμπας στα δεξιά
Το AlphaFold2 μπορεί να πάρει την αλληλουχία αμινοξέων των φθοριζουσών πρωτεϊνών (γράμματα στην κορυφή) και να προβλέψει τα τρισδιάστατα σχήματα κάννης τους (μέση). Αυτό δεν προκαλεί έκπληξη. Αυτό που είναι εντελώς απροσδόκητο είναι ότι μπορεί επίσης να προβλέψει ποιες φθορίζουσες πρωτεΐνες είναι «σπασμένες» και δεν μπορούν να φθορίσουν.
Μαρκ ΖίμερCC BY-ND

Το αποτέλεσμα μας εξέπληξε: ο AlphaFold2 είχε μάθει λίγη χημεία. Είχε καταλάβει ποια αμινοξέα στις φθορίζουσες πρωτεΐνες κάνουν τη χημεία που τις κάνει να λάμπουν. Υποψιαζόμαστε ότι το σετ εκπαίδευσης της τράπεζας δεδομένων πρωτεϊνών και οι πολλαπλές ευθυγραμμίσεις αλληλουχιών επιτρέπουν στο AlphaFold2 να «σκέφτεται» όπως οι χημικοί και να αναζητά τα αμινοξέα που απαιτούνται για να αντιδράσουν μεταξύ τους για να γίνει η πρωτεΐνη φθορίζουσα.

Ένα αναδιπλούμενο πρόγραμμα που μαθαίνει κάποια χημεία από το σετ προπόνησής του έχει επίσης ευρύτερες επιπτώσεις. Κάνοντας τις σωστές ερωτήσεις, τι άλλο μπορεί να κερδίσει κανείς από άλλους αλγόριθμους βαθιάς μάθησης; Θα μπορούσαν οι αλγόριθμοι αναγνώρισης προσώπου να βρουν κρυφούς δείκτες για ασθένειες; Θα μπορούσαν οι αλγόριθμοι που έχουν σχεδιαστεί για την πρόβλεψη των προτύπων δαπανών μεταξύ των καταναλωτών να βρουν επίσης μια τάση για μικροκλοπές ή εξαπάτηση; Και το πιο σημαντικό, είναι αυτή η ικανότητα – και παρόμοια άλματα ικανότητας σε άλλα συστήματα τεχνητής νοημοσύνης – επιθυμητή;

Author: admin

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται.