
ความสมบูรณ์ของจักรวาลที่รู้จักนั้นเต็มไปด้วยโมเลกุลจำนวนอนันต์ แต่ส่วนใดของโมเลกุลเหล่านี้ที่มีลักษณะเหมือนยาที่สามารถนำมาใช้ในการพัฒนายารักษาชีวิตได้? ล้าน? พันล้าน? ล้านล้าน? คำตอบ: novemdecillion หรือ 10 60 . จำนวนมหาศาลนี้ช่วยยืดอายุกระบวนการพัฒนายาสำหรับโรคที่แพร่ระบาดอย่างรวดเร็ว เช่น โควิด-19 เพราะมันอยู่ไกลเกินกว่าที่โมเดลการออกแบบยาที่มีอยู่จะคำนวณได้ ทางช้างเผือกมีดาวประมาณ 100,000 ล้าน ดวง หรือ 10 8ดวง
ในบทความที่จะนำเสนอในการประชุมระหว่างประเทศว่าด้วยการเรียนรู้ด้วยเครื่อง (ICML) นักวิจัยของ MIT ได้พัฒนาแบบจำลองการเรียนรู้เชิงลึกทางเรขาคณิตที่เรียกว่า EquiBind ซึ่งเร็วกว่า QuickVina2-W ซึ่งเป็นแบบจำลองการคำนวณโมเลกุลที่เร็วที่สุดที่มีอยู่ 1,200 เท่าใน ประสบความสำเร็จในการผูกโมเลกุลที่เหมือนยากับโปรตีน EquiBind ขึ้นอยู่กับรุ่นก่อน EquiDockซึ่งเชี่ยวชาญในการผูกโปรตีนสองชนิดโดยใช้เทคนิคที่พัฒนาโดยOctavian-Eugen Ganea ตอนปลาย MIT Computer Science and Artificial Intelligence Laboratory และ Abdul Latif Jameel Clinic for Machine Learning in Health (Jameel Clinic) postdoc ซึ่งเป็นผู้ร่วมเขียนบทความ EquiBind
ก่อนที่การพัฒนายาจะเกิดขึ้น นักวิจัยด้านยาต้องค้นหาโมเลกุลที่คล้ายยาที่มีแนวโน้มว่าจะสามารถผูกมัดหรือ “เทียบเคียง” กับเป้าหมายโปรตีนบางอย่างได้อย่างถูกต้องในกระบวนการที่เรียกว่าการค้นพบยา หลังจากที่เชื่อมต่อกับโปรตีนได้สำเร็จ ยายึดเกาะหรือที่เรียกว่าแกนด์สามารถหยุดการทำงานของโปรตีนได้ หากสิ่งนี้เกิดขึ้นกับโปรตีนที่จำเป็นของแบคทีเรีย มันสามารถฆ่าเชื้อแบคทีเรีย ให้การปกป้องร่างกายมนุษย์
อย่างไรก็ตาม กระบวนการค้นพบยาอาจมีค่าใช้จ่ายสูงทั้งในด้านการเงินและด้านการคำนวณ โดยเงินจำนวนหลายพันล้านดอลลาร์ถูกหลั่งเข้าสู่กระบวนการ และกว่าทศวรรษของการพัฒนาและการทดสอบก่อนที่จะได้รับการอนุมัติขั้นสุดท้ายจากสำนักงานคณะกรรมการอาหารและยา ยิ่งไปกว่านั้น90 เปอร์เซ็นต์ของยาทั้งหมดล้มเหลวเมื่อได้รับการทดสอบในมนุษย์เนื่องจากไม่มีผลหรือผลข้างเคียงมากเกินไป วิธีหนึ่งที่บริษัทยาชดใช้ต้นทุนของความล้มเหลวเหล่านี้คือการขึ้นราคายาที่ประสบความสำเร็จ
กระบวนการคำนวณในปัจจุบันสำหรับการค้นหาโมเลกุลของตัวยาที่มีแนวโน้มจะเป็นเช่นนี้: โมเดลการคำนวณที่ล้ำสมัยส่วนใหญ่อาศัยการสุ่มตัวอย่างในผู้สมัครจำนวนมากควบคู่ไปกับวิธีการต่างๆ เช่น การให้คะแนน การจัดอันดับ และการปรับแต่งเพื่อให้ได้ “ความพอดี” ที่ดีที่สุดระหว่าง ลิแกนด์และโปรตีน
Hannes Stärk นักศึกษาระดับบัณฑิตศึกษาชั้นปีที่ 1 ของ MIT Department of Electrical Engineering and Computer Science และผู้เขียนนำรายงานฉบับนี้ เปรียบเสมือนวิธีการผูกมัดระหว่างลิแกนด์กับโปรตีนกับ “การพยายามใส่กุญแจเข้าไปในตัวล็อคที่มีรูกุญแจจำนวนมาก ” โมเดลทั่วไปจะใช้เวลาให้คะแนน “พอดี” แต่ละรายการก่อนที่จะเลือกรุ่นที่ดีที่สุด ในทางตรงกันข้าม EquiBind จะคาดการณ์ตำแหน่งคีย์ที่แม่นยำโดยตรงในขั้นตอนเดียวโดยที่ไม่ทราบล่วงหน้าเกี่ยวกับกระเป๋าเป้าหมายของโปรตีน ซึ่งเรียกว่า “การเทียบท่าแบบตาบอด “
แตกต่างจากแบบจำลองส่วนใหญ่ที่ต้องใช้ความพยายามหลายครั้งเพื่อค้นหาตำแหน่งที่เหมาะสมสำหรับลิแกนด์ในโปรตีน EquiBind มีการให้เหตุผลทางเรขาคณิตในตัวที่ช่วยให้แบบจำลองเรียนรู้ฟิสิกส์พื้นฐานของโมเลกุลและประสบความสำเร็จในการทำนายที่ดีขึ้นเมื่อพบข้อมูลใหม่ที่มองไม่เห็น .
การค้นพบนี้ได้รับความสนใจอย่างรวดเร็วจากผู้เชี่ยวชาญในอุตสาหกรรม ซึ่งรวมถึง Pat Walters หัวหน้าเจ้าหน้าที่ข้อมูลของ Relay Therapeutics วอลเตอร์สแนะนำว่าทีมงานลองใช้แบบจำลองของพวกเขากับยาที่มีอยู่แล้วและโปรตีนที่ใช้สำหรับมะเร็งปอด มะเร็งเม็ดเลือดขาว และเนื้องอกในทางเดินอาหาร ในขณะที่วิธีการเทียบท่าแบบดั้งเดิมส่วนใหญ่ล้มเหลวในการผูกลิแกนด์ที่ทำงานกับโปรตีนเหล่านั้นได้สำเร็จ EquiBind ก็ประสบความสำเร็จ
“EquiBind นำเสนอโซลูชันที่ไม่เหมือนใครสำหรับปัญหาการเทียบท่าที่รวมเอาทั้งการทำนายท่าทางและการระบุไซต์ที่มีผลผูกพัน” วอลเตอร์สกล่าว “แนวทางนี้ซึ่งใช้ประโยชน์จากข้อมูลจากโครงสร้างผลึกที่เปิดเผยต่อสาธารณะหลายพันชนิด มีศักยภาพที่จะส่งผลกระทบต่อภาคสนามในรูปแบบใหม่”
“เราประหลาดใจที่วิธีการอื่นๆ ทั้งหมดผิดพลาดหรือถูกต้องเพียงวิธีเดียว แต่ EquiBind ก็สามารถใส่ลงในกระเป๋าที่ถูกต้องได้ เราจึงมีความสุขมากที่ได้เห็นผลลัพธ์นี้” Stärk กล่าว
ในขณะที่ EquiBind ได้รับการตอบรับเป็นอย่างดีจากผู้เชี่ยวชาญในอุตสาหกรรม ซึ่งช่วยให้ทีมพิจารณาการใช้งานจริงสำหรับโมเดลการคำนวณ แต่ Stärk หวังว่าจะพบมุมมองที่แตกต่างที่ ICML ที่กำลังจะมีขึ้นในเดือนกรกฎาคม
“คำติชมที่ฉันตั้งตารอมากที่สุดคือคำแนะนำเกี่ยวกับวิธีการปรับปรุงโมเดลให้ดียิ่งขึ้น” เขากล่าว “ฉันต้องการหารือกับนักวิจัยเหล่านั้น … เพื่อบอกพวกเขาว่าฉันคิดว่าอะไรสามารถเป็นขั้นตอนต่อไปและกระตุ้นให้พวกเขาไปข้างหน้าและใช้แบบจำลองสำหรับเอกสารของพวกเขาเองและสำหรับวิธีการของพวกเขาเอง … เรามีนักวิจัยหลายคนที่เอื้อมมือออกไปแล้ว ถามว่าเราคิดว่าโมเดลนี้มีประโยชน์สำหรับปัญหาของพวกเขาหรือไม่”
งานนี้ได้รับทุนบางส่วนโดยกลุ่ม Pharmaceutical Discovery and Synthesis จามีลคลินิก; โครงการ DTRA Discovery of Medical Countermeasures Against New and Emerging Threats; โปรแกรม DARPA Accelerated Molecular Discovery; MIT-Takeda Fellowship; และ NSF Expeditions มอบการวิจัยร่วมกัน: การทำความเข้าใจโลกด้วยรหัส
งานนี้อุทิศให้กับความทรงจำของ Octavian-Eugen Ganea ผู้ซึ่งมีส่วนสำคัญอย่างยิ่งต่อการวิจัยการเรียนรู้ด้วยเครื่องเรขาคณิตและให้คำปรึกษาแก่นักเรียนจำนวนมาก – นักวิชาการที่ยอดเยี่ยมที่มีจิตวิญญาณที่ถ่อมตน