Я давно планував написати цей пост, але як раз сьогодні Нобелівський комітет оголосив про присвоєння премії з хімії John Jumper і Demis Hassabis, працівникам Google DeepMind і авторам AlphaFold.
AlphaFold і проблема визначення форми білка давно стала мені близькою і рідною – з моменту початку моєї власної подорожі в біологію з DeepTrait, де ми розробляємо продукт для аналізу генетичних даних. Життя на Землі побудоване з білків, білки синтезуються з РНК, яка, в свою чергу, генерується з ДНК. Наша система виявляє, які саме генетичні механізми чи їх зміни впливають на певний фенотип, і само собою, питання впливу цієї зміни на форму білка було надзвичайно цікавим і потенційно корисним для користувачів.
Попри це, ми вирішили не включати AlphaFold в наш продукт. І ось чому.
AlphaFold
(Цей текст свідомо спрощує біологічні процеси – вони важливі для розуміння проблеми, але лише на базовому рівні.)
Всі властивості організму, включно з талантами і вадами, хворобами, їх розвитком та впливами, є результатом взаємодії білків. У 19 сторіччі доктор Пол Ерліх запропонував ідею, згідно з якою хімічні сполуки здатні точково впливати на фізіологічні процеси в тілі людини. Ця ідея, яку він назвав «магічною кулею», ж основою сучасної фармацевтики. Практично всі ліки, відомі нам на сьогодні, взаємодіють з певними білками – терапевтичними цілями – підвищуючи чи знижуючи їх функцію.
За різними оцінками, в нашому організмі є більше двох мільйонів білків. Ми знаємо функції лише маленької їх частини. Як нам дізнатися, які з цих білків нам потрібно «поцілити», щоб вилікувати певну хворобу?
Білки генеруються з коду нашої ДНК. Молекулярна машинерія зчитує спеціальні ділянки ДНК, які кодують білки – гени – і передають цей код у вигляді молекули РНК в рибосоми, які в свою чергу генерують ланцюжок амінокислот, який на наступному кроці згортається у потрібну форму і стає білком.
Білки відрізняються від молекул неорганічної хімії найперше розмірами – якщо типова неорганічна молекула може складатися з десятків атомів, у білках їх кількість може сягати понад мільйон. Настільки велика складність структури дозволяє білкам виконувати дуже складні функції, порівняно з неорганічними молекулами. Великою мірою функція білків визначається їх формою.
Сьогодні прочитання ДНК людини коштує приблизно 300 доларів США, і ціна продовжує зменшуватися. У нас є величезні масиви генетичної інформації і ми знаємо послідовність амінокислот практично будь-якого білка в нашому організмі. Але як нам дізнатися його форму?
AlphaFold пропонує блискуче рішення: DeepMind знайшов спосіб представити форму білка у вигляді, в якому її могла передбачити нейронна мережа , і навчив модель машинного навчання передбачати елементи форми білка з самої послідовності амінокислот.
Перша версія AlphaFold була опублікована в 2020 році, і DeepMind разом з Google не були занадто скромними. У своєму блозі, DeepMind назвав AlphaFold «рішенням 50-річної проблеми». Джон Моульт (John Moult) з Університету Меріленду казав, що «в певному сенсі проблема визначення форми білка є вирішеною», а Андрєй Лупас (Andrei Lupas), еволюційний біолог з Інституту біології розвитку Макса Планка в Тюбінгені, Німеччина, писав: «Це змінить медицину. Це змінить дослідження. Це змінить біоінженерію. Це все змінить».
У 2021 році Google і DeepMind використали AlphaFold, щоб передбачити і викласти в публічний доступ 365 тисяч білків людини і ще 20 модельних організмів.
Проблема
Основною проблемою AlphaFold, яку надзвичайно важко виправити, є обмеження самих даних.
Будь-яка модель машинного навчання вимагає даних для тренування. І у випадку з формою білків, це дуже дорогі дані.
Історично, форму білків визначали методом рентгеноструктурного аналізу. Білок спочатку кристалізували, після чого через кристал пропускали рентгенівське випромінювання. Потім, за аналізом картини дифракції, визначалася форма складових кристалу – білків.
Кристалографія була надзвичайно складним і дорогим методом. Venki Ramakrishnan, лауреат Нобелівської премії з хімії за відкриття форми рибосоми, детально описав його у своїй книзі Gene Machine: будь-що в експерименті могло піти неправильно, тим самим перекресливши всю роботу: білок міг виявитися недостатньо чистим, кристалізація могла не вдатися, і рентгенівські кристалографи були надзвичайно дорогою і рідкісною машиною, доступною лише невеликій групі вчених і за умови детального планування заздалегідь. Будь-яка затримка у роботі з машиною призводила до того, що своєї наступної черги доводилося чекати багато місяців.
Сьогодні у нас є кріоелектронна мікроскопія – більш точний, але і дорожчий метод визначення форми білка.
Визначення форми білка було і лишається надзвичайно довгим і дорогим процесом. Ціною величезних зусиль, людству вдалося визначити форму приблизно 170 тисяч білків – на яких DeepMind тренував AlphaFold.
Про що нам говорить ця історія?
За своєю природою, моделі машинного навчання добре вміють апроксимувати значення в інтерполяції і погано – в екстраполяції. Тому для навчання якісної моделі нам потрібні дані, які є незалежними і однаково розподіленими на вибірці тих даних, на яких має працювати модель. Іншими словами, якщо ви хочете навчити модель визначати тип дорожнього об’єкту за фотографією, вам потрібно, щоб навчальна вибірка містила і седани, і вантажівки, і велосипеди, і спорткари – бажано, пропорційно до їх кількості на реальних дорогах.
Визначення форми одного білка коштує від 50 до 250 тисяч доларів і може тривати від 6 місяців до 5 років і довше. З такими витратами, які білки будуть пріоритетами біологічних зусиль і бюджетів?
Звісно, найперше ми будемо визначати форму білків, пов’язаних з певними хворобами. Білки взаємодіють в послідовностях – pathways – і в процесі дослідження хвороби ми будемо визначати форми білків, які взаємодіють між собою в процесі формування або прогресування цієї хвороби. Ми не будемо визначати форму «кожного двадцятого білка з усіх відомих білків, відсортованих у випадковому порядку». Це дало би нам ідеальний датасет для навчання моделі машинного навчання, але його у нас немає. Натомість, у нас є датасет з дуже детально пропрацьованими білками з кластерів, що стосуються певних хвороб, і абсолютно нічого з абсолютної більшості інших характеристик організму (фенотипів).
Чи могло так статися, що суто випадково даних з цього, дуже незбалансованого датасету, було би достатньо, щоб з нього визначити форму будь-якого іншого білка в будь-якому організмі? Імовірність цього була близька до нуля.
Чи знали про це автори AlphaFold на етапі планування експерименту. Звісно знали, їх кваліфікація не дозволяє припустити, що вони могли пропустити настільки важливий момент.
Чи вдалося їм справді отримати модель, яка здатна передбачити форму невідомих білків. Ні, не вдалося.
На сьогодні є величезна кількість публікацій, яка демонструє, що передбачення AlphaFold можуть слугувати максимум гіпотезами для визначення форми білка і не можуть замінити експеримент. AlphaFold може більш-менш якісно передбачати форму білків з тих pathways, які представлені в навчальному сеті, і не здатна робити якісні передбачення для білків з pathways, про інші білки з яких ми нічого не знаємо:
І що набагато більш важливо, AlphaFold не здатен передбачити ефект однонуклеотидної заміни (single-nucleotide polymorphism - SNP) на форму білка. SNP є найбільш поширеним видом мутацій, які змінюють форму білка і приводять до генетичних хвороб.
Чи можливо виправити ці недоліки алгоритмічно? Ні, не можливо. Джерелом цих недоліків є природа навчальних даних, і без збору додаткового датасету випадкових білків з випадкових pathways змінити її неможливо.
Чи зупинило це маркетингову машину Google від того, щоб просувати AlphaFold, як універсальне і робоче рішення? Анітрохи. Більше того, історія AlphaFold демонструє, що коли окупність інвестицій вимагає переконання широкої публіки у всемогутності технології, у маленьких наукових груп, які справді зацікавлені в пошуку істини, немає жодних шансів бути почутими.
І це і є основна проблема сучасного AI.
Висновки
Цей пост жодним чином не ставить за мету применшити досягнення авторів AlphaFold – це дуже оригінальна модель з блискучим представленням форми протеїну, доступним для обрахунків і машинного навчання.
Я намагався описати історію AlphaFold в контексті і привернути увагу до роботи інших вчених, які не мають доступу до маркетингових машин великих корпорацій, але чий голос і чиї результати від цього не мають бути забутими.
AlphaFold – лише приклад, але приклад симптоматичний. Так працює інформаційна бульбашка, і оскільки ми, AI інженери, підприємці і ентузіасти вже опинилися в такій бульбашці, зважаймо на те, що в бульбашках речі рідко насправді є такими, якими здаються на перший погляд.