Autor: Roman Bushuiev, Tomáš Pluskal

Přibližně 25% v současnosti vyráběných léčiv pochází přímo z rostlin [1]. Základním zdrojem chemických látek pro vývoj nových léků jsou specializované metabolity, což jsou molekuly produkované rostlinami například za účelem zvýšení jejich plodnosti nebo ochrany proti predátorům. Jelikož chemická syntéza specializovaných metabolitů je velmi náročná (často neproveditelná v praktickém měřítku), v blízké budoucnosti nejudržitelnějším způsobem produkce takových molekul bude biosyntéza v upravených mikroorganismech [2]. Tento přístup však vyžaduje jasné porozumění biosyntetickému procesu cílových molekul. Terpeny, jichž biosyntézu studujeme v naší práci, jsou nejrozsáhlejší skupinou specializovaných metabolitů rostlin. Tudíž, porozumění reakcím biosyntézy terpenů je logickým krokem směrem k nové éře designu léčiv.

V naší práci se zaměřujeme na predikci biosyntézy seskviterpenů – bohaté třídy terpenů obsahujících 15 atomů uhlíku. V porovnání s jinými biosyntézami vyskytujícími se v přírodě, biosyntéza seskviterpenů je relativně jednoduchá a dobře definovaná. V hlavních rysech reakce probíhá tak, že enzym přijme farnesylpyrofosfát jako substrát, odtrhne fosfátovou skupinu a zacyklí zbytek molekuly do složitější struktury – seskviterpenu. Ačkoli rigoróznost reakcí dovoluje je zkoumat pomocí nástrojů z oblasti informatiky, ukazuje se, že klasické algoritmické přístupy nejsou schopné rozluštit tajemství biosyntézy, a to ani přibližně.

Umělá inteligence již prokázala svoje schopnosti na jiných náročných úlohách daných přírodou. Například neuronová síť AlphaFold dokáže predikovat 3D strukturu proteinu s vysokou přesností jen na základě sekvence aminokyselin [3]. Nebo takzvané Message Passing Neural Networks jsou schopné výborně rozpoznávat vlastnosti malých molekul a jeden takový model objevil nové širokospektrální antibiotikum – halicin [4].

Kombinace neuronových sítí navržená v naší práci byla postavena s cílem predikovat biosyntézu terpenů (s ohledem na zobecnění na další třídy molekul) a byla otestována na predikci biosyntézy seskviterpenů. Podle našeho nejlepšího vědomí, je to první model určený k predikci produktů biosyntéz přímo ze sekvencí aminokyselin enzymů. Model funguje následovně. Dvě nezávislé neuronové sítě převádí malé molekuly a enzymy do dvou vektorových prostoru. Následovně, třetí neuronová síť učí přiřazovat vektory malých molekul vektorům enzymů, tak aby takové přiřazení odpovídalo skutečným biosyntézám specializovaných metabolitů. To, že prostory jsou vektorové, znamená, že můžeme provádět aritmetické operace nad proteiny a molekulami a teoreticky tedy můžou mít smysl i takové slovní obraty jako: odečtu produkt A od substrátu B, přičtu výsledek k molekule C a dostanu nový produkt D. Neuronové sítě se v podstatě jen učí jak rozmísťovat molekuly v takových prostorech co nejlépe vzhledem k formulované úloze.

Aby se vyznal v tom jak funguje biosyntéza seskviterpenů, náš model měl jen několik stovek popsaných reakcí. Nicméně, zvládl najít zákonitosti v sofistikovaném přírodním 2 procesu. Výsledky práce ukazují, že naše neuronová síť dokáže přesně predikovat každou třetí reakcí s vysokou jistotou a většina zbývajících predikci celkově odpovídá skutečné struktuře produktů reakcí.

Obrázek 1. Tři náhodné příklady predikcí modelu navrženého v naší praci v porovnání se skutečnými produkty biosyntéz.

V budoucnu plánujeme pokračovat prací v predikci biosyntéz. Věřím, že jednoho dne sjednotíme oblasti biochemii, matematiky a strojového učení do takové míry, že budeme vnímat biosyntézy (a jiné přírodní procesy) jako jasně definované operace ve formálních matematických prostorech.

Odkazy

[1] S.M.K Rates. Plants as source of drugs. Toxicon, 39(5):603–613, 2001. ISSN 0041-0101. https://doi.org/10.1016/S0041-0101(00)00154-9.
[2] Michael E. Pyne et al. Engineering Plant Secondary Metabolism in Microbial Systems. Plant Physiology, Volume 179, Issue 3, Pages 844–861. https://doi.org/10.1104/pp.18.01291
[3] Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2.
[4] Jonathan M. Stokes, Kevin Yang, Kyle Swanson et al., Cell, Volume 181, Issue 2, 16 April 2020, Pages 475-483. https://doi.org/10.1016/j.cell.2020.01.021.

Roman Bushuiev

Laureát ceny Via Chimica pro rok 2022 Roman Bushuiev se narodil v ukrajinském Doněcku. Po absolvování gymnázia v Kyjevě odešel studovat do Prahy. Je studentem prvního ročníku magisterského studia informatiky na ČVUT v Praze, obor znalostní inženýrství. Zároveň pracuje na ÚOCHB AV ČR ve výzkumné skupině Tomáš Pluskala a podílí se na výzkumu analýzy biosyntetických drah specializovaných metabolitů v rostlinách.