Předpovídání struktury proteinů ze sekvence je dlouhodobý problém. Algoritmus strojového učení AlphaFold nedávno poskytl struktury pro více než 200 milionů proteinů, které by jinak byly k dispozici pouze jako sekvence. Všechny předpovězené struktury jsou uloženy v databázi AlphaFold DB.
Jak ale v tak rozsáhlé databázi efektivně vyhledat relevantní strukturu (nebo soubor relevantních struktur)? Jedním ze způsobů je dotazovat se databáze pomocí vstupní struktury a algoritmu pro vyhledávání podobnosti. Tento přístup je implementován ve webovém vyhledávači AlphaFind, který využívá model strojového učení k vyhledávání proteinů s terciární strukturou podobnou té, kterou uživatel zadá jako vyhledávací dotaz.
AlphaFind byl nedávno publikován v čísle webového serveru časopisu Nucleic Acids Research. Jeho článek nese název AlphaFind: discover structure similarity across the proteome in AlphaFold DB. Softwarový nástroj i článek jsou výsledkem naší spolupráce s Fakultou informatiky a Ústavem výpočetní techniky Masarykovy univerzity.