Wu Enhui, Qiao Liang*
Wydział Chemii, Uniwersytet Fudan, Szanghaj 200433, Chiny
Mikroorganizmy są ściśle powiązane z chorobami i zdrowiem człowieka. Zrozumienie składu zbiorowisk drobnoustrojów i ich funkcji jest głównym problemem wymagającym pilnego zbadania. W ostatnich latach metaproteomika stała się ważnym środkiem technicznym do badania składu i funkcji mikroorganizmów. Jednak ze względu na złożoność i wysoką heterogeniczność próbek społeczności drobnoustrojów, przetwarzanie próbek, gromadzenie danych za pomocą spektrometrii mas i analiza danych stały się trzema głównymi wyzwaniami stojącymi obecnie przed metaproteomiką. W analizie metaproteomicznej często konieczna jest optymalizacja wstępnej obróbki różnych typów próbek i przyjęcie różnych schematów separacji, wzbogacania, ekstrakcji i lizy drobnoustrojów. Podobnie jak w przypadku proteomu pojedynczego gatunku, tryby gromadzenia danych za pomocą spektrometrii mas w metaproteomice obejmują tryb akwizycji zależnej od danych (DDA) i tryb akwizycji niezależnej od danych (DIA). Tryb akwizycji danych DIA może całkowicie zebrać informacje o peptydach z próbki i ma ogromny potencjał rozwojowy. Jednak ze względu na złożoność próbek metaproteomów analiza danych DIA stała się głównym problemem, który utrudnia głębokie pokrycie metaproteomiki. Z punktu widzenia analizy danych najważniejszym krokiem jest zbudowanie bazy danych sekwencji białek. Rozmiar i kompletność bazy danych ma nie tylko duży wpływ na liczbę identyfikacji, ale także wpływa na analizę na poziomie gatunkowym i funkcjonalnym. Obecnie złotym standardem w budowie bazy danych metaproteomów jest baza danych sekwencji białek oparta na metagenomie. Jednocześnie udowodniono, że metoda filtrowania publicznych baz danych oparta na przeszukiwaniu iteracyjnym ma również dużą wartość praktyczną. Z punktu widzenia konkretnych strategii analizy danych, metody analizy danych DIA skoncentrowane na peptydach zajmują absolutny główny nurt. Wraz z rozwojem głębokiego uczenia się i sztucznej inteligencji znacznie poprawi to dokładność, zasięg i szybkość analizy analizy danych makroproteomicznych. Jeśli chodzi o dalszą analizę bioinformatyczną, w ostatnich latach opracowano szereg narzędzi do adnotacji, które umożliwiają dokonywanie adnotacji gatunków na poziomie białka, poziomu peptydów i poziomu genów w celu uzyskania składu zbiorowisk drobnoustrojów. W porównaniu z innymi metodami omicznymi, analiza funkcjonalna społeczności drobnoustrojów jest unikalną cechą makroproteomiki. Makroproteomika stała się ważną częścią multiomicznej analizy zbiorowisk drobnoustrojów i nadal ma ogromny potencjał rozwojowy pod względem głębokości pokrycia, czułości wykrywania i kompletności analizy danych.
01Przygotowanie próbki
Obecnie technologia metaproteomiki jest szeroko stosowana w badaniach ludzkiego mikrobiomu, gleby, żywności, oceanów, osadu czynnego i innych dziedzin. W porównaniu z analizą proteomu pojedynczego gatunku, wstępna obróbka metaproteomu złożonych próbek wiąże się z większymi wyzwaniami. Skład drobnoustrojów w rzeczywistych próbkach jest złożony, dynamiczny zakres liczebności jest duży, struktura ściany komórkowej różnych typów mikroorganizmów jest bardzo różna, a próbki często zawierają dużą ilość białek gospodarza i innych zanieczyszczeń. Dlatego w analizie metaproteomu często konieczna jest optymalizacja różnych typów próbek i przyjęcie różnych schematów separacji, wzbogacania, ekstrakcji i lizy drobnoustrojów.
Ekstrakcja metaproteomów drobnoustrojów z różnych próbek wykazuje pewne podobieństwa, a także pewne różnice, ale obecnie brakuje ujednoliconego procesu wstępnego przetwarzania dla różnych typów próbek metaproteomów.
02Akwizycja danych ze spektrometrii mas
W analizie proteomu typu shotgun mieszanina peptydów po wstępnej obróbce jest najpierw rozdzielana w kolumnie chromatograficznej, a następnie wprowadzana do spektrometru mas w celu gromadzenia danych po jonizacji. Podobnie jak w przypadku analizy proteomu pojedynczego gatunku, tryby gromadzenia danych ze spektrometrii mas w analizie makroproteomu obejmują tryb DDA i tryb DIA.
Dzięki ciągłej iteracji i aktualizacji instrumentów spektrometrii mas do metaproteomu stosuje się instrumenty spektrometrii mas o wyższej czułości i rozdzielczości, a głębokość analizy metaproteomu jest również stale ulepszana. Przez długi czas w metaproteomach szeroko stosowano szereg instrumentów do spektrometrii mas o wysokiej rozdzielczości, na czele których stoi firma Orbitrap.
Tabela 1 oryginalnego tekstu przedstawia niektóre reprezentatywne badania dotyczące metaproteomiki od 2011 r. do chwili obecnej pod względem rodzaju próbki, strategii analizy, instrumentu spektrometrii mas, metody akwizycji, oprogramowania do analizy i liczby identyfikacji.
03Analiza danych ze spektrometrii mas
3.1 Strategia analizy danych DDA
3.1.1 Przeszukiwanie bazy danych
3.1.2od nowastrategia sekwencjonowania
3.2 Strategia analizy danych DIA
04Klasyfikacja gatunków i adnotacja funkcjonalna
Skład zbiorowisk drobnoustrojów na różnych poziomach taksonomicznych jest jednym z kluczowych obszarów badawczych w badaniach nad mikrobiomami. W ostatnich latach opracowano szereg narzędzi do adnotacji umożliwiających opisywanie gatunków na poziomie białka, poziomu peptydów i poziomu genów w celu uzyskania składu zbiorowisk drobnoustrojów.
Istotą adnotacji funkcjonalnej jest porównanie docelowej sekwencji białka z bazą danych sekwencji białek funkcjonalnych. Korzystając z baz danych funkcji genów, takich jak GO, COG, KEGG, jajkoNOG itp., można przeprowadzić różne analizy adnotacji funkcjonalnych na białkach identyfikowanych przez makroproteomy. Narzędzia do adnotacji obejmują Blast2GO, DAVID, KOBAS itp.
05Podsumowanie i perspektywy
Mikroorganizmy odgrywają ważną rolę w zdrowiu i chorobie człowieka. W ostatnich latach metaproteomika stała się ważnym środkiem technicznym do badania funkcji zbiorowisk drobnoustrojów. Proces analityczny metaproteomiki jest podobny do procesu proteomiki pojedynczego gatunku, ale ze względu na złożoność przedmiotu badań metaproteomiki, na każdym etapie analizy, od wstępnej obróbki próbki, gromadzenia danych po analizę danych, należy przyjąć określone strategie badawcze. Obecnie, dzięki udoskonalaniu metod obróbki wstępnej, ciągłym innowacjom technologii spektrometrii mas i szybkiemu rozwojowi bioinformatyki, metaproteomika poczyniła ogromne postępy w zakresie głębokości identyfikacji i zakresu zastosowań.
W procesie wstępnej obróbki próbek makroproteomów należy w pierwszej kolejności wziąć pod uwagę charakter próbki. Oddzielenie mikroorganizmów od komórek i białek środowiskowych jest jednym z kluczowych wyzwań stojących przed makroproteomami, a równowaga pomiędzy wydajnością separacji a utratą drobnoustrojów stanowi pilny problem do rozwiązania. Po drugie, ekstrakcja białek mikroorganizmów musi uwzględniać różnice spowodowane heterogenicznością strukturalną różnych bakterii. Próbki makroproteomów w zakresie śladowym również wymagają specjalnych metod obróbki wstępnej.
Jeśli chodzi o instrumenty spektrometrii mas, główne instrumenty spektrometrii mas przeszły przejście od spektrometrów mas opartych na analizatorach mas Orbitrap, takich jak LTQ-Orbitrap i Q Exactive, do spektrometrów mas opartych na analizatorach czasu przelotu sprzężonych z ruchliwością jonów, takich jak timsTOF Pro . Seria przyrządów timsTOF z informacjami o wymiarach ruchliwości jonów charakteryzuje się wysoką dokładnością wykrywania, niską granicą wykrywalności i dobrą powtarzalnością. Stopniowo stały się ważnymi instrumentami w różnych dziedzinach badań, które wymagają wykrywania spektrometrią mas, takich jak proteom, metaproteom i metabolom pojedynczego gatunku. Warto zauważyć, że przez długi czas zakres dynamiczny instrumentów spektrometrii mas ograniczał głębokość pokrycia białek w badaniach metaproteomów. W przyszłości instrumenty spektrometrii mas o większym zakresie dynamicznym mogą poprawić czułość i dokładność identyfikacji białek w metaproteomach.
Chociaż w przypadku proteomu pojedynczego gatunku powszechnie przyjęto tryb gromadzenia danych DIA, w przypadku akwizycji danych za pomocą spektrometrii mas, większość obecnych analiz makroproteomów nadal wykorzystuje tryb akwizycji danych DDA. Tryb akwizycji danych DIA umożliwia pełne uzyskanie informacji o jonach fragmentów próbki i w porównaniu z trybem akwizycji danych DDA umożliwia pełne uzyskanie informacji o peptydach z próbki makroproteomu. Jednak ze względu na dużą złożoność danych DIA analiza danych makroproteomów DIA nadal napotyka duże trudności. Oczekuje się, że rozwój sztucznej inteligencji i głębokiego uczenia się poprawi dokładność i kompletność analizy danych DIA.
W analizie danych metaproteomicznych jednym z kluczowych etapów jest budowa bazy danych sekwencji białek. W przypadku popularnych obszarów badawczych, takich jak flora jelitowa, można zastosować bazy danych drobnoustrojów jelitowych, takie jak IGC i HMP, co pozwoliło uzyskać dobre wyniki identyfikacji. W przypadku większości innych analiz metaproteomicznych najskuteczniejszą strategią tworzenia baz danych jest nadal utworzenie bazy danych sekwencji białek specyficznej dla próbki w oparciu o dane sekwencjonowania metagenomicznego. W przypadku próbek społeczności drobnoustrojów o dużej złożoności i dużym zakresie dynamicznym konieczne jest zwiększenie głębokości sekwencjonowania, aby zwiększyć identyfikację gatunków o niskiej liczebności, poprawiając w ten sposób pokrycie bazy danych sekwencji białek. W przypadku braku danych dotyczących sekwencjonowania można zastosować iteracyjną metodę wyszukiwania w celu optymalizacji publicznej bazy danych. Jednakże wyszukiwanie iteracyjne może mieć wpływ na kontrolę jakości FDR, dlatego należy dokładnie sprawdzić wyniki wyszukiwania. Ponadto nadal warto zbadać możliwość zastosowania tradycyjnych modeli kontroli jakości FDR w analizie metaproteomicznej. Jeśli chodzi o strategię wyszukiwania, strategia hybrydowej biblioteki widmowej może poprawić głębokość zasięgu metaproteomiki DIA. W ostatnich latach przewidywana biblioteka widmowa wygenerowana w oparciu o głębokie uczenie się wykazała doskonałą wydajność w proteomice DIA. Jednak bazy danych metaproteomów często zawierają miliony wpisów dotyczących białek, co skutkuje dużą skalą przewidywanych bibliotek widmowych, pochłania dużo zasobów obliczeniowych i skutkuje dużą przestrzenią poszukiwań. Ponadto podobieństwo między sekwencjami białek w metaproteomach jest bardzo zróżnicowane, co utrudnia zapewnienie dokładności modelu predykcji biblioteki spektralnej, dlatego przewidywane biblioteki spektralne nie były szeroko stosowane w metaproteomice. Ponadto należy opracować nowe strategie wnioskowania o białkach i adnotacji klasyfikacyjnych, aby można je było zastosować do analizy metaproteomicznej białek o wysoce podobnych sekwencjach.
Podsumowując, jako powstająca technologia badania mikrobiomów, technologia metaproteomiczna osiągnęła znaczące wyniki badawcze, a także ma ogromny potencjał rozwojowy.
Czas publikacji: 30 sierpnia 2024 r