Der Pangenom-Durchbruch: Ein kristallklares Bild der menschlichen Genomvielfalt

Von Rockefeller University, 13. Mai 2023

Das Human Pangenome Reference Consortium hat durch die Zusammenstellung von Genomsequenzen von 47 Personen aus der ganzen Welt erhebliche Fortschritte bei der Schaffung eines umfassenderen menschlichen Referenzgenoms erzielt. Das ursprüngliche menschliche Referenzgenom basierte auf Daten eines einzelnen Individuums mit afrikanisch-europäischem Hintergrund, was die Darstellung der genetischen Vielfalt einschränkte. Dieses neue Pangenom, das über 99 % jeder Sequenz mit hoher Genauigkeit wiedergibt, enthüllt fast 120 Millionen DNA-Basenpaare, die bisher nicht sichtbar waren. Durch die Bereitstellung einer genaueren Darstellung der genetischen Vielfalt des Menschen können Forscher ihr Verständnis des Zusammenhangs zwischen Genen und Krankheiten verfeinern, die klinische Forschung beschleunigen und letztendlich dazu beitragen, gesundheitliche Ungleichheiten zu beseitigen.

In einem großen Fortschritt haben Wissenschaftler Genomsequenzen von 47 Menschen mit unterschiedlichem Hintergrund zusammengestellt, um ein Pangenom zu erstellen, das eine genauere Darstellung der genetischen Vielfalt des Menschen bietet als das bestehende Referenzgenom. Dieses neue Pangenom wird Forschern helfen, ihr Verständnis des Zusammenhangs zwischen Genen und Krankheiten zu verfeinern, und könnte letztendlich dazu beitragen, gesundheitliche Ungleichheiten zu beseitigen.

Seit mehr als 20 Jahren verlassen sich Wissenschaftler auf das menschliche Referenzgenom, eine Konsens-Gensequenz, als Standard für den Vergleich anderer genetischer Daten. Das in unzähligen Studien eingesetzte Referenzgenom hat es unter anderem ermöglicht, Gene zu identifizieren, die an bestimmten Krankheiten beteiligt sind, und die Entwicklung menschlicher Merkmale zu verfolgen.

But it has always been a flawed tool. One of its biggest problems is that about 70 percent of its data came from a single man of predominantly African-European background whose DNADNA, or deoxyribonucleic acid, is a molecule composed of two long strands of nucleotides that coil around each other to form a double helix. It is the hereditary material in humans and almost all other organisms that carries genetic instructions for development, functioning, growth, and reproduction. Nearly every cell in a person’s body has the same DNA. Most DNA is located in the cell nucleus (where it is called nuclear DNA), but a small amount of DNA can also be found in the mitochondria (where it is called mitochondrial DNA or mtDNA)." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> Die DNA wurde im Rahmen des Human Genome Project sequenziert, dem ersten Versuch, die gesamte DNA einer Person zu erfassen. Infolgedessen kann es uns wenig über die 0,2 bis ein Prozent der genetischen Sequenz sagen, die jeden der sieben Milliarden Menschen auf diesem Planeten voneinander unterscheidet, was zu einer inhärenten Verzerrung biomedizinischer Daten führt, von denen angenommen wird, dass sie für einen Teil der Gesundheit verantwortlich sind Unterschiede, die Patienten heute betreffen. Viele genetische Varianten, die beispielsweise in außereuropäischen Populationen vorkommen, sind im Referenzgenom überhaupt nicht vertreten.

Der neue Entwurf der Pangenom-Referenz enthält 47 Genome statt nur einem und wird einen viel besseren Vergleichspunkt als die traditionelle Referenz bieten, um die Unterschiede in unserer DNA zu finden und zu verstehen. Bildnachweis: Nationales Institut für Humangenomforschung

For years, researchers have called for a resource more inclusive of human diversity with which to diagnose diseases and guide medical treatments. Now scientists with the Human Pangenome Reference Consortium have made groundbreaking progress in characterizing the fraction of human DNA that varies between individuals. As they recently published in Nature, they’ve assembled genomic sequences of 47 people from around the world into a so-called pangenome in which more than 99 percent of each sequence is rendered with high accuracyHow close the measured value conforms to the correct value." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Genauigkeit.

Übereinander geschichtet enthüllten diese Sequenzen fast 120 Millionen DNA-Basenpaare, die zuvor nicht sichtbar waren.

Das Pangenom ist zwar noch in Arbeit, aber es ist öffentlich und kann von Wissenschaftlern auf der ganzen Welt als neue Standardreferenz für das menschliche Genom verwendet werden, sagt Erich D. Jarvis von der Rockefeller University, einer der Hauptforscher.

„Diese komplexe Genomsammlung stellt eine wesentlich genauere menschliche genetische Vielfalt dar, als jemals zuvor erfasst wurde“, sagt er. „Mit einer größeren Breite und Tiefe der ihnen zur Verfügung stehenden genetischen Daten und einer höheren Qualität der Genomassemblierungen können Forscher ihr Verständnis des Zusammenhangs zwischen Genen und Krankheitsmerkmalen verfeinern und die klinische Forschung beschleunigen.“

Der 2003 fertiggestellte erste Entwurf des menschlichen Genoms war relativ ungenau, wurde aber im Laufe der Jahre dank ausgefüllter Lücken, korrigierter Fehler und fortschreitender Sequenzierungstechnologie immer schärfer. Ein weiterer Meilenstein wurde letztes Jahr erreicht, als die letzten acht Prozent des Genoms – hauptsächlich eng gewickelte DNA, die kein Protein und repetitive DNA-Regionen kodiert – endlich sequenziert wurden.

Trotz dieser Fortschritte blieb das Referenzgenom unvollkommen, insbesondere im Hinblick auf die kritischen 0,2 bis 1 Prozent der DNA, die Diversität darstellen. Das Human Pangenome Reference Consortium (HPRC), eine staatlich finanzierte Zusammenarbeit zwischen mehr als einem Dutzend Forschungseinrichtungen in den Vereinigten Staaten und Europa, wurde 2019 ins Leben gerufen, um dieses Problem anzugehen.

At the time, Jarvis, one of the consortium’s leaders, was honing advanced sequencing and computational methods through the Vertebrate Genomes Project, which aims to sequence all 70,000 vertebrate speciesA species is a group of living organisms that share a set of common characteristics and are able to breed and produce fertile offspring. The concept of a species is important in biology as it is used to classify and organize the diversity of life. There are different ways to define a species, but the most widely accepted one is the biological species concept, which defines a species as a group of organisms that can interbreed and produce viable offspring in nature. This definition is widely used in evolutionary biology and ecology to identify and classify living organisms." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> Spezies. Seine und andere zusammenarbeitende Labore beschlossen, diese Fortschritte für hochwertige diploide Genomassemblierungen zu nutzen, um die Variation innerhalb eines einzelnen Wirbeltiers aufzudecken: Homo sapiens.

Um eine Vielfalt an Proben zu sammeln, wandten sich die Forscher an das 1000 Genomes Project, eine öffentliche Datenbank sequenzierter menschlicher Genome, die mehr als 2500 Individuen umfasst, die 26 geografisch und ethnisch unterschiedliche Populationen repräsentieren. Die meisten Proben stammen aus Afrika, der Heimat der größten menschlichen Vielfalt der Erde.

„In vielen anderen großen Projekten zur Diversität des menschlichen Genoms wählten die Wissenschaftler hauptsächlich europäische Proben aus“, sagt Jarvis. „Wir haben gezielt das Gegenteil versucht. Wir haben versucht, den Vorurteilen der Vergangenheit entgegenzuwirken.“

Es ist wahrscheinlich, dass in diesen Populationen Genvarianten gefunden werden, die unser Wissen über häufige und seltene Krankheiten erweitern könnten.

Um den Genpool zu erweitern, mussten die Forscher jedoch schärfere, klarere Sequenzen jedes einzelnen Individuums erstellen – und die von Mitgliedern des Vertebrate Genome Project und zugehörigen Konsortien entwickelten Ansätze wurden verwendet, um ein seit langem bestehendes technisches Problem auf diesem Gebiet zu lösen.

Jeder Mensch erbt von jedem Elternteil ein Genom, sodass wir am Ende zwei Kopien jedes Chromosoms haben, was uns ein sogenanntes diploides Genom gibt. Und wenn das Genom einer Person sequenziert wird, kann es eine Herausforderung sein, die elterliche DNA auseinanderzureißen. Ältere Techniken und Algorithmen machten bei der Zusammenführung der elterlichen genetischen Daten einer Person regelmäßig Fehler, was zu einer trüben Sicht führte. „Die Unterschiede zwischen den Chromosomen von Mama und Papa sind größer, als den meisten Menschen bewusst ist“, sagt Jarvis. „Mama hat vielleicht 20 Kopien eines Gens und Papa nur zwei.“

With so many genomes represented in a pangenome, that cloudiness threatened to develop into a thunderstorm of confusion. So the HPRC homed in a method developed by Adam Phillippy and Sergey Koren at the National Institutes of HealthThe National Institutes of Health (NIH) is the primary agency of the United States government responsible for biomedical and public health research. Founded in 1887, it is a part of the U.S. Department of Health and Human Services. The NIH conducts its own scientific research through its Intramural Research Program (IRP) and provides major biomedical research funding to non-NIH research facilities through its Extramural Research Program. With 27 different institutes and centers under its umbrella, the NIH covers a broad spectrum of health-related research, including specific diseases, population health, clinical research, and fundamental biological processes. Its mission is to seek fundamental knowledge about the nature and behavior of living systems and the application of that knowledge to enhance health, lengthen life, and reduce illness and disability." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> National Institutes of Health über Eltern-Kind-„Trios“ – eine Mutter, einen Vater und ein Kind, deren Genome alle sequenziert worden waren. Anhand der Daten von Mama und Papa konnten sie die Vererbungslinien klären und zu einer qualitativ hochwertigeren Sequenz für das Kind gelangen, die sie dann für die Pangenomanalyse verwendeten.

Die Analyse der Forscher von 47 Personen ergab 94 verschiedene Genomsequenzen, zwei für jeden Chromosomensatz, plus das Geschlechts-Y-Chromosom bei Männern.

Anschließend verwendeten sie fortschrittliche Computertechniken, um die 94 Sequenzen auszurichten und zu schichten. Von den 120 Millionen DNA-Basenpaaren, die zuvor nicht sichtbar waren oder sich an einer anderen Stelle befanden, als in der vorherigen Referenz angegeben, stammen etwa 90 Millionen von strukturellen Variationen, also Unterschieden in der DNA von Menschen, die entstehen, wenn Chromosomenstücke neu angeordnet werden – verschoben, gelöscht, invertiert oder mit zusätzlichen Kopien aus Duplikaten.

Laut Jarvis handelt es sich um eine wichtige Entdeckung, da Studien der letzten Jahre gezeigt haben, dass Strukturvarianten eine wichtige Rolle für die menschliche Gesundheit sowie für die bevölkerungsspezifische Vielfalt spielen. „Sie können dramatische Auswirkungen auf Merkmalsunterschiede, Krankheiten und Genfunktionen haben“, sagt er. „Da so viele neue identifiziert werden, wird es viele neue Entdeckungen geben, die vorher nicht möglich waren.“

The pangenome assembly also fills in gaps that were due to repetitive sequences or duplicated genes. One example is the major histocompatibility complex (MHC), a cluster of genes that code proteins on the surface of cells that help the immune system recognize antigens, such as those from the SARS-CoV-2Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is the official name of the virus strain that causes coronavirus disease (COVID-19). Previous to this name being adopted, it was commonly referred to as the 2019 novel coronavirus (2019-nCoV), the Wuhan coronavirus, or the Wuhan virus." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">SARS-CoV-2 virusA virus is a tiny infectious agent that is not considered a living organism. It consists of genetic material, either DNA or RNA, that is surrounded by a protein coat called a capsid. Some viruses also have an outer envelope made up of lipids that surrounds the capsid. Viruses can infect a wide range of organisms, including humans, animals, plants, and even bacteria. They rely on host cells to replicate and multiply, hijacking the cell's machinery to make copies of themselves. This process can cause damage to the host cell and lead to various diseases, ranging from mild to severe. Common viral infections include the flu, colds, HIV, and COVID-19. Vaccines and antiviral medications can help prevent and treat viral infections." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Virus.

„Sie sind wirklich wichtig, aber es war unmöglich, die MHC-Diversität mit den älteren Sequenzierungsmethoden zu untersuchen“, sagt Jarvis. „Wir sehen eine viel größere Vielfalt, als wir erwartet hatten. Diese neuen Informationen werden uns helfen zu verstehen, wie sich die Immunreaktionen gegen bestimmte Krankheitserreger bei Menschen unterscheiden.“ Es könnte auch zu besseren Methoden führen, um Organtransplantationsspender und Patienten zusammenzubringen oder Menschen zu identifizieren, bei denen das Risiko besteht, eine Autoimmunerkrankung zu entwickeln.

Das Team hat auch überraschende neue Eigenschaften von Zentromeren entdeckt, die an den Kernen der Chromosomen liegen und die Zellteilung steuern und sich bei der Verdoppelung der Zellen auseinanderziehen. Mutationen in Zentromeren können zu Krebs und anderen Krankheiten führen.

Obwohl sich die DNA-Sequenzen stark wiederholen, „sind Zentromere von einem Haplotyp zum anderen so unterschiedlich, dass sie sogar innerhalb eines Individuums für mehr als 50 Prozent der genetischen Unterschiede zwischen Menschen oder mütterlichen und väterlichen Haplotypen verantwortlich sein können“, sagt Jarvis. „Die Zentromere scheinen einer der sich am schnellsten entwickelnden Teile des Chromosoms zu sein.“

Das aktuelle Pangenom von 47 Personen ist jedoch nur ein Ausgangspunkt. Das ultimative Ziel des HPRC besteht darin, bis Mitte 2024 qualitativ hochwertige, nahezu fehlerfreie Genome von mindestens 350 Individuen aus verschiedenen Populationen zu produzieren – ein Meilenstein, der es ermöglichen würde, seltene Allele zu erfassen, die wichtige adaptive Merkmale verleihen. Tibeter beispielsweise verfügen über Allele, die mit dem Sauerstoffverbrauch und der UV-Lichtexposition zusammenhängen und es ihnen ermöglichen, in großen Höhen zu leben.

Eine große Herausforderung bei der Erhebung dieser Daten wird darin bestehen, das Vertrauen von Gemeinschaften zu gewinnen, die in der Vergangenheit Missbrauch biologischer Daten erlebt haben. Beispielsweise gibt es in der aktuellen Studie keine Proben von amerikanischen Ureinwohnern oder Aborigines, die in wissenschaftlichen Studien lange Zeit ignoriert oder ausgebeutet wurden. Aber man muss nicht weit in die Vergangenheit reisen, um Beispiele für die unethische Verwendung genetischer Daten zu finden: Noch vor wenigen Jahren wurden DNA-Proben von Tausenden Afrikanern in mehreren Ländern ohne Wissen, Zustimmung oder Nutzen der Spender kommerzialisiert.

Diese Straftaten haben in vielen Bevölkerungsgruppen Misstrauen gegenüber Wissenschaftlern gesät. Durch die Nichteinbeziehung könnten einige dieser Gruppen jedoch genetisch im Dunkeln bleiben, was zu einer Aufrechterhaltung der Verzerrungen in den Daten führen würde – und zu anhaltenden Ungleichheiten bei den Gesundheitsergebnissen.

„Es ist eine komplexe Situation, die viel Beziehungsaufbau erfordert“, sagt Jarvis. „Die Sensibilität ist jetzt größer.“

Und auch heute noch sind viele Gruppen bereit, mitzumachen. „Es gibt Einzelpersonen, Institutionen und Regierungsstellen aus verschiedenen Ländern, die sagen: ‚Wir wollen ein Teil davon sein.‘ „Wir wollen, dass unsere Bevölkerung vertreten ist“, sagt Jarvis. „Wir machen bereits Fortschritte.“

Weitere Informationen zu diesem Durchbruch finden Sie unter Human Pangenome Reference: A Deeper Understanding of Worldwide Genomic Diversity.

Verweise:

„Ein Entwurf einer Referenz zum menschlichen Pangenom“ von Wen-Wei Liao, Mobin Asri, Jana Ebler, Daniel Doerr, Marina Haukness, Glenn Hickey, Shuangjia Lu, Julian K. Lucas, Jean Monlong, Haley J. Abel, Sylvia Buonaiuto, Xian H. Chang, Haoyu Cheng, Justin Chu, Vincenza Colonna, Jordan M. Eizenga, Xiaowen Feng, Christian Fischer, Robert S. Fulton, Shilpa Garg, Christian Groza, Andrea Guarracino, William T. Harvey, Simon Heumos, Kerstin Howe, Miten Jain, Tsung-Yu Lu, Charles Markello, Fergal J. Martin, Matthew W. Mitchell, Katherine M. Munson, Moses Njagi Mwaniki, Adam M. Novak, Hugh E. Olsen, Trevor Pesout, David Porubsky, Pjotr Prince, Jonas A . Sibbesen, Jouni Mermaid, Chad Tomlinson, Flavia Villani, Mitchell R. Vollger, Lucinda L. Antonacci-Fulton, Gunjan Baid, Carl A. Baker, Anastasia Belyaeva, Konstantinos Billis, Andrew Carroll, Pi-Chuan Chang, Sarah Cody, Daniel E Cook, Robert M. Cook-Deegan, Omar E. Cornejo, Mark Diekhans, Peter Ebert, Susan Fairley, Oliver Fedrigo, Adam L. Felsenfeld, Giulio Formenti, Adam Frankish, Yan Gao, Nanibaa' A. Garrison, Carlos Garcia Giron , Richard E. Green, Leanne Haggerty, Kendra Hoekzema, Thibaut Hourlier, Hanlee P. Ji, Eimear E. Kenny, Barbara A. Koenig, Alexey Kolesnikov, Jan O. Korbel, Jennifer Kordosky, Sergey Koren, HoJoon Lee, Alexandra P. Lewis, Hugh Magalhães, James Marco-Sola, Pierre Marijon, Ann McCartney, Jennifer McDaniel, Jacquelyn Mountcastle, Maria Nattestad, Sergey Nurk, Nathan D. Olson, Alice B. Popejoy, Daniela Puiu, Mikko Rautiainen, Allison A. Regier, Arang Rhie, Samuel Sacco, Ashley D. Sanders, Valerie A. Schneider, Baergen I. Schultz, Kishwar Shafin, Michael W. Smith, Heidi J. Sofia, Ahmad N. Abou Tayoun, Francoise Thibaud-Nissen, Francesca Floriana Tricomi, Justin Wagner , Brian Walenz, Jonathan MD Wood, Alexey V. Zimin, William Bourque, Mark JP Chaisson, Paul Flicek, Adam M. Phillippy, Justin M. Zook, Evan E. Eichler, David Haussler, Ting Wang, Erich D. Jarvis, Karen H https://doi.org/10.1038/s41586-023-05896-x

„Erhöhte Mutationsrate und Genumwandlung innerhalb menschlicher segmentaler Duplikationen“ von Mitchell R. Vollger, Philip C. Dishuck, William T. Harvey, William S. DeWitt, Xavi Guitart, Michael E. Goldberg, Allison N. Rozanski, Julian Lucas, Mobin Asri, Human Pangenome Reference Consortium, Katherine M. Munson, Alexandra P. Lewis, Kendra Hoekzema, Glennis A. Logsdon, David Porubsky, Benedict Paten, Kelley Harris, PingHsun Hsieh und Evan E. Eichler, 10. Mai 2023. Nature.DOI: 10.1038/s41586-023-05895-y