Synthétases cannabinoïdes domestiquées au sein d'un pangénome de cannabis en mosaïque sauvage

Cannabis sativa est une espèce végétale d'importance mondiale, productrice d'huile de graines, de fibres et de médicaments.

Nous présentons ici un pangénome du cannabis, construit à partir de 181 nouveaux génomes et de 12 génomes déjà publiés, issus d'un total de 144 échantillons biologiques, incluant des plantes mâles (XY) et femelles (XX). Nous avons identifié de vastes régions du pangénome du cannabis, étonnamment diversifiées pour une seule espèce, avec de fortes variations génétiques et structurelles, et proposons une structure de population et un historique d'hybridation inédits.

Article
Accès libre
Publié:28 mai 2025
Synthétases cannabinoïdes domestiquées au sein d'un pangénome de cannabis en mosaïque sauvage
Ryan C. Lynch ,Lillian K. Padgitt-Cobb ,Andrea R. Garfinkel ,Brian J. Knaus ,Nolan T. Hartwick ,Nicolas Allsing ,Anthony Aylward ,Philippe C. Bentz ,Sarah B. Carey ,Allen Mamerto ,Justine K. Kitony ,Kelly Colt ,Emily R. Murray ,Tiffany Duong ,Heidi I. Chen ,Aaron Trippe ,Alex Harkess ,Seth Crawford ,Kelly Vining &Todd P. Michael
Nature ( 2025 ) Citer cet article

1268 accès

77 Altmetric

Métriquedétails

Abstrait
Cannabis sativa est une espèce végétale d'importance mondiale, productrice d'huile de graines, de fibres et de médicaments. Cependant, un siècle de prohibition a fortement limité le développement de la sélection et des ressources génétiques, laissant le potentiel des applications nutritionnelles et fibreuses du chanvre inexploité. Nous présentons ici un pangénome du cannabis, construit à partir de 181 nouveaux génomes et de 12 génomes déjà publiés, issus d'un total de 144 échantillons biologiques, incluant des plantes mâles (XY) et femelles (XX). Nous avons identifié de vastes régions du pangénome du cannabis, étonnamment diversifiées pour une seule espèce, avec de fortes variations génétiques et structurelles, et proposons une structure de population et un historique d'hybridation inédits. Sur les anciens chromosomes sexuels hétéromorphes X et Y, nous avons observé une limite variable au niveau des régions déterminant le sexe et pseudo-autosomiques, ainsi que des gènes à expression majoritairement mâle, notamment des gènes codant plusieurs régulateurs clés de la floraison. À l'inverse, les gènes de la synthase des cannabinoïdes, responsables de la production d'acide cannabidiol et d'acide delta-9-tétrahydrocannabinolique, présentaient une très faible diversité, bien qu'intégrés dans une région variable comportant de multiples paralogues pseudogénéisés, une variation structurelle et des arrangements distincts d'éléments transposables. De plus, nous avons identifié des variants des gènes de la thioestérase des acyllipides associés à la variation de la longueur des chaînes d'acides gras et à la production de cannabinoïdes rares, la tétrahydrocannabivarine et la cannabidivarine. Nous concluons que le patrimoine génétique de C. sativa n'est que partiellement caractérisé, que l'existence de parents sauvages en Asie est probable et que son potentiel comme espèce cultivée reste largement inexploité.

Contenu similaire consulté par d'autres

Des études d'association pangénomique révèlent des informations génétiques sur les caractéristiques agronomiques et morphologiques du cannabis de type drogue
Article en libre accès
22 avril 2024

L'étiquetage du cannabis est associé à une variation génétique dans les gènes de la terpène synthase
Article en libre accès
14 octobre 2021

Les analyses du pan-génome et l'atlas de reséquençage dévoilent la base génétique de la domestication du jujube
Article en libre accès
29 octobre 2024

Principal
Le cannabis ( C. sativa L., cannabis) est une ancienne plante domestiquée dont l'utilisation des graines (akènes) et des fibres remonte à 8 000 ans en Asie de l'Est, et dont des traces plus anciennes remontent à 12 000 ans 1 , 2 , rivalisant avec celle de cultures importantes comme le blé, l'orge, le maïs et le riz. Le cannabis était à l'origine une culture polyvalente en Asie, où les mêmes plantes étaient utilisées comme source de fibres, d'aliments et de médicaments 2 , 3 . Au fil du temps, le cannabis s'est répandu à l'échelle mondiale et des cultivars à usage unique ou double ont été développés, donnant finalement naissance à des populations divergentes de chanvre et de drogues du XXe siècle 4 . Avant le début des années 1900, le cannabis était une denrée importante en Asie, en Europe et dans le Nouveau Monde, et était utilisé pour produire des fibres utilisées dans les voiles, les cordes, les vêtements et le papier. Cependant, la concurrence d'autres cultures de fibres, les implications des lois sur les drogues et le développement ultérieur des fibres synthétiques ont entraîné un déclin de la production. Au cours des dernières décennies, l’utilisation du cannabis s’est déplacée vers des applications spécialisées, notamment les huiles de graines de niche et la production de médicaments, où il continue de revêtir aujourd’hui une importance économique et culturelle significative 5 .

Tout au long de l'histoire et dans le monde entier, le cannabis a connu des cycles de « culture, consommation et répression » 6 . La prohibition moderne est née aux États-Unis au début du XXe siècle 7 , mais en 1961, elle s'était étendue à la majorité des pays 8 . La prohibition a éliminé les utilisations du cannabis comme fibre et comme aliment pendant des décennies, mais a donné naissance à un marché illégal de grande valeur pour les médicaments à base de phytocannabinoïdes, dérivés des trichomes glandulaires. Bien que plus de 100 phytocannabinoïdes aient été identifiés, seul un nombre limité est produit en quantités significatives, qui sont utilisées pour classer les plantes par chémotype : acide delta-9-tétrahydrocannabinolique (THCA ; type I), acide cannabidiolique (CBDA ; type III), CBDA et THCA équilibrés (type II), acide cannabigérolique (CBGA ; type IV) et sans cannabinoïdes (type V) 9 . Bien que le tétrahydrocannabinol (THC), principal intoxicant, demeure une substance réglementée, la majorité des États américains et de nombreux pays autorisent désormais l'usage médical ou récréatif des produits à base de cannabis. Par ailleurs, les lois agricoles américaines de 2014 et 2018 ont facilité la production de chanvre et la recherche sur des plantes produisant moins de 0,3 % de THC sur le sol américain, ouvrant ainsi la voie à de meilleures applications pour les médicaments, les céréales et les fibres sans THC.

Le génome haploïde du cannabis est relativement petit (environ 750 Mo), mais sa complexité est due à une proportion élevée (environ 79 %) d'éléments transposables (ET) et à une hétérozygotie substantielle (polymorphismes d'un seul nucléotide (SNP) : supérieure à 2 %). Le génome de référence CBDRx (cs10), dérivé de la lignée de chanvre à haute teneur en cannabinoïdes (HC) cannabidiol (CBD) apparentée au cultivar antiépileptique bien connu « Charlotte's web » 10 , a résolu l'arrangement des gènes de la synthase des cannabinoïdes comme une seule copie pleine longueur de CBDAS imbriquée dans des matrices d'ET en tandem conservées de 70 à 80 kb. De plus, les lignées de chanvre HC telles que CBDRx ont émergé par l'introgression du locus CBDAS dans un contexte génétique à prédominance de marijuana (MJ), exploitant ainsi des allèles à haute puissance pour améliorer la production de CBD 11 . Cependant, la comparaison initiale des génomes de cannabis publiés suggère un dynamisme génomique substantiel selon les types d'utilisation 11 , 12 , 13 , 14 , 15 , 16 , soulevant des questions clés non résolues sur l'étendue mondiale de la diversité génétique. De plus, le rôle de l'hybridation dans la formation de l'architecture du génome et la transmission des allèles reste flou, soulignant la nécessité de réaliser d'autres assemblages de haute qualité et d'analyses génomiques à l'échelle de la population. Nous avons ici construit un cadre complet pour explorer la diversité génétique de cette culture à usages multiples en créant un pangénome de cannabis à l'aide d'assemblages à l'échelle des chromosomes et résolus par haplotype.

Le pangénome du cannabis
Le cannabis est souvent classé comme un genre monospécifique 17 , bien que le débat persiste concernant le statut de Cannabis indica Lam. et de Cannabis ruderalis , ce dernier étant considéré comme la source du type de floraison à jour neutre (DN ; autofloraison) 18 . Nous avons abordé la diversité du cannabis en construisant le pangénome avec des échantillons sélectionnés à partir de sources multiples pour couvrir les types d'utilisation, l'histoire, l'expression sexuelle et les caractères agronomiques (Fig. 1 des données étendues et Fig. 1 supplémentaire ). Le pangénome du cannabis comprend 181 nouveaux assemblages PacBio et 12 génomes déjà publiés, représentant 144 échantillons biologiques, dont 78 assemblages à l'échelle des chromosomes résolus par haplotype et 103 assemblages au niveau du contig. Nous mettons en évidence un hybride F 1 (ERBxHO40_23 ; EH23) entre deux parents phénotypiquement et génétiquement divergents pour clarifier les caractéristiques du génome qui ont été manquées dans les études précédentes (Fig. 1a , Données étendues Fig. 2 et 3 et Note supplémentaire 1 ).

Fig. 1 : L’architecture du pangénome du cannabis révèle au moins cinq populations.
figure 1
a , Caractéristiques génomiques de dix paires de chromosomes dans EH23. Des fenêtres rectangulaires d'un million de paires de bases s'étendent à partir de chaque haplotype sur une largeur proportionnelle à l'absence du motif CpG (teneur élevée en CpG dans les régions centromériques et télomériques représentée par des constrictions). Chaque fenêtre rectangulaire est colorée par densité génétique, les couleurs chaudes indiquant une densité génétique élevée et les couleurs froides une faible densité génétique. Chaque paire d'haplotypes est connectée par des polygones indiquant l'arrangement structurel, le gris représentant les régions synténiques et l'orange reliant les inversions. Les rectangles le long de chaque haplotype indiquent des loci sélectionnés, notamment les matrices d'ARN 45S (26S, 5,8S et 18S) (rouge brique réfractaire), les matrices d'ARN 5S (noir) et les synthases de cannabinoïdes (vert forêt). b , Résumé des chromosomes sexuels basé sur les assemblages XY résolus par haplotype 29 , 34 . Français L'analyse phylogénétique des homologues XY a révélé une variation dans les gènes liés à SDR par rapport aux gènes liés à PAR sur le chromosome Y, comme l'indiquent un clade d'homologues liés à Y (Ya) par rapport à un clade contenant à la fois des homologues liés à X et à Y (Yb), respectivement. Les triangles de pointe indiquent les clades monophylétiques effondrés d'homologues X ou Y. La région spécifique à X ne subit pas de recombinaison avec le chromosome Y (bien qu'elle subisse une recombinaison chez les femelles XX). c , Courbe du collecteur utilisant l'appartenance à un orthogroupe de gènes partagé. d , Courbe du collecteur utilisant des 31-mères partagés. e , Appartenance aux gènes dans tous les échantillons de pangénome. f , Le regroupement hiérarchique des scores de similarité de Jaccard basé sur les 31-mères révèle une structure d'au moins 5 groupes dans le pangénome. Chaque groupe de type de médicament contient à la fois des échantillons de chanvre MJ et HC (tableau supplémentaire 1 ). La barre d'échelle représente la distance de dissimilarité maximale de Jaccard. g , graphique de mise à l'échelle multidimensionnelle basé sur 31-mer de tous les assemblages de pangénome (bleu), assemblage du Tibet sauvage (violet) et panneau de diversité globale des échantillons de lecture courte 2 (vert, population « basale » d'Asie ; gris, autres populations).

Données sources

Image en taille réelle

Tous les génomes sont de haute qualité, avec un N50 moyen de 7,5 Mb, et des scores de complétude du génome et du protéome BUSCO 19 de 97 % et 95 %, respectivement (Fig. 4 des données étendues ). La longueur moyenne du génome haploïde était de 781 Mb avec environ 35 000 gènes codant pour des protéines par génome (Tableaux supplémentaires 1 , 2 et 3 ). Conformément à un comportement de croisement majoritaire, l'hétérozygotie basée sur les SNP variait entre 1 % et 2,5 % (Fig. 2 supplémentaire ). Les assemblages sont également de haute qualité structurellement, résolvant les problèmes de placement des TE précédents (Fig. 3 supplémentaire ) et révélant les régions du centromère, la longueur des télomères, les grandes variations structurelles (SV), l'architecture génétique à petite échelle de gènes importants tels que les synthases cannabinoïdes, ainsi que la région déterminant le sexe (SDR) et la région pseudoautosomique (PAR) du chromosome Y (Fig. 1a,b ), le plus grand chromosome du génome du cannabis (Fig. 5 des données étendues ).

Nous avons construit des pangénomes complets du cannabis en utilisant des approches basées et sans référence. Un graphe de pangénome basé sur la référence a été généré avec Minigraph-Cactus (MGC) 20 en utilisant les génomes à l'échelle des 78 chromosomes et résolus par haplotype. Pour une approche sans référence, nous avons construit une matrice k -mer avec PanKmer 21 en utilisant les 193 génomes et une représentation graphique avec PanGenome Graph Builder (PGGB) 22. En raison des exigences mémoire élevées de PGGB, nous avons sélectionné un sous-ensemble de 16 génomes pour la génération de graphes (données étendues, figure 6 et méthodes ). Les SV détectés par MGC et PGGB correspondaient étroitement à ceux des alignements de génomes entiers par paires. Les taux de cartographie pour un ensemble de données de lecture courte diversifié 2 étaient similaires entre le graphique pangénome MGC (95,09 %) et le génome de référence linéaire EH23a (95,0 %), indiquant que les deux approches capturaient efficacement la variation.

Le pangénome révèle cinq populations
La taxonomie, l'histoire et la nomenclature du genre cannabis ont longtemps été débattues 23 . En raison de sa grande diversité phénotypique et géographique, il a été classé soit comme un complexe de croisement multi-espèces, soit comme une espèce unique avec des désignations de sous-espèces. Nous avons calculé la courbe du collecteur pour évaluer l'exhaustivité et la diversité du pangénome en utilisant des orthogroupes basés sur des gènes partagés ainsi que des k -mers partagés (Fig. 1c,d ). La courbe suggérait que nous avons capturé la majorité de la diversité des orthogroupes du cannabis à environ 100-125 génomes (Fig. 1c ), bien qu'une variation génomique globale significative reste non caractérisée (Fig. 1d ), peut-être en raison de la récente activité TE. Les courbes du collecteur pour les 78 assemblages à l'échelle des chromosomes résolus par haplotype ont révélé des relations diversité-échantillon similaires mais plus atténuées (Fig. 4 supplémentaire ). Français Dans tous les échantillons de pangénome, nous avons constaté que 23 % des gènes étaient « centraux » (présents dans tous les génomes), 55 % étaient « presque centraux » (95 à 99 % des génomes), 21 % étaient « coquilles » (5 à 94 % des génomes) et une petite fraction était classée comme « nuage » (0,4 %) ou « unique » (0,7 %) (Fig. 1e et Fig. 5 supplémentaire ). Les termes d'ontologie génétique (GO) liés à la biosynthèse des terpènes et à la réponse de défense étaient parmi les plus fréquemment enrichis parmi les gènes centraux (Fig. 7 des données étendues , Note supplémentaire 2 et Tableau supplémentaire 4 ), bien que les deux aient montré une variation substantielle au niveau de la séquence (Fig. 7 et 8 des données étendues ).

Le cannabis n'a pas subi de duplication du génome entier depuis l'ancien événement lambda il y a environ 100 millions d'années 13 . Cela suggère que sa vaste diversité génomique n'est pas apparue à travers des duplications récentes du génome entier ou une allopolyploïdie induite par l'hybridation, mais à travers la duplication de gènes en tandem et d'autres mécanismes de duplication locale (Fig. 6 supplémentaire et Note supplémentaire 3 ). Les comparaisons entre les populations à l'aide de valeurs moyennes par paires de F st (indice de fixation) basées sur des SNP phasés ont indiqué que certaines populations de cannabis présentaient des niveaux de différenciation génétique qui étaient similaires aux comparaisons interspécifiques, comme dans la fraise 24 ( F st  = 0,20 pour MJ par rapport au chanvre ; Tableau supplémentaire 5 ). Les gènes spécifiques avec des SNP F st élevés étaient liés à la réponse environnementale, les gènes circadiens, de signalisation lumineuse et de floraison présentant un F st supérieur à la moyenne (0,42) (Tableau supplémentaire 6 ). Français Notamment, GIGANTEA ( GI ) 25 , un gène hautement conservé, généralement à copie unique, qui joue un rôle central dans l'horloge circadienne qui régule la durée des règles quotidiennes, la période de floraison et l'élongation cellulaire, contenait un SNP avec le cinquième F st le plus élevé (0,77, MJ contre chanvre). Séparément, en utilisant un test de balayage sélectif sur des fenêtres SNP de 20 kb (XP-CLR, MJ contre chanvre), GI a de nouveau été trouvé dans une région significative du chromosome X. Enfin, une analyse plus large de la diversité des familles de gènes a révélé une variation substantielle au locus GI entre les populations de chanvre HC et de chanvre (Fig. supplémentaire 7 ). Ces résultats mettent en évidence l'effet de la sélection sur des gènes agronomiques clés 26 qui peuvent sous-tendre la différenciation de caractères tels que la floraison et l'élongation des entre-nœuds (longueur des fibres), qui contrastent fortement entre les populations de chanvre et de MJ.

On pense que les populations de type drogue d'Amérique du Nord qui produisent des niveaux élevés de cannabinoïdes sont originaires de régions d'Asie du Sud-Est et d'Asie centrale, et ont été amenées dans l'hémisphère occidental via les Caraïbes et l'Amérique du Sud ; cependant, la plupart de ce que l'on sait sur ces populations ancestrales est basé sur des récits historiques limités et des spéculations 5 . Une large division des échantillons de type drogue en deux groupes, l'un aligné sur le chanvre asiatique et l'autre sur le chanvre européen, a été suggérée par le regroupement hiérarchique basé sur les k -mers utilisant le pangénome PanKmer (Fig. 1f,g et Données étendues Fig. 1 ). Les deux groupes contenaient des échantillons de chanvre MJ et HC, qui étaient censés avoir en grande partie une ascendance MJ avec un historique récent de sélection par introgression pour les gènes CBDAS , peut-être d'origine européenne du chanvre 11 . Français Cependant, en utilisant une structure basée sur les SNP en phase avec tous les échantillons MJ traités comme une seule population, le modèle TreeMix a déduit une phylogénie de la plus haute vraisemblance qui comprenait six événements de flux génétique (migration) entre le chanvre asiatique, le chanvre HC et le chanvre européen, ainsi que les échantillons de chanvre MJ et HC (Fig. 8 supplémentaire ). Ces résultats peuvent expliquer en partie les regroupements européens et asiatiques d'échantillons de type de drogue trouvés par notre analyse de clustering k -mer, et reflètent les effets de la sélection par hybridation historique entre le chanvre asiatique et européen qui est documentée dans la littérature sur la sélection 27 . En plus des deux populations de type de drogue et des populations distinctes de chanvre européen et asiatique, le clustering k -mer a montré une divergence significative entre l'unique assemblage tibétain sauvage disponible et toutes les autres lignées domestiquées et sauvages, 13 suggérant que des parents sauvages du Cannabis existent toujours dans des régions reculées d'Asie 2 . Français En effet, le regroupement hiérarchique basé sur les k -mers des assemblages pangénomes combiné à de courtes lectures d'échantillons collectés en Europe et en Asie a récapitulé la découverte originale des auteurs selon laquelle les échantillons d'Asie décrits comme « sauvages de type drogue » et « basaux » représentent des populations distinctes 2 (Fig. 1f et Fig. 9 supplémentaire ). En fin de compte, affiner les hypothèses sur la domestication, la biogéographie et l'histoire des types d'utilisation nécessitera un échantillonnage plus large de spécimens asiatiques et historiques, ainsi qu'une délimitation minutieuse des populations sauvages et sauvages.

Évolution des chromosomes sexuels
L'expression sexuelle dans le cannabis a longtemps intrigué les biologistes 28 . Bien que la plupart des populations soient dioïques, avec des plantes mâles (XY) et femelles (XX) distinctes, des formes monoïques (XX) existent également, qui présentent des ratios variables de fleurs mâles et femelles. Les chromosomes sexuels des Cannabaceae proviennent d'un ancêtre commun du Cannabis et de l'Humulus il y a plus de 36 millions d'années (Ma) 29 — plus tôt que les estimations précédentes 30 — ce qui en fait parmi les plus anciens connus chez les plantes à fleurs 31 . Malgré leur origine ancienne, les chromosomes sexuels du cannabis ont été façonnés par la sélection humaine sur des traits sexuellement dimorphiques 32 . Dans les populations de type drogue, les mâles produisent peu de trichomes glandulaires et la pollinisation réduit le rendement en cannabinoïdes dans les plantes femelles, ce qui entraîne une utilisation réduite (ou l'élimination) des mâles dans les programmes de sélection ( Méthodes ). En revanche, la production de graines de chanvre nécessite du pollen, et les plantes mâles améliorent le rendement et la qualité des fibres libériennes. De plus, des cultivars européens de fibres monoïques, tels que Santhica (SAN) et KC Dora (KCDv1), ont été développés pour améliorer l'efficacité de la récolte mécanisée des fibres et des graines, ajoutant une autre couche de sélection artificielle 31 .

Contrairement à la plupart des angiospermes, le cannabis possède une paire XY hétéromorphe, avec un chromosome Y qui est environ 30 % plus grand que le chromosome X (Fig. 1b , Données étendues Fig. 4 et 5 ). La recombinaison se produit dans le PAR mais est supprimée dans toute la SDR sur le chromosome Y. La SDR couvre 79 à 84 Mb sur les quelque 110 Mb du chromosome Y, ce qui en fait l'une des plus grandes SDR chez les plantes, avec 840 à 1 160 gènes (Fig. supplémentaires 10 et 11 et Tableaux supplémentaires 7 et 8 ). En revanche, le PAR ne couvre qu'environ 29 Mb, mais héberge 1 900 à 1 980 gènes, dont de nombreux gènes de floraison importants, tels que FLOWERING LOCUS T ( FT ), CONSTANS ( CO ) et GI . Français La théorie prédit qu'après la suppression initiale de la recombinaison, le SDR s'étend par étapes en raison de la sélection liant les gènes au SDR qui sont bénéfiques pour les mâles mais délétères pour les femelles 33 . Alternativement, des processus neutres, reflétés dans les taux de substitution synonymes ( K s ), peuvent conduire à des expansions du SDR. Les valeurs de K s le long du SDR ont montré un modèle continu d'ajout de gènes de la limite PAR au centromère 29 , suggérant que la suppression de la recombinaison près du centromère a au moins partiellement causé l'expansion. En utilisant les k -mers et les phylogénies orthologues X–Y, nous avons identifié deux haplotypes SDR distincts : Ya, partagé par six échantillons, et Yb, trouvé dans deux échantillons (Fig. 1b ). Français Ces haplotypes différaient à la limite SDR–PAR, séparés par 5 modèles de gènes conservés couvrant environ 51 kb (GVA-21-1003-002) 34 à 132 kb (Kompolti), tous les autres couvrant 61–62 kb. Le gène situé le plus près de la limite PAR–SDR dans l'haplotype Ya (dans le PAR dans Yb ; Fig. 1b ) est le FACTEUR D'ÉLONGATION DE LA TRANSCRIPTION ( SPT5 ), qui est connu pour interagir avec le LOCUS DE FLORAISON C ( FLC ) via FRIGIDA pendant la floraison induite par le froid chez Arabidopsis 35 . Cela suggère que la sélection sur les gènes de la période de floraison a facilité un changement progressif dans la suppression de la recombinaison et l'expansion du SDR, ce qui peut expliquer pourquoi le développement des fleurs mâles commence avant le début de la floraison femelle chez certaines variétés. Les polymorphismes dans la limite SDR–PAR signalent que le pool génétique du chanvre abrite une diversité ancestrale de gènes sexuellement antagonistes, qui peuvent être à l’origine d’une variation utile dans le moment de la floraison 36 .

De plus, le profil d'expression génétique des tissus mâles et femelles Ace High (AH3M) a révélé une expression biaisée de plus de 7 000 gènes dans les fleurs mâles sur tous les chromosomes, couvrant de nombreuses fonctions, y compris le développement du pollen. Cela contrastait avec l'expression biaisée des gènes dans les tissus des feuilles mâles (environ 1 400 gènes), des feuilles femelles (environ 3 700 gènes) et des fleurs femelles (environ 3 900 gènes) (Fig. 9 des données étendues ). Alors que l'expression génétique dans le chromosome X était relativement uniforme, la densité et l'expression génétiques dans le chromosome Y étaient biaisées en faveur du PAR. Il est à noter qu'une proportion substantielle de gènes dans le PAR (38 %, environ 750 gènes) ont montré une expression biaisée dans les fleurs mâles, contre seulement 6 % (94 gènes) dans le SDR. Bien que le SDR code un ou plusieurs gènes déterminant le sexe non identifiés pour le développement des fleurs mâles, la majorité du réseau transcriptionnel requis pour l'expression des fleurs mâles ou femelles est largement distribué sur tous les chromosomes.

Les ET façonnent le pangénome
Les ET ont joué un rôle majeur dans la formation du génome du cannabis, en particulier dans la prolifération des gènes de synthase de cannabinoïdes sans intron, qui sont intégrés dans des cassettes d'ET conservées de 70 à 80 kb 11 . En moyenne, les ET constituaient 68 % de chaque génome, les rétrotransposons à répétition terminale longue (LTR-RT) représentant 50 % du total (Fig. 2a et Tableaux supplémentaires 1 et 9 ). Les gènes étaient en moyenne situés à proximité des ET (443 à 613 pb des ET ; Tableau supplémentaire 10 ). Différents types d'ET présentaient des schémas d'insertion distincts : les transposons d'ADN (par exemple, Mutator et Helitron) étaient insérés à 500 pb en amont des régions codantes, tandis que les LTR-RT étaient des gènes flanquants plus uniformément répartis (Fig. supplémentaire 12 ). Français Les gènes impliqués dans la transposition, la transcription, la recombinaison et la réparation de l'ADN étaient fréquemment associés aux répétitions terminales longues (LTR) Ty3, tandis que les gènes de défense et de biosynthèse des métabolites étaient enrichis à proximité des LTR Ty1 (tableau supplémentaire 11 ). On estime que de nombreux ET intacts se sont insérés dans le génome au cours des 100 000 dernières années, ce qui suggère que la diversification en cours pourrait être motivée par l'hybridation et les facteurs de stress, en particulier dans les populations F 1 et MJ (Fig. 2a–c ). L'un de ces facteurs est la propagation clonale, qui est une pratique courante dans la production moderne de MJ mais qui est rarement utilisée dans la culture du chanvre.

Fig. 2 : Les ET façonnent le pangénome du cannabis.
figure 2 a ,
Pourcentage du génome couvert par les ET, en utilisant 78 génomes résolus par haplotype au niveau des chromosomes, regroupés par population. L'axe des y montre l'estimation de la densité du noyau gaussien. b , Sur l'ensemble du pangénome, la distribution par âge des ET fragmentés, avec un encart montrant leur distribution au cours des 100 000 dernières années. Dans l'encart, la densité la plus élevée se produit depuis 10 000 ans (ka). c , Distribution par âge des ET intacts, avec un encart montrant la distribution au cours des 100 000 dernières années. Dans l'encart, la densité la plus élevée se produit dans les 10 000 ans. d , Rapport solo:intact moyen pour les éléments Ty1-LTR dans 78 génomes résolus par haplotype au niveau des chromosomes, regroupés par chromosome. Pour tous les diagrammes en boîte, la ligne pointillée verte est la moyenne et la ligne continue orange est la médiane. Les bords inférieur et supérieur de la boîte correspondent aux quartiles inférieur et supérieur. Français Les lignes verticales (moustaches) s'étendant à partir de la boîte reflètent les valeurs minimales et maximales dans l'ensemble de données. Chaque point de dispersion représente un génome individuel. e , Rapport solo:intact moyen pour les éléments Ty3-LTR. f , Rapport solo:intact moyen pour les éléments Ty1-LTR dans les chromosomes sexuels regroupés selon la limite (PAR, région spécifique de l'X ou SDR). g , Rapport solo:intact moyen pour les éléments Ty3-LTR dans les chromosomes sexuels regroupés selon la limite (PAR, région spécifique de l'X ou SDR). h , Graphique du paysage génomique pour le chromosome Y AH3Mb, montrant la densité des LTR, la méthylation, la teneur en CpG et les transcrits à travers le chromosome. i , Graphique du paysage génomique pour le chromosome Y AH3Mb, montrant le rapport de Ty1-LTR solo:intact à travers le chromosome. j , Visualisation des alignements du génome entier entre les chromosomes X et Y AH3Ma. La région entre parenthèses avec une forte similarité est le PAR. k , Graphique du paysage génomique pour le chromosome X AH3Ma, montrant la densité des LTR, la méthylation, la teneur en CpG et les transcrits sur toute la longueur du chromosome. l , Graphique du paysage génomique pour le chromosome X AH3Ma, montrant le rapport des LTR Ty1 solo : intacts sur toute la longueur du chromosome.

Données sources

Image en taille réelle
Malgré 4 millions d'années d'activité soutenue et une récente poussée de prolifération de LTR (Fig. 2b,c ), le génome du cannabis a conservé une taille de génome haploïde plus petite (environ 750 Mb) que celle de son genre frère Humulus , qui varie de 1 700 Mb chez Humulus japonicus à 2 700 Mb chez Humulus lupulus 37 . Les LTR solo reflètent la purge du génome et peuvent être formés par recombinaison ectopique, qui se produit dans la séquence interne d'un LTR-RT complet 38 . Le rapport solo:intact élevé observé chez le cannabis (Fig. 2d–g ) est susceptible de contribuer à la taille compacte de son génome en atténuant l'accumulation de TE. Français Les Ty1-LTR présentaient le rapport solo:intact le plus élevé dans le SDR du chromosome Y (Fig. 2d,f ), suggérant que l'expansion initiale de cette région était due à des insertions de TE qui ont précédé des événements de délétion par recombinaison ectopique (Fig. 2i,j ). La méthylation de l'ADN empêche également la prolifération incontrôlée des TE en réduisant l'expression au silence 39 . Nous avons constaté que les niveaux de méthylation des TE étaient supérieurs aux moyennes du génome entier, bien que des différences spécifiques à la population aient été détectées (Fig. 13 supplémentaire et Tableau 12 supplémentaire ). Nous avons détecté des transcrits de TE exprimés dans l' hybride EH23 F 1 , indiquant une activité TE continue (Fig. 14 supplémentaire). Sur le chromosome Y, le PAR et le SDR présentaient des profils distincts d'expression génique et d'expression de TE intacte (Fig. 9d,f de données étendues ), le SDR présentant des niveaux de méthylation accrus (Fig. 2h ), cohérents avec sa nature dégénérée et pauvre en gènes. Plusieurs familles de TE sont activement transcrites, et de nombreuses insertions sont récentes sur le plan évolutif ; cependant, les profils de fréquence des TE varient nettement selon les populations (figures supplémentaires 15 et 16 ). La combinaison des temps de divergence récents pour certains types de TE (figures 2b, c ), de leur enrichissement à proximité des gènes et de leur distribution spécifique à la population suggère que les TE contribuent à la fois à l'évolution des gènes et à la régulation des réponses adaptatives chez le cannabis.

Les véhicules autonomes stimulent l'innovation
Étant donné la forte abondance de jeunes ET actifs dans le cannabis, nous avons examiné leur rôle dans la formation des SV pangénomes (Fig. 3 ). Le nombre de SV variait le plus dans les translocations et les duplications, reflétant l'abondance des ET spécifiques à la population (Fig. 2a ), tandis que les inversions présentaient la plus faible variation (86 par génome en moyenne) (Fig. 3a et Données étendues Fig. 10 ). Cependant, les tailles d'inversion variaient de 200 pb à 25 Mb (moyenne de 304 kb), formant une distribution multimodale, suggérant que de multiples forces évolutives ont façonné des inversions de différentes longueurs. Alors que l'hétérozygotie des SNP variait entre 1 et 2,5 % dans le pangénome, l'hétérozygotie (régions variables) en incluant les SV et les régions non alignables était en moyenne de 20,6 % de la longueur totale du génome (Fig. 17 supplémentaire ), soulignant l'ampleur de la variation génomique jusqu'alors non caractérisée dans le cannabis.

Fig. 3 : Les variantes structurelles apparaissent à des fréquences différentes dans les populations et sont distribuées de manière non aléatoire dans le génome.
figure 3
a , Fréquences des inversions (inv), des duplications (dup) et des translocations (trans) par population. Les populations de chanvre européen, de chanvre asiatique et de MJ diffèrent significativement dans les nombres moyens de translocations et de duplications, mais pas dans les inversions. Chaque boîte à moustaches représente la médiane (ligne centrale), deux charnières (quartiles) et deux moustaches (1,5 × l'écart interquartile (IQR). b , Distribution génomique non aléatoire des translocations (histogrammes violets), des duplications (bandes rouge foncé) et des inversions (cartographiées sous forme de barres jaunes à l'échelle de la longueur sur le côté droit des chromosomes, chaque barre étant égale à une inversion). c , Graphique LD limité aux interactions de 200 kb, mettant en évidence les courbes de décroissance générales, le chromosome X présentant un taux de décroissance nettement réduit. Collectivement, sur les 78 assemblages à l'échelle des chromosomes résolus par haplotype, les graphiques de décroissance LD ont montré une décroissance jusqu'à la moitié de la valeur maximale de r 2 autour de 10 kb, ce qui est similaire aux populations sauvages de soja et de riz en allogamie. d , Graphiques de décroissance LD étendus à 800 kb. L'augmentation de la longue portée (des centaines de kb (à Mb) Les modèles LD trouvés dans certaines paires de SNP ont encore souligné l'importance d'utiliser des assemblages de génomes phasés avec précision et de prendre en compte les SV pour les efforts de cartographie et d'amélioration.

Image en taille réelle
Les ET ont fréquemment provoqué des translocations, des duplications et des inversions de petite à moyenne taille, tandis que des inversions plus importantes sont apparues aux points de cassure enrichis par des duplications segmentaires et des répétitions inversées 40 (Fig. 10 des données étendues ). Les points chauds SV sur les chromosomes (chr.) 1, chr. 4 et chr. 7 chevauchaient les points de cassure d'inversion communs et les régions enrichies en ET (Fig. 3b ). L'analyse des ET dans les points de cassure SV (500 pb en amont et en aval, 1 kb au total) a révélé des profils d'enrichissement en ET spécifiques à la population. Dans les génomes MJ, les duplications contenaient fréquemment trois familles d'ADN ET et des Ty3-LTR-RT (Tableau supplémentaire 13 ; P < 0,05, test t  de Welch ). Français Seuls les TE d'ADN Harbinger et Mutator étaient enrichis aux points de rupture de duplication dans d'autres populations, tandis que les duplications de chanvre sauvage n'ont montré aucun enrichissement significatif en TE, suggérant une activité TE récente ou des mécanismes alternatifs de formation de SV. Les inversions couvraient jusqu'à 7 % du génome, dépassant les valeurs observées dans les comparaisons multi-espèces, telles que le soja et la vigne 41 . Compte tenu de l'interaction spécifique à la population des TE et des SV, ainsi que de leur proximité fréquente avec les gènes, nos résultats ont révélé un ensemble diversifié de mécanismes à l'origine de l'évolution du génome du cannabis, dont beaucoup n'avaient pas été détectés lors des précédents efforts de reséquençage.

Une distorsion de ségrégation a été observée dans plusieurs régions du génome du cannabis 16 , reflétant les modèles détectés dans l' hybride F 1 EH23 (Fig. 3 des données étendues ), ce qui suggère que les SV peuvent contribuer aux biais de transmission des allèles 42 . De longues inversions, telles que celle trouvée sur le chr. 1 (19,5 Mb de longueur ; Fig. 3b ), peuvent fonctionner comme un supergène, peut-être maintenu comme un polymorphisme équilibré par une surdominance associative 43 . Français En effet, les 17 instances de cette inversion se sont révélées hétérozygotes dans 15 échantillons et homozygotes dans 1. Cette région inversée contenait environ 1 203 gènes, couvrant de nombreuses fonctions, y compris le gène circadien et de floraison PSEUDO RESPONSE REGULATOR 3 ( PRR3 ), qui a été impliqué dans le comportement DN « autofloraison » du cannabis 44 ainsi que dans la variation du temps de floraison associée à l'expansion de la gamme dans les principales cultures (soja et sorgho) et les populations naturelles 45 , 46 , 47 . PRR3 contenait un SNP à F st élevé (0,61) ainsi qu'une expression biaisée dans notre hybride F 1 EH23 qui était récessif pour le trait DN (Fig. 3 des données étendues ). Français Nous avons constaté que les valeurs SNP r 2 par paires et les tracés d'analyse en composantes principales locales (ACP) de cette zone suggéraient un certain niveau de formation d'haplotypes et un déséquilibre de liaison accru (LD ; > 10 kb) dans cette région, en particulier au point de rupture intérieur (Fig. 3c, d et Fig. supplémentaire 18 ). Cependant, il ne s'agissait pas de signaux évidents de différenciation complète ou de suppression de recombinaison comme cela a été démontré chez d'autres espèces 48 .

Voie des cannabinoïdes domestiqués
Le cannabis est le seul producteur prolifique de cannabinoïdes, bien que d'autres plantes (comme les hépatiques) et les champignons en synthétisent de plus petites quantités 49 . Bien que des enzymes clés dans la voie de biosynthèse des cannabinoïdes aient été identifiées (Fig. 4a et Fig. supplémentaire 19 ), l'organisation génomique de l'étape finale de cette voie n'a pas été résolue en raison de la complexité du génome du cannabis (Fig. supplémentaire 20 ). Ce mystère a été clarifié avec la découverte de gènes THCAS , CBDAS et CBCAS pleine longueur imbriqués dans des cassettes TE conservées, disposées en matrices sur chr. 7 11 . Cependant, il n'était pas clair si cet arrangement de gènes de synthase médié par TE était conservé dans tout le pangénome du cannabis.

Fig. 4 : La voie de biosynthèse des cannabinoïdes est domestiquée mais présente des modèles contrastés de diversité génétique et de synténie.
figure 4
a , Voie de biosynthèse des cannabinoïdes et nombre de copies de gènes à travers le pangénome, par assemblage. Les bords gauche et droit des boîtes à moustaches correspondent aux quartiles inférieur et supérieur, et la ligne dans la boîte est la médiane. Les lignes horizontales qui s'étendent vers l'extérieur de la boîte (moustaches) reflètent les valeurs minimales et maximales de l'ensemble de données. Chaque point de dispersion représente un génome individuel. AAE, enzyme activatrice d'acyle ; ACC, acétyl-CoA carboxylase ; ACP, protéine porteuse d'acyle ; CBCVA, acide cannabichromevarinique ; CBDVA, acide cannabidivarinique ; CBGVA, acide cannabigerovarinique ; CoA, coenzyme ; DH, déshydratase ; DMAPP, diméthylallyl pyrophosphate ; ENR, énoyl-ACP réductase ; FASII, synthase d'acide gras de type II ; GPPS, géranyl diphosphate synthase ; IPP, isopentényl diphosphate ; Français KAS, β-cétoacyl-acyl transporteur de protéine synthase ; OAC, acide olivétolique cyclase ; OLS, acide olivétolique synthase ; THCVA, acide tétrahydrocannabivarine. b , Phylogénie consensuelle de vraisemblance maximale des séquences codantes alignées des synthases de cannabinoïdes, avec la proportion de 100 réplicats bootstrap indiquée sur les branches où les valeurs sont supérieures à 0,75. Chaque extrémité de branche représente un groupe distinct de synthases avec plus de 99 % d'identité sur 859 synthases totales provenant des 193 échantillons de pangénome. c , Résumé des arrangements courants de cassettes de synthases de cannabinoïdes, avec le nombre d'occurrences dans le pangénome indiqué à gauche. Modèles de gènes de synthase complets et pleine longueur ; alignements de synthases partiels, tronqués et de moindre stringence qui représentent probablement des pseudogènes. d , Les cassettes de synthase présentent une variation de synténie, comme on le voit dans l'alignement local ancré BUSCO de chr. 7. Triangle rouge, cassettes THCAS ; triangles bleus, cassettes CBDAS ; triangle jaune, cassettes CBCAS ; triangles gris, correspondances de synthase à faible stringence (pseudogènes) ; cercles gris et roses, BUSCO. e , Arbre de vraisemblance maximale des séquences d'ADN TE d'hélitron flanquant (2 kb en amont ou en aval) les gènes de synthase de cannabinoïdes dans les 78 assemblages à l'échelle des chromosomes résolus par haplotype.

Données sources

Image en taille réelle

Les synthases de cannabinoïdes se sont dupliquées et néofonctionnalisées à partir de la famille ancestrale de gènes de type enzyme de pont berbérine (BBE-like) sur le chr. 7, puis ont été finalement réduites à un ensemble limité d'allèles fonctionnels THCAS et CBDAS par le processus de domestication 11 , 50 (Fig. 4b, c et Fig. 21 supplémentaire ). À travers le pangénome, chaque génome haploïde hébergeait au maximum un THCAS ou CBDAS pleine longueur , qui étaient disposés dans des réseaux similaires de cassettes TE, dont la plupart contenaient des pseudogènes de synthase. Ces cassettes de synthase de cannabinoïdes ont été trouvées dans un nombre limité d'arrangements avec une association à des TE spécifiques (Fig. 4c, e , Fig. 22 et 23 supplémentaires et Tableau 14 supplémentaire ), ce qui suggère que la sélection avait lié une petite gamme d'allèles fonctionnels à des haplotypes de cassettes de pseudogènes. En conséquence, la plupart des gènes THCAS et CBDAS étaient non synténiques et associés à des inversions entre les types de cannabis, mais étaient généralement situés dans une région limitée à environ 1,5 Mb sur le chr. 7 (Fig. 1a et 4d ). Alors que le pangénome du cannabis présente une forte variation génomique, la structure conservée des loci THCAS et CBDAS suggère que ces régions sont soumises à une forte pression sélective.

Les paralogues CBCAS pleine longueur étaient généralement à 15-20 Mb du centromère chr. 7, mais en raison d'une inversion génomique, ils apparaissaient parfois à environ 1,2 Mb de THCAS (Fig. 4d ). CBCAS était présent dans 56 % (110 sur 193) des génomes, dans des matrices de 1 à 15 copies (Fig. supplémentaire 22 ). Bien que CBCAS soit capable de produire de l'acide cannabichroménique (CBCA) dans la levure 16 , l'analyse de plus de 59 000 échantillons de cannabis n'a détecté presque aucun CBCA, probablement en raison de faibles niveaux naturels 51 . Dans EH23, l'expression de CBCAS était faible dans tous les tissus, ce qui suggère que l'accumulation de CBCA n'a pas été soumise à une forte sélection, potentiellement en raison de la préférence humaine pour le THC et le CBD (Fig. supplémentaire 19 ).

Gènes des cannabinoïdes et des acides gras de la famille des Varin
In planta, la longueur de la chaîne latérale alkyle des cannabinoïdes peut varier d'un à au moins sept carbones, cinq carbones étant les plus courants dans les pools génétiques modernes 52 . Les cannabinoïdes à chaîne latérale à trois carbones (propyle ; tétrahydrocannabivarine (THCV), cannabivarine (CBDV) et cannabigérovarine (CBGV)) sont beaucoup moins courants, mais ont suscité l'intérêt en tant que nouveaux agents thérapeutiques 53 . Des études antérieures ont caractérisé la nature polygénique de ce trait et associé le gène de la β-céto acyl carrier protein reductase ( BKR ) à la production de cannabinoïdes varine, mais ont laissé ouverte au moins une étape nécessaire à une hypothèse de biosynthèse complète 54 . Nous avons étendu le modèle de production de cannabinoïdes varine en identifiant un complexe de gènes d'acyl-lipide thioestérase ( ALT3 et ALT4 ) situés près du début du chr. Français 7 qui étaient associés à la production de varine dans notre population de cartographie F 2 et étaient contenus dans un haplotype commun dans notre analyse croisée de trios basée sur les k -mers (Fig. 5 , Note supplémentaire 1 , Fig. supplémentaires 24-26 et Tableaux supplémentaires 15 et 16 ). Il y avait une forte variation du nombre de copies du gène ALT dans le cannabis, allant de 2 à 14 copies (en considérant les assemblages phasés et non phasés) sur 4 chromosomes (Fig. 4a ). La plupart des génomes végétaux contiennent 4 à 5 homologues ALT , et certains ne contiennent qu'un seul homologue (par exemple, Brassica rapa et Glycine max ) 55 . De plus, la variation de la séquence de la protéine ALT dans le cannabis était notable, avec une appartenance distincte à l'orthogroupe de chaque ALT4 dans les génomes EH23a et EH23b (Fig. 5b,c ), bien que ces gènes soient situés à des positions similaires (Fig. 5b ). Étant donné que le plus court acide gras produit par une acyl-thioestérase grasse végétale est un acide gras 6:0 généré par l' ALT4 d'Arabidopsis , l'allèle EH23a d'ALT4 constitue un candidat de choix pour des expérimentations plus poussées. Cependant, compte tenu des localisations de croisement (Fig. 5a ), du risque de déséquilibre de liaison et des problèmes de cartographie des lectures courtes dans cette région, n'importe lequel de ces gènes trans- dupliqués d'ALT3 et d'ALT4 (ou variants d'épissage) pourrait être responsable de la production de cannabinoïdes varine. Par ailleurs, ils pourraient présenter des spécificités de substrat sous-fonctionnalisées qui se chevauchent, ce qui compliquerait les travaux de cartographie et d'amélioration ultérieurs ..

Fig. 5 : La transduplication et la diversification du gène ALT expliquent le phénotype cannabinoïde varine dans le cannabis.
figure 5
a , L'analyse de croisement PanKmer identifie les points de rupture spécifiques sur le chr. 7 (lignes pointillées verticales) pour les haplotypes du gène ALT par rapport aux synthases cannabinoïdes. UFBb a un croisement à 5 Mb qui rompt le lien entre HO40 (HO) THCAS et les gènes ALT de l'haplotype varine , tandis que WCFBb a deux croisements, qui entraînent une absence des allèles HO40 ALT . b , Arrangements ALT3 et ALT4 sur le chr. 7 de EH23a et EH23b. c , Phylogénie de jonction de voisins basée sur les protéines, montrant les relations entre les trois membres de l'orthogroupe ALT3 OG2876 sur le chr. 7, y compris les trois variantes d'épissage alternatives (t1, t2 et t3) du modèle du gène EH23a, avec la proportion de 100 réplicats bootstrap indiquée sur les branches où les valeurs sont supérieures à 0,50. d , Visualisation de la carte de séquence en tube de la variation à ALT4 à partir du pangénome graphique de 16 haplotypes incorporant les assemblages codés par couleur suivants : 1, AH3Ma ; 2, AH3Mb ; 3, BCMa ; 4, BCMb ; 5, EH23a ; 6, EH23b ; 7, GRMa ; 8, GRMb ; 9, KCDv1a ; 10, KCDv1b ; 11, KOMPa ; 12, KOMPb ; 13, MM3v1a ; 14, SAN2a ; 15, SAN2b ; 16, YMv2a. e , Modèles de gènes BKR à 6 et 11 exons et alignement local des acides nucléiques pour EH23a et EH23b, avec gros plan de la délétion de 2 pb qui tronque le modèle à 6 exons. Flèches vertes, modèles de gènes ; flèches jaunes, séquences codantes ; flèches rouges, bleues, blanches et olive, TE. Les barres verticales vertes représentent le pourcentage d'identité pour l'alignement. f , phylogénie de jonction de voisins basée sur la protéine BKR à partir de 772 modèles de gènes pangénomes, avec la proportion de 100 réplicats bootstrap indiquée sur les branches où les valeurs sont supérieures à 0,25.

Image en taille réelle

Bien que le gène BKR sur le chromosome 4 ait été identifié précédemment dans une étude d'association pangénomique, le pangénome a montré qu'une délétion de 2 pb produisait un modèle de gène de perte de fonction de 6 exons, dépourvu de résidus de site catalytique actif (Fig. 5e ). Ainsi, la réduction ou la perte de fonction de ce gène est probablement nécessaire pour augmenter le pool de protéines porteuses de butyryl-acyle, que l'un des produits du gène ALT3 ou ALT4 hydrolyse ensuite en acide butyrique, conduisant à la biosynthèse des cannabinoïdes varine (Fig. 4a ). Étant donné que le cannabis héberge les gènes BKR sur les chromosomes 3 et 4, la perte de la fonction catalytique d'une copie est peu susceptible de mettre fin complètement à la synthèse itérative de la chaîne d'acides gras, ce qui pourrait également expliquer pourquoi les cannabinoïdes varine ne sont présents que dans certains rapports avec les cannabinoïdes pentyles 52 , 54 . Français Dans l'ensemble du pangénome, la variante BKR à 6 exons EH23a a été trouvée exclusivement dans les échantillons de pedigree HO40 (varine élevée) ; tous les autres échantillons, à l'exception d'une version à 8 exons de BKR dans le cultivar d'huile de graines Finola (faible producteur de varine) étaient des modèles à 11 ou 12 exons. Les relations phylogénétiques des protéines BKR prédites ont montré que le gène à 6 exons pourrait être plus proche de certaines variantes du chanvre asiatique, du chanvre européen et des variétés sauvages (Fig. 5f ). Cependant, l'un des clades de gènes à 11 exons contenait le génome AutoCBDV producteur de varine et le producteur potentiel de varine Durban Poison, qui pourraient être des variantes à fonction réduite. Certains rapports suggèrent qu'il n'y a pas d'origine géographique définie associée au phénotype chimique de la varine 57 . Cependant, d'autres études font état de plantes contenant des niveaux élevés de cannabinoïdes varine provenant des régions australes de l'Afrique et de certaines régions d'Asie 52 , 58 . Collectivement, la phylogénie du gène BKR et l'analyse de clustering basée sur les k -mers du génome entier suggèrent une origine asiatique pour les gènes cannabinoïdes varine utilisés dans ce projet de sélection (Fig. 1f, g ). Une meilleure compréhension de ces voies de biosynthèse améliore notre capacité à sélectionner et optimiser la production de divers cannabinoïdes et ouvre la voie à l'amélioration des profils lipidiques des huiles de graines.

Conclusions
Notre analyse de 193 génomes de cannabis a révélé que la diversité mondiale reste sous-échantillonnée, le matériel génétique asiatique étant particulièrement sous-représenté. Malgré sa similarité phénotypique avec le chanvre européen, le chanvre asiatique présente des régions génomiques très divergentes, dont certaines s'alignent davantage avec le cannabis de type drogue nord-américain, suggérant des parents sauvages non découverts et une taxonomie non résolue. L'activité et l'hybridation des TE, plutôt que la duplication du génome entier, sont à l'origine de l'évolution du génome du cannabis. Les SV révèlent une diversité jusqu'alors cachée, manquée par le séquençage à lecture courte. Alors que les gènes des cannabinoïdes synthases présentent une variation limitée, les gènes liés au métabolisme des acides gras, à la croissance, à la défense et à la biosynthèse des terpènes présentent une diversité et une variation du nombre de copies importantes. Nous avons assemblé des chromosomes X et Y de cannabis entièrement phasés, identifiant une limite SDR-PAR variable et des homologues mâles uniques sur le grand chromosome Y qui pourraient influencer la période de floraison et le développement, offrant ainsi de nouvelles cibles pour la sélection.

Enfin, la découverte d'une importante variation dans les gènes responsables de la biosynthèse des acides gras (par exemple, ALT et BKR ) suggère que le cannabis possède un potentiel inexploité pour le métabolisme lipidique. Compte tenu du chevauchement entre la biosynthèse des cannabinoïdes et les voies de production d'huile de graines, l'hybridation de diverses lignées parentales au-delà du patrimoine génétique conventionnel de l'huile de graines de chanvre d'Europe du Nord pourrait produire de nouveaux profils et caractéristiques lipidiques. La conservation et l'utilisation du chanvre asiatique et du cannabis sauvage seront essentielles à l'avancement de la sélection du cannabis et au développement de son potentiel agronomique et pharmaceutique.

Méthodes

Matériel végétal
Des échantillons de pangénome de C. sativa ont été sélectionnés à partir de sources multiples afin de maximiser la diversité génétique, l'histoire et la valeur agronomique. Une grande partie du pangénome provient du programme de sélection de l'Oregon CBD (OCBD), qui comprend des cultivars d'élite ; des lignées fondamentales de marijuana potentiellement originaires des années 1970 à nos jours ; et des trios d'élite utilisés pour différents aspects du programme de sélection (données détaillées, figures 1 et 2 , tableau 1 supplémentaire et figure 1 supplémentaire ). Les cultivars restants proviennent des dépôts du Germplasm Resource Information Network (GRIN) du ministère de l'Agriculture des États-Unis (USDA) et de la Banque fédérale de gènes allemande (IPK Gatersleben), ainsi que de collections constituées par le Salk Institute auprès de divers obtenteurs. Le pangénome comprend du chanvre à fibres et à graines européen et asiatique, des populations sauvages, de la marijuana nord-américaine (type I) et du chanvre nord-américain à haut rendement en cannabinoïdes (CBD ou CBG) (types III et IV). La diversité cannabinoïde est également représentée par des chémotypes présentant une forte expression d'homologues pentyle ou propyle (varine) du CBD ou du THC, ainsi que par des plantes sans cannabinoïdes (type V). La variation de la période de floraison est également prise en compte grâce à l'inclusion de phénotypes réguliers de jours courts et de phénotypes à jour neutre (autofloraison) (tableau complémentaire 1 ).

Génome d'ancrage à l'échelle des chromosomes, résolu par haplotype et phasé EH23
EH23a (HO40) et EH23b (ERB) sont des assemblages haplotypiques résolus pour ERBxHO40_23, une F1 issue d'un croisement entre les parents ERB et HO40, deux lignées consanguines femelles exclusives d'OCBD. ERB est une plante DN (autofloraison), de type III (dominance CBDA), appartenant au groupe des variétés de cannabis à usage médical plus étroitement apparenté au chanvre HC européen. HO40 est une plante productrice de propyl cannabinoïdes de type I (THCVA et THCA), sensible à la floraison de jours courts, et appartient au groupe des variétés de cannabis à usage médical (MJ), plus proche du chanvre asiatique. La plante ERB génétiquement femelle (XX) a été induite à produire des fleurs mâles par traitement au thiosulfate d'argent et utilisée pour polliniser HO40. Un individu des populations F1 ( ERBxHO40_23) a été sélectionné pour le séquençage du génome. Français Les estimations initiales de la taille du génome d'ERB × HO40_23 à l'aide de la cytométrie de flux ont estimé une taille de génome diploïde de 1445,6 Mb (taille de génome haploïde de 722,8 Mb). L'ADN de haut poids moléculaire (HMW) a été extrait du tissu foliaire. Après l'extraction de l'ADN et la préparation de la bibliothèque (voir « Isolement d'ADN de haut poids moléculaire et séquençage du génome »), des lectures HiFi ont été générées sur Pacific Bioscience (PacBio) Sequel II. Hifiasm v0.16.1 59 a ensuite été utilisé en conjonction avec les lectures Hi-C pour produire les assemblages initiaux. Après assemblage, les lectures Hi-C ont été alignées sur les contigs Hifiasm_HiC à l'aide du pipeline Juicer v1.6.2 60 , puis ordonnées et orientées à l'aide de la version 180922 du pipeline 3D-DNA 61 . Les assemblages échafaudés ont ensuite été corrigés manuellement à l'aide de Juicebox v1.11.08 62 .

Population EH23 F 2
En plus des données de séquençage du génome entier décrites ci-dessus, ERBxHO40_23 a été autopollinisé en utilisant la masculinisation induite par le thiosulfate d'argent de fleurs sélectionnées, pour créer une population de cartographie F 2. À partir de cette population F 2 , les individus ont été notés pour l'autofloraison et la teneur en varine, et séquencés à l'aide de lectures Illumina 100 pb par NRGene (Nrgene Technologies). Des cycles de génotypage WGS Illumina ont été effectués sur 288 plantes de cette population, plus le parent ERBxHO40_23. Trim_galore a été utilisé pour rogner les séquences en utilisant : --2 couleur 20, ce qui a donné 271 individus pour l'analyse 63 . En moyenne, les échantillons avaient une couverture 8,5×. Minimap a été utilisé pour aligner chaque échantillon sur EH23b.softmasked.fasta. Freebayes a été utilisé pour appeler les variantes : -g 4500 -0 -n 4 --trim-complex-tail --min-alternate-count 3 64 . Bcftools a été utilisé pour filtrer sur les scores QUAL > 20 (99 % de chances que la variante existe) 65 . Enfin, les outils Vcftools 66 ont ensuite été utilisés pour filtrer davantage les SNP : --remove-indels --minGQ 20 --maf 0.25 --max-missing 1 --min-allèles 2 --max-allèles 2 --stdout –recode 66 ; seuls les sites qui ont été notés comme hétérozygotes (0/1) dans l'échantillon ERBxHO40_23 ont été conservés, ce qui a donné 93 251 SNP.

Méthodes HPLC du cannabinoïde EH23 F 2
La chromatographie liquide haute performance (HPLC) a été réalisée selon le protocole détaillé précédemment 67 afin de déterminer la teneur relative en cannabinoïdes propyliques et pentyliques de toutes les plantes utilisées dans cette étude, y compris la descendance F 2. En bref, le tissu floral mature a été prélevé sur chaque individu, congelé à −80 °C et homogénéisé, avant que les cannabinoïdes ne soient extraits dans du méthanol.

Séquençage de l'ARN EH23
Les semis ERBxH040-21 ont été cultivés dans des conditions environnementales contrôlées. Différents tissus ont été prélevés au cours du développement des plantes, notamment les fleurs précoces et tardives, le feuillage, le feuillage sous un régime de lumière inductive de 12 heures, les racines et les extrémités des pousses. L'extraction de l'ARN total a été réalisée à l'aide du kit QIAGEN RNeasy Plus, conformément aux protocoles du fabricant. L'ARN total a été quantifié à l'aide du test d'ARN Qubit et de la TapeStation 4200. Avant la préparation de la bibliothèque, nous avons effectué un traitement à la DNase, suivi d'un nettoyage des billes AMPure et d'une déplétion de l'ARNr QIAGEN FastSelect HMR. La préparation de la bibliothèque a été réalisée avec le kit de préparation de bibliothèque d'ARN NEBNext Ultra II, conformément aux protocoles du fabricant. Ces bibliothèques ont ensuite été analysées sur la plateforme NovaSeq6000 en configuration 2×150 pb.

Analyse de l'expression de l'haplotype EH23
Nous avons mesuré les niveaux d'expression des gènes à l'aide de Salmon v1.6.0 68 . En bref, les lectures courtes appariées brutes issues du séquençage ont été cartographiées sur les CDS des deux haplotypes (EH23a et EH23b) et l'abondance a été estimée en transcrits par million (TPM) pour l'analyse en aval. Les taux de cartographie ont été calculés avec samtools flagstat 65 . Le seuil minimum de TPM pour un gène donné était ≥ 0,1. Les paires de gènes d'haplotype ont été identifiées par les meilleurs résultats réciproques et la synténie à l'aide de blastp et MCScanX 69 , et seuls les gènes partagés entre les deux haplotypes ont été inclus. Une similarité de séquence minimale ≥ 95 % et un seuil de différence de 5 TPM entre les haplotypes ont été imposés. Français La visualisation a été réalisée en utilisant une combinaison de Matplotlib 70 , SciPy 71 et NumPy 72 , et les valeurs d'expression sont affichées dans les cartes thermiques sous forme de log 2 TPM pour représenter le changement de repli logarithmique. L'enrichissement des termes GO des processus biologiques a été réalisé avec topGO 73 avec les paramètres suivants : resultWeight <- runTest(topGOdata, algorithm = “weight01”, statistic = “fisher”). Une correction de tests multiples a été effectuée avec la commande suivante : fullResults$p.adj <- p.adjust(as.numeric(fullResults$weightFisher), method = “fdr”). L'univers génétique de fond comprenait tous les gènes avec un terme GO provenant de EH23a ou EH23b.

Analyse de l'expression génétique biaisée en fonction du sexe d'Ace High
Nous avons prélevé des tissus floraux et foliaires de quatre plants Ace High, deux mâles et deux femelles, au même stade de développement, à 8h00 et 20h00, pour un total de 16 échantillons. Comme les plants mâles Ace High fleurissent plusieurs semaines avant les plants femelles dans des conditions extérieures normales, les plants ont germé et cultivé en jours longs, puis ont été transférés dans des conditions inductives de jours courts pour la floraison, ce qui a permis aux plants mâles et femelles de développer des fleurs simultanément. Les échantillons ont été prélevés à deux moments de la journée afin de capturer tous les transcrits, quelle que soit leur expression circadienne ou diurne 74 . L'ARN a été extrait avec le kit Qiagen Plant RNA. La préparation de la bibliothèque a été réalisée avec le kit d'ADNc pleine longueur d'Oxford Nanopore Technologies (ONT). Nous avons aligné l'ADNc pleine longueur sur les génomes Ace High (AH3Ma/b) résolus par haplotype avec minimap2 (v2.24) 75 et l'expression génique a été mesurée avec Salmon v1.6.0 68 . Français L'expression biaisée par le sexe a été attribuée à tous les échantillons mâles et femelles spécifiques aux tissus (feuilles et fleurs de deux plantes mâles (plantes A et B, collectées à 08h00 et 20h00) et de deux plantes femelles (plantes C et D, collectées à 08h00 et 20h00)). Chaque tissu spécifique au sexe avait quatre réplicats (par exemple, les mesures d'expression génique des fleurs mâles échantillonnées sur deux plantes mâles à deux moments différents ont été moyennées). Deux catégories d'expression biaisée ont été définies : premièrement, l'expression moyenne qui était plus élevée (au moins 5,0 TPM de plus) dans les échantillons mâles ou femelles, par rapport à l'autre sexe ; et deuxièmement, l'expression mâle ou femelle uniquement, où les gènes n'étaient pas exprimés dans un sexe (0,0 TPM pour toutes les réplicats), mais avaient une expression moyenne d'au moins 1,0 TPM dans l'autre sexe. Pour l'analyse des termes GO avec topGO 73 , les deux catégories d'expression génique biaisée ont été combinées. Les gènes entièrement synténiques ont été identifiés dans l'ensemble des quatre génomes avec les chromosomes X et Y (AH3Ma/b, BCMa/b, GRMa/b et KOMPa/b) en utilisant genespace, et ont été regroupés en fonction de leur emplacement dans la région PAR, SDR ou spécifique à X.

Préparation et séquençage de la bibliothèque Hi-C
Pour la bibliothèque Dovetail Omni-C, la chromatine a été fixée au formaldéhyde dans le noyau, puis extraite. La chromatine fixée a été digérée par la DNAse I, les extrémités de la chromatine ont été réparées et ligaturées à un adaptateur pont biotinylé, puis les extrémités contenant l'adaptateur ont été ligaturées par proximité. Après ligature de proximité, les liaisons croisées ont été inversées et l'ADN purifié. L'ADN purifié a été traité pour éliminer la biotine non présente dans les fragments ligaturés. Les bibliothèques de séquençage ont été générées à l'aide d'enzymes NEBNext Ultra et d'adaptateurs compatibles Illumina. Les fragments contenant de la biotine ont été isolés à l'aide de billes de streptavidine avant l'enrichissement par PCR de chaque bibliothèque. La bibliothèque a été séquencée sur une plateforme Illumina HiSeqX pour obtenir une couverture de séquence d'environ 30×. HiRise a ensuite utilisé (voir paire de lectures ci-dessus) MQ > 50 lectures pour l'échafaudage. D'autres bibliothèques Hi-C ont été générées à l'aide du kit Phase Genomics Proximo Hi-C (Plant) version 4.

Isolement de l'ADN HMW et séquençage du génome
Tous les échantillons ont été séquencés sur un PacBio Sequel II. Pour les échantillons provenant de 'Michael' (Tableau supplémentaire 1 ), l'ADN HMW a été isolé en utilisant le tampon de lyse Carlson et les pointes Qiagen Genomic comme décrit dans la méthode Arabidopsis du protocole ONT 'Plant leaf gDNA' . L'ADN a ensuite été sélectionné en fonction de la taille des fragments de plus de 10 à 25 kb en utilisant le kit ONT Short Fragment Eliminator (EXP-SFE001). L'ADN HMW a ensuite été confirmé par Tapestation Genomic DNA ScreenTape (Agilent 5067-5365) ou le kit Femto Pulse Genomic DNA 165 kb (Agilent FP-1002-0275). Pour les échantillons provenant de 'OCBD' (Tableau supplémentaire 1 ), l'ADN HMW a été isolé en utilisant un protocole modifié 76 . Français En bref, les échantillons ont été broyés dans un mortier et un pilon avec de l'azote liquide, deux cycles de lavage chloroforme:isoamyle ont été effectués, et des billes Total Pure NGS (Omega Biotek) ont été utilisées comme substitut du protocole original. La qualité et la pureté de l'ADN génomique (ADNg) ont ensuite été évaluées à l'aide d'un NanoDrop One (ThermoFisher) avant de commencer la préparation de la bibliothèque. Des bibliothèques de lecture longue continue (CLR) ont été réalisées selon le protocole Pacbio PN 101-693-800 V1. Les sélections de taille sur l'ADNg ont été effectuées à l'aide de la cassette Blue Pippin U1 High Pass 30-40 kb avec un seuil de départ de 30-40 kb de paires de bases pour produire des distributions de fragments de 60-90 kb. Les bibliothèques de séquençage consensus circulaire HiFi (CCS) ont été préparées selon le protocole PacBio (PN 101-853-100 V5). Des distributions de fragments d'ADNg cisaillés avec un pic modal d'environ 18 kb ont été produites à l'aide de g-Tubes de cassettes Covaris et Blue Pippin S1 High Pass 6–10 kb pour éliminer tout ce qui mesure moins de 10 kb.

Assemblage et échafaudage du pangénome
Tous les génomes étiquetés Hifiasm_HiC, Hifiasm_Trio_RagTag, Hifiasm_RagTag et Hifiasm (Tableau supplémentaire 1 ) ont été assemblés à l'aide de Hifiasm v0.16.1 59 . Lorsqu'elles étaient disponibles, les données Hi-C et les données du trio parental HiFi ont également été intégrées au processus d'assemblage définissant respectivement les types Hifiasm_HiC et Hifiasm_Trio_RagTag. Les assemblages CLR ont été générés à l'aide de FALCON Unzip de PacBio SMRT Tools 9.0 Suite 77 et les génomes étiquetés CCS ont été assemblés avec HiCanu v2.2 78 . Après assemblage, les lectures Hi-C ont été alignées sur les contigs Hifiasm_HiC à l'aide du pipeline Juicer v1.6.2 60 , puis ordonnées et orientées à l'aide de la version 180922 du pipeline 3D-DNA 61 . Français Les assemblages échafaudés ont ensuite été corrigés manuellement à l'aide de Juicebox v1.11.08 62 . Les assemblages Hifiasm_RagTag et Hifiasm_Trio_RagTag ont été échafaudés en utilisant les chromosomes divisés des 24 génomes échafaudés Hi-C et vérifiés en termes d'erreurs avec yak-0.1 (github.com/lh3/yak). Sourmash v4.6.1 79 a été utilisé pour générer une matrice de similarité Jaccard entre les chromosomes et chaque assemblage non échafaudé, et la version la plus similaire des chromosomes 1 à X a été concaténée pour générer une référence pour l'échafaudage via RagTag v2.1.0 80 . Si la matrice de similarité identifiait le chromosome Y comme la meilleure correspondance, l'assemblage restait non échafaudé. BUSCO v5.4.3 79 avec l'ensemble de données eudicots_odb10 et assembly-stats v1.0.1 ( https://github.com/sanger-pathogens/assembly-stats ) ont été utilisés sur tous les assemblages pour mesurer l'exhaustivité et la contiguïté.

Construction de graphes basés sur des références avec Minigraph-cactus
Le pangénome graphique des 78 assemblages échafaudés et masqués a été généré avec Minigraph-Cactus 20. Nous avons utilisé la commande cactus-pangenome dans un Apptainer (v1.1.8) Image 81 ( https://quay.io/comparative-genomics-toolkit/cactus:v2.6.7-gpu ) et les indicateurs de paramètres suivants : --reference EH23a EH23b --vcf --vcfReference EH23a EH23b --giraffe --chrom-og --chrom-vg --viz --gfa --gbz. L'entrée seqFile ainsi que le graphique de sortie dans divers formats (vg, paf, hal, etc.) sont disponibles à l' adresse https://resources.michael.salk.edu . Nous avons également compilé des variantes à travers le pangénome en termes de coordonnées de chaque assemblage en utilisant vg deconstruct -a -C (vg tools v1.61.0 « Plodio ») pour dériver les fichiers vcf à partir de la sortie gfa de Minigraph-Cactus, puis en utilisant vcfbub --max-ref-length 100000 --max-level 0 pour aplatir les variantes imbriquées et supprimer celles de plus de 100 Ko de longueur (voir 78csatHaps_minigraphcactus_.vcf.gz) 20 , 82 , 83 .

Construction de graphes sans référence avec PGGB
Séquences d'entrée et orientation
Nous avons généré deux versions de chaque graphique PGGB, une avec les fichiers fasta fournis dans le tableau « Fichiers d'assemblage » et dans l'instance JBrowse sur https://resources.michael.salk.edu (orientation mixte) et une avec les fichiers fasta dans lesquels les séquences ont été systématiquement orientées pour correspondre au brin plus du chromosome homologue correspondant dans EH23a (orientation cohérente).

Pour le graphe PGGB 16csatAsms, nous avons généré un graphe par chromosome autosomique à partir des 16 assemblages échafaudés et masqués suivants : AH3Ma, AH3Mb, BCMa, BCMb, EH23a, EH23b, GRMa, GRMb, KCDv1a, KCDv1b, KOMPa, KOMPb, MM3v1a, SAN2a, SAN2b et YMv2a. Nous avons généré un fichier fasta combiné par chromosome comme entrée pour PGGB (voir 16csatAsms_chr[1-9]_combined.fa.gz et 16csatAsms_chr[1-9]-oOrient_combined.fa.gz pour les entrées fasta d'orientation cohérente et mixte, respectivement, sur resources.michael.salk.edu). Nous avons construit des graphiques par chromosome au lieu d'un seul graphique pour l'ensemble de tous les assemblages combinés en raison des exigences de calcul pour l'analyse de génomes de cette taille et de ce contenu répétitif (Fig. 6 des données étendues ).

Pour le graphique PGGB 13csatSexChroms, les 13 séquences de chromosomes sexuels échafaudées et masquées en douceur AH3Ma.chrX, AH3Mb.chrY, BCMa.chrX, BCMb.chrY, EH23a.chrX, GRMa.chrY, GRMb.chrX, KCDv1a.chrX, KCDv1b.chrX, KOMPa.chrX, KOMPb.chrY, SAN2a.chrX et SAN2b.chrX ont été combinées dans un seul fichier fasta (voir 13csatSexChromsCombined_filtOrientation.fa.gz et 13csatSexChromsCombined_origOrientation.fa.gz pour les entrées fasta à orientation cohérente et mixte, respectivement, sur https://resources.michael.salk.edu ).

Génération de graphes
Nextflow v24.04.3.5916 84 a été utilisé pour exécuter le déploiement nf-core/pangenome v1.1.2 - canguro 85 , 86 de PGGB 22 dans le profil de singularité nextflow. Tous les paramètres PGGB par défaut ont été utilisés pour la génération du graphique. Pour le graphique PGGB 13csatSexChroms, l'indicateur --vcf_spec a été utilisé pour compiler la variation de séquence à travers le pangénome par rapport aux coordonnées de chaque assemblage, et chaque vcf a été traité avec vcfbub --max-ref-length 100000 --max-level 0 pour aplatir les variantes imbriquées et supprimer celles >100 kb de longueur 20 (voir les fichiers 13csatSexChroms_pggb-fOrient_.vcfbub.vcf.gz et 13csatSexChroms_pggb-oOrient_.vcfbub.vcf.gz pour les vcfs à partir de graphiques générés avec des fastas d'entrée à orientation cohérente et mixte, respectivement, sur https://resources.michael.salk.edu ). Pour le graphique PGGB 16csatAsms, PGGB a été exécuté sans l'indicateur --vcf_spec et, à la place, vg deconstruct -a a été utilisé pour compiler la variation de séquence à travers le pangénome à partir du fichier gfa final pour chaque chromosome autosomique (vg tools v1.61.0 « Plodio ») 82 , 83 . Les fichiers vcf par autosome ont été concaténés en un seul fichier pour chaque assemblage à l'aide de bcftools 65 , puis traités avec vcfbub --max-ref-length 100000 --max-level 0 pour aplatir les variantes imbriquées et supprimer celles de plus de 100 Ko de longueur 20 (voir 16csatAsms_pggbByChrom_.vcf.gz et 16csatAsms_pggbByOriginalChrom_.vcf.gz pour les vcf des graphiques générés avec des entrées fastas d'orientation cohérente et mixte, respectivement, sur resources.michael.salk.edu). Des paramètres identiques ont été utilisés pour chaque paire de graphiques générés avec des entrées d'orientation cohérente et mixte.

Visualisation
Les visualisations des pangénomes graphiques ont été générées à partir des fichiers FINAL_GFA du pipeline PGGB exécuté sur des fastas d'entrée à orientation cohérente. Les fichiers VG ont été dérivés des fichiers GFA à l'aide de vg convert 82 , 83 . Ensuite, prepare_vg.sh et prepare_chunks.sh ont été utilisés pour visualiser la variation du pangénome dans les régions d'intérêt dans une instance locale du serveur Sequence Tube Map ( https://github.com/vgteam/sequenceTubeMap.git , cloné le 4 septembre 2024).

Cartographie de lecture courte vers le pangénome graphique
Français Les séquences de lecture courte de la population EH23 F 2 et de Ren et al. 2 ont été alignées sur le graphique pangénome avec vg giraffe (exemple de commande : vg giraffe -Z {input.inputGBZ} -d {input.inputDist} -m {input.inputMin} -f {input.inputR1} -f {input.inputR2} -t {threads} > {output.outputFile}) 87 . Les statistiques récapitulatives ont été collectées avec vg stats 82 (exemple de commande : vg stats -a {input.inputGAM} {input.inputGBZ} > {output.outputFile}). Calculer la prise en charge de la lecture à partir du fichier GAM avec vg pack 82 (exemple de commande : vg pack -x {input.inputGBZ} -g {input.inputGAM} -Q 5 -t {threads} -o {output.outputFile}). Les variantes pour la population de mappage F 2 ont été appelées avec vg call 88 (exemple de commande : vg call --gbz {input.inputGBZ} -k {input.inputPack} -S EH23b -t {threads} > {output.outputFile}). Le traitement en aval des fichiers VCF a été effectué avec BCFtools 65 (exemples de commandes : (1) bcftools view -a -f PASS merged.sorted.vcf.gz > merged.sorted.a.PASS.vcf.gz ; (2) bcftools norm --fasta-ref EH23b.softmasked.fasta -m -any merged.sorted.a.PASS.vcf.gz > merged.sorted.a.PASS.normed.vcf.gz ; (3) bcftools norm --fasta-ref EH23b.softmasked.fasta --rm-dup exact merged.sorted.a.PASS.normed.vcf.gz > merged.sorted.a.PASS.normed_no_dups.vcf.gz). Le filtrage du fichier VCF basé sur le graphique pangenome pour le comparer au fichier VCF basé sur la référence linéaire a été effectué avec VCFtools 66 (exemple de commande : vcftools --remove-indels --minGQ 20 --maf 0.25 --max-missing 0.3 --min-alleles 2 --max-alleles 2 --stdout --recode --gzvcf merged.sorted.a.PASS.normed_no_dups.vcf.gz > merged.sorted.a.PASS.normed_no_dups.more_filter_missing0.3.vcf.gz).

Graphique de la disponibilité des données pangénome
Les fichiers d'entrée et de sortie pour les pangénomes graphiques décrits ci-dessus (78csatHaps générés par Minigraph-Cactus, et 16csatAsms et 13csatSexChroms générés par PGGB) sont disponibles sur https://resources.michael.salk.edu . Les fichiers Vcf ont été ajoutés en tant que pistes à l' instance JBrowse des génomes de cannabis sur https://resources.michael.salk.edu .

Appel de base des cytosines méthylées
Les lectures génomiques des fichiers ONT FAST5 bruts générés à partir d'échantillons de séquençage de cannabis ont été utilisées pour l'appel de méthylation. Les assemblages génomiques générés pour les mêmes individus ont servi de référence pour l'alignement. Les données FAST5 ont été converties au format POD5 à l'aide du progiciel pod5 ( https://github.com/nanoporetech/pod5-file-format ). L'appel de méthylation a été réalisé avec le logiciel d'appel de bases ONT Dorado version 0.3.4 ( https://github.com/nanoporetech/dorado/ ). Dorado utilise les données POD5 brutes et une référence pour identifier les cytosines méthylées. Cette opération a été réalisée avec le modèle d'appel de bases à très haute précision (SUP) entraîné pour le type de pore R9.4.1 ou R10.4.1 et une vitesse de translocation de 400 bps, selon les conditions de séquençage de chaque lignée. Les génomes assemblés générés à partir de chaque échantillon ont servi de référence pour générer un fichier BAM aligné avec des balises MM/ML contenant les appels de méthylation 5mC et 5hmC. Ces appels ont ensuite été compilés avec modkit ( https://github.com/nanoporetech/modkit ), et les appels accumulés (agrégation de 5mC et 5hmC) ont servi à calculer les fréquences de méthylation à l'échelle du génome sur tous les sites CG.

Prédiction des gènes et des répétitions
La prédiction du modèle génétique impliquait un pipeline en plusieurs étapes et a été appliquée à tous les assemblages.

(1)
Nous avons d'abord créé une bibliothèque de répétitions à l'aide de RepeatModeler 89 sur un petit nombre d'assemblages de cannabis de haute qualité et de bibliothèques de répétitions préexistantes. Nous avons utilisé OrthoFinder (v2.5.4) 90 pour regrouper les répétitions en vue de la déduplication. La bibliothèque de répétitions finale comprenait 10 % des séquences de chaque orthogroupe de répétitions (minimum 1 séquence), pour un total de 6 262 séquences provenant de 5 793 groupes.

un.
Finola ( GCA_003417725.2 )

b.
CBDRx (GCF_900626175.2)

c.
Purple_Kush ( GCA_000230575.5 )

d.
ERBxHO40_23

f.
ERBxHO40_23

f.
I3

g.
JL ( GCA_013030365.1 )

h.
ERB_F3

je.
Cannbio-2 ( GCA_016165845.1 )

j.
W103

k.
JL_Mère ( GCA_012923435.1 )

l.
FB30

m.
TS1_3_v1

n.
HO40

(2)
Pour les 193 génomes, les répétitions ont été masquées avec RepeatMasker (v4.1.2) 91 en utilisant la bibliothèque de répétitions (ci-dessus).

(3)
Nous avons prédit des modèles de gènes avec le pipeline TSEBRA (en utilisant Braker v2.1.6) 92 . Nous avons développé un flux de travail Snakemake pour exécuter TSEBRA, disponible ici : https://gitlab.com/salk-tm/snake_tsebra . Nous avons incorporé une variété de bibliothèques de protéines préexistantes provenant du cannabis et d'autres organismes comme preuve : (a) Arabidopsis thaliana ; (b) Theobroma cacao ; (c ) G. max ; (d) Rhamnella rubrinervis ; (e) Ziziphus jujuba ; (f) Trema orientale ; (g) Vitis vinifera ; (h) Prunus persica ; (i) Morus notabilis ; (j) C. sativa ; (k) H. lupulus .

(4)
Les bibliothèques RNA-seq (tableau supplémentaire 2 ) ont été alignées soit avec hisat2 (v2.2.1) 93 pour la cartographie en lecture courte, soit avec minimap2 (v2.24) 75 pour l'ADNc pleine longueur. Les données Illumina en lecture courte ont été ajustées avec fastp 94 . Les données d'expression ont été intégrées au pipeline TSEBRA comme preuve de modèle génétique.

(5)
Les annotations fonctionnelles putatives des modèles génétiques ont été attribuées à l'aide d'eggnog-mapper (v2.0.1) 95 .

(6)
La qualité et l'exhaustivité globales du modèle génétique ont été évaluées en comparant les scores BUSCO du génome (v5.4.3) 96 aux scores BUSCO du protéome sur l'ensemble de données eudicots_ocdb10 (tableau supplémentaire 1 : https://doi.org/10.6084/m9.figshare.25869319.v2 ).

(7)
EDTA v1.9.6 97 a également été utilisé pour identifier les TE dans le pangénome du cannabis avec la commande suivante : EDTA.pl --genome {inputFastaFile} --anno 1 --threads 32.

Méthodes d'idéogrammes
Les idéogrammes de chaque paire de chromosomes pour les génomes à 78 niveaux de chromosomes et à phases haplotypiques ont été créés à l'aide de ggplot2 [ https://ggplot2.tidyverse.org ] dans R ( www.R-project.org ) (Fig. 1 et Extended Data Fig. 5 ). La longueur de chaque chromosome a été déterminée à l'aide de 'nuccomp.py' ( https://github.com/knausb/nuccomp ) et utilisée avec ggplot::geom_rect() pour initialiser le tracé. Des fenêtres d'un million de paires de bases ont été créées pour chaque chromosome où le nombre de motifs CpG a été compté pour chaque fenêtre avec le programme motif_counter.py ( https://github.com/knausb/nuccomp ). Le nombre de CpG a été converti en un taux en divisant par la taille de la fenêtre ; cela a également pris en compte la dernière fenêtre de chaque chromosome, qui était inférieure à un million de paires de bases. Ces taux ont été mis à l'échelle en soustrayant le taux minimum, puis en divisant par le taux maximum (le taux maximum après soustraction du taux minimum), pour chaque chromosome. Afin de mettre en évidence visuellement l'enrichissement du motif CpG dans la région centromérique, une valeur inverse du taux CpG a été obtenue en soustrayant le taux CpG de chaque fenêtre. Ce taux CpG inverse, mis à l'échelle, a été utilisé pour la largeur de chaque fenêtre d'un mbp et coloré en fonction de la densité génétique à l'aide de la palette Viridis Magma ( https://doi.org/10.5281/zenodo.4679424 ).

La variation structurelle entre chaque paire de chromosomes a été déterminée à l'aide d'alignements minimap2 75. Les comparaisons minimap2 ont été annotées avec SyRI 98. Les régions synténiques et inversées ont été tracées à l'aide de la méthode ggplot2::geom_polygon(), inspirée de plotsr 99 , mais implémentée en R (github.com/ViningLab/CannabisPangenome).

Français L'emplacement des loci candidats dans les haplotypes EH23 A et B a été déterminé à l'aide de BLASTN 100. Les séquences de requête étaient les suivantes : CBCA synthase ( LY658671.1 ), CBDA synthase ( AB292682 , AB292683 , AB292684 ), THCA synthase ( AB212829 , AB212830 ) et acide olivétolique cyclase ( NC_044376.1 :c4279947-4279296, NC_044376.1 :c4272107-4271242 ). Ces séquences ont été combinées avec les séquences centromériques, télomériques et d'ARNr dans le fichier blastn_queries_rrna_cann.fasta ( https://github.com/ViningLab/CannabisPangenome ). BLASTN a été appelé avec les options suivantes : -task megablast -evalue 0.001 -perc_identity 90 -qcov_hsp_perc 90. Les résultats tabulaires (chromosome du sujet, début d'alignement du sujet, fin d'alignement du sujet) de BLASTN ont été lus dans R et tracés sur des idéogrammes avec ggplot2::geom_rect() ( https://ggplot2.tidyverse.org ).

Analyse des centromères et des télomères
Les assemblages de génomes basés sur des lectures longues basées sur ONT et PacBio permettent l'assemblage de certaines des séquences de centromères et de télomères hautement répétitives 101. Les centromères ont été identifiés en recherchant des génomes à l'aide d'un chercheur de répétitions en tandem (TRF ; v4.09) en utilisant des paramètres modifiés (1 1 2 80 5 200 2000 -d -h) 102. Les répétitions en tandem ont été reformatées, additionnées et tracées pour trouver la répétition en tandem ayant le plus grand nombre de copies selon nos méthodes précédentes pour identifier les centromères 101 (Fig. 5c des données étendues ).

Les télomères ont été estimés à l'aide de deux méthodes différentes. Premièrement, la sortie TRF a été interrogée pour les répétitions avec une période de 7 pour les 14 versions différentes de la répétition canonique de base du télomère : AAACCCT, AACCCTA, ACCCTAA, CCCTAAA, CCTAAAC, CTAAACC, TAAACCC, TTTAGGG, TTAGGGT, TAGGGTT, AGGGTTT, GGGTTTA, GGTTTAG et GTTTAGG : (grep -a 'PeriodSize=7' *.genome.fasta.1.1.2.80.5.200.2000.dat.gff | grep -a 'Consensus=AAACCCT\|Consensus=AACCCTA\|Consensus=ACCCTAA\|Consensus=CCCTAAA\|Consensus=CCTAAAC\|Consensus=CTAAACC\|Consensus=TAAACCC\|Consensus=TTTAGGG\|Consensus=TTAGGGT\|Consensus=TAGGGTT\|Consensus=AGGGTTT\|Consensus=GGGTTTA\|Consensus=GGTTTAG\|Consensus=GTTTAGG' -). Deuxièmement, nous avons recherché des séquences de télomères dans les lectures brutes ONT et PacBio à l'aide de notre algorithme TeloNum 103 . Bien que les résultats aient été variables selon les assemblages pangénomes, en général, la séquence de télomères a été trouvée à l'extrémité du chromosome avec une longueur moyenne de 16 kb pour les assemblages PacBio et de 60 kb pour les assemblages ONT. Les différences entre la longueur des télomères ONT et PacBio reflétaient probablement la longueur de lecture d'entrée de > 100 kb et 15–20 kb, respectivement. L'analyse TeloNum des lectures brutes a confirmé les distributions des assemblages compatibles avec la plupart des chromosomes possédant une séquence télomérique tout en étant plus courte que leur taille réelle. Les télomères du cannabis sont plutôt longs pour un eudicotylédone, ce qui pourrait s'expliquer par sa propagation principalement clonale à des fins médicinales 104 .

La séquence du centromère a été identifiée sur la base de l'hypothèse qu'elle sera la répétition la plus abondante dans les génomes qui ont également une structure de répétition d'ordre supérieur (HOR) 101 , 105 . Deux répétitions différentes avec HOR ont été identifiées dans les assemblages PacBio HiFiasm, tandis qu'une seule a été trouvée dans les assemblages ONT et l'assemblage CBDRx précédent, qui est basé sur la séquence ONT 11 . La répétition avec le nombre de copies le plus élevé était de 370 pb qui variait entre 20 et 30 Mb (2 à 4 % du génome total) avec HOR à 740 et 1 110 pb (Fig. 5 des données étendues ). La deuxième répétition la plus élevée, et la seule trouvée dans les assemblages ONT, était une répétition de 237 pb qui variait entre 3 et 5 Mb (0,4 à 1,0 % du génome total) et avait HOR à 474 et 711 pb (Fig. 5 des données étendues ). Français La cartographie de la répétition de 370 pb sur les génomes résolus par chromosome a révélé que cette répétition était principalement située à l'extrémité des chromosomes à côté de la séquence télomérique, ce qui suggère qu'elle pourrait être liée à la répétition sous-télomérique CS-1 106 . La comparaison de la répétition centromérique putative de 370 pb et de la répétition sous-télomérique CS-1 a montré qu'il s'agit du même élément de répétition. En revanche, la répétition centromérique putative de 237 pb a été trouvée principalement sur les chromosomes 6 et 8 dans la région centromérique prédite (Fig. 1a et Données étendues Fig. 5 ). Cependant, des réseaux plus petits de 237 pb ont été trouvés sur tous les chromosomes dans les assemblages de la région centromérique prédite (sur la base du CpG, de la méthylation, du contenu génétique et des ET), la plupart des assemblages ayant de petits réseaux sur les chromosomes 6 et 8.

Détection et quantification de l'ADN ribosomique
Les séquences d'ADN ribosomique (ADNr) 45S (18S, 5,8S et 26S) et 5S ont été identifiées dans l'assemblage CBDRx/CS10 (LOC115701787 5,8S, LOC115701759 18S, LOC115701762 26S et LOC115721558 5S) et utilisées pour BLAST contre les assemblages pangénomes (Fig. 1a et Données étendues Fig. 5 ). Sur l'ensemble des génomes échafaudés, le réseau 45S était principalement situé à l'extrémité acrocentrique du chr. 8, et le 5S était situé exclusivement sur le chr. 7 entre le réseau de cassettes de synthase de cannabinoïdes, ce qui est cohérent avec les résultats publiés avec l'hybridation in situ en fluorescence 106 . Cependant, des réseaux partiels ont été trouvés dans certains assemblages sur tous les chromosomes (Données étendues Fig. 5 ). La répartition des matrices partielles sur différents chromosomes pourrait refléter une variabilité entre les génomes, car certains partagent des emplacements similaires entre les assemblages. La plupart des matrices se trouvent sur les contigs non échafaudés, ce qui suggère que ces matrices variables entre différents chromosomes pourraient résulter de mauvais assemblages. En général, on compte en moyenne 1 000 matrices 45S et 2 000 matrices 5S dans le génome du cannabis ; certains assemblages présentent la matrice 5S entièrement assemblée sur le chromosome 7.

Méthodes de fréquence allélique
Les données de génotype au format VCF 107 ont été saisies dans R à l'aide de vcfR 108 . Le décompte des allèles et des hétérozygotes a été effectué avec vcfR. Le F IS de Wright a été calculé 109 pour fournir l'écart d'hétérozygotie par rapport à notre attente aléatoire de Hardy-Weinberg. Le F IS de Wright a été calculé comme (HS − HO)/HS, où HO est le nombre observé d'hétérozygotes divisé par leur nombre et HS est le nombre d'hétérozygotes attendu sur la base des fréquences alléliques, calculées comme la fréquence du premier allèle multipliée par la fréquence du second multipliée par deux et divisée par leur nombre. Les nuages ​​de points ont été générés à l'aide de ggplot2. Les panneaux graphiques ont été assemblés en un seul graphique à l'aide de ggpubr ( https://cran.r-project.org/package=ggpubr ).

Analyse du génome de PanKmer
À l'aide de PanKmer, nous avons construit deux index 31-mer : un index « complet » de 193 assemblages Cannabis et un index « scaffolded-only » de 78 assemblages scaffolded, à l'aide de la commande « pankmer index » avec les paramètres par défaut. Nous avons calculé et tracé les similarités Jaccard par paires pour tous les assemblages de l'index complet à l'aide de la commande « pankmer adj-matrix » suivie de « pankmer clustermap --metric jaccard ». Nous avons également calculé et tracé les courbes de collecteur pour les index complet et scaffolded-only à l'aide de la commande « pankmer collect » avec les paramètres par défaut. Tous les scripts utilisés pour cette analyse sont disponibles sur GitHub.

Analyse du pangénome basé sur les gènes
Nous définissons le pangénome basé sur les gènes comme l'ensemble de toutes les familles de gènes (orthogroupes) ayant un représentant dans au moins un génome du pangénome. Pour chacun des 193 génomes de C. sativa (ainsi que les 78 génomes phasés au niveau des chromosomes, en tant qu'ensemble distinct) , le transcrit primaire de chaque prédiction de gène de haute confiance a été choisi comme représentant. Les protéines correspondant à chaque transcrit primaire ont été regroupées en orthogroupes à l'aide d'Orthofinder (v.2.5.4, voir la section Orthofinder et analyse de synténie ci-dessous) 90 . L'ensemble des CDS de transcrits primaires a été fusionné dans un seul fichier FASTA, et les doublons exacts ont été supprimés avec SeqKit (2.7.0) 110 . Français Parmi les transcrits primaires, les contaminants probables ont été déterminés en identifiant les transcrits prédits sur les contigs où moins de 90 % des prédictions étaient annotées comme « viridiplantae » ou « eucaryote » selon eggNOG-mapper (v2.1.12) 95 , et ont été supprimées. Pour atténuer le problème des gènes non annotés, nous avons aligné les séquences codantes de tous les transcrits primaires sur chacun des 193 (78) génomes de cannabis en utilisant minimap2 (v2.26) 75 avec les paramètres « minimap2 -c -x splice » pour générer un fichier PAF avec des chaînes CIGAR pour chaque génome. Pour chaque génome, si une séquence CDS alignée avait une qualité de cartographie d'au moins 60, avait un nombre de correspondances CIGAR d'au moins 80 % de la longueur de la requête et ne chevauchait pas un gène directement annoté, elle était considérée comme un gène non annoté et son orthogroupe était marqué comme présent dans le génome cible. L'ensemble des orthogroupes dont au moins un représentant était présent dans les 193 (78) génomes a été considéré comme le génome central ; les orthogroupes restants ont été considérés comme le génome variable. La présence ou l'absence de chaque orthogroupe dans chaque génome a été consignée dans un tableau (voir « Disponibilité des données ». Tous les scripts pour cette analyse sont disponibles sur GitHub.

Haplotypes, orthogroupes et scores
En pangénomique, les courbes de collection (raréfaction du pangénome) montrent la relation entre le nombre d'haplotypes (ici H ) et le nombre de familles de gènes ou d'orthogroupes (ici X ).

Étant donné les orthogroupes X distribués sur H haplotypes, soit le score s x  ∈  [0, H ] d'un orthogroupe x le nombre d'haplotypes dans lesquels x est présent. Pour tout score s soit P ( s ) le nombre d'orthogroupes avec un score égal à s .

Où I s_x :{ x 0 … x X } → {0,1} est la fonction indicatrice sur { x ∈ x 0 … x X : s x  =  s }.

Les courbes du collectionneur
La courbe du collecteur C ( h ) : [1, H ] → [0, X ] est le nombre attendu d'orthogroupes présents dans un sous-ensemble de h haplotypes tirés aléatoirement de l'ensemble total de H . Elle peut être calculée ainsi :

Le nombre attendu d'orthogroupes de base peut être estimé par

Chacun d'entre eux est un cas particulier d'une formule générale pour le nombre attendu d'orthogroupes avec un score d'au moins n , basé sur la fonction de survie hypergéométrique :

Où S hyp est la fonction de survie hypergéométrique ou la fonction de distribution cumulative hypergéométrique soustraite de 1 :

Pour plus de clarté, la fonction de masse de probabilité hypergéométrique (PMF) est :

Avec des coefficients binomiaux définis comme :

Et, conventionnellement, la fonction de distribution cumulative (CDF hyp ) est :

Ainsi définie, nous pouvons voir que la courbe du collecteur pan-génome C ( h ) est équivalente à C 1 ( h ), tandis que la courbe du collecteur du génome central est équivalente à C h ( h ) :

courbes de collecteur basées sur k -mer
La définition de la courbe du collecteur est indépendante de l'unité de séquence génomique, donc le calcul d'une courbe basée sur les k -mers est identique à la courbe basée sur les orthogroupes, sauf que X sera le nombre de k -mers et x représentera un k -mer, plutôt qu'un orthogroupe.

analyse k -mer des assemblages pangénomes et des bibliothèques de lectures courtes sur la diversité mondiale
Trim_galore a été utilisé pour découper les séquences de lectures courtes d'Illumina de Ren et al. 2 en utilisant : --2 couleur 20 63 . Ces lectures ont ensuite été filtrées pour les lectures de faible abondance (trim-low-abund.py -C 10 -M 5e9), puis utilisées pour réaliser un croquis k -mer (sourmash sketch dna -p scaled=1000,k = 31) 79 . Tous les assemblages de pangénome ont également été analysés pour les fréquences de 31-mer (sourmash sketch dna -p scaled=1000,k = 31). Enfin, tous les échantillons par paires de lectures d'Illumina et d'assemblages de pangénome ont été comparés (sourmash compare -p 64 *.sig -k 31). Les distances de 31-mer ont ensuite été tracées dans R en utilisant (hclust(dist(sourmash_comp_matrix), method = “average”)).

Identification des gènes essentiels et des gènes dispensables du pangénome
Nous avons attribué des gènes de base et dispensables (quasi-noyau, nuage, coquille, privé) en fonction de l'appartenance à l'orthogroupe ( https://github.com/padgittl/CannabisPangenomeAnalyses/tree/main/CoreDisp... ). Les gènes de base ont été définis comme étant présents dans 100 % des génomes (193 génomes), les gènes quasi-noyau ont été définis comme étant présents dans 95 à 99 % des génomes (183 à 192 génomes), les gènes coquille ont été trouvés dans 5 à 94 % des génomes (10 à 182 génomes), les gènes de nuage ont été trouvés dans 2 à 5 % des génomes (3 à 9 génomes) et les gènes uniques ont été trouvés dans 0,5 à 1 % des génomes (1 à 2 génomes) 111 . Cette analyse a été réalisée sur les 193 génomes (Fig. 1e ) et également visualisée en fonction de la population (Fig. 5 supplémentaire ). Pour les assemblages au niveau des contigs (103 génomes), seuls les contigs présentant une similarité avec les dix chromosomes d'EH23a ont été inclus. Les ensembles de gènes ont été filtrés pour n'inclure que les gènes présents sur les dix chromosomes et les contigs homologues aux chromosomes. Nous avons effectué une analyse de l'enrichissement fonctionnel avec topGO 73 pour chacun des groupes de gènes de base, de coquille, de nuage, de quasi-noyau et uniques pour chaque génome, où l'ensemble de gènes de fond était tous les gènes avec un terme GO pour un génome donné. Français Parmi les gènes de base, le terme GO significatif le plus courant dans le pangénome était le processus de biosynthèse des sesquiterpènes ( GO:0051762 ), qui était significatif dans tous les génomes sauf un (PBBK), suivi du processus métabolique du farnésyl diphosphate GO:0045338 , qui était absent dans trois génomes (génomes publics : CANN, FIN et PBBK) (Tableau supplémentaire 4 ). Cette analyse a été limitée aux modèles génétiques de haute confiance prédits avec le pipeline TSEBRA. En revanche, l'analyse de la courbe du collecteur du contenu génétique incluait également des régions génomiques non annotées dépourvues de prédictions de modèles génétiques, mais présentant une similarité avec des gènes connus, afin de capturer la diversité non échantillonnée (Fig. 1c,d et Fig. supplémentaire 4 ; voir également « Analyse du pangénome basé sur les gènes »).

Répéter l'analyse
Calcul du temps de divergence dans les TE
Français Les estimations du temps de divergence présentées (Fig. 2b,c ) ont été calculées à l'aide de l'équation T  = (1 − identité)/2 µ , où l'identité a été obtenue à partir des fichiers GFF3 de sortie EDTA décrits précédemment 97 . Nous avons utilisé un taux de substitution ( µ ) de 6,1 × 10 −9 d' Arabidopsis 112 , 113 . Cette analyse a été réalisée sur tous les génomes.

Identification du rapport LTR-RT solo/intact
Pour identifier les LTR solo et les LTR-RT intactes, nous avons utilisé le pipeline EDTA sur 193 génomes de cannabis 97 . Nous avons identifié les LTR solo en collectant d'abord l'ensemble des LTR qui n'étaient pas assignés comme LTR-RT intacts, qui sont récupérés sur la base de « method=homology » dans la colonne d'attribut du fichier TEanno.gff3. Nous avons appliqué des seuils pour isoler les LTR solo des LTR tronqués et intacts, ainsi que des séquences internes des LTR-RT. Ces seuils incluent une longueur de séquence minimale de 100 pb, une identité de 0,8 par rapport au LTR de référence et un score d'alignement minimal 114 de 300. Nous avons également exigé que les quatre annotations LTR-RT adjacentes n'aient pas le même ID LTR-RT 115 . De plus, nous avons exigé une distance minimale de 5 000 pb par rapport au solo-LTR adjacent le plus proche, au LTR intact ou à la séquence interne 116 . Enfin, nous avons conservé les séquences solo-LTR qui se situaient dans le 95e percentile pour les longueurs LTR 117 . Globalement, cette méthode représente une approche modifiée basée sur le script solo_finder.pl de LTR_retriever 114 et le script LTR_MINER 116 avec les conseils de la page GitHub de LTR_retriever ( https://github.com/oushujun/LTR_retriever/issues/41 ).

Enrichissement des ET flanquant les caractéristiques génomiques
La méthode présentée dans le cadre de PlanTEnrichment 118 a été adaptée au pangénome du cannabis afin d'évaluer l'enrichissement en ET en amont et en aval de différentes caractéristiques génomiques, notamment les gènes des cannabinoïdes synthases. L'objectif de l'analyse était d'identifier les ET significativement associés à une catégorie spécifique de caractéristique génomique. En résumé, « X » représente un type spécifique d'ET et « Y » englobe tous les ET. Le nombre total de X situés en amont ou en aval d'une caractéristique génomique spécifique (par exemple, les cannabinoïdes synthases) est noté a ; le nombre total de X situés en amont ou en aval de toutes les caractéristiques génomiques (par exemple, tous les gènes) est noté b ; le nombre total de Y situés en amont ou en aval d'une caractéristique génomique spécifique (cannabinoïdes synthases) est noté c ; et le nombre total de Y situés en amont ou en aval de toutes les caractéristiques génomiques (tous les gènes) est noté d . Un score d'enrichissement (ES) est défini comme , et la valeur P est définie comme , où N est la somme de a , b , c et d . Une correction de tests multiples 119 a été effectuée sur les valeurs P à l'aide de la bibliothèque Python statsmodels 120 . Les seuils de signification comprenaient un taux de fausses découvertes (FDR) < 0,05 et ES ≥ 2. Nous avons utilisé les outils de base intersect 121 pour collecter et étudier l'ensemble des TE situés à 1 kb en amont ou en aval de la catégorie de caractéristiques génomiques d'intérêt. Un exemple de commande : bedtools intersect -a assemblyID_genomic_feature_coord_file.txt -b assemblyID.TE.gff3 -wo > assemblyID_intersect_results.txt.
p=(a+b)!(c+d)!(a+c)!(b+d)!/(a!b!c!d!N!)

Distance entre les gènes et les ET
Les distances médiane et moyenne entre les gènes et chacune des catégories d'ET ont été calculées à l'aide de bedtools sort (bedtools sort -i genome.TEs.bed > genome.sorted.TEs.bed) et bedops closest-features (commande : closest-features --closest --header --dist genome.sorted.genes.bed genome.sorted.TEs.bed > genome.closest_features.bed) 122 . Pour obtenir le fichier BED pré-trié initial pour les gènes, la commande suivante a été utilisée : cat genes.gff3 | grep mRNA | grep '\.chr' | awk '{print $1”\t”$4”\t”$5”\t”$7”\t”$3”\t”$9}' > genome.genes.bed. Pour les ET, la commande suivante a été utilisée : cat genome.EDTA.TEanno.gff3 | grep '\.chr' | awk '{print $1”\t”$4”\t”$5”\t”$7”\t”$3”\t”$9}' > genome.TEs.bed. Le module statistique Python intégré a été utilisé pour calculer les valeurs moyennes et médianes.

Enrichissement des gènes associés à différentes catégories d'ET
Nous avons réalisé une analyse d'enrichissement des termes GO afin d'identifier les gènes statistiquement significativement situés à proximité de différents types d'ET sur l'ensemble du pangénome. Pour identifier les gènes proches des ET, nous avons d'abord créé un fichier bed concaténé et trié contenant les coordonnées des gènes et des ET afin de trouver l'ET le plus proche d'un gène donné, tout en excluant les cas où la caractéristique génomique la plus proche d'un gène donné était un autre gène. Pour les génomes échafaudés, les gènes et les ET ont été limités aux dix chromosomes. Pour les assemblages au niveau du contig, les gènes ont été inclus s'ils se trouvaient sur un contig présentant une similarité avec l'un des dix chromosomes EH23a. Ensuite, nous avons identifié les paires gène/ET à l'aide de bedops closest-features 122 . Nous avons réalisé un test d'enrichissement GO pour chaque génome séparément en utilisant topGO avec les paramètres algorithm = 'weight01', statistic = 'fisher' et la correction du test multiple de Benjamini–Hochberg avec un FDR < 0,05 73 . L'univers génétique de base pour la comparaison statistique était l'ensemble de tous les gènes possédant un terme GO pour un génome donné. Afin d'évaluer les tendances générales, seuls les termes GO significatifs dans au moins cinq génomes ont été pris en compte. Cette analyse portait sur l'ensemble des génomes (tableau supplémentaire 11 ).

Phylogénie des ET entourant les synthases cannabinoïdes
Les coordonnées génomiques pour la distance de flanquement de 2 kb entourant les copies de CBCAS, CBDAS et THCAS pour les 78 assemblages échafaudés ont été récupérées avec bedtools flank (bedtools flank -i assemblyID_synthase_coords.bed -g chromSizes.txt -l 2000 -r 2000 > assemblyID_flanking_2000.bed). Ensuite, les TE contenus dans cette région flanquante ont été récupérés à l'aide de bedtools intersect (bedtools intersect -a assemblyID_flanking_2000.bed -b assemblyID.EDTA.TEanno.gff3 -wo > assemblyID_intersect_2000.bed) 121 . Français Les séquences génomiques pour chacun des types de TE identifiés avec les intersections de bedtools ont été collectées dans un fichier fasta et alignées avec mafft (mafft --auto helitron.fasta > helitron_aln.fasta) 107 . Un arbre de vraisemblance maximale a été construit avec FastTree (FastTree -nt -gtr -gamma helitron_aln.fasta > helitron_aln.tree) 123 . L'arbre a été visualisé avec FigTree 124 . Pour réduire la redondance dans l'ensemble complet des LTR, CD-HIT a été appliqué à l'ensemble des séquences, avant l'alignement de séquences multiples (cd-hit-est -i Ty1_LTRs.fasta -o Ty1_LTRs.cdhit.fasta -c 1) 125 .

Analyse de l'expression des ET actifs dans EH23
La bibliothèque de séquences TE non redondantes issues de l'EDTA a été fournie au saumon comme « transcriptome ». Chaque échantillon d'ARN-seq EH23 a été cartographié sur le transcriptome TE. Comme pour l'analyse de l'expression génique, le seuil minimal de TPM pour un TE donné était ≥ 0,1 TPM dans ≥ 20 % des échantillons 126 . Les 50 TE les plus exprimés ont été visualisés sous forme de carte thermique, affichant un log 2 TPM pour représenter le changement de repli logarithmique.

CpG observé/attendu
Les « îlots CpG » sont définis comme des régions non méthylées s'étendant sur > 200 pb, une teneur en GC > 50 % et un rapport CpG observé/attendu > 0,6. La méthylation de la cytosine au fil du temps entraîne une perte de dinucléotides CpG après la désamine de la cytosine en thymine. Avec la méthylation de la cytosine, on s'attend à ce que les dinucléotides CpG (CG, CHG, CHH (où H est A, T ou C)) aient une plus grande activité de méthylation. Le calcul du rapport CpG observé/attendu 127 , 128 est : . Les modèles CpG observés/attendus ont été visualisés dans la Fig. 2h,k .

Analyse des TE flanquant directement les SV
Pour chacun des sous-types de SV (inversions (INVS), duplications (DUPS), translocations (TRANS) et translocations inversées (INVTR)), la région flanquante 500 pb en amont et en aval de chaque point de cassure (1 kb au total pour chaque point de cassure) a été étudiée pour le contenu en TE, en utilisant des annotations intactes et fragmentées. L'ensemble de 78 génomes échafaudés au niveau des chromosomes a été inclus, regroupés par population. Pour comparer avec le génome dans son ensemble, une fenêtre aléatoire a été récupérée à partir du même génome et du même chromosome, avec la même longueur que chacun des SV avec un mélange d'outils de base, et les fenêtres flanquantes ont été récupérées pour chacun des points de cassure simulés. Seuls les cas où un type spécifique de TE était associé aux deux points de cassure d'un seul SV ont été évalués plus en détail avec l'intersection des outils de base. Les TE fragmentés et intacts ont été inclus dans cette analyse. Français La signification statistique a été évaluée à l'aide du test t bilatéral de Welch dans SciPy 71. Les TE se produisent plus fréquemment près des points de cassure SV (500 pb en amont et en aval du point de cassure ; 1 kb au total) que dans des régions sélectionnées aléatoirement de la même longueur à partir du même chromosome et du même génome. Pour surmonter les différences d'abondance, les régions aléatoirement mélangées du génome ont été bootstrapées (1 000 réplicats), avec l'exigence que chacun des ensembles de données TE simulés et mélangés corresponde au nombre de points de cassure observés dans la population. Le contenu TE des données observées et simulées a été évalué pour la signification statistique avec le test t bilatéral de Welch dans scipy 71 et la correction du test multiple de Benjamini-Hochberg (alpha = 0,5, méthode = 'indep', is_sorted=False) 120. Une statistique de test et une valeur P ont été générées pour chacune des 1 000 répliques bootstrap. La statistique moyenne du test et la valeur P ont ensuite été calculées (tableau supplémentaire 13 ).

Analyse orthofinder et synténie
Nous avons utilisé Orthofinder version 2.5.4 pour faciliter l'analyse des 193 protéomes de cannabis. Deux analyses ont été réalisées. La première portait sur nos assemblages de cannabis de la plus haute qualité et ne comprenait que des assemblages échafaudés, ainsi que des dizaines d'autres échantillons de plantes provenant de Plaza et quelques échantillons du NCBI. Une autre analyse, incluant tous nos assemblages pangénomes de cannabis, ainsi que des proches parents provenant de Plaza, a également été réalisée afin de permettre une analyse détaillée du niveau protéique des assemblages restants. Dans tous les cas, seule la séquence protéique primaire (la plus longue isoforme, sauf annotation contraire) a été utilisée. Les résultats d'Orthofinder ont été analysés à l'aide de diverses méthodes, notamment Orthobrowser 129 , capable de générer des pages web statiques permettant la visualisation simultanée des dendrogrammes d'arbres génétiques, des alignements de séquences multiples d'arbres génétiques et de la synténie du gène sélectionné et des gènes environnants sur tous les génomes ( https://resources.michael.salk.edu/root/home.html ).

Génomes non liés au cannabis inclus dans l'exécution Orthofinder sur le cannabis échafaudé : (1) Amborella trichopoda ; (2) Aquilegia oxysepala ; (3) A. thaliana ; (4) C. sativa ; (5) Carpinus fangiana ; (6) Carya illinoinensis ; (7) Ceratophyllum demersum ; (8) Citrullus lanatus ; (9) Corylus avellana ; (10) Cucumis melo ; (11) Cucumis sativus ; (12) Fragaria vesca ; (13) Fragaria X ; (14) Lotus japonicus ; (15) Magnolia biondii ; (16) Malus domestique ; (17) Manihot esculenta ; (18) M. notabilis ; (19) Nelumbo nucifera ; (20) Oryza sativa ; (21) Parasponia andersoni ; (22) P. persica ; (23) Quercus lobata ; (24) Rosa chinensis ; (25) Séchium edule ; (26) T. orientale ; (27) Trochodendron aralioides ; (28) Vaccinium macrocarpon ; (29) V. vinifera ; (30) Z. jujuba ; et (31) H. lupulus .

Génomes non liés au cannabis inclus dans l'ensemble de l'Orthofinder sur le cannabis : (1) F. vesca ; (2) L. japonicus ; (3) M. domestica ; (4) P. persica ; et (5) R. chinensis .

Calcul de l'entropie de séquence pour les séquences d'ADN et de protéines
Nous avons calculé l'entropie de séquence pour les orthogroupes protéiques et ADN sur 193 génomes. Une entropie élevée correspond à une plus grande diversité et variation entre les séquences d'un orthogroupe, tandis qu'une entropie faible indique une moindre diversité et une plus grande similarité entre les séquences d'orthogroupes. Une valeur d'entropie minimale de 0 correspond à une identité correspondante. L'entropie maximale correspond à une séquence aléatoire d'acides aminés et est dérivée de l'équation : log 2 (20) = 4,32, où 20 est le nombre d'acides aminés. Pour l'ADN, l'entropie maximale 130 est log 2 (4) = 2,0. Nous avons calculé l'entropie pour chaque colonne de l'alignement de séquences multiples de l'orthofinder à l'aide de la fonction d'entropie de scipy.stats 71 , puis avons calculé l'entropie moyenne pour l'ensemble de l'alignement de séquences multiples. Un minimum de cinq séquences par orthogroupe était requis pour être inclus dans l'analyse. Des comparaisons par paires ont été effectuées pour chaque orthogroupe entre les populations, et la distribution des valeurs d'entropie pour chaque alignement de séquences multiples a été visualisée sous forme d'histogramme conjoint. Cette analyse a été appliquée à la fois aux protéines (séquences génétiques) et à l'ADN (ET).

Visualisation et analyse de la synténie avec genespace
Pour évaluer visuellement la variation au niveau des gènes dans les génomes résolus par haplotype et à l'échelle des chromosomes avec les chromosomes X et Y (AH3M, BCM, GRM et KOMP), nous avons utilisé la version 0.9.3 de genespace 131 dans la version 4.2.2 de R (2022-10-31) 132 . Nous avons initialement exécuté OrthoFinder 90 en dehors de l'environnement genespace et importé les résultats. Pour exécuter l'analyse, nous avons utilisé la fonction synténie, suivie de plot_riparianHits. Nous avons construit une représentation pangénome avec la fonction pangenome. Nous avons utilisé le fichier de sortie gffWithOgs.txt comme fichier principal utilisé pour obtenir des paires de gènes synténiques sur tous les génomes du sous-ensemble. Les identifiants de gènes avec une valeur entière identique dans la colonne « og » (dernière colonne) ont été récupérés comme orthologues synténiques.

Analyse SV
Les 78 haplotypes d'assemblage entièrement échafaudés ont chacun été alignés sur l'assemblage EH23a en utilisant minimap2 75 . Syri a ensuite été utilisé pour appeler les SV sur chaque alignement 98 et plotsr a été utilisé pour visualiser les alignements et les SV 99 . Le contenu CDS et TE a été analysé à l'aide de bedtools intersect 121 . Les répétitions de points d'arrêt d'inversion ont été appelées en utilisant des alignements blastn d'inversions d'une taille minimale de 10 kb. Des fenêtres de 8 kb centrées autour du point d'arrêt de début et de fin de chaque inversion, et ont été alignées auto-à-soi, ainsi que sur la paire de fenêtres de points d'arrêt du côté opposé de l'inversion (du début à la fin). Un seul alignement ayant le meilleur score (à l'exclusion de l'alignement auto-auto pleine longueur) a été compté par point d'arrêt. Les répétitions inversées ont été appelées comme des alignements dans des orientations opposées et les duplications segmentaires ont été appelées pour les alignements dans la même orientation.

SNP phasés
Les SNP ont également été appelés à l'aide de Syri 98 sur les mêmes assemblages et alignements que ceux décrits ci-dessus. Les SNP de chacun des deux haplotypes par échantillon ont été fusionnés en appels de génotype monophasés par échantillon, et les sites avec un N comme appel ALT ont été supprimés (github.com/RCLynch414/SYRI_vcf.sh). Enfin, vcftools a été utilisé pour filtrer la qualité et affiner les sites SNP à un espacement minimum de 1 000 pb : --remove-indels --minGQ 20 --remove-indv EH23a --min-alleles 2 --max-alleles 2 --thin 1000 --stdout --recode.

calculs LD
Les SNP phasés des assemblages échafaudés ont d'abord été évalués pour les corrélations r2 avec bin en utilisant plink 133 : --double-id --allow-extra-chr --set-missing-var-ids @:# --maf 0.01 --geno 0.1 --mind 0.5 --chr 7 --thin 0.1 -r2 gz --ld-window 100 --ld-window-kb 1000 --ld-window-r2 0 --make-bed. Ensuite, ld_decay.py a été utilisé pour créer des courbes de décroissance (GitHub - erikrfunk/genomics_tools), qui ont été tracées avec ggplot dans R. Séparément, des cartes thermiques LD ont été réalisées à l'aide de vcftools : --thin 50000 --recode ; et tracées avec LDheatmap dans R (sfustatgen.github.io/LDheatmap/).

Conditions GO
Les tests d'enrichissement des termes GO ont été réalisés avec le package topGO dans R, en utilisant toutes les annotations génétiques de haute confiance d'EH23a comme distribution nulle et le test classique de signification de Fisher 73 .

Balayages de sélection avec F st et XP-CLR
Les valeurs F st ont été calculées à l'aide de vcftools pour chaque SNP phasé et les attributions de populations de MJ et de chanvre à assemblage échafaudé ; la significativité a été calculée en utilisant les 5 % supérieurs de ces valeurs. Le modèle XP-CLR pour les balayages sélectifs a été appliqué aux mêmes SNP et aux veuves génomiques de 20 kb 59 ; la significativité a été calculée en utilisant les 5 % supérieurs de ces valeurs.

Mélange d'arbres
Le modèle TreeMix a été exécuté en utilisant uniquement des SNP hors modèles génétiques : -seed 69696969 -o out_stem -m 5 -k 50 -noss -root asian_hemp. Un à dix scénarios de migration ont été simulés et classés selon les ln(vraisemblances). Cinq événements de migration (-m = 5) ont été sélectionnés comme le nombre final le plus probable.

PCA local
La méthode PCA locale a été appliquée aux SNP phasés, avec un espacement minimum de 1 000 pb entre les SNP et des fenêtres génomiques de 100 SNP 134 .

Analyse des analogues des gènes de résistance aux maladies
Les analogues de gènes de résistance aux maladies des plantes se caractérisent par la présence d'un ou plusieurs motifs d'acides aminés hautement conservés dans leurs protéines codées. Ces motifs codent des domaines protéiques fonctionnels qui déterminent la spécificité du pathogène et sa localisation subcellulaire. Selon le pathosystème concerné, les protéines analogues de gènes de résistance peuvent être entièrement cytoplasmiques ou traverser la membrane cellulaire avec des domaines fonctionnels cytoplasmiques, des domaines extracellulaires, ou les deux.

Drago2 135 a été utilisé pour identifier les motifs conservés parmi les analogues de gènes de résistance aux maladies des plantes pour les génomes résolus par haplotype au niveau chromosomique (78). Les fichiers d'entrée étaient des fichiers fasta d'annotation de transcription pour chaque génome. Des ensembles de gènes contenant à la fois des domaines de sites de liaison aux nucléotides (NBS) et de répétitions riches en leucine (LRR) ont été utilisés comme données d'entrée pour MEME afin d'évaluer et de comparer la composition en acides aminés des motifs sur plusieurs ensembles de gènes.

Pour identifier les gènes liés à la résistance à l'oïdium, la séquence d'un marqueur cartographié sur le chromosome 2 de CBDRx a été utilisée comme requête blastn contre le génome d'ancrage EH23a 136 . Le hit résultant présentait une identité nucléotidique de 96 % sur le chromosome 2 d'EH23a à 77 292 037–77 291 397 pb. Il était situé dans un groupe de 46 gènes, dont 32 avec des domaines kinases, six kinases de type récepteur, deux avec un site de liaison nucléotidique plus des domaines transmembranaires, un avec des domaines coiled-coil et kinase, et un avec des domaines coiled-coil, un site de liaison nucléotidique et des domaines transmembranaires. Le hit blast lui-même se situait entre deux gènes kinases annotés, EH23a.chr2.v1.g115480 et EH23a.chr2.v1.g115510.

Les hits blast supérieurs résultants ne chevauchaient aucune annotation génétique ; cependant, 16 des 38 génomes avaient des hits blast sur le chr. 2 avec > 95 % d'identité nucléotidique avec le gène CBDRx ; parmi ceux-ci, neuf d'entre eux avaient 99 à 100 % d'identité nucléotidique sur les trois exons (1 745 pb, 1 448 pb et 287 pb), respectivement. Les séquences de cinq des 16 génomes (H3S7a, OFBa, SZFBa, TKFBa et WCFBa) se sont regroupées séparément des autres. Elles se distinguaient par une insertion de 1 pb dans le premier exon, dix petites indels (2 à 8 pb) dans l'espace exonique et un deuxième intron plus long de 1 280 pb. Ces régions ont été extraites et alignées avec la séquence du gène CBDRx, et l'alignement a été utilisé pour produire un arbre de vraisemblance maximale (Fig. 8 des données étendues ).

Les gènes NBS–LRR coiled-coil (CNL) présentaient un profil distinct sur les chr. 3 et chr. 6. Il y avait un à deux gènes CNL entre 400 et 600 kb ; deux à quatre entre 1 et 1,4 Mb ; un à deux à 6-8 Mb ; un seul gène CNL près de la région centromérique du chromosome à 35-37 Mb, et un à cinq (COFBa) CNL entre 78 et 84 Mb. Les exceptions à ce profil étaient OFBa, H3S1a et MMv31a, qui n'avaient pas de CNL dans la région centromérique. Dans SDFBa et SN1v3a, les CNL centromériques étaient situés à 42,8 et 47,5 Mb, respectivement. SN1v3a avait un CNL à 12,2 Mb, une autre exception au profil global. Chr. Le chromosome 3 de ce génome était plus grand que les autres, à 90 Mb, par rapport au reste à 80–85 Mb. Enfin, GERv1a manquait de CNL dans la région 78–84 Mb du chromosome 3.

Identification des gènes de la terpène synthase
Chacun des protéomes de cannabis a été aligné sur un ensemble de 40 926 séquences protéiques d'UniProt (critères de recherche « Embryophyta » et « examiné » ; consulté le 20 septembre 2022) avec blastp (version blast 2.6.0, build 7 décembre 2016) 137 . Les seuils d'alignement comprenaient un seuil de valeur E inférieur à 10 −3 , une couverture de requête d'au moins 20 % et un pourcentage d'identité basé sur la longueur de l'alignement 138 . Les synthases de terpènes ont également été identifiées sur la base de la présence de domaines Pfam, PF01397 et/ou PF03936 139 . Pour évaluer le contenu du domaine, chacun des protéomes de cannabis a été aligné sur la base de données Pfam-A.hmm (dernière modification le 15 novembre 2021 ; consultée le 20 septembre 2022) 140 avec hmmscan (HMMER 3.3.2 novembre 2020) 141 sur les paramètres par défaut.

Identification des gènes dans les voies précurseurs de la biosynthèse des terpènes et des cannabinoïdes
La biosynthèse des terpènes s'effectue via deux voies : la voie du méthyl- d- érythritol phosphate chloroplastique , qui produit des précurseurs pour la biosynthèse des monoterpènes et des cannabinoïdes, et la voie du mévalonate cytosolique, qui produit des précurseurs pour la biosynthèse des sesquiterpènes. Les séquences protéiques de ces voies 142 , 143 , 144 ont été alignées sur chacun des protéomes du cannabis avec la version 2.1.4 de Diamond sur les paramètres par défaut 145 .

Analyse de cassette de synthase
Afin d'identifier les synthases cannabinoïdes complètes et partielles dans chacun des 193 génomes de cannabis, les séquences de référence ont été alignées sur le génome avec blastn. Une séquence LTR enrichie, développée à partir de CBDRx 11, a servi de référence pour faciliter l'identification des synthases. LTR08 est une séquence LTR du génome CBDRx associée aux cassettes de synthase. Un script Python a été écrit pour recueillir les résultats des blastes de synthases cannabinoïdes et de LTR08 sous forme de tableau. Les hits de synthase d'une longueur inférieure à 500 pb ont été filtrés. Les hits de LTR08 avec un score binaire inférieur à 1 250 ont été filtrés. Les hits de synthase et de LTR08 présentant des discordances inférieures à 10 et aucun écart ont été qualifiés de séquences « complètes ». Tous les autres hits ont été qualifiés de séquences « partielles ». Les hits partageant la même position de départ ont ensuite été filtrés en une seule séquence et ont reçu l'une des étiquettes de synthase selon les instructions suivantes. Les hits complets ont été conservés et étiquetés comme la synthase fonctionnelle correspondante. Les hits partiels à moins de 60 kb d'un hit LTR08 en amont ou en aval ont été étiquetés CBDAS et conservés. En l'absence de hits complets ou de hits avec un LTR08 à proximité, le hit avec le score binaire le plus élevé a été étiqueté comme la synthase correspondante et conservé. Les synthases filtrées et étiquetées ont ensuite été tracées sur une piste afin de visualiser l'orientation de la synthase cannabinoïde pour chaque région d'un génome. Un minimum de quatre hits de synthase était requis pour la visualisation. Inkscape a été utilisé pour visualiser les pistes des cassettes de synthase. Des modifications manuelles ont été effectuées pour corriger quelques étiquettes incorrectes entre CBDAS et CBCAS . Les cassettes de synthase sont regroupées par forme globale de cassette.

Analyse du gène de la synthase des cannabinoïdes
Le premier ORFinder a été utilisé pour supprimer les pseudogènes de la liste initiale de gènes potentiels décrite ci-dessus (ftp.ncbi.nlm.nih.gov/genomes/TOOLS/ORFfinder/linux-i64/). Ensuite, nous avons utilisé usearch11.0.667 pour regrouper les séquences codantes de la synthase : -cluster_fast -id 0.997 -sort length -strand both -centroids -clusters 146 . TranslatorX a ensuite été utilisé pour produire des alignements de séquences multiples guidés par les protéines 147 . L'histoire évolutive de la synthase a été déduite en utilisant la méthode du maximum de vraisemblance et le modèle General Time Reversible dans MEGA11 148 .

analyse de croisement k -mer
Nous avons utilisé la fonction d'ancrage de PanKmer pour localiser les événements de croisement dans des trios connus de génotypes de cannabis (tableau supplémentaire 15 ). Onze trios incluaient FB191 comme parent donneur de varine et 6 trios incluaient SSV comme parent donneur de varine. Les parents de FB191 sont HO40 et FB30, tandis que les parents de SSV sont HO40 et SSLR ; dans les deux cas, HO40 était le donneur de varine. Pour chaque trio, le génome F1 a été résolu par haplotype et comprenait un haplotype d'un parent donneur de varine et un d'un parent non donneur de varine. Dans chaque cas, nous avons utilisé l'ancrage PanKmer pour identifier « l'haplotype de varine ». Pour les trios FB191, nous avons généré un index 31-mer du génome FB191 en utilisant « l'index pankmer » avec des paramètres par défaut. À l'aide d'un script Python important les fonctions API de PanKmer pankmer.anchor_region() et pankmer.anchor_genome() 21 , nous avons ancré l'index FB191 dans chaque haplotype du croisement, par exemple COFBa et COFBb. Nous avons identifié l'haplotype varine comme étant l'haplotype présentant la meilleure conservation 31-mer dans l'index FB191. Nous avons appliqué la même procédure aux trios SSV en utilisant un index PanKmer de SSV. Nous avons ensuite cherché à tracer les allèles varine potentiels de HO40 à l'haplotype varine du croisement. Pour représenter HO40, nous avons généré deux index 31-mer à génome unique : un pour le génome HO40 et un second pour la séquence EH23a très similaire. Nous avons également généré des index 31-mer à génome unique de FB30 et SSLR. Pour chaque croisement FB191, nous avons ancré les indices HO40, EH23a et FB30 dans l'haplotype varine. Nous avons déduit les événements de croisement aux loci grâce à une « commutation d'haplotype » évidente, indiquée par les valeurs de conservation k -mer. Nous avons répété la même procédure pour les trios SSV, en appliquant l'indice SSLR à la place de l'indice FB30. Tous les scripts pour cette analyse sont disponibles sur GitLab.

Tests d'association SNP Varin et génétique
Tout d'abord, le package BestNormalize dans R a été utilisé pour sélectionner la méthode des quantiles ordonnés (ORQ) afin de transformer les données de rapport de varine, qui étaient initialement considérées comme multimodales. Ensuite, le modèle BLINK du package GAPIT dans R 149 a été utilisé avec PCA.total=6 pour tester les associations entre les SNP dans la population F 2 et les données de rapport de varine transformées (tableau supplémentaire 16 ). Ce paramètre PCA.total a été sélectionné sur la base d'une évaluation visuelle des tracés QQ pour les valeurs PCA.total 1 à 10, où 6 était le plus petit nombre qui ne présentait pas d'inflation systémique des valeurs de p 149 . Ensuite, les modèles de gènes et de TE ont été évalués manuellement dans les régions entourant les quatre SNP significatifs corrigés par FDR (tableau supplémentaire 16 ), en conjonction avec les résultats de croisement basés sur les k -mer. Parmi les quatre SNP significatifs, nous avons concentré les analyses ultérieures sur les gènes associés aux deux plus fortes variances phénotypiques expliquées (figure supplémentaire 25 ). Français Ensuite, les groupes Orthofinder pour BKR , ALT3 et ALT4 ont été extraits, et les trois orthogroupes ALT3 et ALT4 ont été regroupés dans un seul ensemble de comptages de gènes ALT. Les phylogénies des séquences protéiques BKR et ALT ont été construites dans MEGA avec la méthode de jonction de voisins à partir des orthogroupes en utilisant 100 réplicats bootstrap 148 . L' alignement et la traduction BKR affichés ont été réalisés en utilisant l'algorithme d'alignement Geneious 150 avec les paramètres par défaut (Fig. 5 ).

Identification et comparaison des limites SDR–PAR des chromosomes sexuels
Les k -mères à base de Y (Y-mères) ont été cartographiés en haplotypes X/Y à l'aide de BWA (v.0.7.17) mem, nécessitant des alignements parfaits et permettant un multi-cartographie jusqu'à 10 fois. Pour déterminer les limites putatives SDR–PAR, nous nous sommes concentrés sur l'extraction d'orthologues conservés dans les régions avec une densité de cartographie Y-mère diminuée pour une analyse ultérieure de l'arbre génique. Les orthologues ont été définis à l'aide d'OrthoFinder (v.2.5.4) avec l'option d'alignement de séquences multiples. OrthoFinder a été exécuté en utilisant des protéines de tous les assemblages mâles (XY) disponibles de cette étude, y compris tous les assemblages mâles et plusieurs assemblages femelles au niveau du contig, et des assemblages supplémentaires résolus par haplotype provenant d'autres études : (1) BOAXa ; (2) BOAXb ; (3) AH3Ma ; (4) AH3Mb ; (5) BCMa ; (6) BCMb ; (7) GRMa ; (8) BCMb ; (9) GRMa ; (10) Carmagnola_HAP2 29 ; (11) Futura75_HAP1 29 ; (12) Futura75_HAP2 29 ; (13) OttoII_HAP1 29 ; (14) OttoII_HAP2 29 ; (15) Uso31_HAP1 29 ; (16) Uso31_HAP2 29 ; (17) FIMv1a; (18) FIMv1b; (19) GVA-H-22-1061-002_hap1 34 ; (20) GVA-H-22-1061-002_hap2 34 ; (21) GVA-H-21-1003-002_hap1 34 ; (22) GVA-H-21-1003-002_hap2 34 ; (23) SAN2a; (24) SAN2b; (25) TIBv1a; (26) TIBv1b; (27) WFv1a; (28) WFv1b; (29) WIv1a; (30) WIv1b; (31) YMMv1a; et (32) YMMv1b.

Des arbres génétiques ont été estimés pour dix orthologues conservés couvrant les limites putatives SDR–PAR, afin de déterminer lesquels étaient liés par SDR ou PAR dans chaque assemblage. Par exemple, un fort soutien à des clades distincts contenant des orthologues liés par X ou par Y est attendu lorsque le gamétologue Y (orthologues 1:1 sur les chromosomes X et Y) est étroitement lié au SDR 151 .

Pour les dix orthologues ou gamétologues conservés, nous avons : (1) utilisé blastn (BLAST+ v.2.14.1) et bedtools (v.2.31.0) getfasta, pour trouver et extraire les séquences nucléotidiques des gènes pleine longueur (y compris les introns) ; (2) aligné chaque matrice génétique avec MAFFT (v.7.505), en utilisant les options '--localpair --maxiterate 1000' ; et (3) déduit des arbres de vraisemblance maximale avec IQ-TREE (v.1.6.12) avec les options '-MFP -bb 1000'. Suite à notre analyse des arbres gamétologues X–Y, nous avons utilisé les coordonnées génétiques correspondant au premier gène putatif spécifique à Y, lié au SDR, pour définir chaque limite du SDR, puis avons complété les coordonnées de départ de 10 pb. Le début des régions spécifiques à X (c'est-à-dire la région sur le X qui ne se recombine pas avec le Y et qui est colinéaire au Y-SDR) a été défini sur la base des coordonnées du gamétologue X correspondant au premier gène spécifique à Y.

La limite SDR–PAR a été définie à l'aide d'arbres génétiques de gamétologues XY issus de régions limitrophes de SDR, que nous avons identifiés en mappant les k -mers mâles spécifiques à chaque haplotype. Notre analyse de l'arbre génétique a révélé deux grands groupes d'haplotypes Y avec des limites SDR distinctes (Ya et Yb). La « limite nuageuse » représente la variation de la limite SDR–PAR au sein du cannabis, basée sur les relations entre gamétologues XY. Ya était plus fréquent dans notre ensemble de données ( n  = 6) et présente une SDR étendue d'environ 132 kb qui couvre la limite nuageuse ; tandis que cette région reste liée à PAR dans l'haplotype Yb, moins fréquent ( n  = 2). L'haplotype Ya rapporté dans le texte principal a été trouvé dans BCMb (sauvage), GRMa (chanvre HC), AH3Mb (MJ) et Carmagnola, qui est une race locale de chanvre à fibres du nord de l'Italie, et l'haplotype Yb a été trouvé dans Kompolti (cultivar à fibres hongrois), qui a été sélectionné pour ses caractéristiques de fibres supérieures dans les années 1950 à partir d'une ancienne variété italienne, et GVA-H-21-1003-002 (population sauvage isolée de New York, États-Unis).

Résumé du rapport
De plus amples informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.

Disponibilité des données
L'identifiant NCBI BioProject du pangénome du cannabis est PRJNA1140642 . Toutes les données de séquençage du pangénome du NCBI Sequence Read Archive (SRA) sont répertoriées sous l'identifiant BioProject PRJNA904266 . Les identifiants BioProject pour EH23a et EH23b sont respectivement PRJNA1111955 et PRJNA1111956 . Les génomes et les fichiers d'annotation des 193 assemblages (y compris les liens vers les accessions correspondantes du US National Plant Germplasm System), les instances Orthobrowser et Genome Jbrowse, ainsi que les fichiers d'entrée et de sortie des pangénomes graphiques sont disponibles à l'adresse https://resources.michael.salk.edu . Des annotations pour les gènes R, les synthases de terpènes, les synthases de cannabinoïdes et des visualisations supplémentaires du génome sont disponibles sur https://figshare.com/projects/Cannabis_Pangenome/205555 (réf. 152 ) et https://doi.org/10.25452/figshare.plus.c.7248427.v1 (réf. 153 ). Des liens vers des ensembles de données génomiques spécifiques sont fournis dans le tableau supplémentaire 1 ( https://doi.org/10.6084/m9.figshare.25869319.v1 (réf. 154 )). Les données sources sont fournies avec cet article.

Disponibilité des codes
Les scripts et les pipelines d'analyse sont disponibles sur https://github.com/anthony-aylward/CannabisPangenomeShared (réf. 155 ) et https://github.com/padgittl/CannabisPangenomeAnalyses (réf. 156 ).

Références
Français Long, T., Wagner, M., Demske, D., Leipe, C. & Tarasov, PE Cannabis en Eurasie : origine de l'usage humain et connexions transcontinentales de l'âge du bronze. Veg. Hist. Archaeobot. 26 , 245–258 (2017).

Article

Google Scholar

Ren, G. et al. Le reséquençage à grande échelle du génome entier dévoile l'histoire de la domestication du Cannabis sativa . Sci. Adv. 7 , eabg2286 (2021).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Bai, Y. et al. Preuves archéobotaniques de l'utilisation du cannabis médicinal dans un contexte séculaire découvertes dans le sud de la Chine. J. Ethnopharmacol. 275 , 114114 (2021).

Article

CAS

PubMed

Google Scholar

Kovalchuk, I. et al. La génomique du cannabis et de ses proches parents. Annu. Rev. Plant Biol. 71 , 713–739 (2020).

Article

CAS

PubMed

Google Scholar

Clarke, R. & Merlin, M. Cannabis : évolution et ethnobotanique (Univ. of California Press, 2016).

Stoa, R. Craft Weed : l'agriculture familiale et l'avenir de l'industrie de la marijuana (MIT Press, 2018).

Patton, DV Une histoire de la législation américaine sur le cannabis. J. Law Health 34 , 1–29 (2020).

PubMed

Google Scholar

Bewley-Taylor, D. & Jelsma, M. Changement de régime : revisiter la Convention unique sur les stupéfiants de 1961. Int. J. Drug Policy 23 , 72–81 (2012).

Article

PubMed

Google Scholar

Hanuš, LO, Meyer, SM, Muñoz, E., Taglialatela-Scafati, O. & Appendino, G. Phytocannabinoïdes : un inventaire critique unifié. Nat. Prod. Rep.33 , 1357-1392 (2016).

Article

PubMed

Google Scholar

Devinsky, O. et al. Essai du cannabidiol pour les crises résistantes aux médicaments dans le syndrome de Dravet. N. Engl. J. Med. 376 , 2011–2020 (2017).

Article

CAS

PubMed

Google Scholar

Grassa, CJ et al. Un nouvel assemblage du génome du cannabis associe un taux élevé de cannabidiol (CBD) au chanvre introgressé dans la marijuana. New Phytol. 230 , 1665–1679 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

McKernan, KJ et al. La séquençage et l'annotation de 42 génomes de cannabis révèlent une importante variation du nombre de copies dans la synthèse des cannabinoïdes et les gènes de résistance aux pathogènes. Prépublication sur bioRxiv https://doi.org/10.1101/2020.01.03.894428 (2020).

Gao, S. et al. Un génome de référence de haute qualité du Cannabis sativa sauvage . Hortic. Res. 7 , 73 (2020).

Article

PubMed

PubMed Central

Google Scholar

Braich, S., Baillie, RC, Spangenberg, GC & Cogan, NOI Une séquence génomique nouvelle et améliorée de Cannabis sativa . GigaByte https://doi.org/10.46471/gigabyte.10 (2020).

van Bakel, H. et al. Le projet de génome et de transcriptome de Cannabis sativa . Genome Biol. 12 , R102 (2011).

Article

PubMed

PubMed Central

Google Scholar

Laverty, KU et al. Une carte physique et génétique de Cannabis sativa identifie des réarrangements importants au niveau des loci de la synthase acide THC/CBD. Genome Res. 29 , 146–156 (2019).

Article

CAS

PubMed

PubMed Central

Google Scholar

Barcaccia, G. et al. Potentiels et défis de la génomique pour la sélection de cultivars de cannabis. Front. Plant Sci. 11 , 573299 (2020).

Article

PubMed

PubMed Central

Google Scholar

McPartland, JM & Small, E. Une classification des variétés domestiques de cannabis à forte teneur en THC ( Cannabis sativa subsp. indica) menacées et de leurs parents sauvages. PhytoKeys 144 , 81–112 (2020).

Article

PubMed

PubMed Central

Google Scholar

Simão, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV & Zdobnov, EM BUSCO : évaluation de l'assemblage du génome et de l'exhaustivité de l'annotation avec des orthologues à copie unique. Bioinformatics 31 , 3210–3212 (2015).

Article

PubMed

Google Scholar

Hickey, G. et al. Construction de graphes pangénomes à partir d'alignements de génomes avec Minigraph-Cactus. Nat. Biotechnol. 42 , 663–673 (2024).

Article

CAS

PubMed

Google Scholar

Aylward, AJ, Petrus, S., Mamerto, A., Hartwick, NT & Michael, TP PanKmer : analyse pangénome basée sur les k -mers et sans référence. Bioinformatics 39 , btad621 (2023).

Article

CAS

PubMed

PubMed Central

Google Scholar

Garrison, E. et al. Construction de graphes pangénomes. Nat. Methods 21 , 2008–2012 (2024).

Article

CAS

PubMed

Google Scholar

McPartland, JM et Guy, GW Modèles de taxonomie du cannabis, biais culturels et conflits entre noms scientifiques et vernaculaires. Bot. Rev. 83 , 327–381 (2017).

Article

Google Scholar

Qiao, Q. et al. Histoire évolutive et dynamique pangénomique du fraisier ( Fragaria spp.). Proc. Natl Acad. Sci. USA 118 , e2105431118 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Li, C., Lin, H., Debernardi, JM, Zhang, C. & Dubcovsky, J. GIGANTEA accélère le temps d'épiaison du blé grâce à des interactions génétiques convergeant vers le LOCUS DE FLORAISON T1 . Plant J. 118 , 519–533 (2024).

Article

CAS

PubMed

Google Scholar

Steed, G., Ramirez, DC, Hannah, MA & Webb, AAR Chronoculture, exploiter l'horloge circadienne pour améliorer le rendement et la durabilité des cultures. Science 372 , eabc9141 (2021).

Article

CAS

PubMed

Google Scholar

de Meijer, E. Cultivars de chanvre fibreux : une étude de l'origine, de l'ascendance, de la disponibilité et de brèves caractéristiques agronomiques. J. Int. Hemp Assoc. 2 , 66–73 (1995).

Google Scholar

Westergaard. M. dans Advances in Genetics, vol. 9 (éd. Demerec, M.) 217–281 (Academic Press, 1958).

Carey, SB et al. L'évolution des chromosomes sexuels hétéromorphes chez les plantes. Prépublication sur bioRxiv https://doi.org/10.1101/2024.12.09.627636 (2024).

McPartland, JM Systématique du cannabis aux niveaux de la famille, du genre et de l'espèce. Cannabis Cannabinoid Res. 3 , 203–212 (2018).

Article

CAS

PubMed

PubMed Central

Google Scholar

Prentout, D. et al. Les genres de plantes Cannabis et Humulus partagent la même paire de chromosomes sexuels bien différenciés. New Phytol. 231 , 1599–1611 (2021).

Article

CAS

PubMed

Google Scholar

Petit, J., Salentijn, EMJ, Paulo, M.-J., Denneboom, C. & Trindade, LM Architecture génétique de la période de floraison et de la détermination du sexe chez le chanvre ( Cannabis sativa L.) : une étude d'association à l'échelle du génome. Front. Plant Sci. 11 , 569958 (2020).

Article

PubMed

PubMed Central

Google Scholar

Charlesworth, D., Charlesworth, B. & Marais, G. Étapes de l'évolution des chromosomes sexuels hétéromorphes. Hérédité 95 , 118–128 (2005).

Article

CAS

PubMed

Google Scholar

Stack, GM et al. Comparaison du taux de recombinaison, du biais de référence et des haplotypes pangénomiques uniques chez Cannabis sativa à l'aide de sept assemblages génomiques de novo. Int. J. Mol. Sci. 26 , 1165 (2025).

Article

CAS

PubMed

PubMed Central

Google Scholar

Lu, C. et al. La phosphorylation de SPT5 par CDKD;2 est nécessaire au recrutement de VIP5 et à la floraison normale chez Arabidopsis thaliana . Plant Cell 29 , 277–291 (2017).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Lappin, FM et al. Une limite pseudoautosomique polymorphe dans les chromosomes sexuels de Carica papaya . Mol. Genet. Genomics 290 , 1511–1522 (2015).

Article

CAS

PubMed

Google Scholar

Grabowska-Joachimiak, A., Śliwińska, E., Piguła, M., Skomra, U. & Joachimiak, AJ Taille du génome chez Humulus lupulus L. et H. japonicus Siebold et Zucc. (Cannabacées). Acta Soc. Bot. Pol. 75 , 207-214 (2006).

Article

CAS

Google Scholar

Ma, J., Devos, KM & Bennetzen, JL Les analyses des structures du rétrotransposon LTR révèlent une perte récente et rapide d'ADN génomique chez le riz. Genome Res. 14 , 860–869 (2004).

Article

CAS

PubMed

PubMed Central

Google Scholar

Choi, J., Lyons, DB, Kim, MY, Moore, JD & Zilberman, D. La méthylation de l'ADN et l'histone H1 répriment conjointement les éléments transposables et les transcrits intragéniques aberrants. Mol. Cell 77 , 310–323.e7 (2020).

Article

CAS

PubMed

Google Scholar

Harringmeyer, OS & Hoekstra, HE Les polymorphismes d'inversion chromosomique façonnent le paysage génomique des souris cerfs. Nat. Ecol. Evol. 6 , 1965–1979 (2022).

Article

PubMed

PubMed Central

Google Scholar

Hirabayashi, K. & Owens, GL Le taux de fixation de l'inversion chromosomique dans les génomes végétaux est très variable. Evolution 77 , 1117–1130 (2023).

Article

PubMed

Google Scholar

Gabur, I., Chawla, HS, Snowdon, RJ & Parkin, IAP Relier la variation structurelle du génome aux traits complexes des plantes cultivées. Züchter Genet. Breed. Res. 132 , 733–750 (2019).

Google Scholar

Jay, P. et al. Évolution des supergènes déclenchée par l'introgression d'une inversion chromosomique. Curr. Biol. 28 , 1839–1845.e3 (2018).

Article

CAS

PubMed

Google Scholar

Toth, JA, Stack, GM, Carlson, CH & Smart, LB Identification et cartographie des loci de floraison à effet majeur Autoflower1 et Early1 chez Cannabis sativa L. Front. Plant Sci. 13 , 991680 (2022).

Article

PubMed

PubMed Central

Google Scholar

Murphy, RL et al. La régulation simultanée de la lumière et de l'horloge de la protéine régulatrice de pseudo-réponse 37 (PRR37) contrôle la floraison photopériodique du sorgho. Proc. Natl Acad. Sci. USA 108 , 16469–16474 (2011).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Li, M.-W., Liu, W., Lam, H.-M. & Gendron, JM La caractérisation de deux QTL de période de croissance révèle une modification des gènes PRR3 pendant la domestication du soja. Plant Cell Physiol. 60 , 407–420 (2019).

Article

CAS

PubMed

Google Scholar

Whiting, JR et al. L'architecture génétique de l'adaptation locale répétée au climat chez les plantes éloignées. Nat. Ecol. Evol. 8 , 1933–1947 (2024).

Article

PubMed

PubMed Central

Google Scholar

Todesco, M. et al. Des haplotypes massifs sous-tendent la différenciation écotypique chez les tournesols. Nature 584 , 602–607 (2020).

Article

PUBLICITÉS

CAS

PubMed

Google Scholar

André, CM et al. Cannabinoïdes bibenzyliques uniques dans l'hépatique Radula marginata : parallèles avec la chimie du cannabis . New Phytol. https://doi.org/10.1111/nph.20349 (2024).

van Velzen, R. & Schranz, ME Origine et évolution de la famille des gènes de l'oxydocyclase cannabinoïde. Genome Biol. Evol. 13 , evab130 (2021).

Article

PubMed

PubMed Central

Google Scholar

Smith, CJ, Vergara, D., Keegan, B. & Jikomes, N. La diversité phytochimique du cannabis commercial aux États-Unis. PLoS ONE 17 , e0267498 (2022).

Article

CAS

PubMed

PubMed Central

Google Scholar

de Meijer, EPM & Hammond, KM L'hérédité du phénotype chimique chez Cannabis sativa L. (V) : régulation du rapport cannabinoïde propyle/pentyle, achèvement d'un modèle génétique. Euphytica 210 , 291–307 (2016).

Article

Google Scholar

Vigli, D. et al. Un traitement chronique avec le phytocannabinoïde cannabidivarine (CBDV) sauve les altérations comportementales et l'atrophie cérébrale dans un modèle murin du syndrome de Rett. Neuropharmacologie 140 , 121–129 (2018).

Article

CAS

PubMed

Google Scholar

Welling, MT et al. Une étude d'association pangénomique à phénotype extrême identifie des gènes candidats de la voie des cannabinoïdes dans le cannabis . Sci. Rep. 10 , 18643 (2020).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Pulsifer, IP et al. Les acyl-lipides thioestérases 1-4 d' Arabidopsis thaliana forment une nouvelle famille de protéines porteuses d'acyl-acyl gras thioestérases avec des profils d'expression et des spécificités de substrat divergents. Plant Mol. Biol. 84 , 549–563 (2014).

Article

CAS

PubMed

Google Scholar

Kalinger, RS, Pulsifer, IP, Hepworth, SR & Rowland, O. Acyl synthétases grasses et thioestérases dans le métabolisme lipidique des plantes : fonctions diverses et applications biotechnologiques. Lipids 55 , 435–455 (2020).

Article

CAS

PubMed

Google Scholar

Turner, CE et al. Constituants de Cannabis sativa L. IV. Stabilité des cannabinoïdes dans le matériel végétal stocké. J. Pharm. Sci. 62 , 1601–1605 (1973).

Article

CAS

PubMed

Google Scholar

Welling, MT, Liu, L., Shapter, T., Raymond, CA & King, GJ Caractérisation de la composition en cannabinoïdes dans une collection diversifiée de germoplasmes de Cannabis sativa L. Euphytica 208 , 463–475 (2016).

Article

CAS

Google Scholar

Cheng, H., Concepcion, GT, Feng, X., Zhang, H. & Li, H. Assemblage de novo résolu par haplotype à l'aide de graphes d'assemblage phasés avec hifiasm. Nat. Méthodes 18 , 170–175 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Durand, NC et al. Juicer fournit un système en un clic pour analyser les expériences Hi-C à résolution de boucle. Cell Syst. 3 , 95–98 (2016).

Article

CAS

PubMed

PubMed Central

Google Scholar

Dudchenko, O. et al. L'assemblage de novo du génome d'Aedes aegypti à l'aide de Hi-C produit des échafaudages de la longueur des chromosomes. Science 356 , 92–95 (2017).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Durand, NC et al. Juicebox fournit un système de visualisation pour les cartes de contact Hi-C avec un zoom illimité. Cell Syst. 3 , 99–101 (2016).

Article

CAS

PubMed

PubMed Central

Google Scholar

Krueger, F. et al. Félix Krueger/TrimGalore : v0.6.10. Zenodo https://doi.org/10.5281/zenodo.7598955 (2023).

Garrison, E. et Marth, G. Détection de variants basée sur l'haplotype à partir du séquençage à lecture courte. Prépublication sur https://doi.org/10.48550/arXiv.1207.3907 (2012).

Danecek, P. et al. Douze ans de SAMtools et BCFtools. Gigascience 10 , giab008 (2021).

Article

PubMed

PubMed Central

Google Scholar

Danecek, P. et al. Le format d'appel de variante et VCFtools. Bioinformatics 27 , 2156–2158 (2011).

Article

CAS

PubMed

PubMed Central

Google Scholar

Garfinkel, AR, Otten, M. & Crawford, S. Le SNP dans la synthase d'acide tétrahydrocannabinolique potentiellement disparue est un marqueur de la dominance de l'acide cannabigérolique dans Cannabis sativa L. Genes 12 , 228 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Patro, R., Duggal, G., Love, MI, Irizarry, RA & Kingsford, C. Salmon fournit une quantification rapide et sensible aux biais de l'expression des transcriptions. Nat. Methods 14 , 417–419 (2017).

Article

CAS

PubMed

PubMed Central

Google Scholar

Wang, Y. et al. MCScanX : une boîte à outils pour la détection et l'analyse évolutive de la synténie et de la colinéarité des gènes. Nucleic Acids Res. 40 , e49 (2012).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Hunter, Matplotlib : un environnement graphique 2D. Comput. Sci. Eng. 9 , 90–95 (2007).

Article

Google Scholar

Virtanen, P. et al. SciPy 1.0 : algorithmes fondamentaux pour le calcul scientifique en Python. Nat. Methods 17 , 261–272 (2020).

Article

CAS

PubMed

PubMed Central

Google Scholar

Harris, CR et al. Programmation de tableaux avec NumPy. Nature 585 , 357–362 (2020).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Alexa, A. & Rahnenführer, J. topGO : analyse d'enrichissement pour l'ontologie génétique. https://doi.org/10.18129/B9.bioc.topGO , package R version 2.59.0 (2024).

Denyer, T. et al. Des signatures d'expression spatiale et environnementale simplifiées caractérisent la lentille d'eau minimaliste Wolffia australiana . Genome Res. 34 , 1106–1120 (2024).

Article

CAS

PubMed

PubMed Central

Google Scholar

Li, H. Minimap2 : alignement par paires pour les séquences de nucléotides. Bioinformatics 34 , 3094–3100 (2018).

Article

CAS

PubMed

PubMed Central

Google Scholar

Schalamun, M. Extraction d'ADN génomique de haut poids moléculaire après Mayjonade et al. optimisée pour l'eucalyptus pour le séquençage par nanopores. Protocols.io https://doi.org/10.17504/protocols.io.i6vche6 (2017).

Chin, C.-S. et al. Assemblage génomique diploïde en phases avec séquençage en temps réel de molécules uniques. Nat. Methods 13 , 1050–1054 (2016).

Article

CAS

PubMed

PubMed Central

Google Scholar

Nurk, S. et al. HiCanu : assemblage précis de duplications segmentaires, de satellites et de variantes alléliques à partir de lectures longues haute fidélité. Genome Res. 30 , 1291–1305 (2020).

Article

CAS

PubMed

PubMed Central

Google Scholar

Titus Brown, C. & Irber, L. sourmash : une bibliothèque pour l'esquisse MinHash de l'ADN. J. Open Source Softw. 1 , 27 (2016).

Article

PUBLICITÉS

Google Scholar

Alonge, M. et al. L'échafaudage d'assemblage automatisé utilisant RagTag élève un nouveau système de tomate pour l'édition du génome à haut débit. Genome Biol. 23 , 258 (2022).

Article

CAS

PubMed

PubMed Central

Google Scholar

Kurtzer, GM et al. Hpcng/singularité : Singularité 3.7.1. Zenodo https://doi.org/10.5281/ZENODO.4435194 (2021).

Garrison, E. et al. La boîte à outils de graphique de variation améliore la cartographie de lecture en représentant la variation génétique dans la référence. Nat. Biotechnol. 36 , 875–879 (2018).

Article

CAS

PubMed

PubMed Central

Google Scholar

Liao, W.-W. et al. Une ébauche de référence sur le pangénome humain. Nature 617 , 312–324 (2023).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Di Tommaso, P. et al. Nextflow permet des flux de travail informatiques reproductibles. Nat. Biotechnol. 35 , 316–319 (2017).

Article

PubMed

Google Scholar

Heumos, S. et al. Construction de graphes pangénomes efficaces en cluster avec nf-core/pangenome. Bioinformatique 40 , btae609 (2024).

Article

CAS

PubMed

PubMed Central

Google Scholar

Heumos, S. et coll. Nf-core/pangénome : Pangenome 1.1.2 - canguro. Zenodo https://doi.org/10.5281/ZENODO.10869589 (2024).

Sirén, J. et al. Pangenomics permet le génotypage de variantes structurelles connues dans 5202 génomes divers. Science 374 , abg8871 (2021).

Article

PubMed

PubMed Central

Google Scholar

Hickey, G. et al. Génotypage des variantes structurelles dans les graphes pangénomes à l'aide de la boîte à outils vg. Genome Biol. 21 , 35 (2020).

Article

PubMed

PubMed Central

Google Scholar

Flynn, JM et al. RepeatModeler2 pour la découverte génomique automatisée de familles d'éléments transposables. Proc. Natl Acad. Sci. USA 117 , 9451–9457 (2020).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Emms, DM & Kelly, S. OrthoFinder : inférence d'orthologie phylogénétique pour la génomique comparative. Genome Biol. 20 , 238 (2019).

Article

PubMed

PubMed Central

Google Scholar

Smit, AFA, Hubley, R. et Green, P. RepeatMasker Open-4.0. 2013−2015 ; https://www.repeatmasker.org/ (2015).

Gabriel, L., Hoff, KJ, Brůna, T., Borodovsky, M. & Stanke, M. TSEBRA : sélecteur de transcription pour BRAKER. BMC Bioinformatics 22 , 566 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Kim, D., Paggi, JM, Park, C., Bennett, C. & Salzberg, SL Alignement du génome et génotypage basés sur des graphes avec HISAT2 et HISAT-genotype. Nat. Biotechnol. 37 , 907–915 (2019).

Article

CAS

PubMed

PubMed Central

Google Scholar

Chen, S., Zhou, Y., Chen, Y. & Gu, J. fastp : un préprocesseur FASTQ tout-en-un ultra-rapide. Bioinformatics 34 , i884–i890 (2018).

Article

PubMed

PubMed Central

Google Scholar

Cantalapiedra, CP, Hernández-Plaza, A., Letunic, I., Bork, P. & Huerta-Cepas, J. eggNOG-mapper v2 : annotation fonctionnelle, attributions d'orthologie et prédiction de domaine à l'échelle métagénomique. Mol. Biol. Évol. 38 , 5825–5829 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Waterhouse, RM et al. Applications BUSCO des évaluations de la qualité à la prédiction des gènes et à la phylogénomique. Mol. Biol. Evol. 35 , 543–548 (2018).

Article

CAS

PubMed

Google Scholar

Ou, S. et al. Analyse comparative des méthodes d'annotation d'éléments transposables pour la création d'un pipeline simplifié et complet. Genome Biol. 20 , 275 (2019).

Article

CAS

PubMed

PubMed Central

Google Scholar

Goel, M., Sun, H., Jiao, W.-B. & Schneeberger, K. SyRI : découverte de réarrangements génomiques et de différences de séquences locales à partir d'assemblages de génomes entiers. Genome Biol. 20 , 277 (2019).

Article

PubMed

PubMed Central

Google Scholar

Goel, M. & Schneeberger, K. plotsr : visualisation des similitudes structurelles et des réarrangements entre plusieurs génomes. Bioinformatics 38 , 2922–2926 (2022).

Article

CAS

PubMed

PubMed Central

Google Scholar

Altschul, SF, Gish, W., Miller, W., Myers, EW & Lipman, DJ Outil de recherche d'alignement local de base. J. Mol. Biol. 215 , 403–410 (1990).

Article

CAS

PubMed

Google Scholar

VanBuren, R. et al. "Séquençage d'une seule molécule de l'herbe tolérante à la dessiccation Oropetium thomaeum" . Nature 527 , 508-511 (2015).

Article

PUBLICITÉS

CAS

PubMed

Google Scholar

Benson, G. Tandem repeats finder : un programme pour analyser les séquences d'ADN. Nucleic Acids Res. 27 , 573–580 (1999).

Article

CAS

PubMed

PubMed Central

Google Scholar

Colt, K. et al. Longueur des télomères chez les plantes estimée par séquençage à lecture longue. Prépublication sur bioRxiv https://doi.org/10.1101/2024.03.27.586973 (2024).

Garcia-Cisneros, A. et al. Les longs télomères sont associés à la clonalité dans les populations sauvages de l'étoile de mer fissipare Coscinasterias tenuispina . Hérédité 115 , 480 (2015).

Article

CAS

PubMed

PubMed Central

Google Scholar

Melters, DP et al. L'analyse comparative des répétitions en tandem de centaines d'espèces révèle des informations uniques sur l'évolution du centromère. Genome Biol. 14 , R10 (2013).

Article

PubMed

PubMed Central

Google Scholar

Divashuk, MG, Alexandrov, OS, Razumova, OV, Kirov, IV & Karlov, G. I, Caractérisation cytogénétique moléculaire du Cannabis sativa dioïque avec un système de détermination du sexe du chromosome XY. PLoS ONE 9 , e85118 (2014).

Article

PUBLICITÉS

PubMed

PubMed Central

Google Scholar

Katoh, K. & Standley, DM Logiciel d'alignement de séquences multiples MAFFT version 7 : améliorations des performances et de la convivialité. Mol. Biol. Evol. 30 , 772–780 (2013).

Article

CAS

PubMed

PubMed Central

Google Scholar

Knaus, BJ & Grünwald, NJ vcfr : un package pour manipuler et visualiser les données de format d'appel variant dans R. Mol. Ecol. Resour. 17 , 44–53 (2017).

Article

CAS

PubMed

Google Scholar

Wright, S. La structure génétique des populations. Ann. Eugen. 15 , 323–354 (1951).

Article

MathSciNet

CAS

PubMed

Google Scholar

Shen, W., Le, S., Li, Y. & Hu, F. SeqKit : une boîte à outils multiplateforme et ultra-rapide pour la manipulation de fichiers FASTA/Q. PLoS ONE 11 , e0163962 (2016).

Article

PubMed

PubMed Central

Google Scholar

Kaur, H., Shannon, LM & Samac, DA Un guide étape par étape pour le développement du pangénome dans les plantes cultivées : une étude de cas sur la luzerne ( Medicago sativa ). BMC Genomics 25 , 1022 (2024).

Article

PubMed

PubMed Central

Google Scholar

Koch, MA, Haubold, B. & Mitchell-Olds, T. Analyse évolutive comparative des loci de chalcone synthase et d'alcool déshydrogénase chez Arabidopsis , Arabis et les genres apparentés (Brassicaceae). Mol. Biol. Evol. 17 , 1483–1498 (2000).

Article

CAS

PubMed

Google Scholar

Lynch, M. & Conery, JS Le destin évolutif et les conséquences des gènes dupliqués. Science 290 , 1151–1155 (2000).

Article

PUBLICITÉS

CAS

PubMed

Google Scholar

Ou, S. & Jiang, N. LTR_retriever : un programme très précis et sensible pour l'identification des rétrotransposons à répétition terminale longue. Plant Physiol. 176 , 1410–1422 (2018).

Article

CAS

PubMed

Google Scholar

Ou, S., Chen, J. & Jiang, N. Évaluation de la qualité de l'assemblage du génome à l'aide de l'indice d'assemblage LTR (LAI). Nucleic Acids Res. 46 , e126 (2018).

PubMed

PubMed Central

Google Scholar

Pereira, V. Biais d'insertion et sélection purificatrice des rétrotransposons dans le génome d'Arabidopsis thaliana . Genome Biol. 5 , R79 (2004).

Article

PubMed

PubMed Central

Google Scholar

VanBuren, R. et al. Variation extrême des haplotypes chez le lycopode tolérant à la dessiccation Selaginella lepidophylla . Nat. Commun. 9 , 13 (2018).

Article

PUBLICITÉS

PubMed

PubMed Central

Google Scholar

Karakülah, G. & Suner, A. PlanTEnrichment : un outil pour l'analyse de l'enrichissement des éléments transposables dans les plantes. Genomics 109 , 336–340 (2017).

Article

PubMed

Google Scholar

Benjamini, Y. & Hochberg, Y. Contrôler le taux de fausses découvertes : une approche pratique et puissante des tests multiples. JR Stat. Soc. 57 , 289–300 (1995).

Article

MathSciNet

Google Scholar

Seabold, S. & Perktold, J. Statsmodels : modélisation économétrique et statistique avec Python. Dans Proc. 9e conférence Python in Science https://doi.org/10.25080/Majora-92bf1922-011 (SciPy, 2010).

Quinlan, AR & Hall, IM BEDTools : une suite flexible d'utilitaires pour comparer les caractéristiques génomiques. Bioinformatics 26 , 841–842 (2010).

Article

CAS

PubMed

PubMed Central

Google Scholar

Neph, S. et al. BEDOPS : opérations de caractéristiques génomiques à haute performance. Bioinformatics 28 , 1919–1920 (2012).

Article

CAS

PubMed

PubMed Central

Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree 2 — arbres à vraisemblance maximale pour les grands alignements. PLoS ONE 5 , e9490 (2010).

Article

PUBLICITÉS

PubMed

PubMed Central

Google Scholar

Rambaut, A. FigTree, version 1.4 ; http://tree.bio.ed.ac.uk/software/figtree/ (2012).

Fu, L., Niu, B., Zhu, Z., Wu, S. & Li, W. CD-HIT : accéléré pour le regroupement des données de séquençage de nouvelle génération. Bioinformatics 28 , 3150–3152 (2012).

Article

CAS

PubMed

PubMed Central

Google Scholar

Consortium GTEx. Atlas des effets régulateurs génétiques sur les tissus humains. Science 369 , 1318–1330 (2020).

Article

Google Scholar

Gardiner-Garden, M. & Frommer, M. Îles CpG dans les génomes des vertébrés. J. Mol. Biol. 196 , 261–282 (1987).

Article

CAS

PubMed

Google Scholar

Zhou, W., Liang, G., Molloy, PL & Jones, PA La méthylation de l'ADN permet l'expansion du génome pilotée par les éléments transposables. Proc. Natl Acad. Sci. USA 117 , 19359–19366 (2020).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Hartwick, NT & Michael, TP OrthoBrowser : analyse et visualisation des familles de gènes. Bioinformatics Adv. 5 , vbaf009 (2025).

Article

Google Scholar

Adami, C. Théorie de l'information en biologie moléculaire. Phys. Life Rev. 1 , 3–22 (2004).

Article

PUBLICITÉS

Google Scholar

Lovell, JT et al. GENESPACE suit les régions d'intérêt et la variation du nombre de copies de gènes sur plusieurs génomes. eLife 11 , e78526 (2022).

Article

CAS

PubMed

PubMed Central

Google Scholar

Équipe principale R. R : un langage et un environnement pour le calcul statistique. http://www.R-project.org/ (R Foundation for Statistical Computing, 2013).

Purcell, S. et al. PLINK : un ensemble d'outils pour les analyses d'association du génome entier et de liaison basées sur la population. Am. J. Hum. Genet. 81 , 559–575 (2007).

Article

CAS

PubMed

PubMed Central

Google Scholar

Li, H. & Ralph, P. L'ACP locale montre comment l'effet de la structure de la population diffère le long du génome. Genetics 211 , 289–304 (2019).

Article

CAS

PubMed

Google Scholar

Calle García, J. et al. PRGdb 4.0 : une base de données mise à jour dédiée aux gènes impliqués dans le processus de résistance aux maladies des plantes. Nucleic Acids Res. 50 , D1483–D1490 (2022).

Article

PubMed

Google Scholar

Mihalyov, PD & Garfinkel, AR Découverte et cartographie génétique de PM1, un gène de résistance à l'oïdium chez Cannabis sativa L. Front. Agron. https://doi.org/10.3389/fagro.2021.720215 (2021).

Altschul, SF et al. Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données protéiques. Nucleic Acids Res. 25 , 3389–3402 (1997).

Article

CAS

PubMed

PubMed Central

Google Scholar

Rost, B. Zone crépusculaire des alignements de séquences protéiques. Protein Eng. 12 , 85–94 (1999).

Article

CAS

PubMed

Google Scholar

Zhou, H.-C., Shamala, LF, Yi, X.-K., Yan, Z. & Wei, S. Analyse des gènes de la famille des terpènes synthases chez Camellia sinensis en mettant l'accent sur les conditions de stress abiotique. Sci. Rep. 10 , 933 (2020).

Article

PUBLICITÉS

CAS

PubMed

PubMed Central

Google Scholar

Punta, M. et al. La base de données des familles de protéines Pfam. Nucleic Acids Res. 40 , D290–D301 (2012).

Article

CAS

PubMed

Google Scholar

Eddy, SR Recherches de profils HMM accélérées. PLoS Comput. Biol. 7 , e1002195 (2011).

Article

PUBLICITÉS

MathSciNet

CAS

PubMed

PubMed Central

Google Scholar

Zager, JJ, Lange, I., Srividya, N., Smith, A. & Lange, BM Réseaux génétiques sous-jacents à l'accumulation de cannabinoïdes et de terpénoïdes dans le cannabis. Plant Physiol. 180 , 1877–1897 (2019).

Article

CAS

PubMed

PubMed Central

Google Scholar

Jin, H., Song, Z. & Nikolau, BJ La caractérisation génétique inverse de deux gènes paralogues d'acétoacétyl CoA thiolase chez Arabidopsis révèle leur importance dans la croissance et le développement des plantes. Plant J. 70 , 1015–1032 (2012).

Article

CAS

PubMed

Google Scholar

Booth, J. Biosynthèse des terpènes et des isoprénoïdes chez Cannabis sativa. Thèse de doctorat, Univ. de la Colombie-Britannique (2020).

Buchfink, B., Reuter, K. & Drost, H.-G. Alignements de protéines sensibles à l'échelle de l'arbre de vie à l'aide de DIAMOND. Nat. Methods 18 , 366–368 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Edgar, R. Recherche. OSTI.gov https://www.osti.gov/biblio/1137186 ​​(2010).

Abascal, F., Zardoya, R. & Telford, MJ TranslatorX : alignement multiple de séquences nucléotidiques guidé par les traductions d'acides aminés. Nucleic Acids Res. 38 , W7–W13 (2010).

Article

CAS

PubMed

PubMed Central

Google Scholar

Tamura, K., Stecher, G. & Kumar, S. MEGA11 : Analyse de génétique évolutive moléculaire version 11. Mol. Biol. Evol. 38 , 3022–3027 (2021).

Article

CAS

PubMed

PubMed Central

Google Scholar

Wang, J. & Zhang, Z. GAPIT Version 3 : amélioration de la puissance et de la précision de l'association et de la prédiction génomiques. Genomics Proteomics Bioinformatics 19 , 629–640 (2021).

Article

PubMed

PubMed Central

Google Scholar

Kearse, M. et al. Geneious Basic : une plateforme logicielle de bureau intégrée et extensible pour l'organisation et l'analyse des données de séquence. Bioinformatics 28 , 1647–1649 (2012).

Article

PubMed

PubMed Central

Google Scholar

Prentout, D. et al. Une analyse de ségrégation efficace basée sur l'ARN-seq identifie les chromosomes sexuels de Cannabis sativa . Genome Res. 30 , 164–172 (2020).

Article

CAS

PubMed

PubMed Central

Google Scholar

Lynch, R. Cannabis_Pangenome. Figshare https://figshare.com/projects/Cannabis_Pangenome/205555 (2024).

Lynch, R. Pangénome du cannabis. Figshare https://doi.org/10.25452/figshare.plus.c.7248427.v1 (2024).

Lynch, R. et coll. Métadonnées et statistiques du pangénome. Figshare https://doi.org/10.6084/m9.figshare.25869319.v2 (2025).

CannabisPangenomeShared. GitHub https://github.com/anthony-aylward/CannabisPangenomeShared (2024).

Analyses de CannabisPangenome. GitHub https://github.com/padgittl/CannabisPangenomeAnalyses (2024).

Woods, P., Price, N., Matthews, P. & McKay, JK Polymorphisme à l'échelle du génome et sélection génique dans les lignées sauvages et domestiques de Cannabis sativa . G3 13 , jkac209 (2022).

Article

PubMed

PubMed Central

Google Scholar

Télécharger les références

Remerciements
Les auteurs remercient les membres du laboratoire Michael pour leurs discussions sur ce travail ; ainsi que T. Gordon et Z. Stansell pour l'envoi de matériel foliaire provenant de lignées de la collection GRIN. Ce travail a été financé en partie par le fonds de génomique Tang (TPM), une bourse de recherche postdoctorale en génome végétal de la National Science Foundation à LKP-C. (NSF-IOS PRFB 2209290), et le développement d'outils pangénomes au laboratoire Michael a été soutenu par la Fondation Bill et Melinda Gates (INV-040541) (TPM). Le soutien à ce travail a également été apporté par la bourse postdoctorale du National Institute of Food and Agriculture du Département de l'Agriculture des États-Unis (USDA NIFA) n° 2022-67012-38987 (SBC), l'USDA NIFA n° 2023-67013-39620 (AH) et la National Science Foundation (NSF) IOS-PGRP CAREER n° 2239530 (AH).

Informations sur l'auteur
Notes de l'auteur
Ces auteurs ont contribué de manière égale : Ryan C. Lynch, Lillian K. Padgitt-Cobb

Auteurs et affiliations
Laboratoire de biologie moléculaire et cellulaire végétale, Institut Salk d'études biologiques, La Jolla, Californie, États-Unis

Ryan C. Lynch, Lillian K. Padgitt-Cobb, Nolan T. Hartwick, Nicholas Allsing, Anthony Aylward, Allen Mamerto, Justine K. Kitony, Kelly Colt, Emily R. Murray, Tiffany Duong, Heidi I. Chen et Todd P. Michael

Oregon CBD, Independence, Oregon, États-Unis

Andrea R. Garfinkel, Aaron Trippe et Seth Crawford

Département d'horticulture, Université d'État de l'Oregon, Corvallis, Oregon, États-Unis

Brian J. Knaus et Kelly Vining

Institut HudsonAlpha de biotechnologie, Huntsville, Alabama, États-Unis

Philip C. Bentz, Sarah B. Carey et Alex Harkess

Département de biologie cellulaire et du développement, École des sciences biologiques, Université de Californie à San Diego, La Jolla, Californie, États-Unis

Todd P. Michael

Science et conservation, Jardin botanique de San Diego, Encinitas, Californie, États-Unis

Todd P. Michael

Centre de biotechnologie et de biomédecine marines, Université de Californie à San Diego, La Jolla, Californie, États-Unis

Todd P. Michael

Contributions
Français TPM, RCL, SC, ARG, KV et LKP-C. ont conçu et organisé les efforts de recherche. RCL, LKP-C., TPM, BJK, NTH, NA, AA, AM, JKK, HIC, ARG, AT, PCB, SBC et AH ont analysé les données pangénomes. RCL, LKP-C., ARG, TPM, KC, ERM, TD et SC ont mené des expériences en serre, sur le terrain et en laboratoire. RCL, LKP-C., TPM, BJK et KV ont rédigé et édité le manuscrit. RCL, LKP-C. et TPM ont révisé le manuscrit. Tous les auteurs ont lu et approuvé le manuscrit.

Auteurs correspondants
Correspondance à Ryan C. Lynch , Lillian K. Padgitt-Cobb ou Todd P. Michael .

Déclarations éthiques
Intérêts concurrents
SC est cofondateur d'Oregon CBD. ARG et AT étaient des employés d'Oregon CBD. RCL est actionnaire de Saint Vrain Research LLC, qui fabrique des produits à base de chanvre. TPM est l'un des fondateurs de CQuesta, une entreprise spécialisée dans la séquestration du carbone. AH est cofondateur de Veil Genomics, une entreprise de génotypage. Les autres auteurs déclarent ne pas avoir de conflits d'intérêts.

Évaluation par les pairs
Informations sur l'évaluation par les pairs
Nature remercie Shelby Ellison, Manuel Spannagl et les autres évaluateurs anonymes pour leur contribution à l'évaluation par les pairs de cet ouvrage. Les rapports d'évaluation sont disponibles.

Informations Complémentaires
Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Figures et tableaux de données étendus
Données étendues Fig. 1 Matrice de similarité PanKmer Jaccard de 193 génomes de cannabis.
Le PanKmer (PK) a été utilisé pour estimer la relation entre les génomes du pangénome du cannabis. Une grande partie de ce pangénome comprenait des cultivars d'élite, des trios de sélection et des lignées fondamentales de marijuana (MJ) issues de programmes de sélection couvrant les années 1970 à nos jours (Fig. 1 supplémentaire ; Tableau 1 supplémentaire ). Ces échantillons représentaient des chémotypes présentant une forte expression d'homologues pentyle ou propyle (varine) du CBDA ou du THCA, ainsi que des plantes exemptes de cannabinoïdes (type V). La variation de la période de floraison a également été capturée grâce à l'inclusion des phénotypes de jours courts (SD) et de jours courts. Les cultivars restants provenaient du Germplasm Resource Information Network (GRIN) du Département de l'Agriculture des États-Unis (USDA) et des dépôts de la banque de gènes fédérale allemande (IPK Gatersleben) afin de garantir aux chercheurs l'accès aux plantes à des fins d'expérimentation. Ces échantillons comprenaient du chanvre à fibres et à graines européen et asiatique, des populations sauvages, de la marijuana nord-américaine (type I), du chanvre à rendement hc (CBDA ou CBGA) (types III et IV), des plantes mâles (XY ; Fig. 1b ) et des plantes monoïques (XX ; Tableau supplémentaire 1 ). Ensemble, cet ensemble de données complet fournit une base pour l'exploration de la diversité génomique, de l'hybridation et de l'évolution des traits du cannabis. Voir Figshare pour la version en pleine résolution .

Données étendues Fig. 2 La stratégie de séquençage du génome d'ancrage EH23 et les populations résultantes.
A) L'hybride F1 EH23 (ERBxHO40#23) a été généré en croisant le type III (riche en CBDA), jour neutre (DN), Early Resin Berry (ERB) avec le type I (riche en THC), jour sensible (DS), HO40. ERB et HO40 ont été séquencés avec PacBio CLR, tandis que EH23 a été séquencé avec PacBio HiFi (CCS) et échafaudé avec High-throughput Chromatin Conformation Capture (Hi-C). La population de cartographie F2 (288 individus) a été séquencée avec des lectures courtes Illumina. Les échantillons de pangénome restants de l'OCBD sont résumés dans le (tableau supplémentaire 1 ) avec un arbre généalogique (figure supplémentaire 1 ). B) Schéma d'organisation de 193 génomes du pangénome du cannabis. Deux méthodes ont été utilisées pour obtenir des génomes résolus par haplotype et à l'échelle des chromosomes. Français La première, une méthode simplifiée, a utilisé des données Hi-C pour le phasage et l'échafaudage (Tableau supplémentaire 1 , Méthodes), générant 24 génomes haploïdes à partir de 12 échantillons (Hifiasm_HiC). Ceux-ci ont servi de références d'échafaudage pour 42 génomes à partir de 21 échantillons (Hifiasm_Trio_RagTag), résultant en des assemblages haploïdes triophasés. Ensemble, ces 78 génomes servent de base à nos analyses pangénomes des éléments transposables et de la variation structurelle. De plus, nous avons généré 20 assemblages de niveau contig résolus par haplotype (Hifiasm), ainsi que 83 assemblages de niveau contig en utilisant d'anciennes lectures longues continues PacBio (CLR ; 23 assemblages) et le séquençage par consensus circulaire (CCS ; 60 assemblages) (Tableau supplémentaire 1 ). C) Diagramme des génomes utilisés dans différentes analyses pour cette étude. Pour tous les assemblages, nous avons généré des annotations de modèles de gènes en utilisant à la fois des outils ab initio et des données d'expression d'ARN, ainsi que des TE appelés à l'aide d'une bibliothèque RepeatModeler (tableau supplémentaire 2 , méthodes).

Données étendues Fig. 3 L'hybride F1 (ERBxHO40_23 ; EH23a et EH23b) entre deux parents phénotypiquement et génétiquement divergents clarifie les caractéristiques du génome manquées dans d'autres études à ce jour.
A) Héritage des allèles à travers le génome de la population F2. Le panneau supérieur présente la fréquence de chaque allèle et le panneau inférieur montre le FIS ou l'écart par rapport à notre attente d'hétérozygotie neutre sur le plan évolutif. B) Expression spécifique de l'haplotype pour tous les types de tissus d'EH23, regroupés par chromosome. Les paires de gènes d'haplotype étaient soit synténiques, soit réciproques. L'expression génique équilibrée et biaisée a été attribuée en fonction de la différence de TPM. Un seuil de différence de 5 TPM était requis pour que les paires de gènes soient attribuées comme biaisées, sinon les paires de gènes étaient attribuées comme équilibrées (voir également le tableau supplémentaire 2 pour les comptages par type de tissu). C) L'HYPOCOTYLE ALLONGÉ TARDIF (LHY) a montré une expression génique biaisée dans le feuillage d'EH23b sous 12 h de lumière (12/12 h). D) La copie de LHY avec une expression biaisée appartenait également à un orthogroupe à entropie élevée dans différentes populations, la plus grande différence d'entropie séparant les populations sauvages et les MJ. E) Enrichissement du terme GO de l'expression génique biaisée pour tous les tissus dans EH23a ; et F) Enrichissement du terme GO de l'expression génique biaisée pour tous les tissus dans EH23b. Voir également la note complémentaire 2 .

Données étendues Fig. 4 Le pangénome et les pangènes du cannabis sont de haute qualité.
A) L'analyse comparative des orthologues universels à copie unique (BUSCO) 19 pour les prédictions du génome et des gènes suggère qu'ils sont à la fois de haute qualité et complets. Les modèles génétiques ont été prédits sur la base de données d'homologie et d'expression provenant de différents tissus, notamment des fleurs, des feuilles et des racines (tableau supplémentaire 2 ) avec TSEBRA. Nous avons évalué la qualité des modèles génétiques avec BUSCO 19 , qui étaient complets à environ 95 % en moyenne pour tous les types d'assemblage. Les génomes échafaudés contenaient en moyenne 35 000 gènes, et dans les génomes contigs, le nombre de gènes variait avec la présence de duplications détectées par BUSCO (Fig. 1e ). B) Le nombre de gènes prédits contrastait avec le nombre de gènes dupliqués BUSCO, ce qui suggère que les assemblages basés sur les contigs CCS et CLR conservaient une séquence dupliquée significative en raison d'haplotypes non regroupés. Ces haplotypes n'ont pas été supprimés afin de conserver le niveau de variation pour l'analyse en aval. C) Nuage de points des longueurs des chromosomes sur l'axe des x par rapport au nombre de gènes par chromosome sur l'axe des y sur les neuf autosomes et les deux chromosomes sexuels.

Données étendues Fig. 5 L'analyse du centromère et du télomère du cannabis montre une structure de répétition d'ordre supérieur.
AB) Caractéristiques chromosomiques AceHigh3 (AH3M) de neuf paires d'autosomes et d'une paire de chromosomes sexuels (X et Y). Des fenêtres rectangulaires d'un million de paires de bases s'étendent vers l'extérieur de chaque paire d'haplotypes, sur une largeur proportionnelle à l'absence du motif CpG. Chaque fenêtre rectangulaire est colorée par densité génétique : les couleurs chaudes indiquent une densité génétique élevée et les couleurs froides une densité génétique faible. Chaque paire d'haplotypes est connectée par des polygones indiquant l'arrangement structural, le gris représentant les régions synténiques et l'orange reliant les inversions. Les rectangles le long de chaque haplotype indiquent des loci sélectionnés, notamment les matrices d'ADNr 45S (26S, 5,8S, 18S) (rouge brique), les matrices d'ARN 5S (noir), la répétition centromérique de 237 pb (bleu), la répétition sous-télomérique CS-1 de 370 pb (rose) et les synthases cannabinoïdes (vert forêt ; CBCAS, CBDAS, THCAS et OAC ). Français Les graphiques chromosomiques pour les 78 génomes résolus par haplotype et à l'échelle des chromosomes montrent des tendances similaires (voir Ideos.pdf à https://doi.org/10.25452/figshare.plus.28405079.v1 ). C) Les réseaux de centromères identifiés dans le génome AH3M (comme exemple pour le pangénome) avec Tandem Repeat Finder (TRF). Deux réseaux à nombre élevé de copies ont été identifiés avec des répétitions de bases de 237 et 370 pb, ainsi que leurs répétitions d'ordre supérieur (HOR). Le réseau de 237 pb est peu présent dans le génome (bleu, panneau A), bien que généralement proximal aux sites « CpG » élevés. La répétition de 370 pb est la même séquence que la répétition sous-télomérique CS-1 106 et se trouve aux extrémités des chromosomes (rose, panneau A). D) Un sous-ensemble des génomes a été séquencé sur Oxford Nanopore Technologies pour estimer la longueur des télomères dans les génomes de cannabis 103 . La longueur de lecture N50 ONT est tracée en fonction de la répétition maximale des télomères identifiée à l'aide du logiciel TeloNum 103 .

Données étendues Fig. 6 Comparaison des appels de variation structurelle (SV) de Syri, Pan Genome Graph Builder et Minigraph-Cactus.
A) Différences entre les longueurs des variants Syri SV, Pan Genome Graph Builder (PGGB) et Minigraph-Cactus (MGC). Il s'agit d'un graphique en violon illustrant les estimations de densité du noyau gaussien pour les longueurs des variants PGGB, Minigraph-Cactus et Syri SV (tous types de SV confondus, y compris les duplications, les inversions, les translocations inversées et les translocations). Les données d'entrée sont des longueurs de variants transformées logarithmiquement. Les longueurs sont transformées logarithmiquement en raison de la très grande plage entre les longueurs minimales et maximales. La région de probabilité la plus élevée dans le graphique en violon présente approximativement la même densité pour les trois méthodes (~8). MGC présente une distribution plus régulière que Syri et PGGB. PGGB semble être la méthode la plus granulaire, avec des regroupements plus distincts que les autres méthodes. PGGB découvre davantage de variants courts, tandis que MGC et Syri capturent les variants >= 50 pb. Français Pour les variantes séparées par des virgules dans le fichier VCF (colonne « ALT »), seule la plus longue des variantes a été comptée. Graphiques montrant la profondeur moyenne des lectures courtes de la population EH23 F2 mappant à B) le chromosome 7 EH23b tel que représenté dans le graphique du pangénome MGC ; C) la séquence de référence linéaire du chromosome 7 EH23b ; D) le chromosome 8 EH23b tel que représenté dans le graphique du pangénome MGC ; et E) la séquence de référence linéaire du chromosome 8 EH23b. F) Graphique montrant la mémoire de calcul maximale (RAM en unités de gigaoctets [Go]) requise pour analyser des pangénomes de différentes tailles (en unités de gigabases [Go]) à l'aide de PGGB et PanKmer.

Données étendues Fig. 7 Gènes de la terpène synthase à travers le pangénome du cannabis.
A) Graphique en violon montrant le nombre de copies de la terpène synthase dans le pangénome du cannabis. Les chromosomes 5 et 6 sont des « points chauds » du nombre de copies dans le pangénome du cannabis. B) Visualisation 2D Odgi de EH23a.chr6.v1.g321150.t1, la terpène synthase la plus exprimée dans tous les échantillons de fleurs sur EH23a.chr6, à partir du graphique du pangénome PGGB sans référence (graphique PGGB du chromosome 6 incluant AH3Ma/b, BCMa/b, EH23a/b, GRMa/b, FCS1a/b, H3S1a/b, KCDv1a/b, KOMPa/b, MM3v1a, SAN2a/b, YMv2a). C) Visualisation du graphique de variation du pangénome de EH23a.chr6.v1.g321150.t1, montrant des régions de variation intercalées dans la séquence du gène. D) Visualisation des valeurs d'entropie pour l'alignement de séquences multiples de protéines montrant une faible variation au début de l'alignement et une forte variation vers la fin de l'alignement.

Données étendues Fig. 8 Gènes de résistance aux maladies dans le pangénome du cannabis.
A) Diagramme Circos montrant le génome EH23a comme exemple de distribution chromosomique des analogues de gènes de résistance aux maladies (RGA). Piste extérieure (or) = toutes les catégories de RGA identifiées par drago2 ; piste centrale (bleue) = kinases de type récepteur ; piste intérieure = gènes de répétition riches en leucine du site de liaison des nucléotides enroulés. B) Diagramme en violon montrant le nombre de RGA par chromosome dans les génomes résolus par haplotype au niveau chromosomique. C) Arbre de vraisemblance maximale des gènes NBS-LRR enroulés (CNL) sur le chromosome 2 présentant une similarité avec un gène associé à la résistance à l'oïdium. D) Visualisation de la carte séquentielle du gène près du marqueur PM1 (EH23a.chr2.v1.g115410 ; EH23a.chr2:77164374-77165978).

Données étendues Fig. 9 Modèles d'expression dans les fleurs et les feuilles des plantes mâles et femelles AceHigh (AH3M).
A) Diagramme à barres empilées montrant le nombre de gènes à expression équilibrée, biaisée ou exclusive dans les tissus mâles et femelles. Globalement, pour qu'un gène soit considéré comme exprimé, une valeur TPM moyenne minimale de 1,0 était requise sur l'ensemble des réplicats tissulaires, groupés par sexe. Pour une expression équilibrée, les gènes devaient avoir une TPM moyenne minimale d'au moins 1,0 chez les deux sexes, groupés par type de tissu, tout en présentant une différence inférieure à 5 TPM entre chaque sexe. Pour une expression biaisée, une différence >= 5 TPM entre les sexes était requise pour chaque type de tissu. Pour une expression exclusive, un gène devait avoir une TPM moyenne minimale d'au moins 1,0 chez un sexe pour un tissu donné, sans expression chez l'autre sexe pour ce type de tissu (TPM = 0). En moyenne, environ 90 % des gènes à expression équilibrée ou biaisée étaient synténiques entre tissus et sexes ; en revanche, environ 80 % des gènes à expression exclusive étaient synténiques. Français La principale exception était les gènes exprimés exclusivement dans le tissu foliaire femelle, dans lesquels environ 90 % des gènes étaient synténiques. Pour cette analyse, la synténie était relative à l'ensemble des huit génomes avec chromosomes X et Y, déterminé par GeneSpace. B) Nombres au niveau des chromosomes des gènes avec une expression biaisée dans les fleurs mâles. C) et D) Nuages ​​de points montrant une expression génétique biaisée dans les fleurs mâles sur les chromosomes X et Y, respectivement. L'axe des x montre les positions de départ des gènes et l'axe des y montre la différence de log 2 TPM entre les fleurs mâles et femelles, montrant spécifiquement les gènes avec une expression biaisée ou exclusive dans les fleurs mâles. Les marqueurs bleus correspondent aux gènes dans le PAR et les marqueurs rouges correspondent aux gènes dans la région spécifique de X. E) et F) Expression biaisée des ET intacts dans les fleurs mâles sur les chromosomes X et Y, respectivement. L'enrichissement des termes GO parmi les gènes avec une expression biaisée et exclusive dans les fleurs mâles comprenait une variété de voies métaboliques, y compris le développement du pollen.

Données étendues Fig. 10 Le pangénome du cannabis révèle une large gamme de variations structurelles (SV), comparable à certaines des valeurs qui ont été rapportées pour les comparaisons interspécifiques.
A) Distributions de trois types de SV à travers les 78 assemblages échafaudés du pangénome du cannabis. Chaque assemblage d'échantillon a été aligné sur l'assemblage d'haplotype EH23a pour l'appel de SV. B) Distribution multimodale des longueurs d'inversion, pour toutes les inversions de tous les échantillons. C) Distribution de la longueur totale des inversions dans chaque assemblage en pourcentage de la longueur totale du génome. D) Distributions des longueurs d'inversion, pour toutes les inversions de tous les échantillons. E) Distributions des séquences codantes (CDS) et des éléments transposables intacts (TE) dans toutes les inversions et régions synténiques de chaque échantillon. Les inversions sont significativement appauvries en CDS par rapport aux régions synténiques, alors qu'en moyenne, les TE sont présents à un niveau presque égal dans les inversions et les régions synténiques. F) Les paires de points de rupture d'inversion (BP), définies comme des fenêtres de 8 kb centrées au début et à la fin de chaque inversion supérieure à 10 kb, contiennent des éléments répétitifs environ 50 % du temps. G) Les BP d'inversion présentent un taux plus élevé de duplications segmentaires, mais un taux plus faible de répétitions inversées, dans les alignements auto-à-auto pour chaque fenêtre de BP de 8 kb, par rapport aux alignements de paires du début à la fin. F) Exemple d'alignement et de SV d'un haplotype d'échantillon de chanvre européen (KC Dora). Les deux inversions à l'échelle des mégabases se trouvent dans une région du chromosome 4 qui présentait des valeurs F st élevées pour les SNP dans des travaux antérieurs comparant le chanvre sauvage américain aux populations de marijuana 157 .

Informations complémentaires
Informations complémentaires
Figures supplémentaires, tableaux supplémentaires, notes supplémentaires 1 à 3 et références

Résumé du rapport
Dossier d'évaluation par les pairs
Données sources
Données sources Fig. 1
Données sources Fig. 2
Données sources Fig. 4
Droits et autorisations
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support et sous tout format, à condition de citer l'auteur(e) original(e) et la source, de fournir un lien vers la licence Creative Commons et d'indiquer les éventuelles modifications. Les images et autres éléments tiers de cet article sont inclus dans la licence Creative Commons de l'article, sauf mention contraire dans une ligne de crédit. Si un élément n'est pas inclus dans la licence Creative Commons de l'article et que l'utilisation que vous envisagez n'est pas autorisée par la réglementation ou dépasse les limites autorisées, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour consulter une copie de cette licence, rendez-vous sur http://creativecommons.org/licenses/by/4.0/ .

Réimpressions et autorisations

À propos de cet article
Vérifiez les mises à jour. Vérifiez la validité et l'authenticité via CrossMark.
Citer cet article
Lynch, RC, Padgitt-Cobb, LK, Garfinkel, AR et al. Synthétases cannabinoïdes domestiquées au sein d'une mosaïque pangénome de cannabis sauvage. Nature (2025). https://doi.org/10.1038/s41586-025-09065-0

Télécharger la citation

Reçu
21 mai 2024

Accepté
24 avril 2025

Publié
28 mai 2025

DOI
https://doi.org/10.1038/s41586-025-09065-0

Partagez cet article
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Obtenir un lien partageable
Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Sujets
L'évolution moléculaire
Variation naturelle des plantes
Sélection végétale
L'évolution des plantes
Transposition
Télécharger le PDF
Sections
Chiffres
Références
Abstrait
Principal
Le pangénome du cannabis
Le pangénome révèle cinq populations
Évolution des chromosomes sexuels
Les ET façonnent le pangénome
Les véhicules autonomes stimulent l'innovation
Voie des cannabinoïdes domestiqués
Gènes des cannabinoïdes et des acides gras de la famille des Varin
Conclusions
Méthodes
Disponibilité des données
Disponibilité des codes
Références
Remerciements
Informations sur l'auteur
Déclarations éthiques
Évaluation par les pairs
Informations Complémentaires
Figures et tableaux de données étendus
Informations complémentaires
Données sources
Droits et autorisations
À propos de cet article
Publicité

Nature ( Nature ) ISSN 1476-4687 (en ligne) ISSN 0028-0836 (imprimé)

Commentaires

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.