Nature Genetics (2023) Citare questo articolo
Dettagli sulle metriche
La Setaria italica (miglio di coda di volpe), una coltura fondatrice dell'agricoltura dell'Asia orientale, è una pianta modello per la fotosintesi C4 e per lo sviluppo di approcci alla riproduzione adattiva in più climi. Qui abbiamo stabilito il pan-genoma Setaria assemblando 110 genomi rappresentativi da una collezione mondiale. Il pan-genoma è composto da 73.528 famiglie di geni, di cui rispettivamente il 23,8%, 42,9%, 29,4% e 3,9% sono geni core, soft core, superflui e privati; Sono state rilevate anche 202.884 varianti strutturali non ridondanti. La caratterizzazione delle varianti pan-genomiche suggerisce la loro importanza durante l'addomesticamento e il miglioramento del miglio coda di volpe, come esemplificato dall'identificazione del gene di resa SiGW3, dove una variante del promotore di presenza/assenza di 366 bp accompagna la variazione dell'espressione genica. Abbiamo sviluppato un genoma basato su grafici e condotto studi genetici su larga scala per 68 tratti in 13 ambienti, identificando potenziali geni per il miglioramento del miglio in diversi siti geografici. Questi possono essere utilizzati nella selezione assistita da marcatori, nella selezione genomica e nell’editing genomico per accelerare il miglioramento delle colture in diverse condizioni climatiche.
Si ritiene che il miglio di coda di volpe (Setaria italica), una delle colture di grano domestiche più antiche del mondo, abbia fornito le basi per la formazione della prima civiltà cinese. Recenti prove archeologiche suggeriscono che questa specie fu addomesticata a partire da circa 11.000 anni fa dal suo progenitore, la coda di volpe verde (Setaria viridis)1, rendendola contemporanea all'orzo e al grano nelle prime transizioni agricole delle società umane neolitiche. Il miglio di coda di volpe è l'unica specie colturale attuale del genere Setaria e ha un'eccellente siccità e una bassa tolleranza ai nutrienti del suolo. Da quando è stato addomesticato, il miglio di coda di volpe si è diffuso in Eurasia e Africa, e più recentemente nelle Americhe, e cresce in ambienti temperati, tropicali e aridi.
Fondamentalmente, le specie Setaria utilizzano la fotosintesi C4. Le piante C4, che oltre al miglio di coda di volpe includono mais, sorgo, canna da zucchero e panico verga, possiedono un'elevata efficienza fotosintetica e adattabilità ambientale, mantenendo così un ruolo fondamentale nella produzione globale di cereali agricoli e biocarburanti2,3. Tuttavia, la complessità della maggior parte dei genomi delle piante coltivate C4 e la mancanza di sistemi di trasformazione ad alta efficienza in queste specie hanno ostacolato studi fondamentali e la selezione in queste colture. A questo proposito, il miglio di coda di volpe e la coda di volpe verde sono sistemi modello ideali per le piante coltivate fotosintetiche C4 grazie ai loro genomi diploidi compatti (~ 420 Mb), cicli di vita brevi (~ 70 d) e sistemi di trasformazione altamente efficienti4,5. Nonostante le caratteristiche favorevoli del miglio di coda di volpe come coltura modello fotosintetico C4, che potrebbe rivelarsi fondamentale per garantire la sicurezza alimentare globale6, si sa relativamente meno sulla sua diversità genomica e sul potenziale di miglioramento genetico.
Recentemente, studi pan-genomici condotti su riso7,8, soia9, grano10, orzo11, pomodoro12 e patate13 indicano che le varianti strutturali (SV) hanno ruoli critici nella domesticazione delle colture, nonché nella determinazione dei tratti14 e nel miglioramento genetico. Ad oggi, sono state rilasciate due bozze di genomi5,15 e tre genomi di qualità relativamente elevata16,17,18 di coda di volpe verde e di miglio di coda di volpe. Insieme ai dati di sequenziamento a lettura breve su scala di popolazione, studi precedenti hanno rivelato la struttura della popolazione nel miglio di coda di volpe e nella coda di volpe verde, nonché la base genetica di diversi tratti agronomici chiave16,19,20,21. Tuttavia, l’intero spettro di varianti genetiche che sono alla base dell’addomesticamento di Setaria e della sua ampia adattabilità ecologica, compreso il ruolo della diversità pangenomica, rimane in gran parte sconosciuto.
Qui abbiamo assemblato de novo 110 genomi di riferimento per 35 accessioni selvatiche, 40 autoctone e 35 moderne coltivate di Setaria, e abbiamo esaminato l'evoluzione del genoma nel contesto della domesticazione e del miglioramento del miglio a coda di volpe. Incorporando il pan-genoma del miglio a coda di volpe, abbiamo costruito la prima sequenza genomica di Setaria basata su grafici attraverso queste accessioni multiple e condotto studi genetici su larga scala in 13 ambienti diversi, che potrebbero servire come base per la ricerca e l'allevamento del miglio a coda di volpe, fornendo un esempio di "allevamento in base alla progettazione" in altre colture (Figura 1 supplementare).
20 Mb and LTR assembly index (LAI) exceeding 20. Over 99% of Illumina short reads and 97% of embryophyte BUSCO genes could be properly mapped, suggesting high completeness. K-mer-based analysis also showed that all assemblies have high completeness (99.56% ± 0.04%) and quality (40.81 ± 0.52), and low false duplications (0.52 ± 0.13) (Supplementary Table 6)./p> 10), of which 17 reached the ‘gold standard’ level (LAI > 20; Supplementary Table 6)./p>90% of individuals, 100–110 accessions), 29.4% were dispensable genes (present in 2–99 accessions) and 3.9% were private genes (Fig. 3a). We identified an additional 14,283 gene families in the pan-genome that are absent in the Yugu1 reference genome. These genes were enriched in RNA capping, light response and specific metabolic processes, such as cellular aldehyde metabolic and protein metabolic processes (Supplementary Table 7)./p> 9.66, πW/πL > 72.96 and FST > 0.53). DomPAV and favPAV correspond to b and c. b, Scatter plots show PAV frequencies in landrace and wild (P value computed using two-sided Fisher's exact test). c, Frequency pattern of domestication-related PAVs (domPAVs). Lines in orange and blue indicate favPAVs during domestication. d, GO enrichment analysis of favPAV-genes. Color intensity (P value) reflects the significance of enrichment test (computed using two-sided Fisher's exact test). Circle size represents the frequencies of aggregated GO terms. e, Intersection of domestication-related genes across PAV-based and three SNP-based methods. f, Haplotype and selective signature at SvLes1 gene. g, Haplotype and selective signature of sh1 gene. h, Shattering phenotype of NIL with SH1 and sh1insert allele. Scale bar, 1.5 cm. πW/πL, πwild/πlandrace./p> 53.6, FST > 0.644). The vertical dashed line indicates the homologous gene longmi029371 of SiGW3 in broomcorn millet. Data are presented as mean ± s.d. in h–k and m; significance is computed by two-tailed Student's t-test. The number of samples in h and i is 6 and 3, respectively. The number of samples/seeds of WT, OE1, OE2 and OE3 in j and k is all 35./p>0.05 were kept for phylogenetic analysis. SNP-based neighbor-joining phylogenetic tree was inferred using MEGA-CC (v10.1.8)47 and SNPhylo (v2018-09-01)48 with standard settings and 1,000 bootstrap values. SV-based maximum-likelihood phylogenetic tree was constructed based on binary PAV data with 1,000 bootstraps using IQ-TREE (v2.1.2)49. Phylogenetic trees were drawn using ggtree50, an R package. We performed a population structure analysis using the ADMIXTURE (v1.3.0)51 software, initially with k ranging from 2 to 20. Here k = 7 was subsequently chosen because it was the minimal value of k that separated all previously known groups of green foxtail16. We then ran ADMIXTURE ten times with varying random seeds at k = 7./p>0.05, minimum allele frequency <0.05 and genotyping rate <90% using PLINK (v.1.90)52. To reconstruct the evolutionary relationships between domesticated subpopulations C1–C3 and the closest wild population W1, we used Admixtools (v2.0)23 on R v4.13 to construct an admixture graph with no migration edges. We used a maximum absolute f4-statistic z-score (|z-score|) threshold of <3.0 for accepting models and added the remaining wild subpopulations W2–W4 sequentially to explore whether they could be incorporated with no migration edges. Population admixture graphs including all seven subpopulations were also inferred using TreeMix (v1.13)22, with W3 as an outgroup. We used the GRoSS method53 to scan the genome for positive selection along each branch of our four-population admixture graph that comprised W1, C1, C2 and C3./p>100×; Supplementary Table 5) of each accession were subsequently assembled into contigs by CANU (v2.2)24 and HERA (v1.0)25. After polishing with Illumina reads and further correction with BioNano physical maps, we obtained 75, 114 and 103 contigs for Me34V (398,819,634 bp, N50 = 21.1 Mb), Ci846 (412,045,876 bp, N50 = 21.0 Mb) and Yugu18 (409,028,184 bp, N50 = 20.6 Mb), respectively. For the other 107 accessions, we sequenced using Illumina NovaSeq 6000 at >40× short-read data (except Zhaogu1 with 37.5× data) for each accession. We examined genome size and heterozygosity using Jellyfish (v2.3.0)54 and GenomeScope (v2.0)55. Based on examined genome heterozygosity, we generated >50× and >80× long-read data for low heterozygosity (<0.3%) and high heterozygosity (≥0.3%) accessions by the Pacbio Sequel II platforms, respectively (Supplementary Table 5). We subsequently de novo assembled these Setaria genomes using CANU24 and HERA25 pipelines. Self-alignment of whole-genome contig sequences was performed using default parameters of BWA-MEM (v0.7.12-r1039)42, and heterozygous sequences were filtered with Redundans (with -t 10, -identity 0.55, -overlap 0.80, --noscaffolding, and -nogapclosing) and Purge Haplotigs (with default parameters). Overlaps between contig sequences were merged using the results of BWA-MEM self-alignment./p>99% coverage and identity, it was considered present in the corresponding genome. We performed a pan-genome analysis based on a Markov clustering approach77. All-versus-all comparisons were performed using diamond (v0.9.25)78 with an E-value cutoff of 1 × 10−5. Subsequently, all paired genes were clustered using OrthoFinder (v2.3.12)77. Based on their frequency, we classified genes into the following four categories: core (these present in all 111 individuals), soft core (these present in >90% of samples but not all; 100–110 individuals), dispensable (these present in more than one but less than 90%; 2–99 individuals) and private (present in only one accession)./p>