Sekwencjonowanie i Kodowanie Genomu: Od DNA do Edycji CRISPR

🧬 Seria artykułów o CRISPR:

Zanim CRISPR może edytować genom, musimy najpierw go przeczytać. Sekwencjonowanie DNA – proces odczytywania kolejności nukleotydów w cząsteczce DNA – jest fundamentem współczesnej genomiki. Od pierwotnej metody Sangera wymagającej miesięcy pracy, po nowoczesne technologie NGS zdolne do odczytania całego ludzkiego genomu w ciągu godzin, rewolucja w sekwencjonowaniu zdemokratyzowała dostęp do informacji genetycznej i umożliwiła precyzyjne planowanie eksperymentów CRISPR.

📜 Historia sekwencjonowania: od Sangera do NGS

⏱️ Kamienie milowe sekwencjonowania genomu

1977: Frederick Sanger opracowuje metodę sekwencjonowania dideoksowego (Sanger sequencing)

Pierwsza praktyczna metoda. Wykorzystuje ddNTP (dideoksynukleotydy) jako terminatory reakcji. Długość odczytu: 500-1000 pz.

2001: Publikacja pierwszego draftu ludzkiego genomu (Human Genome Project)

Czas: 13 lat | Koszt: $3 miliardy | Metoda: Automatyczne sekwencjonowanie Sangera

2005: Wprowadzenie sekwencjonowania następnej generacji (NGS - Next-Generation Sequencing)

Pierwsza platforma: 454 Life Sciences (pirosekwencjonowanie). Równoległe sekwencjonowanie milionów fragmentów DNA.

2007: Illumina wprowadza sekwencjonowanie przez syntezę (SBS)

Dominujaca technologia NGS do dziś. Accurate, masowo równoległe, stosunkowo tanie.

2014: Oxford Nanopore wprowadza sekwencjonowanie długich odczytów w czasie rzeczywistym

Rewolucja: sekwencjonowanie molekuł DNA bez amplifikacji, odczyty do 2 Mb długości.

2022: Kompletny genom ludzki (T2T-CHM13) – pierwsze pełne zsekwencjonowanie wszystkich chromosomów

Wypełnienie ostatnich luk w genomie referencyjnym. Wykorzystanie długich odczytów PacBio HiFi i Nanopore.

2025: Koszt zsekwencjonowania całego genomu ludzkiego: $200-500

Czas: 24-48 godzin | Dokładność: >99.9%

🔬 Technologie sekwencjonowania NGS

1. Illumina Sequencing (Sekwencjonowanie przez syntezę - SBS)

🧬 Illumina NovaSeq / NextSeq – Dominująca technologia NGS

Zasada działania:

Workflow Illumina SBS

1 Przygotowanie biblioteki (Library Preparation)

  • Fragmentacja DNA do 300-500 pz
  • Ligacja adapterów na oba końce fragmentów
  • Adaptery zawierają sekwencje komplementarne do oligonukleotydów na flow cell

2 Amplifikacja mostkowa (Bridge Amplification)

  • Fragmenty DNA wiążą się do flow cell pokrytej oligonukleotydami
  • DNA "zapętla się", tworząc most między dwoma oligonukleotydami
  • Amplifikacja PCR tworzy klastry (~1000 kopii) każdego fragmentu
  • Wynik: miliony klastrów na flow cell, każdy reprezentujący jeden fragment

3 Sekwencjonowanie przez syntezę (SBS)

  • Dodanie DNA polimerazy i fluorescencyjnie znakowanych dNTP (każda zasada inny kolor)
  • dNTP są odwracalnie zterminowane – po inkorporacji polimeraza zatrzymuje się
  • Kamera rejestruje fluorescencję każdego klastra (identyfikacja zasady)
  • Usunięcie fluoroforu i grupy terminującej
  • Powtórzenie dla kolejnych cykli (zazwyczaj 2×150 pz – paired-end)

4 Generowanie danych (Basecalling)

  • Oprogramowanie konwertuje sygnały fluorescencyjne na sekwencje zasad (ATCG)
  • Każda zasada otrzymuje wynik jakości (Phred quality score)
  • Output: pliki FASTQ zawierające sekwencje i ich jakość

Specyfikacje (Illumina NovaSeq X Plus):

  • Przepustowość: Do 16 Tb (16,000 Gb) danych na run
  • Długość odczytu: 2×150 pz (paired-end)
  • Dokładność: >85% baz z Q30 (błąd 1:1000)
  • Czas: 24-48 godzin na run
  • Koszt: ~$2-5 per Gb
  • Zastosowania: Whole genome sequencing (WGS), whole exome sequencing (WES), RNA-seq, ChIP-seq

2. Oxford Nanopore Sequencing (Sekwencjonowanie nanopo rowe)

⚡ Oxford Nanopore – Długie odczyty w czasie rzeczywistym

Zasada działania:

Technologia oparta na pomiarze zmian prądu jonowego podczas przechodzenia DNA przez białkową nanoporę osadzoną w membranie.

Workflow Oxford Nanopore

1 Przygotowanie biblioteki

  • Ligacja adapterów z białkiem motorowym (helikaza)
  • Brak fragmentacji – można sekwencjonować ultradługie fragmenty (>100 kb)

2 Sekwencjonowanie nanopor owe

  • Helikaza "przepycha" DNA przez nanoporę (CsgG lub MspA) z kontrolowaną prędkością (~450 pz/s)
  • Każda sekwencja 5-6 nukleotydów (k-mer) w porze powoduje charakterystyczną zmianę prądu jonowego
  • Algorytmy basecalling (np. Guppy, Dorado) używają modeli deep learning do konwersji sygnału na sekwencje
  • Sekwencjonowanie w czasie rzeczywistym – dane dostępne natychmiast

Specyfikacje (PromethION 2 Solo):

  • Długość odczytu: Średnio 10-50 kb, maksymalnie >4 Mb (najdłuższy odczyt: 4.2 Mb)
  • Dokładność:
    • Raw reads: Q10-Q15 (~90-97% dokładności)
    • Consensus (po polishingu): Q25-Q30 (>99.9%)
  • Przepustowość: Do 8.8 Tb na flow cell
  • Modyfikacje epigenetyczne: Bezpośrednia detekcja metylacji DNA (5mC, 6mA) bez bisulfitowej konwersji
  • Koszt: ~$5-10 per Gb
  • Przewaga: Portabilność (MinION wielkości pendrive!), długie odczyty, detekcja modyfikacji
Schemat sekwencjonowania nanopor owego: Adapter + Helikaza ↓ 5'─────────●═══════════════════────3' DNA ║ ║ <- Nanop ora (CsgG) ═════════╬═════════ <- Membrana ║ Pomiar prądu (I) ↓ Zmiany prądu → Basecalling → ATCGCGATCG... k-mer w porze: ATCGC → 85.2 pA następny k-mer: TCGCA → 88.7 pA CGCAT → 82.1 pA ...

3. PacBio HiFi Sequencing (SMRT Sequencing)

🔵 PacBio Revio – Długie odczyty o wysokiej dokładności

Zasada działania: Single Molecule Real-Time (SMRT) Sequencing

Workflow PacBio SMRT

1 SMRTbell Library

  • Tworzenie cząsteczek "dzwonkowych" (hairpin adapters na obu końcach fragmentu DNA)
  • Struktura pozwala na wielokrotne sekwencjonowanie tej samej cząsteczki (Circular Consensus Sequencing - CCS)

2 Zero-Mode Waveguide (ZMW)

  • Pojedyncza cząsteczka DNA + DNA polimeraza umieszczone w nano-studni (ZMW) o średnicy 70 nm
  • Oświetlenie od dołu – fluorescencja widoczna tylko na dnie studni (eliminuje tło)
  • Miliony ZMW równolegle sekwencjonuje miliony cząsteczek

3 HiFi Consensus

  • Polimeraza wielokrotnie sekwencjonuje cząsteczkę SMRTbell (circular template)
  • Typowo 10-20 przepustów (passes)
  • Algorytm CCS generuje konsensus o bardzo wysokiej dokładności (Q30+)

Specyfikacje (PacBio Revio):

  • Długość odczytu HiFi: 10-25 kb (średnia ~15 kb)
  • Dokładność HiFi: Q30+ (>99.9%, porównywalna do Illumina!)
  • Przepustowość: 360-1,100 Gb per SMRT Cell (15 Gb per CCS)
  • Czas: 24 godziny na run
  • Koszt: ~$10-15 per Gb
  • Zastosowania: De novo assembly, detekcja wariantów strukturalnych, izoform RNA, genotypowanie HLA
PacBio HiFi vs. Oxford Nanopore: Obie technologie oferują długie odczyty, ale różnią się:
  • Dokładność raw reads: PacBio HiFi > Nanopore (ale Nanopore dogania z nowymi basecallerami)
  • Maksymalna długość: Nanopore > PacBio (Nanopore może >1 Mb, PacBio zazwyczaj <100 kb)
  • Koszt: Nanopore < PacBio (zwłaszcza urządzenia)
  • Modyfikacje epigenetyczne: Obie wykrywają, Nanopore bezpośrednio, PacBio również (kinetics)

📊 Od surowych danych do genomu: Bioinformatyka NGS

Sekwencjonowanie generuje ogromne ilości danych wymagających zaawansowanego przetwarzania bioinformatycznego. Typowy workflow analizy WGS (Whole Genome Sequencing):

🖥️ Pipeline analizy WGS (Illumina)

1 Basecalling i demultiplexing

Input: Obrazy fluorescencji z sekwencera

Output: Pliki FASTQ (sekwencje + quality scores)

Narzędzia: bcl2fastq (Illumina), Guppy/Dorado (Nanopore)

Format FASTQ (4 linie na sekwencję): @SEQ_ID:1:FLOWCELL:1:1:1000:1000 1:N:0:ATCACG GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG + IIIIIIIIIIIIIIIIIIIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHFFFFFHHHFFFE Linia 1: ID sekwencji Linia 2: Sekwencja nukleotydów Linia 3: Separator (+) Linia 4: Quality scores (ASCII, Phred+33)
Phred Quality Score (Q): Q = -10 × log₁₀(P) gdzie P = prawdopodobieństwo błędu Q10 (I) = 90% dokładność (1:10 błąd) Q20 (7) = 99% dokładność (1:100) Q30 (?) = 99.9% dokładność (1:1,000) Q40 (I) = 99.99% dokładność (1:10,000)

2 Kontrola jakości (QC)

Narzędzia: FastQC, MultiQC

Sprawdzane parametry:

  • Rozkład jakości per-base i per-sequence
  • Zawartość GC
  • Obecność adapterów
  • Duplikacja sekwencji
  • Reprezentacja k-merów

3 Trimming i filtracja

Narzędzia: Trimmomatic, Cutadapt, fastp

Operacje:

  • Usunięcie adapterów
  • Trimming końców o niskiej jakości (Q<20)
  • Odrzucenie zbyt krótkich odczytów (<50 pz)

4 Alignment (mapowanie do genomu referencyjnego)

Narzędzia: BWA-MEM, Bowtie2, minimap2 (długie odczyty)

Input: FASTQ + genom referencyjny (np. GRCh38)

Output: Pliki SAM/BAM (Sequence Alignment/Map)

Czas: ~8-12 godzin dla WGS 30x coverage na 16 rdzeniach

Przykładowa linia SAM: READ1 99 chr1 10000 60 75M = 10150 225 ATCGATCGATCG... IIIIIIHHHHHH... Kolumny: 1. QNAME - ID readu 2. FLAG - 99 (paired, mapped, mate reverse strand) 3. RNAME - chromosom (chr1) 4. POS - pozycja (10000) 5. MAPQ - jakość mapowania (60 = wysoka) 6. CIGAR - operacje (75M = 75 match) 7-11. Informacje o parze 12+. Quality scores

5 Post-alignment processing

Narzędzia: Picard, SAMtools, GATK

Operacje:

  • Sortowanie BAM po pozycji
  • Marking duplicates (PCR/optical duplicates)
  • Base Quality Score Recalibration (BQSR)
  • Indel realignment (starsze pipelines)
  • Indeksowanie BAM

6 Variant calling

Narzędzia: GATK HaplotypeCaller, FreeBayes, DeepVariant (AI-based)

Output: Pliki VCF (Variant Call Format)

Identyfikowane warianty:

  • SNV (Single Nucleotide Variants)
  • Indels (insercje/delecje)
  • SV (Structural Variants) - wymaga specjalistycznych narzędzi
Format VCF: ##fileformat=VCFv4.2 ##reference=GRCh38 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1 chr1 1000 rs123 A G 99 PASS DP=30;AF=0.5 GT:DP 0/1:30 Interpretacja: - Pozycja chr1:1000 - REF: A (allel referencyjny) - ALT: G (allel alternatywny) - Genotyp: 0/1 (heterozygota A/G) - Depth: 30 odczytów - Allele Frequency: 50%

7 Filtracja i adnotacja wariantów

Narzędzia: GATK VariantFiltration, VEP (Variant Effect Predictor), ANNOVAR

Filtracja: Quality (QUAL), Depth (DP), Allele Frequency (AF)

Adnotacja:

  • Wpływ funkcjonalny (synonimiczna, missense, nonsense, splice site)
  • Geny i transkrypty
  • Częstość populacyjna (gnomAD, 1000 Genomes)
  • Patogenność (ClinVar, COSMIC)
  • Konserwacja ewolucyjna (PhyloP, GERP++)

8 Interpretacja i raportowanie

Analiza:

  • Priorytetyzacja wariantów klinicznie istotnych
  • Analiza ścieżek biologicznych
  • Porównanie z fenotypem pacjenta
  • Weryfikacja przez sekwencjonowanie Sangera (warianty kliniczne)

🧬 Dekodowanie i kodowanie genomu dla CRISPR

Sekwencjonowanie nie tylko pozwala nam "czytać" genom, ale również precyzyjnie planować eksperymenty CRISPR:

Zastosowania sekwencjonowania w CRISPR

1. Projektowanie sgRNA:

  • Identyfikacja sekwencji docelowej i PAM w genomie referencyjnym
  • Przewidywanie potencjalnych miejsc off-target przez wyrównanie sekwencji
  • Optymalizacja sgRNA ze względu na zawartość GC, strukturę drugorzędową

2. Weryfikacja edycji:

  • Sanger sequencing: Weryfikacja pojedynczych loci (szybkie, tanie)
  • Amplicon-seq (NGS): Głęboka analiza miejsca edycji (wykrycie mozaicyzmu, indeli)
  • WGS: Kompletna analiza off-target effects w całym genomie

3. Detekcja off-target:

Specjalistyczne techniki łączące CRISPR z sekwencjonowaniem:

  • GUIDE-seq: Używa oligonukleotydów dsDNA jako znaczników DSB
  • CIRCLE-seq: In vitro detekcja wszystkich miejsc cięcia Cas9
  • DISCOVER-seq: Wykorzystuje MRE11 (białko naprawy DSB) do identyfikacji miejsc cięcia in vivo

4. Single-cell sequencing po CRISPR:

  • scRNA-seq: Analiza zmian ekspresji genów po edycji na poziomie pojedynczych komórek
  • scATAC-seq: Zmiany dostępności chromatyny
  • Perturb-seq / CROP-seq: Połączenie CRISPR screening z scRNA-seq

💾 Wielkość danych i przechowywanie

Wyzwania związane z dużymi danymi genomicznymi:

Rozmiary plików dla 30x coverage WGS (Illumina):

  • Raw FASTQ: ~90-120 GB (skompresowane .gz)
  • Aligned BAM: ~60-80 GB
  • Compressed CRAM: ~30-40 GB
  • VCF (warianty): ~500 MB - 2 GB

Typowy projekt badawczy:

100 próbek WGS = ~6-10 TB danych
Wymaga: Systemy HPC (High-Performance Computing), storage sieciowy, infrastruktura chmurowa

Rozwiązania:

  • Kompresja (gzip, CRAM format)
  • Cloud storage (AWS S3, Google Cloud Storage)
  • Usuwanie pośrednich plików (np. unsorted BAM)
  • Archiwizacja tylko finalnych wyników + raw FASTQ

🎓 Podsumowanie

Sekwencjonowanie genomu przeszło drogę od żmudnych, miesięcznych procedur Sangera do ultraszybkich, zautomatyzowanych platform NGS zdolnych do odczytania całego genomu w ciągu godzin. Ta rewolucja technologiczna zdemokratyzowała dostęp do informacji genetycznej i stała się fundamentem współczesnej medycyny precyzyjnej oraz edycji genomu CRISPR.

Różnorodność dostępnych technologii – od krótkich, bardzo dokładnych odczytów Illumina, przez ultradługie odczyty Nanopore, po wysokojakościowe długie odczyty PacBio HiFi – pozwala na wybór optymalnej strategii w zależności od celu badania. Połączenie sekwencjonowania z zaawansowanymi narzędziami bioinformatycznymi umożliwia nie tylko odczytywanie, ale również głębokie rozumienie i modyfikowanie genomu.

W kolejnym artykule zagłębimy się w praktyczne aspekty programowania eksperymentów CRISPR – od projektowania sgRNA, przez przewidywanie off-target, po optymalizację efektywności edycji przy użyciu narzędzi bioinformatycznych.

← Powrót do bloga