Sekwencjonowanie i Kodowanie Genomu: Od DNA do Edycji CRISPR

16 lutego 2026 | Dr Wojciech Ziółek | 22 min czytania | Genomika, NGS, Bioinformatyka

🧬 Seria artykułów o CRISPR:

Część 1: Historia i podstawy CRISPR
Część 2: Mechanizm działania CRISPR-Cas9
Część 3: Enhancery i promotory
Część 4: Sekwencjonowanie i kodowanie genomu
Część 5: Programowanie CRISPR - bioinformatyka
Część 6: Zastosowania i dostępność technologii

Zanim CRISPR może edytować genom, musimy najpierw go przeczytać. Sekwencjonowanie DNA – proces odczytywania kolejności nukleotydów w cząsteczce DNA – jest fundamentem współczesnej genomiki. Od pierwotnej metody Sangera wymagającej miesięcy pracy, po nowoczesne technologie NGS zdolne do odczytania całego ludzkiego genomu w ciągu godzin, rewolucja w sekwencjonowaniu zdemokratyzowała dostęp do informacji genetycznej i umożliwiła precyzyjne planowanie eksperymentów CRISPR.

📜 Historia sekwencjonowania: od Sangera do NGS

⏱️ Kamienie milowe sekwencjonowania genomu

1977: Frederick Sanger opracowuje metodę sekwencjonowania dideoksowego (Sanger sequencing)

Pierwsza praktyczna metoda. Wykorzystuje ddNTP (dideoksynukleotydy) jako terminatory reakcji. Długość odczytu: 500-1000 pz.

2001: Publikacja pierwszego draftu ludzkiego genomu (Human Genome Project)

Czas: 13 lat | Koszt: $3 miliardy | Metoda: Automatyczne sekwencjonowanie Sangera

2005: Wprowadzenie sekwencjonowania następnej generacji (NGS - Next-Generation Sequencing)

Pierwsza platforma: 454 Life Sciences (pirosekwencjonowanie). Równoległe sekwencjonowanie milionów fragmentów DNA.

2007: Illumina wprowadza sekwencjonowanie przez syntezę (SBS)

Dominujaca technologia NGS do dziś. Accurate, masowo równoległe, stosunkowo tanie.

2014: Oxford Nanopore wprowadza sekwencjonowanie długich odczytów w czasie rzeczywistym

Rewolucja: sekwencjonowanie molekuł DNA bez amplifikacji, odczyty do 2 Mb długości.

2022: Kompletny genom ludzki (T2T-CHM13) – pierwsze pełne zsekwencjonowanie wszystkich chromosomów

Wypełnienie ostatnich luk w genomie referencyjnym. Wykorzystanie długich odczytów PacBio HiFi i Nanopore.

2025: Koszt zsekwencjonowania całego genomu ludzkiego: $200-500

Czas: 24-48 godzin | Dokładność: >99.9%

🔬 Technologie sekwencjonowania NGS

1. Illumina Sequencing (Sekwencjonowanie przez syntezę - SBS)

🧬 Illumina NovaSeq / NextSeq – Dominująca technologia NGS

Zasada działania:

Workflow Illumina SBS

1 Przygotowanie biblioteki (Library Preparation)

Fragmentacja DNA do 300-500 pz
Ligacja adapterów na oba końce fragmentów
Adaptery zawierają sekwencje komplementarne do oligonukleotydów na flow cell

2 Amplifikacja mostkowa (Bridge Amplification)

Fragmenty DNA wiążą się do flow cell pokrytej oligonukleotydami
DNA "zapętla się", tworząc most między dwoma oligonukleotydami
Amplifikacja PCR tworzy klastry (~1000 kopii) każdego fragmentu
Wynik: miliony klastrów na flow cell, każdy reprezentujący jeden fragment

3 Sekwencjonowanie przez syntezę (SBS)

Dodanie DNA polimerazy i fluorescencyjnie znakowanych dNTP (każda zasada inny kolor)
dNTP są odwracalnie zterminowane – po inkorporacji polimeraza zatrzymuje się
Kamera rejestruje fluorescencję każdego klastra (identyfikacja zasady)
Usunięcie fluoroforu i grupy terminującej
Powtórzenie dla kolejnych cykli (zazwyczaj 2×150 pz – paired-end)

4 Generowanie danych (Basecalling)

Oprogramowanie konwertuje sygnały fluorescencyjne na sekwencje zasad (ATCG)
Każda zasada otrzymuje wynik jakości (Phred quality score)
Output: pliki FASTQ zawierające sekwencje i ich jakość

Specyfikacje (Illumina NovaSeq X Plus):

Przepustowość: Do 16 Tb (16,000 Gb) danych na run
Długość odczytu: 2×150 pz (paired-end)
Dokładność: >85% baz z Q30 (błąd 1:1000)
Czas: 24-48 godzin na run
Koszt: ~$2-5 per Gb
Zastosowania: Whole genome sequencing (WGS), whole exome sequencing (WES), RNA-seq, ChIP-seq

2. Oxford Nanopore Sequencing (Sekwencjonowanie nanopo rowe)

⚡ Oxford Nanopore – Długie odczyty w czasie rzeczywistym

Zasada działania:

Technologia oparta na pomiarze zmian prądu jonowego podczas przechodzenia DNA przez białkową nanoporę osadzoną w membranie.

Workflow Oxford Nanopore

1 Przygotowanie biblioteki

Ligacja adapterów z białkiem motorowym (helikaza)
Brak fragmentacji – można sekwencjonować ultradługie fragmenty (>100 kb)

2 Sekwencjonowanie nanopor owe

Helikaza "przepycha" DNA przez nanoporę (CsgG lub MspA) z kontrolowaną prędkością (~450 pz/s)
Każda sekwencja 5-6 nukleotydów (k-mer) w porze powoduje charakterystyczną zmianę prądu jonowego
Algorytmy basecalling (np. Guppy, Dorado) używają modeli deep learning do konwersji sygnału na sekwencje
Sekwencjonowanie w czasie rzeczywistym – dane dostępne natychmiast

Specyfikacje (PromethION 2 Solo):

Długość odczytu: Średnio 10-50 kb, maksymalnie >4 Mb (najdłuższy odczyt: 4.2 Mb)
Dokładność:
- Raw reads: Q10-Q15 (~90-97% dokładności)
- Consensus (po polishingu): Q25-Q30 (>99.9%)
Przepustowość: Do 8.8 Tb na flow cell
Modyfikacje epigenetyczne: Bezpośrednia detekcja metylacji DNA (5mC, 6mA) bez bisulfitowej konwersji
Koszt: ~$5-10 per Gb
Przewaga: Portabilność (MinION wielkości pendrive!), długie odczyty, detekcja modyfikacji

Schemat sekwencjonowania nanopor owego: Adapter + Helikaza ↓ 5'─────────●═══════════════════────3' DNA ║ ║ <- Nanop ora (CsgG) ═════════╬═════════ <- Membrana ║ Pomiar prądu (I) ↓ Zmiany prądu → Basecalling → ATCGCGATCG... k-mer w porze: ATCGC → 85.2 pA następny k-mer: TCGCA → 88.7 pA CGCAT → 82.1 pA ...

3. PacBio HiFi Sequencing (SMRT Sequencing)

🔵 PacBio Revio – Długie odczyty o wysokiej dokładności

Zasada działania: Single Molecule Real-Time (SMRT) Sequencing

Workflow PacBio SMRT

1 SMRTbell Library

Tworzenie cząsteczek "dzwonkowych" (hairpin adapters na obu końcach fragmentu DNA)
Struktura pozwala na wielokrotne sekwencjonowanie tej samej cząsteczki (Circular Consensus Sequencing - CCS)

2 Zero-Mode Waveguide (ZMW)

Pojedyncza cząsteczka DNA + DNA polimeraza umieszczone w nano-studni (ZMW) o średnicy 70 nm
Oświetlenie od dołu – fluorescencja widoczna tylko na dnie studni (eliminuje tło)
Miliony ZMW równolegle sekwencjonuje miliony cząsteczek

3 HiFi Consensus

Polimeraza wielokrotnie sekwencjonuje cząsteczkę SMRTbell (circular template)
Typowo 10-20 przepustów (passes)
Algorytm CCS generuje konsensus o bardzo wysokiej dokładności (Q30+)

Specyfikacje (PacBio Revio):

Długość odczytu HiFi: 10-25 kb (średnia ~15 kb)
Dokładność HiFi: Q30+ (>99.9%, porównywalna do Illumina!)
Przepustowość: 360-1,100 Gb per SMRT Cell (15 Gb per CCS)
Czas: 24 godziny na run
Koszt: ~$10-15 per Gb
Zastosowania: De novo assembly, detekcja wariantów strukturalnych, izoform RNA, genotypowanie HLA

                    PacBio HiFi vs. Oxford Nanopore:
                    Obie technologie oferują długie odczyty, ale różnią się:
                    Dokładność raw reads: PacBio HiFi > Nanopore (ale Nanopore dogania z nowymi basecallerami)
Maksymalna długość: Nanopore > PacBio (Nanopore może >1 Mb, PacBio zazwyczaj <100 kb)
Koszt: Nanopore < PacBio (zwłaszcza urządzenia)
Modyfikacje epigenetyczne: Obie wykrywają, Nanopore bezpośrednio, PacBio również (kinetics)

                

📊 Od surowych danych do genomu: Bioinformatyka NGS

Sekwencjonowanie generuje ogromne ilości danych wymagających zaawansowanego przetwarzania bioinformatycznego. Typowy workflow analizy WGS (Whole Genome Sequencing):

🖥️ Pipeline analizy WGS (Illumina)

1 Basecalling i demultiplexing

Input: Obrazy fluorescencji z sekwencera

Output: Pliki FASTQ (sekwencje + quality scores)

Narzędzia: bcl2fastq (Illumina), Guppy/Dorado (Nanopore)

Format FASTQ (4 linie na sekwencję): @SEQ_ID:1:FLOWCELL:1:1:1000:1000 1:N:0:ATCACG GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG + IIIIIIIIIIIIIIIIIIIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHFFFFFHHHFFFE Linia 1: ID sekwencji Linia 2: Sekwencja nukleotydów Linia 3: Separator (+) Linia 4: Quality scores (ASCII, Phred+33)

Phred Quality Score (Q): Q = -10 × log₁₀(P) gdzie P = prawdopodobieństwo błędu Q10 (I) = 90% dokładność (1:10 błąd) Q20 (7) = 99% dokładność (1:100) Q30 (?) = 99.9% dokładność (1:1,000) Q40 (I) = 99.99% dokładność (1:10,000)

2 Kontrola jakości (QC)

Narzędzia: FastQC, MultiQC

Sprawdzane parametry:

Rozkład jakości per-base i per-sequence
Zawartość GC
Obecność adapterów
Duplikacja sekwencji
Reprezentacja k-merów

3 Trimming i filtracja

Narzędzia: Trimmomatic, Cutadapt, fastp

Operacje:

Usunięcie adapterów
Trimming końców o niskiej jakości (Q<20)
Odrzucenie zbyt krótkich odczytów (<50 pz)

4 Alignment (mapowanie do genomu referencyjnego)

Narzędzia: BWA-MEM, Bowtie2, minimap2 (długie odczyty)

Input: FASTQ + genom referencyjny (np. GRCh38)

Output: Pliki SAM/BAM (Sequence Alignment/Map)

Czas: ~8-12 godzin dla WGS 30x coverage na 16 rdzeniach

Przykładowa linia SAM: READ1 99 chr1 10000 60 75M = 10150 225 ATCGATCGATCG... IIIIIIHHHHHH... Kolumny: 1. QNAME - ID readu 2. FLAG - 99 (paired, mapped, mate reverse strand) 3. RNAME - chromosom (chr1) 4. POS - pozycja (10000) 5. MAPQ - jakość mapowania (60 = wysoka) 6. CIGAR - operacje (75M = 75 match) 7-11. Informacje o parze 12+. Quality scores

5 Post-alignment processing

Narzędzia: Picard, SAMtools, GATK

Operacje:

Sortowanie BAM po pozycji
Marking duplicates (PCR/optical duplicates)
Base Quality Score Recalibration (BQSR)
Indel realignment (starsze pipelines)
Indeksowanie BAM

6 Variant calling

Narzędzia: GATK HaplotypeCaller, FreeBayes, DeepVariant (AI-based)

Output: Pliki VCF (Variant Call Format)

Identyfikowane warianty:

SNV (Single Nucleotide Variants)
Indels (insercje/delecje)
SV (Structural Variants) - wymaga specjalistycznych narzędzi

Format VCF: ##fileformat=VCFv4.2 ##reference=GRCh38 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1 chr1 1000 rs123 A G 99 PASS DP=30;AF=0.5 GT:DP 0/1:30 Interpretacja: - Pozycja chr1:1000 - REF: A (allel referencyjny) - ALT: G (allel alternatywny) - Genotyp: 0/1 (heterozygota A/G) - Depth: 30 odczytów - Allele Frequency: 50%

7 Filtracja i adnotacja wariantów

Narzędzia: GATK VariantFiltration, VEP (Variant Effect Predictor), ANNOVAR

Filtracja: Quality (QUAL), Depth (DP), Allele Frequency (AF)

Adnotacja:

Wpływ funkcjonalny (synonimiczna, missense, nonsense, splice site)
Geny i transkrypty
Częstość populacyjna (gnomAD, 1000 Genomes)
Patogenność (ClinVar, COSMIC)
Konserwacja ewolucyjna (PhyloP, GERP++)

8 Interpretacja i raportowanie

Analiza:

Priorytetyzacja wariantów klinicznie istotnych
Analiza ścieżek biologicznych
Porównanie z fenotypem pacjenta
Weryfikacja przez sekwencjonowanie Sangera (warianty kliniczne)

🧬 Dekodowanie i kodowanie genomu dla CRISPR

Sekwencjonowanie nie tylko pozwala nam "czytać" genom, ale również precyzyjnie planować eksperymenty CRISPR:

Zastosowania sekwencjonowania w CRISPR

1. Projektowanie sgRNA:

Identyfikacja sekwencji docelowej i PAM w genomie referencyjnym
Przewidywanie potencjalnych miejsc off-target przez wyrównanie sekwencji
Optymalizacja sgRNA ze względu na zawartość GC, strukturę drugorzędową

2. Weryfikacja edycji:

Sanger sequencing: Weryfikacja pojedynczych loci (szybkie, tanie)
Amplicon-seq (NGS): Głęboka analiza miejsca edycji (wykrycie mozaicyzmu, indeli)
WGS: Kompletna analiza off-target effects w całym genomie

3. Detekcja off-target:

Specjalistyczne techniki łączące CRISPR z sekwencjonowaniem:

GUIDE-seq: Używa oligonukleotydów dsDNA jako znaczników DSB
CIRCLE-seq: In vitro detekcja wszystkich miejsc cięcia Cas9
DISCOVER-seq: Wykorzystuje MRE11 (białko naprawy DSB) do identyfikacji miejsc cięcia in vivo

4. Single-cell sequencing po CRISPR:

scRNA-seq: Analiza zmian ekspresji genów po edycji na poziomie pojedynczych komórek
scATAC-seq: Zmiany dostępności chromatyny
Perturb-seq / CROP-seq: Połączenie CRISPR screening z scRNA-seq

💾 Wielkość danych i przechowywanie

Wyzwania związane z dużymi danymi genomicznymi:

Rozmiary plików dla 30x coverage WGS (Illumina):

Raw FASTQ: ~90-120 GB (skompresowane .gz)
Aligned BAM: ~60-80 GB
Compressed CRAM: ~30-40 GB
VCF (warianty): ~500 MB - 2 GB

Typowy projekt badawczy:

100 próbek WGS = ~6-10 TB danych
Wymaga: Systemy HPC (High-Performance Computing), storage sieciowy, infrastruktura chmurowa

Rozwiązania:

Kompresja (gzip, CRAM format)
Cloud storage (AWS S3, Google Cloud Storage)
Usuwanie pośrednich plików (np. unsorted BAM)
Archiwizacja tylko finalnych wyników + raw FASTQ

🎓 Podsumowanie

Sekwencjonowanie genomu przeszło drogę od żmudnych, miesięcznych procedur Sangera do ultraszybkich, zautomatyzowanych platform NGS zdolnych do odczytania całego genomu w ciągu godzin. Ta rewolucja technologiczna zdemokratyzowała dostęp do informacji genetycznej i stała się fundamentem współczesnej medycyny precyzyjnej oraz edycji genomu CRISPR.

Różnorodność dostępnych technologii – od krótkich, bardzo dokładnych odczytów Illumina, przez ultradługie odczyty Nanopore, po wysokojakościowe długie odczyty PacBio HiFi – pozwala na wybór optymalnej strategii w zależności od celu badania. Połączenie sekwencjonowania z zaawansowanymi narzędziami bioinformatycznymi umożliwia nie tylko odczytywanie, ale również głębokie rozumienie i modyfikowanie genomu.

W kolejnym artykule zagłębimy się w praktyczne aspekty programowania eksperymentów CRISPR – od projektowania sgRNA, przez przewidywanie off-target, po optymalizację efektywności edycji przy użyciu narzędzi bioinformatycznych.

📖 Następny artykuł w serii:

Część 5: Programowanie CRISPR - bioinformatyka i projektowanie sgRNA →

← Powrót do bloga