Μελέτη υποψήφιου γονιδίου
Δημιουργήθηκε στις 2021-03-16
Καλώς ορίσατε στη σειρά πρακτικού εκπαιδευτικού υλικού γονιδιωματικής. Αν είναι η πρώτη φορά που έρχεστε εδώ, μπορείτε να δείτε και τις υπόλοιπες ροές εργασίας εδώ.
Στη συγκεκριμένη ροή εργασίας, θα εξασκηθείτε στο πώς να απομονώνετε ένα γονίδιο από ένα ολόκληρο σετ δεδομένων και να το αναλύσετε.
Τι είναι οι μελέτες υποψήφιου γονιδίου
Οι μελέτες υποψήφιου γονιδίου (candidate gene studies) είναι οι ιστορικότερες μελέτες στη γενετική.
Η ροή εργασίας
Ας ξεκινήσουμε με το σετ δεδομένων που θα αναλύσουμε.
Η πιο συνηθισμένη μορφή σετ δεδομένων είναι η μορφή PLINK. Η μορφή PLINK είναι η πιο διαδεδομένη μορφή αποθήκευσης γονοτυπικών δεδομένων που προέρχονται από γονοτύπηση. Ξεκίνησε ως ένα δίπτυχο αρχείων κειμένου (ένα αρχείο ped και ένα αρχείο map) αλλά για λόγους εξοικονόμησης πόρων γρήγορα μετατράπηκε σε ένα τρίπτυχο αρχείων (δύο αρχεία κειμένου bim και fam και ένα δυαδικό αρχείο bed). Στο αρχείο fam περιλαμβάνονται πληροφορίες για τα άτομα του συνόλου, στο αρχείο bim πληροφορίες για τους γενετικούς δείκτες, και στο αρχείο bed ένας πίνακας (μητρώο) στο οποίο καταγράφεται το γενετικό περιεχόμενο του κάθε ατόμου σε κάθε δείκτη.
Σχηματική αναπαράσταση του τριπτύχου ενός σετ δεδομένων σε μορφή PLINK. 0 σημαίνει πως το άτομο είναι ομόζυγο για το ένα αλληλόμορφο, 1 πως είναι ετερόζυγο και 2 πως είναι ομόζυγο για το άλλο αλληλόμορφο.
|
|
Αρχείο FAM |
|
|
|
| ΑΤΟΜΟ_1
| ΑΤΟΜΟ_2
| ΑΤΟΜΟ_3
| ΑΤΟΜΟ_4
| ΑΤΟΜΟ_5
| ΑΤΟΜΟ_6
|
|
| Αρχείο BIM |
ΔΕΙΚΤΗΣ_1 |
0 |
1 |
2 |
1 |
0 |
2 |
|
| ΔΕΙΚΤΗΣ_2 |
2 |
2 |
2 |
2 |
2 |
2 |
|
| ΔΕΙΚΤΗΣ_3 |
1 |
2 |
1 |
2 |
0 |
2 |
|
| ΔΕΙΚΤΗΣ_4 |
1 |
1 |
1 |
1 |
1 |
0 |
|
| ΔΕΙΚΤΗΣ_5 |
1 |
0 |
1 |
0 |
0 |
0 |
|
|
|
|
|
|
|
|
|
Αρχείο BED |
Το εργαλείο PLINK μπορεί να μας δώσει μια σύντομη περιγραφή του σετ δεδομένων, πόσα άτομα περιέχει, πόσους δείκτες και τα αδρά χαρακτηριστικά τους.
plink.exe --noweb --allow-no-sex --bfile dataset --out test
@----------------------------------------------------------@
| PLINK! | v1.07 | 10/Aug/2009 |
|----------------------------------------------------------|
| (C) 2009 Shaun Purcell, GNU General Public License, v2 |
|----------------------------------------------------------|
| For documentation, citation & bug-report instructions: |
| http://pngu.mgh.harvard.edu/purcell/plink/ |
@----------------------------------------------------------@
Skipping web check... [ --noweb ]
Writing this text to log file [ test.log ]
Analysis started: Sat Mar 20 20:16:34 2021
Options in effect:
--noweb Παρακάμπτει τον έλεγχο για νέες εκδόσεις
--allow-no-sex Κρατάει μέσα τα άτομα που δεν έχουν καταγεγραμμένο φύλο
--bfile dataset Το σύνολο δεδομένων που θα διαβαστεί από το plink
--out test Όσα αρχεία θα δημιουργηθούν θα πάρουν το όνομα της παραμέτρου
Reading map (extended format) from [ dataset.bim ]
8930 markers to be included from [ dataset.bim ] Δείκτες στο σετ
Reading pedigree information from [ dataset.fam ]
980 individuals read from [ dataset.fam ] Άτομα στο σετ
980 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
624 cases, 356 controls and 0 missing
451 males, 529 females, and 0 of unspecified sex
Reading genotype bitfile from [ dataset.bed ]
Detected that binary PED file is v1.00 SNP-major mode
Before frequency and genotyping pruning, there are 8930 SNPs
980 founders and 0 non-founders found
Total genotyping rate in remaining individuals is 0.999119
0 SNPs failed missingness test ( GENO > 1 )
0 SNPs failed frequency test ( MAF < 0 )
After frequency and genotyping pruning, there are 8930 SNPs
After filtering, 624 cases, 356 controls and 0 missing
After filtering, 451 males, 529 females, and 0 of unspecified sex
Analysis finished: Sat Mar 20 20:16:34 2021
Σε αυτό το σετ δεδομένων θέλουμε να μελετήσουμε το γονίδιο GCG. To GCG είναι το γονίδιο που κωδικοποιεί την γλυκαγόνη. Περισσότερες πληροφορίες μπορείτε να αντλήσετε για το γονίδιο εδώ. Από αυτή τη σελίδα επίσης αντλούμε και την τοποθεσία του γονιδίου.
Μια αναζήτηση στον εξερευνητή γονιδιωμάτων της UCSC δίνει πληροφορίες για την ευρύτερη περιοχή.
| Όνομα γονιδίου |
Χρωμόσωμα |
Αρχή (hg19) |
Τέλος (hg19) |
| GCG |
2 |
162.999.385 |
163.008.914 |
Τα στοιχεία αυτά μπορούν να χρησιμοποιηθούν για να εξάγουμε αυτήν την περιοχή από το σετ δεδομένων μας.
Επειδή ένα γονίδιο δεν είναι μόνο η κωδικεύουσα περιοχή του, αλλά χαρακτηρίζεται από πολλά στοιχεία ελέγχου πριν και μετά από αυτό, θα πρέπει να συμπεριλάβουμε και αυτές τις περιοχές στην ανάλυσή μας. Συνηθίζεται αυτό να είναι ±20kb. Οπότε το όριο 162.999.385 θα γίνει 162.979.385 και το όριο 163.008.914 θα γίνει 163.028.914.
Πάμε λοιπόν να εξάγουμε την περιοχή αυτή από τα δεδομένα μας και να φτιάξουμε ένα μικρό υποσύνολο δεδομένων που να περιέχει μόνο τη συγκεκριμένη περιοχή.
plink.exe --noweb --allow-no-sex --bfile dataset --chr 2 --from-kb 162979 --to-kb 163029 --out GCG --make-bed
@----------------------------------------------------------@
| PLINK! | v1.07 | 10/Aug/2009 |
|----------------------------------------------------------|
| (C) 2009 Shaun Purcell, GNU General Public License, v2 |
|----------------------------------------------------------|
| For documentation, citation & bug-report instructions: |
| http://pngu.mgh.harvard.edu/purcell/plink/ |
@----------------------------------------------------------@
Skipping web check... [ --noweb ]
Writing this text to log file [ GCG.log ]
Analysis started: Wed Mar 17 20:29:35 2021
Options in effect:
--noweb
--bfile dataset
--chr 2 Απομόνωση του χρωμοσώματος 2 από το συνολικό σετ
--from-kb 162979 Από τη βάση 162.979.000
--to-kb 163029 μέχρι τη βάση 163.029.000
--out GCG
--make-bed Δημιουργία καινούριου σετ δεδομένων με τα χαρακτηριστικά που αναφέρθηκαν άνωθεν
Reading map (extended format) from [ dataset.bim ]
8930 markers to be included from [ dataset.bim ]
Scan region on chromosome 2 from [ rs2052352 ] to [ rs7583035 ]
Reading pedigree information from [ dataset.fam ]
980 individuals read from [ dataset.fam ]
980 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
624 cases, 356 controls and 0 missing
451 males, 529 females, and 0 of unspecified sex
Reading genotype bitfile from [ dataset.bed ]
Detected that binary PED file is v1.00 SNP-major mode
Before frequency and genotyping pruning, there are 10 SNPs
980 founders and 0 non-founders found
Total genotyping rate in remaining individuals is 0.997551
0 SNPs failed missingness test ( GENO > 1 )
0 SNPs failed frequency test ( MAF < 0 )
After frequency and genotyping pruning, there are 10 SNPs
After filtering, 624 cases, 356 controls and 0 missing
After filtering, 451 males, 529 females, and 0 of unspecified sex
Writing pedigree information to [ GCG.fam ]
Writing map (extended format) information to [ GCG.bim ]
Writing genotype bitfile to [ GCG.bed ]
Using (default) SNP-major mode
Analysis finished: Sat Mar 20 20:19:50 2021
Καταλήξαμε λοιπόν να δημιουργήσουμε ένα καινούριο σύνολο δεδομένων, το τρίπτυχο GCG.bed, GCG.bim και GCG.fam. Αυτό μπορούμε πλέον να το χρησιμοποιήσουμε σαν είσοδο για τις επόμενες αναλύσεις μας, που είναι η αναλύσεις συσχετισμού.
Η πρώτη ανάλυση συσχετισμού που θα κάνουμε θα είναι η απλή δοκιμασία χ2.
plink.exe --noweb --allow-no-sex --bfile GCG --assoc --out GCG_assoc
@----------------------------------------------------------@
| PLINK! | v1.07 | 10/Aug/2009 |
|----------------------------------------------------------|
| (C) 2009 Shaun Purcell, GNU General Public License, v2 |
|----------------------------------------------------------|
| For documentation, citation & bug-report instructions: |
| http://pngu.mgh.harvard.edu/purcell/plink/ |
@----------------------------------------------------------@
Skipping web check... [ --noweb ]
Writing this text to log file [ GCG_assoc.log ]
Analysis started: Sat Mar 20 20:21:27 2021
Options in effect:
--noweb
--allow-no-sex
--bfile GCG
--assoc Κάνει τη δοκιμασία χ2
--out GCG_assoc
Reading map (extended format) from [ GCG.bim ]
10 markers to be included from [ GCG.bim ]
Reading pedigree information from [ GCG.fam ]
980 individuals read from [ GCG.fam ]
980 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
624 cases, 356 controls and 0 missing
451 males, 529 females, and 0 of unspecified sex
Reading genotype bitfile from [ GCG.bed ]
Detected that binary PED file is v1.00 SNP-major mode
Before frequency and genotyping pruning, there are 10 SNPs
980 founders and 0 non-founders found
Total genotyping rate in remaining individuals is 0.997551
0 SNPs failed missingness test ( GENO > 1 )
0 SNPs failed frequency test ( MAF < 0 )
After frequency and genotyping pruning, there are 10 SNPs
After filtering, 624 cases, 356 controls and 0 missing
After filtering, 451 males, 529 females, and 0 of unspecified sex
Writing main association results to [ GCG_assoc.assoc ]
Analysis finished: Sat Mar 20 20:21:27 2021
Αυτή η ανάλυση παράγει ένα αρχείο με το όνομα GCG_assoc.assoc. Αυτό το αρχείο μπορούμε να το ανοίξουμε μέσω της εντολής more, ή μέσω notepad ή μέσω excel. Συνήθως είναι πιο γρήγορη η εντολή more.
more GCG_assoc.assoc
CHR SNP BP A1 F_A F_U A2 CHISQ P OR
2 rs2052352 162983749 T 0.4463 0.4185 C 1.422 0.2331 1.12
2 rs199563306 163000556 T 0 0 G NA NA NA
2 rs79305438 163000583 T 0 0 C NA NA NA
2 rs150179526 163000601 C 0.001626 0 T 1.143 0.2851 NA
2 rs149306780 163000664 T 0 0 C NA NA NA
2 rs35920035 163002170 T 0.001603 0.002809 C 0.324 0.5692 0.5698
2 rs5649 163003858 T 0.008814 0.001404 C 4.09 0.04313 6.323
2 rs5647 163005158 T 0.007223 0.007022 C 0.002569 0.9596 1.029
2 rs6715725 163024739 C 0 0 T NA NA NA
2 rs7583035 163025929 G 0.004854 0.005666 A 0.05774 0.8101 0.8561