## HCL GWAS

Ce notebook Jupyter permet de semi-automatiser les études d'associations pangénomiques (GWAS: Genome Wide Assocation Studies), étape par étape.

**Contenu**:

1. Controle qualité des données de génotypage

2. Correction pour les effets de population

3. Analyse d'association

### Sections 

- [HCL GWAS notebook](#hcl-gwas)
    - [Sections](#sections)
    - [Requis](#requis)
    - [Plink](#plink)
    - [Contrôle Qualité](#contrôle-qualité)

### Requis

L'outil [Plink v1.9](https://www.cog-genomics.org/plink/) sera utilise pour la manipulation des donnees. Les graphes d'interpretation seront fait en Python avec [Matplotlib](#https://matplotlib.org/).

Versions des outils utilisés dans ce notebook:

 - plink v1.9
 - python v3.12
    - matplotlib 

### Plink

Plink est un outil de manipulation de données de génotypage qui utilise son propre format de fichier. Les génotypes sont représentés dans un ensemble de trois fichiers: le *.bim* contient les informations sur les variants, le *.fam* contient les informations sur les individus et le *.ped* les génotypes.

Le format des fichiers est détaillé ci-dessous:

<details>
<summary>Détails des formats plink</summary>

- **.bim**:

| Champ | Format |
| --- | --- |
| Chromosome code | int or X/Y/XY/MT (0 indicates unknown) |
| Variant ID | eg: rsID |
| Position in morgans or centimorgans | 0 = dummy value |
| Base-pair coordinates | 1-based, maximum is 2^31 - 2 |
| Allele 1 | Corresponding to the clear bits in the .ped file |
| Allele 2 | Corresponding to the set bits in the .ped file |

- **.fam**:

| Champ | Format |
| --- | --- |
| Family ID | / |
| Within-Family ID | Cannot be 0 |
| Within-Family ID or farther | 0 if not present in dataset |
| Within-Family ID or mother | 0 if not present in dataset |
| Sex code | 1 = male, 2 = female, 0 = unknown |
| Phenotype value | 1 = control, 2 = case, 0/-9/non-numeric = missing data |

- **.ped**:

| Code | Format |
| --- | --- |
| 00 | Homozygous for the 1st allele in the .bim file |
| 01 | Mising genotype |
| 10 | Heterozygous |
| 11 | Homozygous for the 2nd allele in the .bim file |

</details>

*note*: on utilisera surtout le *.bed*, la version binaire du *.ped*.

Plink est assez sensible aux identifiants dupliqués pour les variants, il est courant d'avoir des "." pour les rsids manquants. Il est conseillé de transformer ces IDs manquants sous un autre format, eg: *chr_pos_ref_alt*.

### Contrôle Qualité

##### 1a. Préparation des variables:



In [None]:
plink = "/path/to/plink"

wdir = "/home/corentin/Documents/bioinformatics/GAWSbook/test_dataset/"
bfile_prefix = "ensemble_norm_all"


##### 1b. Filtre sur les données manquantes:

Contrôle qualité des données de genotypage. On retire les individus et les variants avec plus de 5% de genotypes manquants (**--mind** et **--geno**). Et produire l'Analyse en Composantes Principales (**--pca**).

In [None]:
import subprocess

plink_qc = subprocess.Popen([plink, 
                            "--bfile", bfile_prefix,
                            "--geno", "0.05",
                            "-mind", "0.05",
                            "--make-bed",
                            "--pca",
                            "--out", bfile_prefix+"_QC"],
                            stdout = subprocess.PIPE)

plink_qc_output = plink_qc.communicate()[0]