# TME 1 : Rappels de Python et Linux

Les objets de base utilisés dans les analyse bioinformatiques sont les chaînes de caractères.
Chaque caractère de ces séquences réprésente le bloc de base qui compose une macromolécule.
Par example les caractères qui réprésentent les différentes bases de l'ADN (`ACTG`).
Une des opérations les plus courante est donc de manipuler les séquences, et Python est un  language qui permet ces manipulations de manière très pratique. Regardons quelques exemples

## Partie 1 : Rappels de python

### Les chaînes de caractères en Python

In [14]:
dna = 'CTGACCACTTTACGAGGTTAGC'

Nous avons déclaré une variable `dna` qui contient une chaîne de caractères.

Sur ce type de variables (`str`) nous pouvons accéder directement aux indexes:

In [2]:
# obtenir le premier caractère
dna[0]

'C'

Nous pouvons également utiliser ce qu'on nomme des "slices":

In [3]:
# obtenir les deux derniers caractères
dna[-2:]

'GC'

In [4]:
# obtenir les trois caractères au milieu de la chaîne
def middle_triple(txt):
    l = len(txt)//2
    return txt[l-1:l+2]
middle_triple(dna)

'TAC'

Les chaînes de caractère sont des objets immuables : on ne peut pas changer leur valeur après affection.

In [5]:
dna[6] = "T"

TypeError: 'str' object does not support item assignment

L'expression précédente n'est pas permise car nous essayons de changer la valeur d'une chaîne de caractère qui est un objet immuable (attention à ne pas confondre avec des listes)

En python, il existe une grande varieté de méthodes pour les chaines de caractères.
Ces méthodes peuvent être appelées pour tout objet de type `str` (y compris des functions).

In [None]:
# Convertir en minuscule
dna.lower()

In [None]:
# Trouver où est 'TTT'
dna.find("TTT")

In [None]:
# Y a-t-il une 'N' a l'intérieur de la chaîne
dna.find('N')!=-1

In [None]:
# Combien de 'TT' il y a?
dna.count('TT')

In [None]:
# Obtenir une chaine avec "A" en place de "T"
dna.replace('A','T')

In [None]:
# La chaîne commence-t-elle par "CTG"?
dna.startswith("CTG")

Nous pouvons également utiliser des listes pour stocker des objets.
Les listes peuvent contenir des objets de type différents.
Les listes peuvent être transformées assez simplement en chaînes de caractères à l'aide de la méthode `join`.

In [None]:
bases = ['A', 'C', 'G', 'T']
",".join(bases)

In [None]:
# Ajouter "U" à la liste
bases.append("U")
bases

In [None]:
# Y a-t-il une 'N' a l'intérieur de la liste
"N" in bases

In [None]:
# Utilisez join pour obtenir une chaîne avec la séquence inverse de la liste
",".join(bases[::-1])

In [None]:
# Utilisez slicing pour obtenir la chaîne inverse de la chaîne d'adn
dna[::-1]

### Les fonctions

Comme dans la plupart des langages de programmation nous pouvons utiliser des fonctions définies par le développeur.

En python, toute expression qui suit le caractère ':' doit être indentée avec `n` espaces 
(`n` dois être le même tout le long du script) 

In [8]:
import doctest

In [9]:
# S'il vous plaît, corrigez la fonction pour faire passer le doctest
def transcribe(dna):
    """
    Return dna string as rna string.
    
    >>> transcribe('ACTG')
    'ACUG'
    """
    return dna.replace('T', 'U')

doctest.testmod()

TestResults(failed=0, attempted=1)

In [10]:
# Écrire un doctest pour la fonction
def reverse(s):
    """Return the sequence string in reverse order.
    
    >>> reverse('ACTG')
    'GTCA'
    """ 
    letters = list(s)
    letters.reverse()
    return ''.join(letters)

doctest.testmod()

TestResults(failed=0, attempted=2)

### Dictionnaires

Un dictionnaire Python a le même avantage qu'un dictionnaire papier. Il vous permet de localiser rapidement la valeur (définition) associée à une clé (mot). Les dictionnaires sont désignés par des accolades et contiennent une séquence séparée par des virgules de paires `clé`: `valeur`. On accède aux valeurs du dictionnaire par leur valeur de clé, plutôt que leur position dans la séquence. Examinons ici quelques-unes des méthodes prises en charge par les dictionnaires.

In [11]:
basecomplement = {'A': 'T', 'C': 'G', 'T': 'A', 'G': 'C'}

In [12]:
basecomplement.keys()

dict_keys(['A', 'C', 'T', 'G'])

In [13]:
basecomplement.values()

dict_values(['T', 'G', 'A', 'C'])

In [17]:
# remplissez le '...' avec le code approprié
for (base, complement) in basecomplement.items():
    print("The complement of", base, "is", complement)

The complement of A is T
The complement of C is G
The complement of T is A
The complement of G is C


### Compréhension de listes

L'exemple suivant démontre une autre technique dont nous aurons besoin dans la création d'une fonction de complément. C'est une fonctionnalité appelée _compréhension de liste_.

In [18]:
letters   = 'CCGGAAGAGCTTACTTAG'
list_comp = [basecomplement[base] for base in letters]
print(list_comp)

['G', 'G', 'C', 'C', 'T', 'T', 'C', 'T', 'C', 'G', 'A', 'A', 'T', 'G', 'A', 'A', 'T', 'C']


Nous pouvons également filtrer ce qu'on va mettre dans notre liste

In [19]:
list_comp_f = [basecomplement[base] for base in letters if base == 'T']
print(list_comp_f)

['A', 'A', 'A', 'A']


Les compréhensions de listes permettent également de facilement créer des dictionaires

In [20]:
letters   = 'CCGGAAGAGCTTACTTAG'
dict_comp = {base : basecomplement[base] for base in letters}
dict_comp

{'C': 'G', 'G': 'C', 'A': 'T', 'T': 'A'}

Une compréhension de liste renvoie une liste et fonctionne de façon similaire à une boucle for, mais dans un format beaucoup plus compact et efficace. 

Dans ce cas, il nous permet de retourner une nouvelle liste dans laquelle chaque base de la liste de lettres originale a été remplacée par son complément, que nous avons extrait du dictionnaire de base. Voyons comment nous mettons tout cela ensemble.

In [22]:
# remplissez '...' avec le code approprié
def complement(s):
    """Return the complementary sequence string."""
    basecomplement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
    letters = [basecomplement[base] for base in s]
    return ''.join(letters)


def reversecomplement(s):
    return complement(reverse(s))

assert reversecomplement('CCGGAAGAGCTTACTTAG') == 'CTAAGTAAGCTCTTCCGG'

In [23]:
# remplissez '...' avec le code approprié
def gc(s):
    """
    Return the percentage of dna composed of G+C.
    
    >>> gc('CCGGAAGAGCTTACTTAGTTA')
    42.857142857142854
    """ 
    gc = len([gc for gc in s if (gc.lower() in {'g', 'c'})])
    return gc * 100.0 / len(s)

doctest.testmod()

TestResults(failed=0, attempted=3)

La function `complement` renvoie l'ADN complementaire tandis que la fonction `reversecomplement` se sert de la fonction `reverse` dont le résultat est envoyé comme paramètre à la fonction complement, ce qui donne bien le reverse complement.

## Partie 2: Bash et la manipulation de fichiers.

Une commandre très utile pour se répérer assez rapidment c'est la command `pwd`. Qui nous imprime sur l'écran l'emplacement actuel. C'est outil pour savoir ou on est sur la structure de répértoires (notez le texte ``%%bash`` pour dire à Jupyter d'interpreter une commande de shell bash).

In [24]:
%%bash
pwd

/home/bj/Bureau/坐在你的对桌/SU/C_SU/Bio-info/TME1


Maintenant nous allons télécharger 2 fichiers.
Un contenant un tableau et l'autre contenant des séquences d'ADN.
Nous pouvons télécharger des fichiers d'internet à l'aide de la commande ``wget``

In [29]:
%%bash
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_feature_table.txt.gz

--2022-02-07 21:24:21--  ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_feature_table.txt.gz
           => ‘GCA_000741095.1_Bifact_feature_table.txt.gz’
Resolving ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)... 2607:f220:41e:250::7, 2607:f220:41e:250::13, 130.14.250.7, ...
Connecting to ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|2607:f220:41e:250::7|:21... connected.
Logging in as anonymous ... Logged in!
==> SYST ... done.    ==> PWD ... done.
==> TYPE I ... done.  ==> CWD (1) /genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact ... done.
==> SIZE GCA_000741095.1_Bifact_feature_table.txt.gz ... 55770
==> EPSV ... done.    ==> RETR GCA_000741095.1_Bifact_feature_table.txt.gz ... done.
Length: 55770 (54K) (unauthoritative)

     0K .......... .......... .......... .......... .......... 91%  204K 0s
    50K ....                                                  100% 1,85M=0,2s

2022-02-07 21:24:23 (220 KB/s) - ‘GCA_000741095.1_Bifact_fe

In [30]:
%%bash
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_cds_from_genomic.fna.gz

--2022-02-07 21:24:25--  ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_cds_from_genomic.fna.gz
           => ‘GCA_000741095.1_Bifact_cds_from_genomic.fna.gz’
Resolving ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)... 2607:f220:41e:250::13, 2607:f220:41e:250::7, 165.112.9.230, ...
Connecting to ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|2607:f220:41e:250::13|:21... connected.
Logging in as anonymous ... Logged in!
==> SYST ... done.    ==> PWD ... done.
==> TYPE I ... done.  ==> CWD (1) /genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact ... done.
==> SIZE GCA_000741095.1_Bifact_cds_from_genomic.fna.gz ... 554521
==> EPSV ... done.    ==> RETR GCA_000741095.1_Bifact_cds_from_genomic.fna.gz ... done.
Length: 554521 (542K) (unauthoritative)

     0K .......... .......... .......... .......... ..........  9%  187K 3s
    50K .......... .......... .......... .......... .......... 18%  579K 2s
   100K .......... .......... .......... ....

Pour extraire des fichiers nous utilisons la commande ``gunzip``

In [31]:
%%bash
gunzip -d GCA_000741095.1_Bifact_cds_from_genomic.fna.gz
gunzip -d GCA_000741095.1_Bifact_feature_table.txt.gz

Une fois les fichiers décompréssées nous pouvons explorer les premieres lignes

In [32]:
%%bash
head GCA_000741095.1_Bifact_cds_from_genomic.fna

>lcl|JGYK01000001.1_cds_KFI39626.1_1 [locus_tag=BACT_0326] [db_xref=GO:0000079,GO:0005515,GO,GO:0005829,GO,GO:0019221,GO,GO:0032020,GO,GO:0032480,GO,GO:0042296,GO,GO:0045087,GO,GO:0050688,GO] [protein=regulator of chromosome condensation RCC1] [protein_id=KFI39626.1] [location=complement(<1..594)] [gbkey=CDS]
ATGGCCACGCTGACACCGCCAGCCCCACCAACCAACGTGCGCTTCACCCGAATCAGCGCAGGCGACAATCACAGCCTGGC
CCTCGACTCGAACGGCAACACCTACGCCTGGGGACAGAACTACTACGGCAAGCTGGGCGACGGCACCACCATAACCCAGC
GAAACCAGCCCGTACGCGTGCACGCGCCAGCCGGCGTGACCTTCACCCAAATCAGCGCAGGCTGGGGGCACAGCATGGCC
ATCGGATCGGACAACTACACCTATGCATGGGGTTACAACAATGAAGGCGAACTGGGCGACGGCACCCCCAACCTACGCAG
CACGCCCGTGCGCGTGAGCACGCCAGCCGGCGTGCGCTTCACCCGAATCAGCGCAGGCTACTGGCACAGCCTGGCCATCG
GCTCAGACGGCAACACCTACACATACGGCAGCGCTTACGCATGGGGAAATAACAGCGAAGGCGAGCTGGGCCATGGCACC
GGCGGCAACCAACACACGCCCGCACCGGTGAGCACGCCCTCCAGTGGCAACCCCACGAACACCTGGAAAACCATCAGCGC
AGGCAACAGTCACAGCCTGGCCCTCGACTCGGAC
>lcl|JGYK01000001.1_cds_KFI39627.1_2 [locus_tag=BACT_0327] [protein=auxin efflux carrie

Ce fichier que l'on viens de voir est un fichier au format fasta.

Ce fichiers sont composées par des identifiants commençant par le character ">" suivi d'une ou de plusieurs lignes contenant des séquences.

Pour cet example nous avons toute les séquences codantes rétrouvées dans le génome de l'espèce _Bifidobacterium_

Regardons l'autre fichier.

In [33]:
%%bash
head GCA_000741095.1_Bifact_feature_table.txt

# feature	class	assembly	assembly_unit	seq_type	chromosome	genomic_accession	start	end	strand	product_accession	non-redundant_refseq	related_accession	name	symbol	GeneID	locus_tag	feature_interval_length	product_length	attributes
gene	protein_coding	GCA_000741095.1	Primary Assembly	unplaced scaffold		JGYK01000001.1	1	594	-							BACT_0326	594		partial
CDS	with_protein	GCA_000741095.1	Primary Assembly	unplaced scaffold		JGYK01000001.1	1	594	-	KFI39626.1			regulator of chromosome condensation RCC1			BACT_0326	594	198	partial
gene	protein_coding	GCA_000741095.1	Primary Assembly	unplaced scaffold		JGYK01000001.1	1378	2382	+							BACT_0327	1005		
CDS	with_protein	GCA_000741095.1	Primary Assembly	unplaced scaffold		JGYK01000001.1	1378	2382	+	KFI39627.1			auxin efflux carrier family transporter			BACT_0327	1005	334	
gene	protein_coding	GCA_000741095.1	Primary Assembly	unplaced scaffold		JGYK01000001.1	2490	3275	-							BACT_0328	786		
CDS	with_protein	GCA_000741095.1	Primary Assembly	unplace

Ce fichier contient les emplacements dans le génome où on peut retrouver certains éléménts.

Une opération courante est de lire les tableaux contenant des informations rangées par colonnes.

Une façon simple de lire ces fichiers est montrée dans le script suivant.


In [34]:
line = "gene\tprotein_coding\tGCA_000741095.1\tPrimary Assembly\n"
line.strip().split("\t")

['gene', 'protein_coding', 'GCA_000741095.1', 'Primary Assembly']

In [35]:
line_count = 0
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    for line in file:
        cells = line.strip().split("\t")
        print(cells[0])
        line_count += 1
        if line_count == 10:
            break

# feature
gene
CDS
gene
CDS
gene
CDS
gene
CDS
gene


Dans la première ligne nous déclarons un compteur (on veux pas imprimer toutes les lignes)
Ensuite nous itérons sur chaque ligne du fichier ``"GCA_000741095.1_Bifact_feature_table.txt"``
line étant un objet de type ``str`` nous permet d'utiliser ces méthodes, dans cet exemple nous utilisons ``strip()`` pour enlever les espaces et fin de lignes au deux extremités de la ligne et puis la function ``split`` avec le caractère tabulation comme paramètre, la fonction `split` nous permet de créer une liste des éléménts qui sont séparés par une tabulation dans la variable ligne.

La compréhension de listes peut également être utilisée pour parser des fichiers.
Par exemple si on voudrais créer une liste d'entiers avec les positions du début de chaque feature.

In [39]:
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    start_pos = [int(line.strip().split("\t")[7]) for line in file if not line.startswith("#")]

start_pos[1:5]

[1, 1378, 1378, 2490]

Un des avantages des comprehension de listes c'est que nous pouvons faire appele aux functions pour transformer les éléments de la liste. 
Dans l'example anterieur on applique le méthode magique int (mais ça pourrais être une autre function) pour transforme du type chaine de character à entier.



## Quelques exercices d'applications 


### Exercice 1
Imprimer la taille moyene des features (colonne end-start)

In [54]:
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    length_tab = [int(line.strip().split("\t")[8]) - int(line.strip().split("\t")[7]) + 1 for line in file if not line.startswith("#")]
    average = sum(length_tab)*1./len(length_tab)
print(average)

1035.8577460214356


### Exercice 2
Ecrire les deux premières colonnes `'feature'` et `'assembly'` dans un nouveau fichier nommé GCA_000741095.1_Bifact_feature_table.filtered.txt

In [61]:
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    feature_assembly_tab =  [(line.strip().split("\t")[0], line.strip().split("\t")[1]) for line in file if not line.startswith("#")]
    with open("GCA_000741095.1_Bifact_feature_table.filtered.txt", "w") as res:
        res.write("feature\tassembley\n")
        for i in range(len(feature_assembly_tab)):
            res.write(feature_assembly_tab[i][0] + "\t" + feature_assembly_tab[i][1] +"\n")
        

Nous pouvons utiliser la commande `head` pour voir que tout a marché.

In [62]:
%%bash
head GCA_000741095.1_Bifact_feature_table.filtered.txt

feature	assembley
gene	protein_coding
CDS	with_protein
gene	protein_coding
CDS	with_protein
gene	protein_coding
CDS	with_protein
gene	protein_coding
CDS	with_protein
gene	protein_coding


### Exercice 3
Ecrire les deux premières colonnes uniquement  quand la colonne feature est égale à 'CDS'  

Nous pouvons également utiliser la commande ``cut`` qui nous permet d'extraire des colonnes d'un fichier d'origine sans manipulation. 

**Tip**. Il existe d'autre commandes telles que ``awk`` qui nous permettent d'effectuer des manipulations plus complexes sur les fichiers.

In [None]:
%%bash
cut -f1,3 GCA_000741095.1_Bifact_feature_table.txt > GCA_000741095.1_Bifact_feature_table.filtered_cut.txt

Une autre opération qui est assez récurrente c'est la lecture des fichiers fastas.

Voici une implémentation très simple qui nous permet de lire jusqu'à 5 séquences d'ADN et les imprimer sur l'écran précédées par leur identifiant.

In [None]:
count_seq = 0
seq       = ""
seq_id    = ""
with open("GCA_000741095.1_Bifact_cds_from_genomic.fna") as fasta:
    while True:
        line  = fasta.readline()
        if not line:
            print(seq_id,seq)
            break
        if line[0] == ">":
            if seq != "":
                print(seq_id,seq)
            if count_seq == 5:
                break
            count_seq += 1
            seq_id  = line[1:].strip()
            seq = ""
        else:
            seq = "".join((seq, line.strip() ))

### Exercice 4
Ecrire un nouveau fichier fasta avec les séquences en minuscules et sans les trois premiers et ni les trois derniers nucléotides 

### Exercice 5
Ecrivez un script pour écrire dans un fichier le pourcentage en GC du reverse complément des séquences d'un fichier fasta.

### Exercice 6
Ecrivez un script pour créer un dictionaire qui contiendrait comme clés les identifiants des séquences et comme valeurs une liste contenant deux éléments: 
   1. le pourcentage de GC, 
   2. la longeur de la séquence. 
   
Ecrivez les résultats dans un fichier séparé par tabulation (tsv)