# TME 1 : Rappels de Python et Linux

Les objets de base utilisés dans les analyse bioinformatiques sont les chaînes de caractères.
Chaque caractère de ces séquences réprésente le bloc de base qui compose une macromolécule.
Par example les caractères qui réprésentent les différentes bases de l'ADN (`ACTG`).
Une des opérations les plus courante est donc de manipuler les séquences, et Python est un  language qui permet ces manipulations de manière très pratique. Regardons quelques exemples

## Partie 1 : Rappels de python

### Les chaînes de caractères en Python

In [1]:
dna = 'CTGACCACTTTACGAGGTTAGC'

Nous avons déclaré une variable `dna` qui contient une chaîne de caractères.

Sur ce type de variables (`str`) nous pouvons accéder directement aux indexes:

In [2]:
# obtenir le premier caractère
dna[0]

'C'

Nous pouvons également utiliser ce qu'on nomme des "slices":

In [3]:
# obtenir les deux derniers caractères
dna[0:2]

'CT'

In [4]:
# obtenir les trois caractères au milieu de la chaîne
dna[(len(dna) // 2) - 1:(len(dna) // 2) + 2]

'TAC'

Les chaînes de caractère sont des objets immuables : on ne peut pas changer leur valeur après affection.

In [5]:
dna[6] = "T"

TypeError: 'str' object does not support item assignment

L'expression précédente n'est pas permise car nous essayons de changer la valeur d'une chaîne de caractère qui est un objet immuable (attention à ne pas confondre avec des listes)

En python, il existe une grande varieté de méthodes pour les chaines de caractères.
Ces méthodes peuvent être appelées pour tout objet de type `str` (y compris des functions).

In [6]:
# Convertir en minuscule
dna.lower()

'ctgaccactttacgaggttagc'

In [7]:
# Trouver où est 'TTT'
dna.find("TTT")

8

In [8]:
# Y a-t-il une 'N' a l'intérieur de la chaîne
dna.find("N")


-1

In [9]:
# Combien de 'TT' il y a?
dna.count("TT")

2

In [10]:
# Obtenir une chaine avec "A" en place de "T"
dna.replace("A","T")

'CTGTCCTCTTTTCGTGGTTTGC'

In [11]:
# La chaîne commence-t-elle par "CTG"?
dna.find("CTG") == 0

True

Nous pouvons également utiliser des listes pour stocker des objets.
Les listes peuvent contenir des objets de type différents.
Les listes peuvent être transformées assez simplement en chaînes de caractères à l'aide de la méthode `join`.

In [12]:
bases = ['A', 'C', 'G', 'T']
",".join(bases)

'A,C,G,T'

In [13]:
# Ajouter "U" à la liste
bases.append('U')

In [14]:
# Y a-t-il une 'N' a l'intérieur de la liste
"N" not in bases

True

In [15]:
# Utilisez join pour obtenir une chaîne avec la séquence inverse de la liste
",".join(bases.reverse())

TypeError: can only join an iterable

In [16]:
# Utilisez slicing pour obtenir la chaîne inverse de la chaîne d'adn
print(dna[::-1])

CGATTGGAGCATTTCACCAGTC


### Les fonctions

Comme dans la plupart des langages de programmation nous pouvons utiliser des fonctions définies par le développeur.

En python, toute expression qui suit le caractère ':' doit être indentée avec `n` espaces 
(`n` dois être le même tout le long du script) 

In [17]:
import doctest

In [18]:
# S'il vous plaît, corrigez la fonction pour faire passer le doctest
def transcribe(dna):
    """
    Return dna string as rna string.
    
    >>> transcribe('ACTG')
    'ACUG'
    """
    return dna.replace('T', 'U')

doctest.testmod()

TestResults(failed=0, attempted=1)

In [19]:
# Écrire un doctest pour la fonction
def reverse(s):
    """Return the sequence string in reverse order.""" 
    letters = list(s)
    letters.reverse()
    return ''.join(letters)

doctest.testmod()

TestResults(failed=0, attempted=1)

### Dictionnaires

Un dictionnaire Python a le même avantage qu'un dictionnaire papier. Il vous permet de localiser rapidement la valeur (définition) associée à une clé (mot). Les dictionnaires sont désignés par des accolades et contiennent une séquence séparée par des virgules de paires `clé`: `valeur`. On accède aux valeurs du dictionnaire par leur valeur de clé, plutôt que leur position dans la séquence. Examinons ici quelques-unes des méthodes prises en charge par les dictionnaires.

In [20]:
basecomplement = {'A': 'T', 'C': 'G', 'T': 'A', 'G': 'C'}

In [21]:
basecomplement.keys()

dict_keys(['A', 'C', 'T', 'G'])

In [22]:
basecomplement.values()

dict_values(['T', 'G', 'A', 'C'])

In [23]:
# remplissez le '...' avec le code approprié
for base,complement in basecomplement.items():
    print("The complement of", base, "is", complement)

The complement of A is T
The complement of C is G
The complement of T is A
The complement of G is C


### Compréhension de listes

L'exemple suivant démontre une autre technique dont nous aurons besoin dans la création d'une fonction de complément. C'est une fonctionnalité appelée _compréhension de liste_.

In [24]:
letters   = 'CCGGAAGAGCTTACTTAG'
list_comp = [basecomplement[base] for base in letters]
print(list_comp)

['G', 'G', 'C', 'C', 'T', 'T', 'C', 'T', 'C', 'G', 'A', 'A', 'T', 'G', 'A', 'A', 'T', 'C']


Nous pouvons également filtrer ce qu'on va mettre dans notre liste

In [25]:
list_comp_f = [basecomplement[base] for base in letters if base == 'T']
print(list_comp_f)

['A', 'A', 'A', 'A']


Les compréhensions de listes permettent également de facilement créer des dictionaires

In [26]:
letters   = 'CCGGAAGAGCTTACTTAG'
dict_comp = {base : basecomplement[base] for base in letters}
dict_comp

{'C': 'G', 'G': 'C', 'A': 'T', 'T': 'A'}

Une compréhension de liste renvoie une liste et fonctionne de façon similaire à une boucle for, mais dans un format beaucoup plus compact et efficace. 

Dans ce cas, il nous permet de retourner une nouvelle liste dans laquelle chaque base de la liste de lettres originale a été remplacée par son complément, que nous avons extrait du dictionnaire de base. Voyons comment nous mettons tout cela ensemble.

In [28]:
# remplissez '...' avec le code approprié
def complement(s):
    """Return the complementary sequence string."""
    basecomplement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
    letters = [basecomplement[base] for base in s]
    return ''.join(letters)


def reversecomplement(s):
    return complement(reverse(s))

assert reversecomplement('CCGGAAGAGCTTACTTAG') == 'CTAAGTAAGCTCTTCCGG'

In [29]:
# remplissez '...' avec le code approprié
def gc(s):
    """
    Return the percentage of dna composed of G+C.
    
    >>> gc('CCGGAAGAGCTTACTTAGTTA')
    42.857142857142854
    """ 
    gc = len([1 for base in s if base == "G" or base == "C"])
    return gc * 100.0 / len(s)

doctest.testmod()

TestResults(failed=0, attempted=2)

La function `complement` renvoie l'ADN complementaire tandis que la fonction `reversecomplement` se sert de la fonction `reverse` dont le résultat est envoyé comme paramètre à la fonction complement, ce qui donne bien le reverse complement.

## Partie 2: Bash et la manipulation de fichiers.

Une commandre très utile pour se répérer assez rapidment c'est la command `pwd`. Qui nous imprime sur l'écran l'emplacement actuel. C'est outil pour savoir ou on est sur la structure de répértoires (notez le texte ``%%bash`` pour dire à Jupyter d'interpreter une commande de shell bash).

In [30]:
%%bash
pwd

Couldn't find program: 'bash'


Maintenant nous allons télécharger 2 fichiers.
Un contenant un tableau et l'autre contenant des séquences d'ADN.
Nous pouvons télécharger des fichiers d'internet à l'aide de la commande ``wget``

In [31]:
%%bash
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_feature_table.txt.gz

Couldn't find program: 'bash'


In [32]:
%%bash
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/741/095/GCA_000741095.1_Bifact/GCA_000741095.1_Bifact_cds_from_genomic.fna.gz

Couldn't find program: 'bash'


Pour extraire des fichiers nous utilisons la commande ``gunzip``

In [33]:
%%bash
gunzip -d GCA_000741095.1_Bifact_cds_from_genomic.fna.gz
gunzip -d GCA_000741095.1_Bifact_feature_table.txt.gz

Couldn't find program: 'bash'


Une fois les fichiers décompréssées nous pouvons explorer les premieres lignes

In [34]:
%%bash
head GCA_000741095.1_Bifact_cds_from_genomic.fna

Couldn't find program: 'bash'


Ce fichier que l'on viens de voir est un fichier au format fasta.

Ce fichiers sont composées par des identifiants commençant par le character ">" suivi d'une ou de plusieurs lignes contenant des séquences.

Pour cet example nous avons toute les séquences codantes rétrouvées dans le génome de l'espèce _Bifidobacterium_

Regardons l'autre fichier.

In [35]:
%%bash
head GCA_000741095.1_Bifact_feature_table.txt

Couldn't find program: 'bash'


Ce fichier contient les emplacements dans le génome où on peut retrouver certains éléménts.

Une opération courante est de lire les tableaux contenant des informations rangées par colonnes.

Une façon simple de lire ces fichiers est montrée dans le script suivant.


In [36]:
line = "gene\tprotein_coding\tGCA_000741095.1\tPrimary Assembly\n"
line.strip().split("\t")

['gene', 'protein_coding', 'GCA_000741095.1', 'Primary Assembly']

In [37]:
line_count = 0
with open('GCA_000741095.1_Bifact_feature_table.txt') as file:
    for line in file:
        cells = line.strip().split("\t")
        print(cells[0])
        line_count += 1
        if line_count == 10:
            break

# feature
gene
CDS
gene
CDS
gene
CDS
gene
CDS
gene


Dans la première ligne nous déclarons un compteur (on veux pas imprimer toutes les lignes)
Ensuite nous itérons sur chaque ligne du fichier ``"GCA_000741095.1_Bifact_feature_table.txt"``
line étant un objet de type ``str`` nous permet d'utiliser ces méthodes, dans cet exemple nous utilisons ``strip()`` pour enlever les espaces et fin de lignes au deux extremités de la ligne et puis la function ``split`` avec le caractère tabulation comme paramètre, la fonction `split` nous permet de créer une liste des éléménts qui sont séparés par une tabulation dans la variable ligne.

La compréhension de listes peut également être utilisée pour parser des fichiers.
Par exemple si on voudrais créer une liste d'entiers avec les positions du début de chaque feature.

In [38]:
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    start_pos = [int(line.strip().split("\t")[7]) for line in file if not line.startswith("#")]

start_pos[1:5]

[1, 1378, 1378, 2490]

Un des avantages des comprehension de listes c'est que nous pouvons faire appele aux functions pour transformer les éléments de la liste. 
Dans l'example anterieur on applique le méthode magique int (mais ça pourrais être une autre function) pour transforme du type chaine de character à entier.



## Quelques exercices d'applications 


### Exercice 1
Imprimer la taille moyene des features (colonne end-start)

In [39]:
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    length = [int(line.strip().split("\t")[8]) - int(line.strip().split("\t")[7]) for line in file if not line.startswith("#")]
    moyenne = sum(length) / len(length)

moyenne

1034.8577460214356

### Exercice 2
Ecrire les deux premières colonnes `'feature'` et `'assembly'` dans un nouveau fichier nommé GCA_000741095.1_Bifact_feature_table.filtered.txt

In [22]:
fichier = open("GCA_000741095.1_Bifact_feature_table.filtered.txt", "w")
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    feature = [line.strip().split("\t")[0] for line in file if not line.startswith("#")]
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    assembly = [line.strip().split("\t")[2] for line in file if not line.startswith("#")]
    fichier.write("feature \t assembly\n")
    i = 0
    while i < len(feature) - 1:
        fichier.write("{} \t {}\n".format(feature[i], assembly[i]))
        i+=1
    

Nous pouvons utiliser la commande `head` pour voir que tout a marché.

In [17]:
%%bash
head GCA_000741095.1_Bifact_feature_table.filtered.txt

Couldn't find program: 'bash'


### Exercice 3
Ecrire les deux premières colonnes uniquement  quand la colonne feature est égale à 'CDS'  

In [24]:
fichier = open("GCA_000741095.1_Bifact_feature_table.filtered_ex3.txt", "w")
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    feature = [line.strip().split("\t")[0] for line in file if not line.startswith("#") and line.startswith("CDS")]
with open("GCA_000741095.1_Bifact_feature_table.txt") as file:
    assembly = [line.strip().split("\t")[1] for line in file if not line.startswith("#") and line.startswith("CDS")]
    fichier.write("feature \t class\n")
    i = 0
    while i < len(feature) - 1:
        fichier.write("{} \t {}\n".format(feature[i], assembly[i]))
        i+=1

Nous pouvons également utiliser la commande ``cut`` qui nous permet d'extraire des colonnes d'un fichier d'origine sans manipulation. 

**Tip**. Il existe d'autre commandes telles que ``awk`` qui nous permettent d'effectuer des manipulations plus complexes sur les fichiers.

In [None]:
%%bash
cut -f1,3 GCA_000741095.1_Bifact_feature_table.txt > GCA_000741095.1_Bifact_feature_table.filtered_cut.txt

Une autre opération qui est assez récurrente c'est la lecture des fichiers fastas.

Voici une implémentation très simple qui nous permet de lire jusqu'à 5 séquences d'ADN et les imprimer sur l'écran précédées par leur identifiant.

In [25]:
count_seq = 0
seq       = ""
seq_id    = ""
with open("GCA_000741095.1_Bifact_cds_from_genomic.fna") as fasta:
    while True:
        line  = fasta.readline()
        if not line:
            print(seq_id,seq)
            break
        if line[0] == ">":
            if seq != "":
                print(seq_id,seq)
            if count_seq == 5:
                break
            count_seq += 1
            seq_id  = line[1:].strip()
            seq = ""
        else:
            seq = "".join((seq, line.strip() ))

lcl|JGYK01000001.1_cds_KFI39626.1_1 [locus_tag=BACT_0326] [db_xref=GO:0000079,GO:0005515,GO,GO:0005829,GO,GO:0019221,GO,GO:0032020,GO,GO:0032480,GO,GO:0042296,GO,GO:0045087,GO,GO:0050688,GO] [protein=regulator of chromosome condensation RCC1] [protein_id=KFI39626.1] [location=complement(<1..594)] [gbkey=CDS] ATGGCCACGCTGACACCGCCAGCCCCACCAACCAACGTGCGCTTCACCCGAATCAGCGCAGGCGACAATCACAGCCTGGCCCTCGACTCGAACGGCAACACCTACGCCTGGGGACAGAACTACTACGGCAAGCTGGGCGACGGCACCACCATAACCCAGCGAAACCAGCCCGTACGCGTGCACGCGCCAGCCGGCGTGACCTTCACCCAAATCAGCGCAGGCTGGGGGCACAGCATGGCCATCGGATCGGACAACTACACCTATGCATGGGGTTACAACAATGAAGGCGAACTGGGCGACGGCACCCCCAACCTACGCAGCACGCCCGTGCGCGTGAGCACGCCAGCCGGCGTGCGCTTCACCCGAATCAGCGCAGGCTACTGGCACAGCCTGGCCATCGGCTCAGACGGCAACACCTACACATACGGCAGCGCTTACGCATGGGGAAATAACAGCGAAGGCGAGCTGGGCCATGGCACCGGCGGCAACCAACACACGCCCGCACCGGTGAGCACGCCCTCCAGTGGCAACCCCACGAACACCTGGAAAACCATCAGCGCAGGCAACAGTCACAGCCTGGCCCTCGACTCGGAC
lcl|JGYK01000001.1_cds_KFI39627.1_2 [locus_tag=BACT_0327] [protein=auxin efflux carrier family 

### Exercice 4
Ecrire un nouveau fichier fasta avec les séquences en minuscules et sans les trois premiers et ni les trois derniers nucléotides 

In [40]:
fasta_res = open("GCA_000741095.1_Bifact_cds_from_genomic_res.fna", "w")
count_seq = 0
seq       = ""
seq_id    = ""
with open("GCA_000741095.1_Bifact_cds_from_genomic.fna") as fasta:
    while True:
        line  = fasta.readline()
        if not line:
            fasta_res.write("{}\n{}".format(seq_id,seq))
            break
        if line[0] == ">":
            if seq != "":
                fasta_res.write("\n{}\n{}".format(seq_id,seq))
            count_seq += 1
            seq_id  = line[1:].strip()
            seq = ""
        else:
            seq = "".join((seq, line[3:len(line) - 4].strip().lower()))

### Exercice 5
Ecrivez un script pour écrire dans un fichier le pourcentage en GC du reverse complément des séquences d'un fichier fasta.

In [None]:
%%bash
count -f1,3 GCA_000741095.1_Bifact_feature_table.txt "GC"

### Exercice 6
Ecrivez un script pour créer un dictionaire qui contiendrait comme clés les identifiants des séquences et comme valeurs une liste contenant deux éléments: 
   1. le pourcentage de GC, 
   2. la longeur de la séquence. 
   
Ecrivez les résultats dans un fichier séparé par tabulation (tsv)