# Notebook séance 8

Les [dictionnaires](https://python.sdv.univ-paris-diderot.fr/13_dictionnaires_tuples_sets/) en Python.


Jusqu'alors nous avons utilisé des listes pour stocker des valeurs, on aussi évoqué les tuples. Il existe d'autres **structures de données** permettant de stocker des valeurs (plus largement des données).

Vous entendrez plus tard parler d'arbres ou de graphes ou de piles ou encore de files ou de tables de hachage, qui sont d'autres structures de données.

Aujourd'hui on s'intéresse aux **dictionnaires**.

Les dictionnaires sont une structure de données qui permet d'associer une donnée à une autre. Plus précisément une *clé* à une *valeur*.

Par exemple, associer un nom à un numéro de téléphone pour modéliser un annuaire.

Pour reprendre l'exemple du cours modélisant des animaux, on pourra vouloir modéliser un animal par son espèce, le poids moyen observé, la taille moyenne observée.

Au lieu de faire une liste `['girafe', 5.0, 1100]` qui, en plus de mixer les types dans une même liste, qu'il faut éviter, a le désavantage de ne pas savoir à quoi correspond chaque valeur. Que veut dire 1100 ?

Avec un dictionnaire, on pourra procéder ainsi :

In [1]:
animal = {'nom': 'girafe', 'taille': 5.0, 'poids': 1100}

On remarquera les accolades pour la définition d'un dictionnaire, les associations clé / valeur réalisées avec le `:`. 

In [2]:
animal['nom']

'girafe'

In [3]:
animal['taille']

5.0

In [4]:
animal['poids']

1100

Pour définir un autre animal, on gardera les mêmes noms pour les clés.

In [5]:
autre = {'nom': 'singe', 'poids': 70, 'taille': 1.75}

On peut construire une liste des mes animaux :

In [6]:
zoo = [ animal, autre ]

Et on pourra alors faire un affichage des animaux de mon zoo :

In [7]:
print("Les animaux de mon zoo :")
for animal in zoo:
    print("  - {} (poids moyen : {}, taille moyenne : {})".format(animal['nom'],animal['poids'],animal['taille']))

Les animaux de mon zoo :
  - girafe (poids moyen : 1100, taille moyenne : 5.0)
  - singe (poids moyen : 70, taille moyenne : 1.75)


On peut aussi lister les éléments d'un dictionnaire sans connaître le nom des clés :

In [8]:
for cle in animal:
    print("{} : {}".format(cle,animal[cle]))

nom : singe
poids : 70
taille : 1.75


In [9]:
print(animal)

{'nom': 'singe', 'poids': 70, 'taille': 1.75}


D'autres méthodes sont aussi disponibles :

In [10]:
animal.keys()

dict_keys(['nom', 'poids', 'taille'])

In [11]:
animal.values()

dict_values(['singe', 70, 1.75])

In [12]:
animal.items()

dict_items([('nom', 'singe'), ('poids', 70), ('taille', 1.75)])

In [13]:
for cle,valeur in animal.items():
    print("{} : {}".format(cle,valeur))

nom : singe
poids : 70
taille : 1.75


## Retour sur les fréquences d'acides aminés des protéines 

In [14]:
AA_ALPHABET = ['A', 'R', 'N', 'D', 'C', 'Q', 'E', 'G', 'H', 'I', 'L', 'K', 'M', 'F', 'P', 'S', 'T', 'W', 'Y', 'V', 'X', 'Z', 'J', 'U']

In [15]:
def number_of_aa(aa, protein):
    cpt = 0
    for a in protein:
        if a == aa:
            cpt += 1
    return cpt

In [16]:
def aa_frequency(protein):
    """
    Returns
    -------
    dict
        Un dictionnaire qui associe à chaque acide aminé sa fréquence dans la protéine donnée en paramètre.
    """
    freq = {}
    l = len(protein)
    for aa in AA_ALPHABET:
        freq[aa] = number_of_aa(aa,protein) / l
    return freq

In [17]:
p = 'NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS'
aa_frequency(p)

{'A': 0.037037037037037035,
 'R': 0.1111111111111111,
 'N': 0.018518518518518517,
 'D': 0.09259259259259259,
 'C': 0.0,
 'Q': 0.018518518518518517,
 'E': 0.09259259259259259,
 'G': 0.09259259259259259,
 'H': 0.018518518518518517,
 'I': 0.018518518518518517,
 'L': 0.2037037037037037,
 'K': 0.018518518518518517,
 'M': 0.0,
 'F': 0.018518518518518517,
 'P': 0.07407407407407407,
 'S': 0.05555555555555555,
 'T': 0.037037037037037035,
 'W': 0.018518518518518517,
 'Y': 0.018518518518518517,
 'V': 0.05555555555555555,
 'X': 0.0,
 'Z': 0.0,
 'J': 0.0,
 'U': 0.0}

In [18]:
import numpy as np

def most_frequent_aa (protein):
    m_f_aa = None
    f = -np.inf
    for aa, freq in aa_frequency(protein).items():
        if freq >= f:
            f = freq
            m_f_aa = aa
    return m_f_aa

In [19]:
p = 'NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS'
print(most_frequent_aa(p))

L


## Exercices

### Mots de 2 et 3 lettres dans une séquence d'ADN

[Enoncé dans le cours](https://python.sdv.univ-paris-diderot.fr/13_dictionnaires_tuples_sets/#1362-mots-de-2-et-3-lettres-dans-une-sequence-dadn)

In [20]:
def compte_mots_2_lettres(seq):
    """
    Renvoie tous les mots de 2 lettres qui existent dans la séquence 
    sous la forme d'un dictionnaire.
    """
    all_mots = dict()
    for i in range(len(seq)-1):
        mot = seq[i:i+2]
        if mot not in all_mots:
            all_mots[mot] = 1
        else:
            all_mots[mot] += 1
    return all_mots

def compte_mots_3_lettres(seq):
    """
    Renvoie tous les mots de 3 lettres qui existent dans la séquence 
    sous la forme d'un dictionnaire.
    """
    all_mots = dict()
    for i in range(len(seq)-2):
        mot = seq[i:i+3]
        if mot not in all_mots:
            all_mots[mot] = 1
        else:
            all_mots[mot] += 1
    return all_mots

In [21]:
compte_mots_2_lettres('ABCDEFGAB')

{'AB': 2, 'BC': 1, 'CD': 1, 'DE': 1, 'EF': 1, 'FG': 1, 'GA': 1}

In [22]:
compte_mots_3_lettres('ABCDEFGABC')

{'ABC': 2, 'BCD': 1, 'CDE': 1, 'DEF': 1, 'EFG': 1, 'FGA': 1, 'GAB': 1}

### Mots de 2 et 3 lettres dans un fichier FASTA

Combinez la fonction de l'exercice précédent avec celle de lecture d'un fichier au format FASTA pour écrire un script permettant d'afficher la fréquence des mots de 3 lettres dans une séquence contenue dans un fichier FASTA passé en argument sur la ligne de commande. Le script affichera également à la fin le nombre de mots de 3 lettres présents.

In [23]:
def lire_fasta(file):
    assert '.fasta' in file, "fichier fasta stp !"
    with open(file,'r') as fileIn:
        return ''.join(fileIn.read().split('\n')[1:])

In [24]:
compte_mots_3_lettres(lire_fasta('trucc.fasta'))

{'ACC': 1,
 'CCT': 2,
 'CTA': 5,
 'TAG': 7,
 'AGC': 5,
 'GCC': 2,
 'CCA': 1,
 'CAT': 1,
 'ATG': 1,
 'TGT': 1,
 'GTA': 1,
 'AGA': 1,
 'GAA': 1,
 'AAT': 1,
 'ATC': 1,
 'TCG': 1,
 'CGC': 1,
 'AGG': 1,
 'GGC': 1,
 'GCT': 5,
 'CTT': 1,
 'TTT': 1,
 'TTA': 1,
 'CTC': 1,
 'TCT': 1,
 'CTG': 1}

### $k$-mer

Ce qu'on a calculé ci-dessus c'est la fréquence des 3-mers. On appelle $k$-mer un mot de $k$ lettres dans une séquence.
$k$ étant fixé, combien existe-t-il de $k$-mers possibles ? Combien peut-on au maximum en trouver dans une séquence de longueur $l$ ?

Modifiez le script écrit avant pour qu'il prenne en argument la taille $k$ de la fréquence des mots recherchés. 

Utilisez ce script pour trouver la valeur de $k$ la plus petite telle que le nombre de $k$-mers dans la séquence NM_000059 est inférieur au nombre possible de $k$-mers.

Pour une séquence de longueur $l$ et $k$ fixé, il existe $4^k$ $k$-mer possibles, avec un maximum de $l-(k-1)$ $k$-mer trouvables

In [25]:
def compte_mots_k_lettres(file,k):
    """
    Renvoie tous les mots de k lettres qui existent dans la séquence contenue 
    dans le fichier filesous la forme d'un dictionnaire.
    """
    seq = lire_fasta(file)
    assert type(k) == int and 1 <= k <= len(seq), 'attention à k'
    all_mots = dict()
    for i in range(len(seq)-(k-1)):
        mot = seq[i:i+k]
        if mot not in all_mots:
            all_mots[mot] = 1
        else:
            all_mots[mot] += 1
    return all_mots

In [26]:
compte_mots_k_lettres('trucc.fasta',3)

{'ACC': 1,
 'CCT': 2,
 'CTA': 5,
 'TAG': 7,
 'AGC': 5,
 'GCC': 2,
 'CCA': 1,
 'CAT': 1,
 'ATG': 1,
 'TGT': 1,
 'GTA': 1,
 'AGA': 1,
 'GAA': 1,
 'AAT': 1,
 'ATC': 1,
 'TCG': 1,
 'CGC': 1,
 'AGG': 1,
 'GGC': 1,
 'GCT': 5,
 'CTT': 1,
 'TTT': 1,
 'TTA': 1,
 'CTC': 1,
 'TCT': 1,
 'CTG': 1}

In [27]:
k = 2
while len(compte_mots_k_lettres('NM_000059.fasta',k)) == 4**k:
    k += 1
k

5

In [28]:
d={"a":1}
len(d.keys())
len(d)

1

### Extraire les coordonnées des gènes à partir d'un fichier Genbank

Dans une séquence stockée au format GenBank, les gènes sont donnés par les lignes du type :
```txt
     gene            266..21555
```
débutant par le mot-clé `gene` et suivi par un couple de positions, séparé par `..`.

#### Q1.

Ecrire une fonction `genbank2gene` qui étant donné un fichier au format GenBank retourne la liste de couples de positions de l'ensemble des gènes. 
Typiquement :
```cython
>>> genbank2gene("sars-cov-2.gb")
[ (266, 21555), (21563, 25384), (25393, 26220), (26245, 26472), (26523, 27191), (27202, 27387), (27394, 27759), (27756, 27887), (27894, 28259), (28274, 29533), (29558, 29674) ]
```
Il pourrait être utile de se créer une fonction qui étant donné une ligne (une chaîne de caractères) de type `gene` d'un fichier GenBank et retrurne le couple de positions.
```cython
>>> get_positions("     gene            266..21555")
(266, 21555)
```

On pourra tester sur le gène [BRCA2](https://www.ncbi.nlm.nih.gov/nuccore/NM_000059.3) qui ne contient bien sûr qu'un seul gène puis sur le génome du [SARS-CoV-2](https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2) 

In [29]:
def get_positions(s):
    if ' gene ' not in s:
        return False
    else:
        split = s.split(' ')
        while '' in split:
            split.remove('')
        split2 = split[-1].split('..')
        return (int(split2[0]),int(split2[1]))

def genbank2gene(file):
    assert '.gb' in file, "format GenBank !"
    with open(file, 'r') as fileIn:
        l = fileIn.read().split('\n')
    res = []
    for s in l:
        posi = get_positions(s)
        if posi != False:
            res.append((posi[0],posi[1]))
    return res
        

In [30]:
print(genbank2gene("sars-cov-2.gb"))

[(266, 21555), (21563, 25384), (25393, 26220), (26245, 26472), (26523, 27191), (27202, 27387), (27394, 27759), (27756, 27887), (27894, 28259), (28274, 29533), (29558, 29674)]


#### Q2. 

On remarque que sous la *feature* `gene` on trouve une annotation donnant le nom du gène :
```
     gene            266..21555
                     /gene="ORF1ab"
```

Modifiez votre fonction pour qu'elle retourne un dictionnaire qui associe à chaque nom de gène ses positions sur la séquence (on supposera qu'il n'y a pas deux gènes de même nom dans une séquence). 
Typiquement :
```cython
>>> genbank2gene("sars-cov-2.gb")
{ 'ORF1ab': (190,255), 'S': (21563, 25384), ... }
```
Là aussi créer une fonction utilitaire qui transforme une chaîne de caractères de type `/gene` pourrait s'avérer utile.

In [51]:
def get_name(s):
    if ' /gene=' not in s:
        return False
    else:
        split = s.split('=')
        return split[1][1:-1]
    
def genbank2gene(file):
    assert '.gb' in file, "format GenBank !"
    with open(file, 'r') as fileIn:
        l = fileIn.read().split('\n')
    res = dict()
    for i in range(len(l)-1):
        posi = get_positions(l[i])
        name = get_name(l[i+1])
        if posi != False:
            res[name]=(posi[0],posi[1])
    return res

In [52]:
genbank2gene("sars-cov-2.gb")

['266', '21555']
['21563', '25384']
['25393', '26220']
['26245', '26472']
['26523', '27191']
['27202', '27387']
['27394', '27759']
['27756', '27887']
['27894', '28259']
['28274', '29533']
['29558', '29674']


{'ORF1ab': (266, 21555),
 'S': (21563, 25384),
 'ORF3a': (25393, 26220),
 'E': (26245, 26472),
 'M': (26523, 27191),
 'ORF6': (27202, 27387),
 'ORF7a': (27394, 27759),
 'ORF7b': (27756, 27887),
 'ORF8': (27894, 28259),
 'N': (28274, 29533),
 'ORF10': (29558, 29674)}

#### Q3. 

En fait l'annotation `gene` est un peu plus complexe. Un gène peut être positionné sur le brin négatif. Dans ce cas l'annotation a cette forme :
```
     gene            complement(3575721..3577061)
```
et parfois un gène peut être découpé en exons :
```
     gene            join(3583038..3583427,3584205..3584309)
```

Modifiez votre fonction pour qu'elle prenne en compte les gènes sur le brin négatif. Le couple déterminant les positions d'une gène dans le dictionnaire sera alors constitué des deux positions dans l'ordre inverse (la plus grande avant la plus petite, afin de se souvenir qu'on est sur le brin négatif).

Par exemple pour
```
     gene            complement(3575721..3577061)
```
on obtiendra le couple
```
(3577061, 3575721)
```

Testez sur le génome complet d'[E.Coli](https://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3)

In [59]:
def get_positions(s):
    if ' gene ' not in s:
        return False
    else:    
        split = s.split(' ')
        while '' in split:
            split.remove('')
        split2 = split[-1].split('..')
        print(type(split2))
        i = 0
        for j in split2:
            if 'complement(' in j:
                split2[i][0] = split2[i][0][12:]
            i += 1
        print(split2)
        if ' complement(' in s:
            return (int(split2[1][:-1]),int(split2[0][11:]))
        elif ' join(' in s:
            return [(int(split2[z][0]),int(split2[z][1])) for z in range(len(split2))]
        else:
            return (int(split2[0]),int(split2[1]))

def genbank2gene(file):
    assert '.gb' in file, "format GenBank !"
    with open(file, 'r') as fileIn:
        l = fileIn.read().split('\n')
    res = dict()
    for i in range(len(l)-1):
        posi = get_positions(l[i])
        name = get_name(l[i+1])
        if posi != False:
            res[name]=(posi[0],posi[1])
    return res



In [60]:
genbank2gene('E_Coli.gb')

<class 'list'>
['190', '255']
<class 'list'>
['337', '2799']
<class 'list'>
['2801', '3733']
<class 'list'>
['3734', '5020']
<class 'list'>
['5234', '5530']
<class 'list'>
['complement(5683', '6459)']
<class 'list'>
['complement(6529', '7959)']
<class 'list'>
['8238', '9191']
<class 'list'>
['9306', '9893']
<class 'list'>
['complement(9928', '10494)']
<class 'list'>
['complement(10643', '11356)']
<class 'list'>
['10830', '11315']
<class 'list'>
['complement(11382', '11786)']
<class 'list'>
['12163', '14079']
<class 'list'>
['14168', '15298']
<class 'list'>
['15445', '16557']
<class 'list'>
['complement(16751', '16960)']
<class 'list'>
['complement(16751', '16903)']
<class 'list'>
['16952', '17006']
<class 'list'>
['17489', '18655']
<class 'list'>
['18715', '19620']
<class 'list'>
['complement(19811', '20314)']
<class 'list'>
['complement(20233', '20508)']
<class 'list'>
['complement(20815', '21078)']
<class 'list'>
['21181', '21399']
<class 'list'>
['21407', '22348']
<class 'list'>
['2

ValueError: invalid literal for int() with base 10: 'j'

#### Q4.

Proposez une manière de stocker les gènes multiexoniques. Modifiez votre fonction pour les prendre en compte.