# Mots anglais dans le protéome humain

L'objectif de ce premier projet est de découvrir si des mots anglais peuvent se retrouver dans les séquences du protéome humain, c'est-à-dire dans les séquences de l'ensemble des protéines humaines.
Composition aminée

Dans un premier temps, composez 5 mots anglais avec les 20 acides aminés.

## Des mots

Téléchargez le fichier [english-common-words.txt](https://python.sdv.univ-paris-diderot.fr/data-files/english-common-words.txt). Ce fichier contient les 3000 mots anglais les plus fréquents, à raison d'1 mot par ligne.

Dans ce notebook, écrivez la fonction `read_words()` qui va lire les mots contenus dans le fichier dont le nom est fourni en argument du script et renvoyer une liste contenant les mots convertis en majuscule et composés de 3 caractères ou plus.

Dans le programme principal, affichez le nombre de mots sélectionnés.



In [None]:
def read_words(file_path):
    with open(file_path, 'r') as file:
        words =  file.readlines()
        return [word.upper().replace('\n', '') for word in words if len(word) > 3] # supérieur strict à 3 à cause des \n

In [None]:
file_path = 'english-common-words.txt'

words = read_words(file_path)

f"{len(words)=}"


## Des protéines

Téléchargez maintenant le fichier [human-proteome.fasta](https://python.sdv.univ-paris-diderot.fr/data-files/human-proteome.fasta). Attention, ce fichier est assez gros. Ce fichier provient de la banque de données UniProt à partir de cette page.

*NB : Le code dans la cellule ci-dessous télécharge directement le fichier dans le même dossier que ce notebook, si vous êtes sur GNU/Linux ou MacOS, et si wget est installé)*

Toujours dans ce notebook, écrivez la fonction `read_sequences()` qui va lire le protéome dans le fichier dont le nom est fourni en second argument du script. Cette fonction va renvoyer un dictionnaire dont les clefs sont les identifiants des protéines (par exemple, O95139, O75438, Q8N4C6) et dont les valeurs associées sont les séquences.

Dans le programme principal, affichez le nombre de séquences lues. À des fins de test, affichez également la séquence associée à la protéine O95139.

In [None]:
def read_sequences(file_path):
    with open(file_path) as file:
        lines = file.readlines()
        identifiants = []
        seq = ''
        sequences = []
        for line in lines:
            if line.startswith('>sp|'):
                if seq:
                    sequences.append(seq)
                identifiants.append(line[4:10])
                seq = ''
            else:
                seq += line.replace('\n', '')
        sequences.append(seq) # ajout de la dernière séquence du fichier
        return dict(zip(identifiants, sequences))
     
        
            

In [None]:
proteome_path = "human-proteome.fasta"
sequences = read_sequences(proteome_path)

In [None]:
len(sequences)

In [None]:
sequences.get('O95139')

## À la pêche aux mots

Écrivez maintenant la fonction `search_words_in_proteome()` qui prend en argument la liste de mots et le dictionnaire contenant les séquences des protéines et qui va compter le nombre de séquences dans lesquelles un mot est présent. Cette fonction renverra un dictionnaire dont les clefs sont les mots et les valeurs le nombre de séquences qui contiennent ces mots. La fonction affichera également le message suivant pour les mots trouvés dans le protéome :

```
ACCESS found in 1 sequences
ACID found in 38 sequences
ACT found in 805 sequences
[...]
```


In [None]:
def search_words_in_proteome(words, sequences):
    print('Exécution longue, patientez au moins 20s…')
    result_dict = {}
    
    for word in words:
        #print(f"Looking at {word}…")
        for seq in sequences.values():
            if word in seq:
                result_dict[word] = result_dict.get(word, 0) + 1
    
    
    for word, num in result_dict.items():    
        print(f"{word} found in {num} sequences")
    
    return result_dict

In [None]:
rd = search_words_in_proteome(words, sequences)
# l'exécution peut dépasser 20s, patienter

## Et le mot le plus fréquent est...

Pour terminer, écrivez maintenant la fonction `find_most_frequent_word()` qui prend en argument le dictionnaire renvoyé par la précédente fonction `search_words_in_proteome()` et qui affiche le mot trouvé dans le plus de protéines, ainsi que le nombre de séquences dans lesquelles il a été trouvé, sous la forme :

`=> xxx found in yyy sequences`

In [None]:
def find_most_frequent_word(rd):
    # on cherche à identifier une clé en particulier, celle dont la valeur est la plus grande.
    # l'astuce consiste à identifier cette valeur max
    # créer un nouveau dico dont les clés et valeurs sont l’inversion des clés et valeurs du premier
    # aller chercher dans ce dico inversé à quelle clé correspondant notre grande valeur
    
    # on cherche la valeur la plus grande dans les valeurs du dico
    max_value = max(rd.values())
    # on crée un dico inversé à partir du précédent
    inv_dict = {v:k for k,v in rd.items()} 
    
    # dans le dico inversé on se sert de la grande valeur comme clé pour trouver le mot 
    res = inv_dict.get(max_value)
    return f"{res} found in {max_value} sequences"

In [None]:
find_most_frequent_word(rd)

## Pour être plus complet

Jusqu'à présent, nous avions déterminé, pour chaque mot, le nombre de séquences dans lesquelles il apparaissait. Nous pourrions aller plus loin et calculer aussi le nombre de fois que chaque mot apparaît dans les séquences.

Pour cela modifier ci-dessous la fonction `search_words_in_proteome()` de façon à compter le nombre d’occurrences d'un mot dans les séquences. La méthode  `.count()` vous sera utile.

Déterminez alors quel mot est le plus fréquent dans le protéome humain.

In [None]:
def search_words_in_proteome(words, sequences):
    print('Exécution longue, patientez au moins 20s…')
    result_dict = {}
    
    for word in words:
        #print(f"Looking at {word}…")
        for seq in sequences.values():
            if word in seq:
                result_dict[word] = result_dict.get(word, 0) + seq.count(word)
    
    
    for word, num in result_dict.items():    
        print(f"{word} found {num} times in sequences")
    
    return result_dict

In [None]:
rd = search_words_in_proteome(words, sequences)

In [None]:
def find_most_frequent_word(rd):
    max_value = max(rd.values())
    inv_dict = {v:k for k,v in rd.items()}
    res = inv_dict.get(max_value)
    return f"{res} found {max_value} times"

In [None]:
find_most_frequent_word(rd)