# Python pour biochimistes: comment travailler avec les chaines de caractères comme variables

## Introduction

Une chaîne de caractères est un ensemble de valeurs alphanumériques défini entre deux types de balises: soit des guillements simples ('x'), soit des guillements doubles ("x"). Une chaine de caractères peut ne contenir qu'un seul caractère; la limite manipulable dépend de la ménoire vive disponible pour la contenir (en théorie sur un système 64 bit, ça donne 263-1 caractères et ça occupe 9Tb de mémoire :-)).

Exemples:

In [None]:
x = "UdeM"
print(x)
# Juste pour montrer l'équivalence...
x = 'UdeM'
print(x)

UdeM
UdeM


## Manipulations fréquentes

On peut faire toute une variété d'opérations sur des chaines de caractères, un peu à la manière des valeurs numériques. Voici quelques exemples...

### Déterminer la longueur d'une chaine de caractéres

In [None]:
x = "UdeM"
print(len(x))
# Remarquez l'espace supplémentaire...
x = "UdeM "
# Ça change la longueur car l'espace EST un caractère...
print(len(x))

4
5


### Concaténer (== additioner) deux chaînes de caractères - Méthode 1

Il y a plus d'une façon de de concaténer des chaînes de caractères en Python ;-) La façon la plus simple est de simplement utiliser l'opérateur '+'! Ça fonctionne parce que les chaînes de caractères sont en fait des listes et que des listes peuvent s'additionner comme ça.

In [4]:
x = "UdeM"
y = "Dept de biochimie"
# Il y a toujours un retour de chariot
# implicite avec la fonction print()
print("Concaténation - Methode 1")
print("Essai 1:")
print(x+y)
# Un peu plus beau...
print("Essai 2 - On ajoute un espace:")
print(x+" "+y)
# Encore mieux...
# Remarquer le \n: un retour de chariot EST un caractère...
print("Essai 3 - On insère un retour de chariot:")
print(x+"\n"+y)

Concaténation - Methode 1
Essai 1:
UdeMDept de biochimie
Essai 2 - On ajoute un espace:
UdeM Dept de biochimie
Essai 3 - On insère un retour de chariot:
UdeM
Dept de biochimie


### Concaténer (== additioner) deux chaines de caractères - Méthode 2

Une autre façon est d'utiliser le nom des variables représentant les chaînes de caractères en utilisant l'opérateur 'f' et en mettant le texte désiré entre guillemets, en incluant les variables délimitées par des accolades ('{' et '}').

In [5]:
x = "UdeM"
y = "Dept de biochimie"
# Il y a toujours un retour de chariot
# implicite avec la fonction print()
print("Concaténation - Methode 2")
print("Essai 1:")
print(f"{x}{y}")
# Un peu plus beau...
print("Essai 2 - On ajoute un espace:")
print(f"{x} {y}")
# Encore mieux...
# Remarquer le \n: un retour de chariot EST un caractère...
print("Essai 3 - On insère un retour de chariot:")
print(f"{x}\n{y}")

Concaténation - Methode 2
Essai 1:
UdeMDept de biochimie
Essai 2 - On ajoute un espace:
UdeM Dept de biochimie
Essai 3 - On insère un retour de chariot:
UdeM
Dept de biochimie


### Extraire les infos d'une chaine de caractères pour traitement - Méthode par séparateurs

Cette opération est fréquemment mise en pratique en sciences: par exemple, lire un fichier de données tabulées, séparées par espace | tabulation | virgule ou point-virgule dans un tableau

In [1]:
# J'utilise un ; comme caractère délimitant
x = "UdeM;Dept de biochimie;Montreal"
print("Ligne à séparer: "+x)
# La méthode split() fonctionne sur une chaine de caracteres
arr = x.split(";")
print(arr)
# Remarquer la nature de arr...
# Assignation de type(arr) comme une chaine de caracteres
print ("Type de la variable arr :"+str(type(arr)))

Ligne à séparer: UdeM;Dept de biochimie;Montreal
['UdeM', 'Dept de biochimie', 'Montreal']
Type de la variable arr :<class 'list'>


### Extraire les infos d'une chaine de caractères pour traitement - Méthode par position

On peut délimiter une portion d'une chaine de caractères en spécifiant le point de départ et la longueur à partir de ce point. Attention! Comme tout bon language de programmation, la position d'un item dans une chaine de caractères comment à 0 (zéro) et non 1...  

In [9]:
x = "UdeM;Dept de biochimie;Montreal"
print(x)
# On veut avoir les 4 premiers caractères de x
y = x[0:4]
print(y)
# On veut avoir le mot Montreal, qui se trouve à l'indice 23
# L'absence d'infos après le caractère ':' indique que l'on veut tout 
# le texte jusqu'à la fin
z = x[23:]
print(z)

# Imaginons une chaine de caractères scientifique
z = "ACCTTGCAACGTTGCATCGCATTAGATTC"

# Je veux cette sous-sequence: CTTGC
b = z[2:7]
print(b)

UdeM;Dept de biochimie;Montreal
UdeM
Montreal
CTTGC


### Remplacer des caractères

Simplement utiliser la méthode `replace()` sur la chaine de caractères. Noter que toutes les occurences de la sous-chaine recherchée seront remplacées par la sous-chaine de remplacement.

In [None]:
x = "UdeM;Dept de biochimie;Montreal"
print("Avant: "+x)
y = x.replace("UdeM","UQAM")
print("Après: "+y)

z = "UQAM;Dept de biochimie;Montreal;UQAM"
print("Avant: "+z)
a = z.replace("UQAM","UdeM")
print("Après: "+a)

Avant: UdeM;Dept de biochimie;Montreal
Après: UQAM;Dept de biochimie;Montreal
Avant: UQAM;Dept de biochimie;Montreal;UQAM
Après: UdeM;Dept de biochimie;Montreal;UdeM


### Rechercher une sous-chaîne - Méthode find

Il y a deux façons de faire des recherches de sous-chaînes de caractéres en Python: via la méthode `find()` qui recherchera rextuellement la sous-chaîne dans le plus grande ou bien via la méthode `regex()` du module `re` qui recherchera des possibilités de patrons via une expression régulière. Commençons avec `find()` ;-)

Qunad un patron est retrouvé, la valeur retournée est la position du début de l'occurence, en comptant à partir de 0 (zéro).

In [3]:
# Soit la chaine de caractère suivante
a = "HOH OHO;J4T T5D;V6Y 8J9"
# Utilisation de la méthode find()
print(a.find("HOH"))
# Amusons-nous avec les espaces...
print(a.find("OHO"))
# L'espace compte dans le décompte de la position.
print(a.find(" OHO"))
# Valeur si la sous-chaine n'est pas trouvée...
print(a.find(":"))

0
4
3
-1


### Rechercher une sous-chaîne - Méthode regex

Il y a deux façons de faire des recherches de sous-chaînes de caractéres en Python: via la méthode find() qui recherchera rextuellement la sous-chaîne dans le plus grande ou bien via la méthode regex() du module re qui recherchera des possibilités de patrons via une expression régulière.

Trés (trop?) souvent, une recherche de sous-chaine n'est pas aussi simple... Un exemple: comment valider un code postal canadien? En biologie moléculaire, comment recherche des sites de coupure sur une molécule d'ADN pour un enzyme de restriction ayant une séquence de reconnaissance avec une dégénérescence? On doit alors utiliser une recherche par expression régulière! De qu'est-ce que c'est, une epxression régulière? Une expression régulière est une chaine de caractère écrite de telle manière (en utilisant une syntaxe) qu'elle représente plusieurs possibilités de recherche. Le sujet est vaste et la syntaxe à utiliser est complexe mais un avant-goût se trouve ici.

En utilisant l'exemple des code postaux, une chaine de caractères décrivant potentiellement TOUS les codes possibles est: 

`^[A-Z]\d[A-Z] \d[A-Z]\d`

Qu'est-ce que ça veux dire?

- Les caractères ^ et $ spécifient que la chaine à trouver doit se trouver en un seul bloc distinct et non pas "noyer" dans une plus grande chaine.
- Le bloc [A-Z] veut dire toute les letrtes de A à Z en majuscules.
- Le bloc "\d" veut dire n'importe quel nombre de 0 à 9.

Pour l'exemple qui suivra dans le code Python, j'utiliserai le site de coupure pour l'enzyme AvaI: GGWCC. Évidemment, où est notre problème? La lettre W n'est pas un seul nucléotide mais plutôt le code IUPAC pour un choix entre A ou T. Comment écrire notre expression régulière? La chaine suivante décrit le site en question: GG[AT]CC; alors comment faire notre recherche?

BTW, ceci est une introduction toute simple; plusieurs possiblités de traitement sont possibles.

In [7]:
# Notre moteur de recherche
import re

# Notre site de restriction
ava1 = "GG[AT]CC"
# Des sites sont présents dans cette sequence?
aSeq1 = "ACCTATTCGGACCTACGTACGGTCCAGCACCTATTCGGACCTACGTACGGTCCAGC"
print(f"==> Sequence: {aSeq1}")
# On crée un objet pour faire la recherche
# Juste en cas, on décide de ne pas se préoccuper de la casse...
eng = re.compile(ava1, re.IGNORECASE)

# plusieurs actions sont possibles maintenant
# Voir https://docs.python.org/3/howto/regex.html
rez = eng.findall(aSeq1)
print("==> Liste de tous les motifs trouvés dans la séquence:")
print(rez)
iter = eng.finditer(aSeq1)
print("==> Pour chaque motif trouvé, quelle est sa position?")
for i in iter:
    pos = i.start() + 1 # Pourquoi le +1?
    print(i.group()+" : "+str(pos))

==> Sequence: ACCTATTCGGACCTACGTACGGTCCAGCACCTATTCGGACCTACGTACGGTCCAGC
==> Liste de tous les motifs trouvés dans la séquence:
['GGACC', 'GGTCC', 'GGACC', 'GGTCC']
==> Pour chaque motif trouvé, quelle est sa position?
GGACC : 9
GGTCC : 21
GGACC : 37
GGTCC : 49
