# Python

**INF4500 - Bioinformatique**



[Mathieu Lemieux](mailto:lemieux.mathieu@courrier.uqam.ca) @ Université du Québec à Montréal (Automne 2020)

# Travailler avec des chaînes de caractères

### Fonction *len()*

In [None]:
chaine = 'ahsodhaklshdklahsdkj'
print(len(chaine))

## 1. Index & tranches (*slicing*)

En Python, les chaînes sont des tableaux (arrays) de caractères unicode. Un simple caractère est en fait un tableau de longueur 1. Conséquemment, à chaque caractère correspond un index.

Forme générale: **chaine[index]**

In [None]:
chaine = 'Bioinformatique'
print(len(chaine))
# Accéder à un caractère selon sa position.
print('1.', chaine[0]) # Index commence à 0.
print('2.', chaine[len(chaine)-1]) # Conséquemment, la position du dernier caratère correspond à la taille de la chaine -1.
print('3.', chaine[-1           ]) # Les caractères sont aussi indexés à partir de la droite comme suit: -1, -2, -3, ...
print('4.', chaine[-len(chaine) ]) # Conséquemment, la position du premier caratère correspond à la taille de la chaine, fois -1
# print('x.', chaine[99           ]) # Attention, un index hors champ génère une erreur...

print('-'*50)

# Accéder à une 'tranche' de caractères
x, y = 0, 7
print('5.', chaine[x:y          ]) # Tranche allant de la position x à y-1, inclusivement.
print('6.', chaine[0:len(chaine)]) # Conséquemment, pour la chaîne entière...
print('7.', chaine[ :           ]) # Ou plus simplement, de
print('8.', chaine[ :99         ]) # Contrairement à l'index, une tranche peut être hors champ sans générer d'erreur...


## 2. Itération sur une chaîne

In [None]:
chaine = 'Bioinformatique'

for caractere in chaine: print(caractere)

## 3. Concaténation
### Surcharge des opérateurs + et *

In [None]:
# Avec '+' on peut joindre ensemble deux chaînes. On doit insérer ses propres espaces au besoin.
prenom     = 'John'
nom        = 'Doe'
nomComplet = prenom + ' ' + nom + ' est un personnage bien mystérieux!'
print(nomComplet)

# Avec '*' on 'multiplie' une série de caractères
print('Beep!'*3)

### Méthode join()

In [None]:
lst = ['a', 'b', 'c']
sep = ' et '

msg = sep.join(lst) # 'join() est une méthode de l'objet 'string', ici la variable 'sep'.
print(msg)

# Sur une ligne...
print( ' et '.join(['a', 'b', 'c']) )


# Joining together elements of an iterable object
nom2    = 'a'
prenom2 = 'cde'
message = nom2.join(prenom2)
print(message)

### Fonction print()

In [None]:
# On a normalement déjà vu la fonction print() ensemble
# la fonction print() accepte un nombre indéfni d'arguments...

# Par défaut, un espace est inséré entre chaque chaînes
print('Ceci', 'est', 'une', 'concaténation.')       # Espace

# le paramètre 'sep' permet de spécifier le séparasteur
print('hors', 'piste', sep='-')                      # Trait d'union
print('anti', 'constitutition', 'nellement', sep='') # Pas de séparateur...

## 4. Formattage et Interpolation (*String formating*)

Voir la documentation officielle [ici](https://docs.python.org/3/tutorial/inputoutput.html#fancier-output-formatting)

### Méthodes *upper()*, *lower()*, *capitalize()*

In [None]:
chaine1 = 'Bioinformatique'
chaine2 = 'abc'

print( chaine1.upper() )
print( chaine1.lower() )
print( chaine2.capitalize() )

print( chaine1.upper() )

### Méthode *format()*

Plus d'exemples dans [cet article](https://pyformat.info/).

In [None]:
prenom      = 'Ava'
nom         = 'Lovelace'
titreEmploi = 'programmeuse'


# 1. L'ordre d'insertion suit l'index de façon implicite.
msg = 'Mon nom est {} {}, je suis {}'.format(prenom, nom.upper(), titreEmploi)
print('1.', msg)

# 2. Même exemple, déconstruit
chaine    = 'Mon nom est {} {}, je suis {}'
variables = (prenom, nom.upper(), titreEmploi)
msg       = chaine.format(*variables) # '*' permet la séparation (unpacking) d'une série (tuple/list/string)
print('2.', msg)

# 3. En utilisant explicitement les indexes, on peut changer l'ordre et/ou réutiliser une variable
msg = 'Mon nom est {0} {1}, je suis {2}. Appelez-moi {0}!'.format(prenom, nom.upper(), titreEmploi)
print('3.', msg)

# 4. Si l'on veut utiliser des noms de variable... on doit faire les affectations
msg = 'Mon nom est {prenomx} {nom}, je suis {titreEmploi}'.format(prenom=prenom, nom=nom.upper(), titreEmploi=titreEmploi)
print('4.', msg)

# 5. Regarder ce que l'on peut faire avec un dictionnaire!
personne = {'prenom':'Guido', 'nom':'van Rossum', 'titreEmploi':'programmeur', 'hobby':'éleveur de serpent'}
msg      = 'Mon nom est {prenom} {nom}, je suis {titreEmploi}'.format(**personne) # '**' spéare un dictionnaire (clé/valeur)
print('5.', msg)


print('-'*50)
# 6. Pour info, voici la vieille formulation avant 'format()', dépréciée...
msg = 'Mon nom est %s %s, je suis %s' % (prenom, nom.upper(), titreEmploi)
print('6.', msg)

### Expressions formatées littérales (*Formatted String Literals* OU *f-string*)
À partir de Python 3.6 on peut utiliser la forme suivante: un ***f*** ou ***F*** devant la chaîne et des ***{ }*** pour l'interpolation de variables ou d'expressions.

In [None]:
prenom      = 'Ava'
nom         = 'Lovelace'
titreEmploi = 'programmeuse'

msg = f"Mon nom est {prenom} {nom.upper()}, je suis {titreEmploi}, j'ai écrit mon 1er programme il y a {2020-1842} ans."
print(msg)

## 5. Recherche de motifs avec les <u>Expressions régulières</u> (regex)

Les expressions régulières permettent de rechercher un motif dans une chaîne. Documentation officielle [ici](https://docs.python.org/3/howto/regex.html).

Nécessite l'importation du module standard ***re***.

On prendra le temps au cours de la session pour y revenir.

In [None]:
# Un court exemple.

import re

chaine = "Le ciel bleu"
motif  = "^Le.*bleu$"

if re.search(motif, chaine): print("Trouvé!")