# 3LTA710T - Programmation et algorithmique 1

Au programme :
- questions sur le cours du 15/11
- rappels sur les fonctions
- les expressions régulières
- si on a le temps, récupérer des données depuis le Web

## Des questions ?

## Les fonctions

Bien faire attention à ce que vous donnez en argument à vos fonctions ! Donnez **toutes les variables** en argument, càd tous les éléments dont **vous** choisissez la valeur.

Exemple avec une fonction qui utilise le signe modulo % :
"L’opérateur % (modulo) produit le reste de la division entière du premier argument par le second." (cf. https://docs.python.org/fr/3.6/reference/expressions.html#binary-arithmetic-operations)

In [None]:
def fonction_simple(nombre):
    """
    Entrée : un nombre
    Sortie : 
    - si le nombre est pair, la moitié du nombre
    - si le nombre est impair, le double du nombre
    """
    
    if nombre%2 == 0:
        #return nombre/2
        resultat = nombre/2
    else:
        #return nombre*2
        resultat = nombre*2
        
    return resultat

print(fonction_simple(2))
print(fonction_simple(3))

In [None]:
def fonction_avec_default(nombre,multiplicateur=2):
    """
    Entrée :
    -  un nombre
    - facultatif : un multiplicateur (valeur par défaut = 2)
    Sortie :
    - si le nombre est un multiple du multiplicateur, nombre/multiplicateur
    - sinon, nombre*multiplicateur
    """
    
    if nombre%multiplicateur == 0:
        #return nombre/multiplicateur
        resultat = nombre/multiplicateur
        
    else:
        #return nombre*multiplicateur
        resultat = nombre*multiplicateur
        
    return resultat
        
print(fonction_avec_default(3))
print(fonction_avec_default(3,3))
print(fonction_avec_default(9,3))

## Les expressions régulières

Voir la doc : https://docs.python.org/fr/3/library/re.html

Quelques opérations utiles :
- `re.compile()` : pour compiler et enregistrer un motif
- `re.match()` : cherche une correspondance au début de la chaîne
- `re.search()` : chercher la première correspondance
- `re.finditer()` : itérateur qui chercher toutes les correspondances
- `re.sub()` : pour remplacer
- `re.split()` : pour découper
- `match.group()` : pour appeler les séquences mémorisées

In [None]:
import re

##### Différence entre `re.search` et `re.match`

In [None]:
texte = "Pierre 123 %*$ ?."

m = re.search("\d+",texte)
print(m,"\n",m.group(0),m.start(0),m.end(0),m.span(0))

m2 = re.match("\d+",texte)
print(m2,"\n")

In [None]:
m2 = re.match("\d+",texte)
print(m2,"\n")
#print(m2.group(0))
#print(m2.start(0))
#print(m2.end(0))
#print(m2.span(0))

Des idées pour faire le tri entre les cas où une correspondance est trouvée et ceux où il n'y a pas de correspondance ?

##### Utilisation de `re.finditer` ; différence avec `re.search` et `re.match`

In [None]:
contacts_M1 = open("./etudiants_M1.csv","r",encoding="utf-8").read() # ouverture et lecture du fichier

regEx = re.compile("\w+\.?\w+@\w+\.[a-z]+") # constitution de la regEx

In [None]:
m = re.match(regEx,contacts_M1)

if m :
    print(m.group(0))

In [None]:
m = re.search(regEx,contacts_M1)

if m :
    print(m.group(0))

In [None]:
for m in re.finditer(regEx,contacts_M1):
    print(m,"\n",m.group(0))

##### Utilisation des groupes `m.group()`

Si aucun parenthésage n'a été effectué au sein de la regEx, utiliser `m.group(0)` permettra d'avoir accès à la chaîne de caractères reconnues.

Si un parenthésage a été effectué, il faut utiliser la position de l'élément entre parenthèses pour l'appeler (dans le cas où il a bien été reconnu).

In [None]:
texte = "M. Dupont et Mme. Durand ne sont pas venus hier. Mlle. Perrin était là, en revanche. Signé M."

regEx_civilite = re.compile("(Mm?l?l?e?)\. ([A-Z])")

for m in re.finditer(regEx_civilite,texte):
    print(m.group(1),"***",m.group(2))

In [None]:
texte = "Le 14 avril 1995 et le 10 mai 1992. Le 25 septembre 19991."

regEx = re.compile("(\d+) (avril|mai) (\d+)")

for m in re.finditer(regEx, texte):
    print(m.group(1),m.group(2),m.group(3))
    #print(m.group(0))

##### Utilisation de `re.sub`

- Remplacer une chaîne de caractère (exprimée par une regEx) par une autre chaîne de caractère

In [None]:
texte = "La petite fleur aime le soleil."

nouveau_texte = re.sub("a","***",texte)
print(nouveau_texte)

nouveau_texte2 = re.sub("[aeiuo]","V",texte)
print(nouveau_texte2)

nouveau_texte3 = re.sub("[aeiuo]{2,}","V",texte)
print(nouveau_texte3)

- Remplacer à l'aide d'une fonction

In [None]:
def remplace_civilite(m):
    """
    Permet de remplacer les abréviations de civilités par leur nom complet.
    """
    
    civilite = str()
    
    if m.group(1) == "M":
        civilite = "Monsieur"
    elif m.group(1) == "Mme":
        civilite = "Madame"
    elif m.group(1) == "Mlle":
        civilite = "Mademoiselle"
        
    return civilite+" "+m.group(2)

In [None]:
texte = "M. Dupont et Mme. Durand ne sont pas venus hier. Mlle. Perrin était là, en revanche. Signé M."

regEx_civilite = re.compile("(Mm?l?l?e?)\. ([A-Z])")

for m in re.finditer(regEx_civilite,texte):
    print(m.group(1),m.group(2))
    
nouv_texte = re.sub(regEx_civilite,remplace_civilite,texte)
print(nouv_texte)

##### Utilisation de `re.split`

Très pratique pour découper un texte en mots !!

In [None]:
texte = "Hier, il a fait vraiment beau ! Est-ce que tu penses que ce sera pareil aujourd'hui ?"

regEx_pasMot = re.compile("\W+")

mots = re.split(regEx_pasMot,texte)
print(mots)

mots2 = regEx_pasMot.split(texte)
print(mots2)

## Module `collections` : `defaultdict` et `Counter`


- `defaultdict` : permet de donner une valeur par défaut à une clé. Très pratique quand on remplit automatiquement un dictionnaire qui a des listes pour valeurs !

- `Counter` : compte automatiquement le nombre d'éléments dans une séquence. Très pratique pour avoir la fréquence des mots d'un texte !

In [None]:
from collections import defaultdict, Counter

In [None]:
dico = {
    "pair":list(),
    "impair":list(),
}

for nombre in range(0,100):
    if nombre%2 == 0:
        dico["pair"].append(nombre)
    else:
        dico["impair"].append(nombre)

print(dico["pair"])

In [None]:
dico2 = defaultdict(lambda :list())

for nombre in range(0,100):
    if nombre%2 == 0:
        dico2["pair"].append(nombre)
    else :
        dico2["impair"].append(nombre)
        
print(dico2["pair"])

In [None]:
# Compter les caractères

texte = "La la la li li li lu lu lu po po po mu mu mu"
compteur_caracteres_freq = Counter(texte)
print(compteur_caracteres_freq)
print(compteur_caracteres_freq["a"])

In [None]:
for caractere in sorted(compteur_caracteres_freq, key=lambda x:compteur_caracteres_freq[x], reverse=True):
    print(caractere, compteur_caracteres_freq[caractere])

In [None]:
# Compter les mots

texte = "La la la li li li lu lu lu po po po mu mu mu"
mots = texte.split(" ")
compteur_mot_freq = Counter(mots)

compteur2 = Counter([m.lower() for m in mots])
print(compteur_mot_freq)
print(compteur_mot_freq["la"])
print(compteur2)

# Travail avec ce qui a été vu en cours :

- trouver le vocabulaire d'un texte (découper un texte en mots, compter les fréquences)
- appliquer un lexique sur un texte et faire une sortie balisée (dans un texte, retrouver les termes d'un lexique et faire une sortie où les éléments du lexique sont balisés)
- récupérer les annotations balisées d'un corpus (récupérer le type de la balise et les éléments balisés)