# Introduction à la programmation Python

Julien Velcin, Université Lyon 2

Formation doctorale de l'UdL (2023-2024)

## TP n°2 : analyse des donnnées textuelles

**Menu**

- manipulation de chaînes de caractères (*str*)
- recherche simple : les expressions régulières
- premiers nettoyages du texte
- visualisation en nuage de mots

Nous allons travailler avec un extrait des données du <a href="https://granddebat.fr">Grand Débat National</a>, en particulier des réponses à la question : "En qui faites-vous le plus confiance pour vous faire représenter dans la société et pourquoi ?"

Commencez par charger le fichier *csv* en mémoire. Pour cela, vous pouvez passer par la librairie *pandas*. Si besoin, vous pouvez préciser l'encodage *utf-8* et la présence (ou non) d'un en-tête avec *header*.

In [None]:
import pandas as pd

# à compléter

### Manipulation de chaînes de caractères (*str*)

On commence par créer une seule chaîne de caractères, que vous appelerez **texte**, qui **concatène** toutes les réponses qui se trouvent dans la colonne 2 du tableau que vous venez de charger (par ex. avec la fonction *join*). Les deux premières lignes ne sont pas très utiles : dans la suite, arrangez-vous pour travailler avec la liste privée de ces éléments.

Si vous êtes genés par les valeurs manquantes N/A, *pandas* fournit une commande *isna* qui peut être utilisée pour ne conserver que les lignes valides.

In [None]:
# à compléter

Vérifiez la taille de la chaîne avec *len* et regardez des extraits de cette longue chaîne.

In [None]:
# à compléter

La recherche la plus simple consiste à parcourir le texte jusqu'à trouver la première occurrence d'une chaîne de caractères. Cela peut se faire à l'aide de la fonction *find*.

Vérifiez que le passage du texte qui entoure l'indice trouvé correspond bien à ce que vous cherchez.

In [None]:
# à compléter

### Recherche simple : les expressions régulières

Les **expressions régulières** constituent une méthode très efficace pour trouver une ou plusieurs occurrences d'une sous-chaîne de caractères dans un texte.

Lien vers la page documentant la librairie re en Python : https://docs.python.org/3/library/re.html

Pour commencer, enregistrez dans une liste l'indice de toutes les occurrences d'un mot choisi avec la fonction *finditer* de la librairie *re*. Pour le moment, il s'agit de l'écriture exact du mot. L'indice correspond à l'endroit où débute le mot (fonction *start* de l'objet retourné).

**En Python :**

p = re.compile(motif)

r = p.finditer(texte)

liste_occ = [m.start() for m in r]

In [None]:
# à compléter

Afficher le passage du texte qui correspond à la première occurrence retrouvée et indexée dans la liste *liste_occ*. Pour cela commencez l'affichage à l'index retourné par la fonction *start()* et ajoutez une longueur arbitraire de 10 caractères.

In [None]:
# à compléter

Il est facile de réaliser les analyses sans tenir compte de la "casse", c'est-à-dire de l'utilisation des majuscules et minuscules, en rajoutant l'option *re.IGNORECASE* dans la fonction *compile*. Essayez cette fonctionnalité.

In [None]:
# à compléter

Pour finir, remplacez la fonction *start()* par *span()* dans le but de récupérer un tuple qui code l'index de début et de fin du motif recherché. Faites la même recherche, mais affichez cette fois la 2ème occurrence retrouvée en adaptant l'affichage pour qu'il commence et termine exactement 5 caractères avant et après le motif. Cela donne un résultat du type :

*motif = "lettre"*

affichage d'un extrait du texte contenant le motif :

*"t la lettre qui "*

In [None]:
# à compléter

Si on souhaite trouver toutes les occurrences, on peut afficher ce qu'on appelle un concordancier.

Depuis le XIIIème siècle, un **concordancier** est une liste triée alphabétiquement des principaux mots employés dans un corpus, précisant **chaque instance** des mots accompagnée de leur **contexte immédiat**. 

<img src="img/concordance.jpg" style='height: 400px'/>

*Cruden's Concordance (concordance of the King James Bible that was single-handedly created by Alexander Cruden)*

Nous allons essayer d'implémenter un concordancier en Python en utilisant la structure DataFrame de la librairie Pandas.

Commencez par stocker dans une variable intitulée *pos_pattern* la liste des occurrences avec l'information correspondant aux index de début et de fin du motif recherché (exactement comme ce que vous avez fait précédemment).

In [None]:
# à compléter

Créez une liste **texte_central** de chaînes de caractères qui contient la liste des extraits du texte correspondant à toutes ces occurrences.

In [None]:
# à compléter

Procédez de la même façon pour créer deux listes distinctes :
    
- **contexte_gauche** : la liste des extraits qui *précèdent* les motifs retrouvés
- **contexte_droit** : la liste des extraits qui *suivent* les motifs retrouvés

Vous fixerez la taille du contexte à l'aide d'une variable *window*, par ex. fixée par défaut à 30 caractères.

In [None]:
# à compléter

In [None]:
# à compléter

A présent, on cherche à automatiser la procédure pour faciliter les expérimentation ultérieures. Créez une fonction intitulée *concord* qui prend deux arguments :
- texte : le texte
- motif : le motif

et retourne le tableau DataFrame correspondant.

In [None]:
# à compléter

Vous pouvez utiliser le concordancier afin de tester plusieurs expressions régulières sur le corpus.

Faîtes quelques essais avec des expressions :

- comportant plusieurs mots qui se suivent : "mot1 mot2"
- autorisant la présence optionnelle d'un caractère avec ? comme : "mot?" (le t est optionnel)
- donnant le choix entre plusieurs mots avec : "mot1|mot2"
- comportant une suite de chiffres avec : "[0-9]+"

In [None]:
# à compléter

Quelques exercices de plus sur les expressions régulières :

- Trouver les extraits contenant deux suites de caractères (alphabet a à z, non accentué) en minuscules attachés par un *underscore* (par ex. "choisi_s")
- Même question mais avec des caractères en minuscules ou en majuscules (par ex. "Bicamerisme_equitableL")
- Trouver les extraits contenant deux mots (cette fois en prenant en compte les accents) qui se suivent et commençant chacun par une (unique) majuscule
- Trouver les extraits qui alterne un chiffre et une lettre deux fois de suite (par ex. "1a0d")

In [None]:
# à compléter

### Premiers nettoyages

L'action la plus élémentaire consiste à nettoyer le texte s'il contient des symboles non souhaités (par ex. des caractères unicodes). La librairie *re* fournit une fonction *sub* qui permet de faire ce remplacement en prenant en compte des expressions régulières si besoin, càd en fournissant un motif comme nous l'avons fait précédemment.

In [None]:
txt_a_nettoyer = "ÅVoilà un texte qui pose problͰme  ̶ voyons ce que l ̕on peut y faire"

txt_propre = re.sub("Å", " ", txt_a_nettoyer)
txt_propre = re.sub("Ͱ", "è", txt_propre)
txt_propre = re.sub(" ̶", "-", txt_propre)
txt_propre = re.sub(" ̕", "'", txt_propre)

print(txt_propre)

Ou alors avec un dictionnaire :

In [None]:
clean_unicode = {
  "Å": " ",
  "Ͱ": "è",
  " ̶" : "-",
  " ̕" : "'"
}

txt_propre_2 = txt_a_nettoyer
for c in clean_unicode:
    txt_propre_2 = re.sub(c, clean_unicode[c], txt_propre_2)
    
print(txt_propre_2)

Repérez puis corriger quelques fautes d'orthographes dans le texte dans une nouvelle version de la variable que vous appelerez **texte_clean**.

In [None]:
# à compléter

In [None]:
# à compléter

N'hésitez pas à vérifier que les modifications ont bien été réalisées avec le concordancier.

Un nettoyage standard pour les analyses ultérieures consiste à passer tout le corpus en minuscule. C'est une forme de normalisation permettant de rapprocher des termes comme "Unité" et "unité" par exemple.

Pour les analyzes qui suivent, transformer votre variable *texte_clean* pour passer tous les caractères en minuscules.

In [15]:
# à compléter

### Première visualisation : le nuage de mots

Les **nuages de mots** (*word clouds*) sont une manière simple de visualiser les statistiques des mots les plus employés dans le corpus.

Première partie du code : on prépare le nuage de mots, en spécifiant si possible une liste de mots-outils à ignorer (le, la, etc.)

In [None]:
# Les deux lignes suivantes permettent de télécharger des ressources avec la libraries nltk
# (ce qui nous intéresse pour le moment : une liste de mots-outils)
#import nltk
#nltk.download()

In [None]:
# alternative à nltk pour charger des mots-outils (stopwords) directement depuis un fichier :

with open("datasets/Stop-words-french.txt", "r", encoding='utf8') as f:
    sw_french = [line.rstrip("\n") for line in f.readlines()]

Vérifiez le contenu de la liste et sa longueur.

In [None]:
#len(sw_french)   # nombre de mots-outils
sw_french[0:20] # 20 premiers mots-outils

In [None]:
# tiré de : http://ramiro.org/notebook/sherlock-holmes-canon-wordcloud/

from wordcloud import WordCloud

# si on souhaite charger la liste des mots-outils en français avec NLTK
# (inutile si on charge son propre fichier de mots-outils)

# from nltk.corpus import stopwords 
# sw_french = stopwords.words("french")

# si on veut enrichir la liste de mots-outils d'une liste "maison" :
#sw_french = sw_french + [..., ..., ...] # = liste de mots

# imread est nécessaire si on souhaite utiliser un masque (image en noir et blanc, le noir indiquant où afficher le nuage)
from imageio import imread

# nombre de mots à afficher
limit = 50

#fontcolor='#fafafa'
fontcolor='#fa0000' # couleur des caractères
bgcolor = '#000000' # couleur de fond
#bgcolor = '#ffffff'
#bgcolor = '#aa0000'
    
wordcloud = WordCloud(
    max_words=limit,
    stopwords= sw_french, # liste de mots-outils
    #mask=imread('img/mask.png'),  # avec ou sans masque, à essayer ! (attention, nécessite un fichier de masque en noir et blanc)
    background_color=bgcolor,
#    font_path=font   # si on veut changer la police de caractères
).generate(texte_clean) # tolower() permet de mettre tout le texte en minuscule

Seconde partie du code : on affiche le nuage grâce à la librarie matplotlib

In [None]:
# cette première ligne est nécessaire pour afficher des graphiques dans le notebook
%matplotlib inline

import random
import matplotlib.pyplot as plt

fig = plt.figure()

# taille de la figure
fig.set_figwidth(14)
fig.set_figheight(18)

# si on souhaite mettre un titre
title = "Essai"

# cette fonction optionnelle permet de "customiser" l'affichage, cf. ci-dessous
def grey_color(word, font_size, position, orientation, random_state=None, **kwargs):
    return 'hsl(0, 0%%, %d%%)' % random.randint(50, 100)

#plt.imshow(wordcloud)     # le plus simple
plt.imshow(wordcloud.recolor(color_func=grey_color, random_state=3))  # si on veut "customiser"
#plt.title(title, color=fontcolor, size=30, y=1.01)     # si on veut rajouter un titre
plt.axis('off')
plt.show()

In [None]:
# Possibilité d'afficher plusieurs graphiques si besoin
fig = plt.figure()

# taille de la figure
fig.set_figwidth(20)
fig.set_figheight(18)

plt.subplot(1, 2, 1)
  # (1,2) indique que l'on souhait 1 ligne avec 2 colonnes
  # la troisème valeur correspond à l'endroit où on affiche le graphique en cours
plt.imshow(wordcloud.recolor(random_state=3))
plt.axis('off')
plt.subplot(1, 2, 2) 
  # cette fois, on affiche en 2ème position
plt.imshow(wordcloud.recolor(color_func=grey_color, random_state=3))
plt.axis('off')
plt.show()
