# Natural Langage Processing : les premiers traitements

Pour illustrer un cas d'analyse de texte, on va analyser les compte-rendus du journal en ligne lequipe.fr de deux finales de coupe du monde de football : l'une féminine et l'une masculine. 

## Import des données

On propose le code suivant pour scrapper les comptes-rendus : 

In [1]:
import requests
from bs4 import BeautifulSoup
#import pickle as pkl

In [2]:
def scrap_cr_foot(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page, "lxml")
    text = [p.text for p in soup.find(class_="article").find_all('p')]
    return(text)

In [3]:
url_h = "https://www.lequipe.fr/Football/Actualites/La-cote-d-ivoire-elimine-le-senegal-et-jouera-les-quarts-de-finale-de-la-can/1445562"
url_f = "https://www.lequipe.fr/Football/Actualites/Le-psg-enchaine-contre-l-ajax-et-prend-la-tete-de-son-groupe-de-ligue-des-champions/1444400"

In [4]:
# Compte rendu messieurs
cr_h = scrap_cr_foot(url_h)
cr_h

["Le Sénégal ne rendra pas la monnaie de sa pièce à la Côte d'Ivoire en remportant la CAN sur son sol comme les Éléphants l'avaient réussi à Dakar, en 1992 (0-0, 11-10 aux t.a.b. en finale contre le Ghana), ainsi que l'avait espéré Aliou Cissé dimanche. Car le sélectionneur des Lions de la Teranga a vu son équipe tenante du trophée (le premier de son histoire, gagné en 2022), être éliminée par le pays organisateur dès les huitièmes de finale (1-1, 4-5 aux t.a.b.).",
 'Moussa Niakhaté manque son tir au but',
 "Giflés par la Guinée équatoriale lundi dernier (0-4) puis qualifiés miraculeusement après la victoire du Maroc contre la Zambie (1-0) mercredi, les Ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur, Jean-Louis Gasset, puis la possible arrivée, finalement avortée, de Hervé Renard. C'est finalement l'ex-adjoint Emerse Faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles. En particulier en transfo

In [5]:
# Compte rendu mesdames
cr_f = scrap_cr_foot(url_f)
cr_f

["La soirée est juste très belle, alors qu'elle aurait pu tutoyer la perfection pour le PSG. En égalisant (2-2) sur le terrain de l'AS Rome dans un lointain temps additionnel (90e+6), la joueuse du Bayern Munich Lea Schüller a empêché l'équipe parisienne de réaliser l'opération rêvée\xa0: s'assurer de finir parmi les deux premiers avant même l'ultime journée. Mais il aurait fallu pour cela que la formation transalpine assure une victoire qui, couplée à celle des joueuses de Jocelyn Prêcheur, aurait validée cette qualification.",
 "Alors, mardi prochain, il suffira de ne pas perdre en Bavière, face à une équipe qui s'était imposée à l'aller (1-0), pour passer la frontière de la phase de groupes et rallier les destinations encore plus palpitantes des rencontres à élimination directe. En cas de défaite sur le terrain du Bayern, il faudrait ajouter une victoire de l'Ajax sur la Roma pour tisser la trame cauchemardesque d'une élimination.",
 "En attendant cette échéance cruciale, le deuxièm

## Nettoyage des données
On met nos textes dans un dictionnaire : 

In [6]:
dict_foot = {"CR hommes" : cr_h, "CR femmes" : cr_f}

On transforme les textes, qui sont actuellement une liste, en chaîne de caractères:

In [7]:
for i in ["CR hommes", "CR femmes"]:
    dict_foot[i] = ''.join(dict_foot[i])

In [8]:
dict_foot

{'CR hommes': "Le Sénégal ne rendra pas la monnaie de sa pièce à la Côte d'Ivoire en remportant la CAN sur son sol comme les Éléphants l'avaient réussi à Dakar, en 1992 (0-0, 11-10 aux t.a.b. en finale contre le Ghana), ainsi que l'avait espéré Aliou Cissé dimanche. Car le sélectionneur des Lions de la Teranga a vu son équipe tenante du trophée (le premier de son histoire, gagné en 2022), être éliminée par le pays organisateur dès les huitièmes de finale (1-1, 4-5 aux t.a.b.).Moussa Niakhaté manque son tir au butGiflés par la Guinée équatoriale lundi dernier (0-4) puis qualifiés miraculeusement après la victoire du Maroc contre la Zambie (1-0) mercredi, les Ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur, Jean-Louis Gasset, puis la possible arrivée, finalement avortée, de Hervé Renard. C'est finalement l'ex-adjoint Emerse Faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles. En particulier en tran

On peut aussi tout passer en data frame

In [9]:
import pandas as pd
pd.options.display.max_colwidth = 1000
cr_df = pd.DataFrame.from_dict(dict_foot, orient = "index", columns=['texte'])
cr_df

Unnamed: 0,texte
CR hommes,"Le Sénégal ne rendra pas la monnaie de sa pièce à la Côte d'Ivoire en remportant la CAN sur son sol comme les Éléphants l'avaient réussi à Dakar, en 1992 (0-0, 11-10 aux t.a.b. en finale contre le Ghana), ainsi que l'avait espéré Aliou Cissé dimanche. Car le sélectionneur des Lions de la Teranga a vu son équipe tenante du trophée (le premier de son histoire, gagné en 2022), être éliminée par le pays organisateur dès les huitièmes de finale (1-1, 4-5 aux t.a.b.).Moussa Niakhaté manque son tir au butGiflés par la Guinée équatoriale lundi dernier (0-4) puis qualifiés miraculeusement après la victoire du Maroc contre la Zambie (1-0) mercredi, les Ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur, Jean-Louis Gasset, puis la possible arrivée, finalement avortée, de Hervé Renard. C'est finalement l'ex-adjoint Emerse Faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles. En particulier en transformant to..."
CR femmes,"La soirée est juste très belle, alors qu'elle aurait pu tutoyer la perfection pour le PSG. En égalisant (2-2) sur le terrain de l'AS Rome dans un lointain temps additionnel (90e+6), la joueuse du Bayern Munich Lea Schüller a empêché l'équipe parisienne de réaliser l'opération rêvée : s'assurer de finir parmi les deux premiers avant même l'ultime journée. Mais il aurait fallu pour cela que la formation transalpine assure une victoire qui, couplée à celle des joueuses de Jocelyn Prêcheur, aurait validée cette qualification.Alors, mardi prochain, il suffira de ne pas perdre en Bavière, face à une équipe qui s'était imposée à l'aller (1-0), pour passer la frontière de la phase de groupes et rallier les destinations encore plus palpitantes des rencontres à élimination directe. En cas de défaite sur le terrain du Bayern, il faudrait ajouter une victoire de l'Ajax sur la Roma pour tisser la trame cauchemardesque d'une élimination.En attendant cette échéance cruciale, le deuxième de la D1 ..."


In [10]:
cr_df.iloc[0]

texte    Le Sénégal ne rendra pas la monnaie de sa pièce à la Côte d'Ivoire en remportant la CAN sur son sol comme les Éléphants l'avaient réussi à Dakar, en 1992 (0-0, 11-10 aux t.a.b. en finale contre le Ghana), ainsi que l'avait espéré Aliou Cissé dimanche. Car le sélectionneur des Lions de la Teranga a vu son équipe tenante du trophée (le premier de son histoire, gagné en 2022), être éliminée par le pays organisateur dès les huitièmes de finale (1-1, 4-5 aux t.a.b.).Moussa Niakhaté manque son tir au butGiflés par la Guinée équatoriale lundi dernier (0-4) puis qualifiés miraculeusement après la victoire du Maroc contre la Zambie (1-0) mercredi, les Ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur, Jean-Louis Gasset, puis la possible arrivée, finalement avortée, de Hervé Renard. C'est finalement l'ex-adjoint Emerse Faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles. En particulier en transforma

## Exercice : premiers nettoyages    

- Passez tout le texte en minuscules.  
- Enlevez les références au minutage de l'action (70e, 38e, etc...).  
- Enlevez les références aux scores.  
- Enlevez toute la ponctuation.   
- Les liens hyper-textes apparaissent avec la chaîne \\xa0. Supprimez-là.  
- Quand tous les nettoyages seront faits, sauvegardez les compte-rendus dans un objet de votre choix (pkl, txt, ...)

In [11]:
import re
import string

# créons une fonction pour le preprocessing qu'on appliquera ensuite aux 2 textes du corpus
def nettoyage(text):
    text = text.lower()
    text = re.sub(r"\d{1,3}e", "", text) #minutes
    text = re.sub(r"\d{1,2}-\d{1,2}", "", text) #scores
    text = re.sub(f"[{string.punctuation}]", " ", text) #ponctuation
    text = re.sub(r"\xa0", " ", text) #caractère spécial hypertexte
    return text

cr_df['texte'] = cr_df.texte.apply(nettoyage)
cr_df

Unnamed: 0,texte
CR hommes,le sénégal ne rendra pas la monnaie de sa pièce à la côte d ivoire en remportant la can sur son sol comme les éléphants l avaient réussi à dakar en 1992 aux t a b en finale contre le ghana ainsi que l avait espéré aliou cissé dimanche car le sélectionneur des lions de la teranga a vu son équipe tenante du trophée le premier de son histoire gagné en 2022 être éliminée par le pays organisateur dès les huitièmes de finale aux t a b moussa niakhaté manque son tir au butgiflés par la guinée équatoriale lundi dernier puis qualifiés miraculeusement après la victoire du maroc contre la zambie mercredi les ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur jean louis gasset puis la possible arrivée finalement avortée de hervé renard c est finalement l ex adjoint emerse faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles en particulier en transformant tous leurs tirs au but...
CR femmes,la soirée est juste très belle alors qu elle aurait pu tutoyer la perfection pour le psg en égalisant sur le terrain de l as rome dans un lointain temps additionnel 6 la joueuse du bayern munich lea schüller a empêché l équipe parisienne de réaliser l opération rêvée s assurer de finir parmi les deux premiers avant même l ultime journée mais il aurait fallu pour cela que la formation transalpine assure une victoire qui couplée à celle des joueuses de jocelyn prêcheur aurait validée cette qualification alors mardi prochain il suffira de ne pas perdre en bavière face à une équipe qui s était imposée à l aller pour passer la frontière de la phase de groupes et rallier les destinations encore plus palpitantes des rencontres à élimination directe en cas de défaite sur le terrain du bayern il faudrait ajouter une victoire de l ajax sur la roma pour tisser la trame cauchemardesque d une élimination en attendant cette échéance cruciale le deuxième de la d1 peut se r...


In [12]:
cr_df.loc['CR hommes','texte']

'le sénégal ne rendra pas la monnaie de sa pièce à la côte d ivoire en remportant la can sur son sol comme les éléphants l avaient réussi à dakar  en 1992     aux t a b  en finale contre le ghana   ainsi que l avait espéré aliou cissé dimanche  car le sélectionneur des lions de la teranga a vu son équipe tenante du trophée  le premier de son histoire  gagné en 2022   être éliminée par le pays organisateur dès les huitièmes de finale     aux t a b   moussa niakhaté manque son tir au butgiflés par la guinée équatoriale lundi dernier    puis qualifiés miraculeusement après la victoire du maroc contre la zambie    mercredi  les ivoiriens ont vécu des derniers jours particulièrement tumultueux avec la démission de leur sélectionneur  jean louis gasset  puis la possible arrivée  finalement avortée  de hervé renard  c est finalement l ex adjoint emerse faé qui les conduisait et ils ont fait preuve de ressources mentales exceptionnelles  en particulier en transformant tous leurs tirs au but  a

In [13]:
cr_df.to_pickle('cr_df.pkl')