# Natural Langage Processing : les premiers traitements

Pour illustrer un cas d'analyse de texte, on va analyser les compte-rendus du journal en ligne lequipe.fr de deux finales de coupe du monde de football : l'une féminine et l'une masculine. 

## Import des données

On propose le code suivant pour scrapper les comptes-rendus : 

In [1]:
import requests
from bs4 import BeautifulSoup
#import pickle as pkl

In [2]:
def scrap_cr_foot(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page, "lxml")
    text = [p.text for p in soup.find(class_="article").find_all('p')]
    return(text)

In [3]:
url_h = "https://www.lequipe.fr/Football/Actualites/La-france-decroche-sa-deuxieme-coupe-du-monde-apres-une-finale-animee-contre-la-croatie/923054"
url_f = "https://www.lequipe.fr/Football/Actualites/Coupe-du-monde-2019-les-etats-unis-battent-les-pays-bas-en-finale/1037785"

In [4]:
# Compte rendu messieurs
cr_h = scrap_cr_foot(url_h)
cr_h

['',
 "Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.",
 "C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le\xa0troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.",
 "Alors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents - trois prolon

In [5]:
# Compte rendu mesdames
cr_f = scrap_cr_foot(url_f)
cr_f

["La sélectionneuse néerlandaise Sarina Wiegman n'avait changé qu'une seule joueuse dans son onze de départ par rapport à la demi-finale face à la Suède (1-0 a.p.), en faisant entrer Anouk Dekker en défense centrale à la place de la défenseuse gauche Merel Van Dongen. Cependant, c'est tout le système qui était bouleversé dans un 4-4-1-1 où Beerensteyn, seule en pointe, était soutenue par Miedema. Mais autant que le système, c'est l'engagement physique mis par les Néerlandaises qui a perturbé la belle mécanique américaine. L'impact physique de Danielle Van De Donk ou de Sherida Spitse au milieu de terrain, favorisé par l'arbitrage de Stéphanie Frappart, insensible aux jérémiades permanentes d'Alex Morgan, et le pressing haut qui a gêné la relance, ont posé un problème inédit aux Américaines.",
 "Dans un match longtemps fermé, il a fallu attendre la 27e minute pour voir le premier tir cadré, une frappe de Julie Ertz suite à un corner de Megan Rapinoe, détournée par la gardienne d'Arsenal

## Nettoyage des données
On met nos textes dans un dictionnaire : 

In [6]:
dict_foot = {"CR hommes" : cr_h, "CR femmes" : cr_f}

On transforme les textes, qui sont actuellement une liste, en chaîne de caractères:

In [7]:
for i in ["CR hommes", "CR femmes"]:
    dict_foot[i] = ''.join(dict_foot[i])

In [8]:
dict_foot

{'CR hommes': "Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le\xa0troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.Alors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents - trois prolonga

On peut aussi tout passer en data frame

In [9]:
import pandas as pd
pd.options.display.max_colwidth = 1000
cr_df = pd.DataFrame.from_dict(dict_foot, orient = "index", columns=['texte'])
cr_df

Unnamed: 0,texte
CR hommes,"Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.Alors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents - trois prolongations en 8es, ..."
CR femmes,"La sélectionneuse néerlandaise Sarina Wiegman n'avait changé qu'une seule joueuse dans son onze de départ par rapport à la demi-finale face à la Suède (1-0 a.p.), en faisant entrer Anouk Dekker en défense centrale à la place de la défenseuse gauche Merel Van Dongen. Cependant, c'est tout le système qui était bouleversé dans un 4-4-1-1 où Beerensteyn, seule en pointe, était soutenue par Miedema. Mais autant que le système, c'est l'engagement physique mis par les Néerlandaises qui a perturbé la belle mécanique américaine. L'impact physique de Danielle Van De Donk ou de Sherida Spitse au milieu de terrain, favorisé par l'arbitrage de Stéphanie Frappart, insensible aux jérémiades permanentes d'Alex Morgan, et le pressing haut qui a gêné la relance, ont posé un problème inédit aux Américaines.Dans un match longtemps fermé, il a fallu attendre la 27e minute pour voir le premier tir cadré, une frappe de Julie Ertz suite à un corner de Megan Rapinoe, détournée par la gardienne d'Arsenal Sa..."


In [10]:
cr_df.iloc[0]

texte    Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.Alors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents - trois prolongations en 

## Exercice : premiers nettoyages    

- Passez tout le texte en minuscules.  
- Enlevez les références au minutage de l'action (70e, 38e, etc...).  
- Enlevez les références aux scores.  
- Enlevez toute la ponctuation.   
- Les liens hyper-textes apparaissent avec la chaîne \\xa0. Supprimez-là.  
- Quand tous les nettoyages seront faits, sauvegardez les compte-rendus dans un objet de votre choix (pkl, txt, ...)

In [11]:
import re
import string

# créons une fonction pour le preprocessing qu'on appliquera ensuite aux 2 textes du corpus
def nettoyage(text):
    text = text.lower()
    text = re.sub(r"\d{1,3}e", "", text) #minutes
    text = re.sub(r"\d{1,2}-\d{1,2}", "", text) #scores
    text = re.sub(f"[{string.punctuation}]", " ", text) #ponctuation
    text = re.sub(r"\xa0", " ", text) #caractère spécial hypertexte
    return text

cr_df['texte'] = cr_df.texte.apply(nettoyage)
cr_df

Unnamed: 0,texte
CR hommes,pas besoin de se pincer pour y croire l équipe de france a bien écrit ce dimanche une nouvelle page de son histoire en dominant la croatie au terme d une finale qui a tourné à son avantage en début de seconde période les bleus ont réussi là où tous les autres favoris avaient échoué en russie ce sacre est celui de la maîtrise même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu on l aurait pensé c est aussi celui de didier deschamps son sélectionneur porte bonheur le troisième seulement à soulever la coupe en tant que joueur et entraîneur après le brésilien zagallo et l allemand beckenbauer il y avait les précurseurs expérimentés en 1998 vingt ans après ce sont des gamins qui ont réussi l impensable l avenir leur appartient alors qu on aurait cru les français décidés à aller au carton d entrée pour faire douter des croates censés être plus fatigués par leur débauche d énergie des tours précédents trois prolongations en s quart...
CR femmes,la sélectionneuse néerlandaise sarina wiegman n avait changé qu une seule joueuse dans son onze de départ par rapport à la demi finale face à la suède a p en faisant entrer anouk dekker en défense centrale à la place de la défenseuse gauche merel van dongen cependant c est tout le système qui était bouleversé dans un où beerensteyn seule en pointe était soutenue par miedema mais autant que le système c est l engagement physique mis par les néerlandaises qui a perturbé la belle mécanique américaine l impact physique de danielle van de donk ou de sherida spitse au milieu de terrain favorisé par l arbitrage de stéphanie frappart insensible aux jérémiades permanentes d alex morgan et le pressing haut qui a gêné la relance ont posé un problème inédit aux américaines dans un match longtemps fermé il a fallu attendre la minute pour voir le premier tir cadré une frappe de julie ertz suite à un corner de megan rapinoe détournée par la gardienne d arsenal sari van veene...


In [12]:
cr_df.loc['CR hommes','texte']

'pas besoin de se pincer pour y croire  l équipe de france a bien écrit ce dimanche une nouvelle page de son histoire  en dominant la croatie    au terme d une finale qui a tourné à son avantage en début de seconde période  les bleus ont réussi là où tous les autres favoris avaient échoué en russie  ce sacre est celui de la maîtrise    même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu on l aurait pensé c est aussi celui de didier deschamps  son sélectionneur porte bonheur  le troisième seulement à soulever la coupe en tant que joueur et entraîneur après le brésilien zagallo et l allemand beckenbauer  il y avait les précurseurs expérimentés en 1998  vingt ans après  ce sont des gamins qui ont réussi l impensable  l avenir leur appartient alors qu on aurait cru les français décidés à aller au carton d entrée  pour faire douter des croates censés être plus fatigués par leur débauche d énergie des tours précédents   trois prolongations en s  quarts e

In [13]:
cr_df.to_pickle('cr_df.pkl')