# Natural Langage Processing : les premiers traitements

Pour illustrer un cas d'analyse de texte, on va analyser les compte-rendus du journal en ligne lequipe.fr de deux finales de coupe du monde de football : l'une féminine et l'une masculine. 

## Import des données

On propose le code suivant pour scrapper les comptes-rendus : 

In [1]:
import requests
from bs4 import BeautifulSoup
import pickle

In [2]:
def scrap_cr_foot(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page, "lxml")
    text = [p.text for p in soup.find(class_="article").find_all('p')]
    return(text)

In [3]:
url_h = "https://www.lequipe.fr/Football/Actualites/La-france-decroche-sa-deuxieme-coupe-du-monde-apres-une-finale-animee-contre-la-croatie/923054"
url_f = "https://www.lequipe.fr/Football/Actualites/Coupe-du-monde-2019-les-etats-unis-battent-les-pays-bas-en-finale/1037785"

In [5]:
# Compte rendu messieurs
cr_h = scrap_cr_foot(url_h)
cr_h

['',
 "Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.",
 "C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le\xa0troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.",
 "Alors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents - trois prolon

In [6]:
# Compte rendu mesdames
cr_f = scrap_cr_foot(url_f)
cr_f

["La sélectionneuse néerlandaise Sarina Wiegman n'avait changé qu'une seule joueuse dans son onze de départ par rapport à la demi-finale face à la Suède (1-0 a.p.), en faisant entrer Anouk Dekker en défense centrale à la place de la défenseuse gauche Merel Van Dongen. Cependant, c'est tout le système qui était bouleversé dans un 4-4-1-1 où Beerensteyn, seule en pointe, était soutenue par Miedema. Mais autant que le système, c'est l'engagement physique mis par les Néerlandaises qui a perturbé la belle mécanique américaine. L'impact physique de Danielle Van De Donk ou de Sherida Spitse au milieu de terrain, favorisé par l'arbitrage de Stéphanie Frappart, insensible aux jérémiades permanentes d'Alex Morgan, et le pressing haut qui a gêné la relance, ont posé un problème inédit aux Américaines.",
 "Dans un match longtemps fermé, il a fallu attendre la 27e minute pour voir le premier tir cadré, une frappe de Julie Ertz suite à un corner de Megan Rapinoe, détournée par la gardienne d'Arsenal

## Nettoyage des données
On met nos textes dans un dictionnaire : 

In [10]:
dict_foot = {"CR hommes" : cr_h, "CR femmes" : cr_f}

On transforme les textes, qui sont actuellement une liste, en chaîne de caractères:

In [11]:
for i in ["CR hommes", "CR femmes"]:
    dict_foot[i] = ''.join(dict_foot[i])


In [12]:
dict_foot

{'CR hommes': "Pas besoin de se pincer pour y croire. L'équipe de France a bien écrit ce dimanche une nouvelle page de son histoire. En dominant la Croatie (4-2) au terme d'une finale qui a tourné à son avantage en début de seconde période, les Bleus ont réussi là où tous les autres favoris avaient échoué en Russie. Ce sacre est celui de la maîtrise... même si elle en a parfois manqué contre un adversaire qui lui a posé plus de problèmes qu'on l'aurait pensé.C'est aussi celui de Didier Deschamps, son sélectionneur porte-bonheur, le\xa0troisième seulement à soulever la Coupe en tant que joueur et entraîneur après le Brésilien Zagallo et l'Allemand Beckenbauer. Il y avait les précurseurs expérimentés en 1998. Vingt ans après, ce sont des gamins qui ont réussi l'impensable. L'avenir leur appartient.Le film du matchAlors qu'on aurait cru les Français décidés à aller au carton d'entrée, pour faire douter des Croates censés être plus fatigués par leur débauche d'énergie des tours précédents 

On peut aussi tout passer en data frame

In [13]:
import pandas as pd
pd.set_option('max_colwidth',150)
cr_df = pd.DataFrame.from_dict(dict_foot, orient = "index", columns=['texte'])

## Exercice : premiers nettoyages    

- Passez tout le texte en minuscules.  
- Enlevez les références au minutage de l'action (70e, 38e, etc...).  
- Enlevez les références aux scores.  
- Enlevez toute la ponctuation.  
- En scrapant la page web on a aussi récupéré le premier commentaire des lecteurs de chaque match. Enlevez-le.  
- Les liens hyper-textes apparaissent avec la chaîne \\xao. Supprimez-là.  
- Quand tous les nettoyages seront faits, sauvegardez les compte-rendus dans un objet de votre choix (pkl, txt, ...)