# Aperçu de quelques librairies pertinentes en python par l'exemple: les premiers blocks d'un moteur de recherche

Dans cet exemple, nous allons concevoir une application simple capable:
<ul>
<li> d'analyser le contenu de pages web
<li> distinguer le contenu textuel du reste des informations
<li> réaliser quelques analyses sémantiques de routine
<li> encoder les données dans un format aisément calculable pour la suite
<li> (opt.) analyser les images
</ul>

Cet exercice sera l'occasion d'utiliser certaines des principales librairies utilisées en Data Science. 
<ul>
<li> BeautifulSoup, un parser HTML <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">doc Officielle</a>
<li> Numpy, une librairie de calcul matriciel <a href="http://www.numpy.org/">doc Officielle</a>
<li> NLTK, une librairie pour le traitement automatisé du langage <a href="http://www.nltk.org/">doc Officielle</a>
<li> Pandas, une librairie orientée analyse de données (fera un peu penser à R pour les initiés) <a href="http://pandas.pydata.org/">doc Officielle</a>
<li> Seaborn, un outil de visualisation statistique <a href="https://seaborn.pydata.org/">doc Officielle</a>
<li> ainsi que diverses librairies pour optimiser notre script, lire et écrire les données en divers formats (CSV, JSON, etc)
</ul>

Commençons par importer tout ce joli petit monde

In [1]:
import numpy as np
import pandas as pd
import seaborn as sb
from bs4 import BeautifulSoup

## Le Temps, cette ressource précieuse
Avant de commencer, j'aimerais débunker une croyance assez répandue, même au sein des devs, selon laquelle python serait, pour des raisons structurelles et inaccessibles, lent lourd et inefficient pour des applications à taille réelle. Deux niveau de réponses

Premièrement, ce problème n'est pas propre à Python mais concerne l'ensemble des langages de haut degré d'abstraction (trad "vous voulez du rapide, codez en C")

Deuxièmement, le problème ne provient pas tant du langage en lui-même que du fait que les opérations précises de l'interpréteurs ne nous étant pas accessibles, deux <b>implémentations différentes</b> de la même tâche peuvent demander un temps assez différent alors même qu'elle paraissent "conceptuellement identiques". 

Prenons un exemple en nous dotant tout d'abord d'un moyen de benchmarker nos opérations avant de chercher à optimiser notre code

In [2]:
from time import time
import math

def Benchmark(fonction): 
    start = time()
    fonction
    end = time()
    return (end - start)

In [None]:
dataTest = np.random.rand(600000,3) # on génère 600000*3 points de données x,y,z (vecteur 2-D)
dataTestAsList = dataTest.tolist()  # on en fait une liste pour les besoins de l'exemple
print(dataTest)

Prenons une fonction un peu lourde à calculer pour comparer deux approches: l'une itérative, l'autre vectorisée

$f(x,y,z)= \frac{x^{2}-\sqrt{y}}{\sqrt{x+y}} \times z$

In [None]:
resultsList = [] # on crée une liste vide
start = time() # on lance le chrono
for i in dataTestAsList:     # pour chaque ligne
    result = (i[0]**2-math.sqrt(i[1]))/math.sqrt(i[0]+i[1])*i[2] # fait le calcul
    resultsList.append(result)   # ajoute le résultat à la liste results
end = time() # on arrête le chrono

print("temps nécessaire: ",end - start)
print(resultsList[:15])          # on imprime les 15 premiers résultats
print(len(resultsList))

In [None]:
x = dataTest[:,0] # premier vecteur = première colonne de la matrice
y = dataTest[:,1] # second vecteur = seconde colonne de la matrice
z = dataTest[:,2]

start = time() # on lance le chrono
results = np.multiply((np.power(x,2)-np.sqrt(y))/np.sqrt(np.sum((x,y), axis=0)),z)
end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)
print(results)
print(len(results))

On voit assez aisément que, même pour ce petit dataset de trois valeurs x y z de 600000 points de donnée, l'<b>approche iterative</b> par les bloucles prend plus de 10 fois plus de temps que l'<b>approche vectorielle</b> permise par numpy pour le <b>même calcul</b>. Il existe une correpondance intuitive entre:
<ul>
<li> $a*b$ et np.multiply(a,b)
<li> $a**2$ et np.power(x,2)
<li> $a+b$ et np.sum((x,y), axis=0)
</ul>

Toutefois, lorsque a et b peuvent s'apparenter à des <b>vecteurs</b> de même longueur, du point de vue de l'interpréteur, cela fait une ÉNORME différence de réaliser les opérations de manière vectorielle plutôt qu'élément par élément (<i>element-wise</i>). La leçon a retenir est double: 
<ul>
<li> aussi souvent que possible, si vous le pouvez, <b>évitez de recourir à des boucles lorsque vous avez des données structurées</b>
<li> ce n'est pas parceque vous avec l'impression de décomposer une opération dans votre code que vous facilitez la tâche de l'interpréteur (il y a une couche d'abstraction entre son monde et le vôtre)
</ul>

Nous verrons en outre que la vectorisation n'est pas le seul moyen d'optimiser un code

## Constitution de notre set de données

Imaginez qu'un client (twitter, pour ne pas le nommer) vous commande un plugin web pour analyser toutes les pages indiquées en lien sur une chat box de son site propre. En gros, rien de bien sorcier, il veut pouvoir savoir rapidement de quoi la page parle, s'il y a des images, le ton général de l'article, s'il s'agit d'un page plutôt verbeuse, si elle parle de l'actualité ou au contraire d'événements anciens dans le but éventuel d'anlyser tout cela plus tard pour une analyse de marchée. Bref, un moyen de savoir ce dont il retourne sans avoir à tout lire.

Tout ce dont vous disposez, c'est d'un fichier CSV dont chaque ligne contient un post sur la chat box. 

On serait tenté d'importer ces données sous la forme d'une liste de chaîne de caractères sur laquelle appliquer les fonctions que nous allons importer ou créer. Ce serait toutefois ignorer notre précédente remarque sur les données structurées et la vectorisation. 

### Structuration et manipulation de données avec Pandas

Pour exploiter au mieux la structuration des données, nous allons les importer sous la forme d'un tableau de données (<i>dataframe</i>) avec la librairie pandas



In [None]:
data = pd.read_csv("chatbox.csv",sep=',')
print(type(data))

print(data.head())

$data$ est un objet de type particulier, doté de ses propres attributs et méthodes (ex. $head()$ pour avoir les premières lignes du tableau). Par défaut, $read_csv$ utilise la première ligne comme le nom des colonnes. Regardons ces données de plus près. 

In [None]:
print("champs de données (colonnes): ",list(data))
print("nombre de lignes: ", len(data))
print(data.describe())

Il est assez simple de sélectionner des colonnes spécifiques ou de spliter un tableau en fonction de la valeur dans un champ donné. Prenons le cas des messages "likés" au moins une fois. 

In [None]:
data["liked"] # la colonne liked du tableau
dataLiked = data[(data["liked"]!=0)] # partie des données dont liked diffère de zero

print("nombre de lignes: ", len(dataLiked))

114223 messages pour seulement 25252 likés. Ça donne une idée des eusses et coutumes de cette chatbox. La methode de subseting peut paraître déconcertante au premier abord avec cet enchassement $[()]$. Retenez simplement que, en pandas, $[]$ permet de subseter, $()$ énonce une condition. 

Mainenant que nous avons vu les données, il faut que nous extrayons les urls du champ $"text"$. Pour cela, pas besoin de tirer la mouche au canon, une simple analyse d'expression régulière (oui, du Regex !) suffit. Une url n'est jamais rien d'autre qu'
<ul>
<li> une chaine de caractère
<li> ne contenant pas d'espace
<li> commençant par "http"
</ul>

Comme précédemment, nous pourrions extraire chaque ligne de $data$, analyser chaque $text$ à l'aide d'une bloucle: 

In [None]:
import re # librairie de référence pour le Regex

Text = data["text"].tolist() # on crée une liste 
print(type(Text))

urls = []
start = time() # on lance le chrono
for i in Text:
    url = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', i)
    if url != '':
        urls.append(url)
end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

print(urls[:15])


Essayons maintenant avec une methode built-in. Nous introduisons une nouvelle colonne de données appelée $urls$

In [None]:
start = time() # on lance le chrono
data['urls'] = data['text'].str.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') # get the urls
end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

print(data.head())

Maintenant que nous avons notre champ $"urls"$, concentrons nous exclusivement sur les posts qui renvoient à des liens externes. Le principe reste le même à quelques ajustement près. $"urls"$ contient pour l'instant des listes de <b>str</b> ce qui risque de nous faire un peu chier pour la suite. Nous allons considérer que seul le premier lien nous intéresse et changer le type des données de $"urls"$ de <b>list</b> à <b>str</b>. Vérifions d'abord qu'il s'agit bien de listes:  

In [None]:
print(type(data["urls"]))
print(data["urls"].head())

Bon, ça risque d'être un peu chiant. Essayons autrement

In [None]:
data['urls'] = data['urls'].astype(str)  # on en fait une chaîne de caractère et on va virer les caractères problématiques

data['urls'] = data['urls'].str[1:] # on vire le premier caractère ([)
data['urls'] = data['urls'].str[:-1] # on vire le dernier caractère (])
data['urls']

C'est mieux, nous avons maintenant des champs de données vides => nous allons pouvoir faire un subsetting

In [None]:
dataUrl = data[(data['urls']!='')]
print(dataUrl['urls'].head(25))
print(len(dataUrl['urls']))

Affinons encore. Pour prendre uniquement la première url, il suffit de virer ce que nous avons après ","

In [None]:
dataUrl['urls'].astype(str)
print(dataUrl['urls'].head(25))
dataUrl['urls'] = dataUrl['urls'].astype(str).str.split(',').str[0]
print(dataUrl['urls'])

Dernier coup de reins, on vire les " et les '

In [None]:
dataUrl['urls'] = dataUrl['urls'].str.replace('"','')
dataUrl['urls'] = dataUrl['urls'].str.replace("'","")

print(dataUrl['urls'].head(25))

Bien, nous avons nos urls bien propres. On jette un dernier regard à notre set de données final avant de le sauvegarder dans un fichier JSON. 

In [None]:
print(dataUrl.head(30))
dataUrl.to_json("talkboxUrl.json")


## Raffinement de données: identification des véritables urls

Pour développer nos fonctions, nous allons prendre quelques une des urls du dataset

In [None]:

urlsTest = dataUrl['urls'].sample(10).tolist()
print(urlsTest)

In [None]:
import webbrowser as wb

for url in urlsTest: 
    wb.open(url)

Le code qui précède doit avoir ouvert 10 nouveaux onglets dans le navigateur par défaut. Nous pouvons maintenant nous rendre compte que nous avons à boire et à manger. En l'occurrence, les liens peuvent se classer en deux catégories: 
<ul>
<li> liens pointant sur des posts de réseaux sociaux (e.g. twitter, mais pas seulement) <b>ne nous intéressent pas</b> (e.g. https://t.co/EbtX7NPvJb)
<li> liens pointant sur autre chose que des réseaux sociaux <b>ceux qui nous intéressent </b> (e.g. https://t.co/s6vf7joplx)
</ul>

Le problème, c'est que les urls dont nous disposons sont des urls raccourcies par le serveur de la chatbox => le <b>nom de domaine</b> n'est pas immédiatement lisible dans nos données. Il nous faut un moyen simple <b>et rapide</b> de récupérer les noms de domaines pour ne garder que ce qui nous intéresse.

Il existe une bonne librairie pour le faire en python: <a href="http://docs.python-requests.org/en/master/">requests</a>

In [3]:
import requests
r = requests.get('https://t.co/EbtX7NPvJb')

print(r.url)
print(r.status_code)

https://twitter.com/johnny_rebel61/status/837690191129239553/photo/1
200


Bon, appliquons cela sur l'intégralité de la base de données

In [None]:
dataUrl['urls'] = dataUrl['urls'].requests.get('https://t.co/EbtX7NPvJb').url
dataUrl['urls'] = dataUrl['urls'].str.requests.get('https://t.co/EbtX7NPvJb').url

Bouh sniff, Bouh sniff, ça ne marche pas. Pourquoi? Parce que nous sommes en train de demander à python d'appliquer une méthode sur un type d'objet non prévu pour. Il nous faut penser la chose différemment avec la methode <b>apply</b>

In [None]:
def GetRealUrl(url):           # on crée une fonction pour récupérer les urls et les éventuels codes d'erreur
    try:
        response = requests.get(url)

        # Consider any status other than 2xx an error
        if not response.status_code // 100 == 2:
            return "Error: Unexpected response {}".format(response)
        
        return response.url
    except requests.exceptions.RequestException as e:
        # A serious problem happened, like an SSLError or InvalidURL
        return "Error: {}".format(e)

urlsTest = dataUrl['urls'].sample(60).tolist()    

start = time()
for url in urlsTest: # regardons ce qu'elle donne
    print(GetRealUrl(url))
end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

Bon, nous sommes un peu dans la m*: à peu près 60s pour 60 urls => 60000 secondes pour tout le data set => 16 heures pour tout vérifier. Damned. Juste pour s'en assurrer, le problème vient-il de la boucle?

In [None]:
dataUrlTest = dataUrl.sample(60)

start = time()
dataUrlTest['urls'] = dataUrlTest['urls'].apply(lambda x: GetRealUrl(x))
end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

print(dataUrlTest['urls'])

Le gain est vraiment marginal. Ça n'a rien d'étonnant puisque le principal bottleneck, ici, ce n'est pas le <b>calcul</b> mais le <b>temps nécessaire à chaque requête</b> (envoi de la requête, réponse du serveur); paramètre sur lequel nous n'avons pas vraiment de contrôle. 

Il pourrait être pas mal de nous doter d'un moyen de passer plusieurs requêtes simultanément et ainsi ne pas avoir à attendre la réponse de la requête Rn avant d'envoyer la requête Rn+1. Il nous faut paralléliser nos opérations. 

## La parallélisation en Python: multithreading VS multiprocessing

Il faut bien distinguer deux choses.
<ul>
<li> multithreading : multiples opérations passées au même core CPU: ce sont les opérations de lecture et d'écriture (<i>IO operation</i>) qui sont multipliées
<li> multiprocessing: parallélisation au niveau du CPU lui même (usage de tous les coeurs)
</ul>

Ici, avec nos requêtes, le problème n'est pas computationnel => un simple multithreading ferait le boulot. Toutefois, la méthodologie de la librairie multi-processing de python s'est considérablement simplifié ces dernières années au point qu'il est devenu plus simple de l'utiliser dans tous les contextes. (voir <a href="http://chriskiehl.com/article/parallelism-in-one-line/"> cet article </a> à titre de comparaison avec les exemples que l'on retrouve traditionnellement).  Sachant que l'ordre d'exécution et la synchronisation ne nous intéresse pas, nous allons nous contenter d'une simple <b>pool</b> et d'un mapping. 

In [4]:
from multiprocessing.dummy import Pool as ThreadPool 

In [None]:
dataUrlTest = dataUrl.sample(60) # on réinitialise (histoire de ne pas travailler sur des données déjà rafinées)
pool = ThreadPool(4) # on crée 4 tâches parallèles

start = time()
dataUrlTest['urls'] = pool.map(GetRealUrl, dataUrlTest['urls'])
pool.close() 
pool.join()

end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)
print(dataUrlTest['urls'])

That was impressive: on passe de 60 secondes à un peu plus de 5 secondes pour 60 urls. Naivement, on peut s'attendre à 5000 secondes => une petite heure et demi pour tout vérifier. Peut-on faire encore mieux?

Dépend des cas: ici, clairement! On pourrait penser que le nombre optimal de <b>Thread</b> à mettre dans la <b>pool</b> correspond au <b>nombre de coeurs du processeur</b>. Tel serait le cas pour une tâche computationnellement plus lourde (nous serons amené à y revenir) mais pas ici. 

In [None]:
dataUrlTest = dataUrl.sample(20000) # on réinitialise (histoire de ne pas travailler sur des données déjà rafinées)

pool = ThreadPool(30) # on crée 30 tâches parallèles

start = time()
dataUrlTest['urls'] = pool.map(GetRealUrl, dataUrlTest['urls'])
pool.close() 
pool.join()

end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)
print(dataUrlTest['urls'])

Maintenant, on vire les "Error" et les liens pointant vers les réseaux sociaux

In [None]:
dataUrlTest2 = dataUrlTest

dataUrlTest2 = dataUrlTest2[~dataUrlTest2["urls"].str.startswith("Error")]
dataUrlTest2 = dataUrlTest2[~dataUrlTest2["urls"].str.startswith("https://twitter.com")]
dataUrlTest2 = dataUrlTest2[~dataUrlTest2["urls"].str.startswith("https://www.facebook.com")]
dataUrlTest2 = dataUrlTest2[~dataUrlTest2["urls"].str.startswith("https://www.instagram.com")]
dataUrlTest2 = dataUrlTest2[~dataUrlTest2["urls"].str.startswith("https://www.pinterest.com")]



#dataUrlTest = dataUrlTest[~dataUrlTest.urls.str.startswith('Error')]

#dataUrlTest
print(dataUrlTest2.head(15))

print(dataUrlTest2.count)



In [None]:
dataUrlTest2.to_json("talkboxUrlRefined.json")

## Le parsing, enfin

In [5]:
dataset = pd.read_json("talkboxUrlRefined.json")
print(dataset.head())

                    created  followers  friends hashtag  liked location  \
100016  2017-02-07 13:39:27        542     1170    None    0.0     None   
100049  2017-02-07 13:37:50        542     1170   Vegan    0.0     None   
100094  2017-02-07 13:34:41        223      385    None    0.0     None   
100105  2017-02-07 13:34:04         78      221   Vegan    0.0     None   
100128  2017-02-07 13:32:16        305      507    None    0.0     None   

        retwc                                               text  \
100016      1  b'RT @VeganHow: 3 Ingredient Homemade Crunch B...   
100049      5  b"RT @veganglobalnews: Ben &amp; Jerry's just ...   
100094      0  b'I liked a @YouTube video https://t.co/xxcXqI...   
100105      5  b"RT @veganglobalnews: Ben &amp; Jerry's just ...   
100128      0  b"One of our lovely chef's,  Ben Ackland,  has...   

                                                     urls  
100016  http://paper.li/VeganHow/1397322854?read=http%...  
100049  http://www.c

Prenons une des urls de notre set 

In [7]:
from urllib.request import Request, urlopen

urlTest = Request("https://beinglibertarian.com/need-fix-libertarian-national-convention/", headers = {'User-Agent': 'Mozilla/5.0'})  # un moyen un peu hacky d'éviter une erreur 403
page = urlopen(urlTest).read()
pageStr = BeautifulSoup(page, "lxml")
print(pageStr)

<!DOCTYPE html>
<!--[if lt IE 7]><html class="no-js lt-ie9 lt-ie8 lt-ie7" lang="en-US" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#"><![endif]--><!--[if IE 7]><html class="no-js lt-ie9 lt-ie8" lang="en-US" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#"><![endif]--><!--[if IE 8]><html class="no-js lt-ie9" lang="en-US" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#"><![endif]--><!--[if IE 9]><html class="no-js lt-ie10" lang="en-US" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#"><![endif]--><!--[if gt IE 9]><!--><html class="no-js" lang="en-US" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#">
<head>
<meta content="IE=9; IE=8; IE=7; IE=EDGE" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://beinglibertarian.com/xmlrpc.php" rel="pingback"/>
<link href="https://beinglibertarian.com/wp-content/uploads/

C'est un peu sale pour l'instant mais nous allons pouvoir exploiter, assez facilement, la structuration de la page. Nous sommes surtout intéressés par les données textuelles (titres, titres de sections (h1, h2, h3), contenu des paragraphes), les images, la longueur globale du contenu. En outre, il pourrait être intéressant de récupérer la langue pour la suite (et s'éviter de faire du NLP sur autre chose que de l'anglais)
![HTML structure](http://www.openbookproject.net/tutorials/getdown/css/images/lesson4/HTMLDOMTree.png)

Commençons par voir comment récupérer ces données avec BeautifulSoup avant de concevoir notre fonction

In [9]:
titrePrin = pageStr.title.get_text()  # titre de la page
print(titrePrin)
print(type(titrePrin))

titresSect = [title.get_text() for title in pageStr.findAll(('h1','h2','h3','h4','h5'))]
#print(titresSect) # titre de la page

textualCont = [content.get_text() for content in pageStr.findAll('p')]
print(textualCont)
print(type(textualCont))

links= [link.get('href') for link in pageStr.findAll('a') if str(link.get('href')).startswith(("http", "www"))]
#print(links)

pics= [pic.get('src') for pic in pageStr.findAll('img') if pic.get('alt') !=""]
#print(pics)

We Need to Fix the Libertarian National Convention - Being Libertarian
<class 'str'>
['If you want to be taken seriously, you have to act seriously.', 'That’s a fairly simple maxim, yet it is one the Libertarian Party has frequently ignored, to its detriment. In 2016, when many Americans began flailing about, searching for an alternative to the least popular mainstream candidates in history, the Libertarian Party was supposed to provide a viable solution. Yet, despite an unprecedented degree of attention from the media and public, the party failed to deliver. This was not just a product of the repeated stumblings of the party’s eventual presidential candidate, Gary Johnson; it was the product of a failure of organization at all levels. No one watching clips from the National Convention could be faulted for thinking the Party was a shower of amateurs with no real interest in seriously contending.', 'It is a challenge to run a political party at the best of times, so the Libertarian Nati

In [11]:
def ParseUrl(l):
    
    url = Request(l,headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"})  # un moyen un peu hacky d'éviter une erreur 403
    try:
        page = urlopen(url).read()
    except:
        return pd.Series(['Nan','Nan','Nan','Nan','Nan'])
    pageStr = BeautifulSoup(page, "lxml")
    titrePrin = pageStr.title.get_text() # récupère le texte dans la balise <title>
    titresSect = [title.get_text() for title in pageStr.findAll(('h1','h2','h3','h4','h5'))]# récupère le texte dans ts les balises <h*>
    textualCont = [content.get_text() for content in pageStr.findAll('p')] # récupère le texte dans ts les balises <p>
    links= [link.get('href') for link in pageStr.findAll('a') if str(link.get('href')).startswith(("http", "www"))] # récupère les liens dans ts les balises <a> si href commence par "http" ou "www"
    pics= [pic.get('src') for pic in pageStr.findAll('img') if pic.get('alt') !=""] # récupère les liens dans ts les balises <img> ssi alt non nul 
    return pd.Series([titrePrin,titresSect,textualCont,links,pics])

In [10]:
SubsetforTest = dataset.sample(20)

In [14]:
start = time()

pool = ThreadPool(4)

a = pool.map(ParseUrl, SubsetforTest["urls"]) # applique de manière parallèle la fonction ParseUrl à SubsetforTest["urls"] 
a = pd.DataFrame(a)   # converti la fonction ainsi obtenue en un dataFrame
a = a.rename(columns = {0:"titre",1:"titreSect",2:"textualCont", 3:"links", 4:"pics"}) # dont on note les colonnes
SubsetforTest  = SubsetforTest.reset_index() # on remet les index de SubsetforTest à 0 (pour être aligné avec les index de a)
result = pd.concat([SubsetforTest, a], axis=1) #on concatène les deux dataFrame

pool.close() 
pool.join()

end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

temps nécessaire:  21.137333869934082


In [13]:
a

Unnamed: 0,titre,titreSect,textualCont,links,pics
0,"ABC News – Breaking News, Latest News, Headlin...","[\nSections\n, \nShows\n, \nLive\n, \nYahoo!-A...",[],"[http://abcnews.go.com/Video, http://abcnews.g...","[None, None, None, None, None, None, None, Non..."
1,Food policy under Trump and legalized street v...,"[\n\nMusic\n, \n\nNews & Culture\n, \nGOODFOOD...","[\nDONATE\n, \nMorning Becomes Eclectic\nJason...","[http://www.kcrw.com, http://www.kcrw.com, htt...",[http://www.kcrw.com/news-culture/shows/left-r...
2,Raw vegan raspberry cake (www.rawworldproducts...,[\n Cette vidéo n'est pas disponi...,"[\n\n\nChargement…\n \n, \n\n\nChargement…\...",[https://accounts.google.com/ServiceLogin?hl=f...,[/yts/img/pixel-vfl3z5WfW.gif]
3,Spinach Chips,"[Spinach Chips, \n9 comments on “Spinach Chips...","[Where TV is related, my favourite past time i...","[http://www.bakersbeans.ca, http://www.faceboo...",[http://www.bakersbeans.ca/images/2012/05/head...
4,El Paso Sisters Bring the Raw Vegan Food Revol...,"[ 63° , El Paso Overcast , El Paso Sisters B...","[Posted: Feb 07, 2017 09:29 PM MST, Updated: F...","[http://www.elpasoproud.com/weather, http://ww...",[http://static.lakana.com/nxsglobal/elpasoprou...
5,Vegan Lasagne - YouTube,[\n Cette vidéo n'est pas disponi...,"[\n\n\nChargement…\n \n, \n\n\nChargement…\...",[https://accounts.google.com/ServiceLogin?pass...,[/yts/img/pixel-vfl3z5WfW.gif]
6,Board chooses to appoint member | Williamson C...,"[Board chooses to appoint member, Stay Connect...",[The Round Rock ISD Board of Trustees approved...,"[http://www.txwclp.org, http://www.txwclp.org/...",[http://www.txwclp.org/wordpress/wp-content/up...
7,Anti-Hillary Rap Group Cozies Up To Libertaria...,"[East Orlando Post, Search form, \n ...","[\n, Alternative hip hop group Freenauts, an A...","[https://www.facebook.com/freenauts/, https://...",[http://eastorlandopost.com/sites/default/file...
8,Cronies Buy Conservative/Libertarian Thinktank...,[],[],"[https://twitter.com/LIBERTYSWF, https://twitt...",[]
9,A Libertarian View of CPAC: Part One - Being L...,"[A Libertarian View of CPAC: Part One, Micah J...",[The first proper day of events at the 2017 Co...,"[https://twitter.com/beinlibertarian, https://...",[https://beinglibertarian.com/wp-content/uploa...


In [15]:
result 

Unnamed: 0,level_0,index,created,followers,friends,hashtag,liked,location,retwc,text,urls,titre,titreSect,textualCont,links,pics
0,0,53409,2017-03-02 22:44:14,191,34,,0.0,,0,b'ABC US - Libertarian Party earns political ...,http://abcnews.go.com,"ABC News – Breaking News, Latest News, Headlin...","[\nSections\n, \nShows\n, \nLive\n, \nYahoo!-A...",[],"[http://abcnews.go.com/Video, http://abcnews.g...","[None, None, None, None, None, None, None, Non..."
1,1,81443,2017-02-08 02:35:45,378904,11863,vegan,0.0,,8,"b""RT @KCRWGoodFood: Who would've thought! @the...",http://www.kcrw.com/news-culture/shows/good-fo...,Food policy under Trump and legalized street v...,"[\n\nMusic\n, \n\nNews & Culture\n, \nGOODFOOD...","[\nDONATE\n, \nMorning Becomes Eclectic\nJason...","[http://www.kcrw.com, http://www.kcrw.com, htt...",[http://www.kcrw.com/news-culture/shows/left-r...
2,2,64569,2017-02-08 19:08:55,5,12,,0.0,,0,b'Raw Vegan Raspberry Cake\nhttps://t.co/eXH4K...,https://www.youtube.com/watch?v=_rpWbFcDe7M&t=1s,Raw vegan raspberry cake (www.rawworldproducts...,[\n Cette vidéo n'est pas disponi...,"[\n\n\nChargement…\n \n, \n\n\nChargement…\...",[https://accounts.google.com/ServiceLogin?uile...,[/yts/img/pixel-vfl3z5WfW.gif]
3,3,92952,2017-02-07 18:52:00,431,264,vegan,0.0,,1,"b"".@momwhoneedswine's Spinach Chips are going ...",http://www.bakersbeans.ca/spinach-chips/,Spinach Chips,"[Spinach Chips, \n9 comments on “Spinach Chips...","[Where TV is related, my favourite past time i...","[http://www.bakersbeans.ca, http://www.faceboo...",[http://www.bakersbeans.ca/images/2012/05/head...
4,4,73352,2017-02-08 12:38:05,3749,4363,,0.0,,0,b'El Paso Sisters Bring the Raw Vegan Food Rev...,http://www.elpasoproud.com/news/local/el-paso-...,El Paso Sisters Bring the Raw Vegan Food Revol...,"[ 63° , El Paso Overcast , El Paso Sisters B...","[Posted: Feb 07, 2017 09:29 PM MST, Updated: F...","[http://www.elpasoproud.com/weather, http://ww...",[http://static.lakana.com/nxsglobal/elpasoprou...
5,5,79866,2017-02-08 03:56:59,35,84,,0.0,,0,b'I liked a @YouTube video https://t.co/JHfcu7...,https://www.youtube.com/watch?v=4EPoKXT0ET4&fe...,Vegan Lasagne - YouTube,[\n Cette vidéo n'est pas disponi...,"[\n\n\nChargement…\n \n, \n\n\nChargement…\...",[https://accounts.google.com/ServiceLogin?cont...,[/yts/img/pixel-vfl3z5WfW.gif]
6,6,20974,2017-02-10 16:19:05,452,133,texas,0.0,,0,b'Board chooses to appoint member https://t.co...,http://www.txwclp.org/2017/02/board-chooses-to...,Board chooses to appoint member | Williamson C...,"[Board chooses to appoint member, Stay Connect...",[The Round Rock ISD Board of Trustees approved...,"[http://www.txwclp.org, http://www.txwclp.org/...",[http://www.txwclp.org/wordpress/wp-content/up...
7,7,4944,2017-02-16 14:04:17,76,44,,0.0,,0,b'Counter-culture conservatism\nhttps://t.co/g...,http://eastorlandopost.com/anti-hillary-rap-gr...,Anti-Hillary Rap Group Cozies Up To Libertaria...,"[East Orlando Post, Search form, \n ...","[\n, Alternative hip hop group Freenauts, an A...","[https://www.facebook.com/freenauts/, https://...",[http://eastorlandopost.com/sites/default/file...
8,8,19184,2017-02-11 04:52:45,1292,987,,0.0,,0,b'Cronies Buy Conservative/Libertarian Thinkta...,http://linkis.com/www.lewrockwell.com/8qTWA,Cronies Buy Conservative/Libertarian Thinktank...,[],[],"[https://twitter.com/LIBERTYSWF, https://twitt...",[]
9,9,28269,2017-02-26 02:16:01,709,1433,Libertarian,2.0,,1,b'A #Libertarian View of #CPAC: Part One\n\nht...,https://beinglibertarian.com/libertarian-view-...,A Libertarian View of CPAC: Part One - Being L...,"[A Libertarian View of CPAC: Part One, Micah J...",[The first proper day of events at the 2017 Co...,"[https://twitter.com/beinlibertarian, https://...",[https://beinglibertarian.com/wp-content/uploa...


In [16]:
DataShort = dataset.sample(3000) # subset parsable en moins d'une heure (nous allons nous en contenter)

In [None]:
start = time()

pool = ThreadPool(4)

a = pool.map(ParseUrl, DataShort["urls"]) # applique de manière parallèle la fonction ParseUrl à DataShort["urls"] 
a = pd.DataFrame(a)   # converti la fonction ainsi obtenue en un dataFrame
a = a.rename(columns = {0:"titre",1:"titreSect",2:"textualCont", 3:"links", 4:"pics"}) # dont on note les colonnes
DataShort  = DataShort.reset_index() # on remet les index de DataShort à 0 (pour être aligné avec les index de a)
resultParsed = pd.concat([DataShort, a], axis=1) #on concatène les deux dataFrame

pool.close() 
pool.join()

end = time() # on arrête le chrono
print("temps nécessaire: ",end - start)

In [None]:
resultParsed.head(15)

In [None]:
resultParsed.to_csv("talkboxParsed.csv")

In [None]:
data = pd.read_csv("talkboxParsed.csv")
data

## NLP: Finally

Maintenant que nous disposons de nos données, formatées et "nettoyé", nous allons pouvoir analyser pour chaque lien le contenu sémantique des données textuelles. La librairie de référence pour le faire en python s'appelle <a href="http://www.nltk.org/"> NltK </a>. Nous n'allons ne nous contenter que de quelques opérations basiques pour commencer (le but à terme étant de réaliser des sentiment analysis)

### premier pas avec NLTK
NltK travaille sur des chaines de caractère et dispose de fonctions pour (entre autre)
<ul>
<li> tokenizer des chaines de charactères (<a href="http://www.nltk.org/api/nltk.tokenize.html">voir les méthodes</a>) 
<li> 
</ul>

Nous allons d'abord importer les corpora necessaires

In [None]:
import nltk

In [None]:
nltk.download()

Voyons maintenant ce que nous pouvons aisément faire sur un texte comme celui ci.

In [None]:
text = "Yet it was watching him, with its beautiful marred face and its cruel smile. Its bright hair gleamed in the early sunlight. Its blue eyes met his own. A sense of infinite pity, not for himself, but for the painted image of himself, came over him. It had altered already, and would alter more. Its gold would wither into gray. Its red and white roses would die. For every sin that he committed, a stain would fleck and wreck its fairness. But he would not sin. The picture, changed or unchanged, would be to him the visible emblem of conscience. He would resist temptation." # Oscar Wilde The Picture of Dorian Grey  chap 5

# La première chose à faire consiste à identifier les mots individuellement (car les espaces ne suffisent pas)

tokenized = nltk.word_tokenize(text)
print(tokenized)
print(type(tokenized))

print("#########")

from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
lem = [wnl.lemmatize(t) for t in tokenized]
print(lem)

print("#########")

tagged = nltk.pos_tag(tokenized)
print(tagged)
print(type(tokenized))


Nous pouvons même nous essayer à quelques analyses lexicographiques. Une fonction beaucoup utilisée pour évaluer rapidement le message d'un text consiste à analyser l'ensemble de ses n-grams à la recherche de n-grams récurrents (aussi appelés <b>collocations</b>). (n-grams = séquence continu de n mots adjacents dans un text)

NB (ce n'est pas si fantaisiste et désuet que cela puisque <a href="http://storage.googleapis.com/books/ngrams/books/datasetsv2.html">même Google le fait sur ses livres</a>)

Nous allons utiliser directement les fonctions de recherche de collocation de NLTK 


In [None]:
from nltk.collocations import BigramAssocMeasures, BigramCollocationFinder
bigram_measures= BigramAssocMeasures()

finder = BigramCollocationFinder.from_words(tokenized, window_size = 3) # on cherche tous les bigrams dans une fenêtre de 3 mots
best = finder.nbest(bigram_measures.pmi,20) # on prend les 20 meilleurs
print(best)

Ce n'est peut être pas très parlant à l'échelle d'un texte si court, choisissons quelque chose de plus long

In [None]:
from nltk.corpus import gutenberg

nouvelle = gutenberg.words('shakespeare-hamlet.txt')
nouvelle

finder = BigramCollocationFinder.from_words(nouvelle, window_size = 4) # on cherche tous les bigrams dans une fenêtre de 3 mots
best = finder.nbest(bigram_measures.pmi,20) # on prend les 20 meilleurs
print(best)

Nous allons plutôt nous intéresser aux analyses de sentiments avec le module sentiment de NltK

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

paragraph = "It was one of the worst movies I've seen, despite good reviews. \ Unbelievably bad acting!! Poor direction. VERY poor production. \ The movie was bad. Very bad movie. VERY bad movie. VERY BAD movie. VERY BAD movie!"

sid = SentimentIntensityAnalyzer()
sid.polarity_scores(paragraph)

C'est pas mal, ça!!! Essayons avec autre chose

In [None]:
phrase1 = "VADER is smart, handsome, and funny!"
phrase2 = "VADER is VERY SMART, handsome, and FUNNY!!!"
text2 = "It was one of the worst movies I've seen, despite good reviews. VADER is VERY SMART, handsome, and FUNNY!!!"

print(sid.polarity_scores(phrase1))
print(sid.polarity_scores(phrase2))
print(sid.polarity_scores(phrase1 + " " +phrase2))
print(sid.polarity_scores(text2))

Nous disposons maintenant des quelques outils nécessaires à traiter nos données

## Maintenant, nos données

Nous allons concevoir des fonctions pour calculer les données suivantes
<ul>
<li> polarity tweet: polarité du contenu du tweet (nous allons utiliser le .polarity_scores de Vader)
<li> polarity url: la polarité du contenu de la page en lien
<li> imageRatio: le ratio du nombre d'image par rapport à la longueur des données textuelles
<li> titreNum : le nombre de tweets dans le lien
</ul>

Idéalement, si cela est possible avec la méthode pool map, nous parallèliserons les opérations pour tirer pleinement parti de nos machines hors de prix :)

In [None]:
def GetPolarity(t): # il vaudrait mieux n'avoir qu'une valeur: neg pour neg et pos pour pos (ce sera plus simple à ploter)
    tokens = nltk.word_tokenize(t)
    return(sid.polarity_scores(tokens))


In [None]:
from multiprocessing.dummy import Pool as ThreadPool 

pool = ThreadPool(4) # on crée 4 tâches parallèles

data["polarityUrl"] = pool.map(GetPolarity, data['textualCont'].to_string())