# Outils informatiques pour le "big data"

## Contrôle du 14 décembre 2017

### Comptage de mots dans les traductions anglaises de 4 romans francais.

Nous allons travailler avec les 4 textes des auteurs suivants

- Victor Hugo http://www.gutenberg.org/files/135/135-0.txt
- Marcel Proust http://www.gutenberg.org/files/7178/7178-8.txt
- Emile Zola http://www.gutenberg.org/files/1069/1069-0.txt
- Stendhal http://www.gutenberg.org/files/44747/44747-0.txt

Pour ceux qui utilisent le proxy, téléchargez ces fichiers directement depuis votre navigateur. Sinon vous pouvez exécutez la cellule suivante.

In [80]:
%mkdir -p books
import urllib.request as url
url.urlretrieve("http://www.gutenberg.org/files/135/135-0.txt",     filename="books/hugo.txt")
url.urlretrieve("http://www.gutenberg.org/files/7178/7178-8.txt",   filename="books/proust.txt")
url.urlretrieve("http://www.gutenberg.org/files/1069/1069-0.txt",   filename="books/zola.txt")
url.urlretrieve("http://www.gutenberg.org/files/44747/44747-0.txt", filename="books/stendhal.txt")

('books/stendhal.txt', <http.client.HTTPMessage at 0x7fb450d96550>)

### Liste de fichiers

- Créer une liste `filenames` contenant les noms des fichiers contenant les text des 4 livres.

In [8]:
import os, glob
here = os.getcwd()
filenames = sorted(glob.glob(os.path.join(here, 'books', '*.txt')))                                    

### Fonction `wordcount_map`

- Coder une fonction nommée `wordcount_map` permettant de lire un fichier et de compter 
les mots transformés en minuscules et ne contenant que des lettres de l'alphabet.
- Cette fonction renvoie un dictionnaire dont chaque mot du texte une clé et son
nombre d'occurences la valeur corespondante.

In [9]:
def wordcount_map(textfile):
                                     
    with open(textfile,'r',encoding='latin-1') as f:
       words = []
       for line in f:
          word_list = line.strip('\n').strip('\r').strip('.').strip(',').split(' ')
          words.append([word.lower() for word in word_list if word.isalpha()])
    
    result = {}

    for sentence in words:
       for word in sentence:
          try:
             result[word] += 1 
          except KeyError:
             result[word] = 1
                
    return result

- Avec une boucle for, appliquer cette fonction sur la liste `filenames`.
- Afficher le nombre de mots différents pour chaque livre

In [10]:
filenames

['/home/pnavaro/big-data/books/hugo.txt',
 '/home/pnavaro/big-data/books/proust.txt',
 '/home/pnavaro/big-data/books/stendhal.txt',
 '/home/pnavaro/big-data/books/zola.txt']

### Fonction `wordcount_reduce`

- Coder une fonction avec comme argument une liste de dictionnaires calculés chacun par la fonction `wordcount_map` qui retourne un dictionnaire les mots apparaissant dans **tous** les livres avec leur nombre d'occurences total. 

- Ecrire le code et donner le nombre d'apparitions du mot `valjean` dans `les misérables`.

In [11]:
import operator

def wordcount_reduce(dict_list):
    result = {}
    for d in dict_list:
        for k, v in d.items():
            try:
                result[k] += v
            except KeyError:
                result[k] = v

    return result

In [12]:
%%time

import operator
dict_list = [wordcount_map(filenames[0])] 
counts = wordcount_reduce(dict_list)
result = sorted(counts.items(), key=operator.itemgetter(1), reverse=True)

CPU times: user 401 ms, sys: 16.8 ms, total: 418 ms
Wall time: 414 ms


In [13]:
for mot, occurence in result:
    if mot == 'valjean':
        print(occurence)

790


### Version sequentielle

- Ecrire la boucle `for` qui permet de calculer les occurences des mots dans les 4 livres.
- Afficher les 5 premiers mots les plus courants.

In [14]:
import itertools
mapped_values = []
for f in filenames:
   mapped_values.append(wordcount_map(f))

result = wordcount_reduce(mapped_values)
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

- Remplacer cette boucle en utilisant `map`

In [15]:
import itertools
mapped_values = map(wordcount_map,filenames)

result = wordcount_reduce(mapped_values)
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

### Version parallèle

- Paralléliser l'étape utilisant `wordcount_map` sur 4 processus avec concurrent.futures

In [16]:
%%time

from concurrent.futures import ProcessPoolExecutor
e = ProcessPoolExecutor(4)

mapped_values = list(e.map(wordcount_map,filenames))
result = wordcount_reduce(mapped_values)

CPU times: user 78.7 ms, sys: 28.4 ms, total: 107 ms
Wall time: 502 ms


In [17]:
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

### PySpark

- Paralleliser la boucle avec PySpark

In [21]:
%env JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.151-1.b12.fc25.x86_64

env: JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.151-1.b12.fc25.x86_64


In [22]:
import pyspark

sc = pyspark.SparkContext('local[4]')

In [26]:
%%time

rdd = sc.parallelize(filenames)
mapped_values = rdd.map(wordcount_map).collect()

CPU times: user 33 ms, sys: 20.7 ms, total: 53.8 ms
Wall time: 496 ms


In [27]:
result = wordcount_reduce(mapped_values)

In [28]:
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

In [29]:
sc.stop()

### Dask.bag

- Paralléliser la boucle avec Dask.bag

In [45]:
import dask.bag as db

bag = db.from_sequence(filenames)
mapped_values = bag.map(wordcount_map).compute()


In [47]:
result = wordcount_reduce(mapped_values)
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

### Dask.delayed

- Paralléliser la boucle avec Dask.delayed

In [48]:
%%time

from dask import delayed, compute
import dask.multiprocessing

delayed_values = [delayed(wordcount_map)(f) for f in filenames]

mapped_values = compute(*delayed_values, get=dask.multiprocessing.get)

CPU times: user 64 ms, sys: 170 ms, total: 234 ms
Wall time: 772 ms


In [49]:
result = wordcount_reduce(mapped_values)
sorted(result.items(),key=operator.itemgetter(1), reverse=True)[:5]

[('the', 73863), ('of', 39701), ('to', 31788), ('and', 28780), ('a', 28284)]

## Bonus: 
 - Donner la liste des mots communs au 4 livres commencant par `q`.

In [79]:
for w in list(set.intersection(*(set(d.keys()) for d in mapped_values))):
    if w.startswith('q'):
        print(w)

quite
question
questioned
quarrel
quiet
quarry
queen
quickly
questioning
quarter
quarters
questions
quantity
quietly
quick
quote
