## Objectif du Projet

L'objectif du TP est d'utiliser Scala pour indexer un gros
volume de données textuelles (c'est-à-dire construire une structure de données permettant de retrouver rapidement des informations).

## Contexte

### Gutenberg
Le projet Gutenberg est une bibliothèque de versions électroniques libres (parfois appelés e-texts) de livres physiquement existants. Les textes fournis sont essentiellement du domaine public, soit parce qu'ils n'ont 
jamais été sous copyright, soit parce qu'il est expiré. Il y a également quelques textes sous copyright rendus disponibles par le projet avec la permission de l'auteur. Le projet fut lancé par Michael Hart en 1971 et nommé en hommage à l'imprimeur allemand du XVème siècle Johannes Gutenberg. En novembre 2013, le projet Gutenberg annonce proposer plus de 42 000 livres dans sa collection (ref. wikipedia).

Dans ce Projet, on s'intéressera uniquement à certains livres en français écrits par les auteurs les plus prolixes (en tous cas, ceux qui sont le plus référencés dans la base). On souhaiterait classifier les auteurs
en fonction de leur style littéraire. En première approximation, on considérera un dictionnaire des mots les plus utilisés dans la base et comment ces mots sont utilisés par les différents auteurs (en espérant
que leur vocabulaire soit spécifique).

# Travail à réaliser

## Ouvrir un fichier

L'ensemble des ouvrages en français au format texte brut est disponible dans l'archive présente sur Moodle.

### Ouvrir le fichier `796-0.txt`

Créer un descripteur associé au fichier `796-0.txt`

In [58]:
import scala.io.Source
import scala.util.{Try,Success,Failure}

val filename = "TextesFrancais/796-0.txt"

val texte = Source.fromFile(filename).getLines.toList

[32mimport [39m[36mscala.io.Source
[39m
[32mimport [39m[36mscala.util.{Try,Success,Failure}

[39m
[36mfilename[39m: [32mString[39m = [32m"TextesFrancais/796-0.txt"[39m
[36mtexte[39m: [32mList[39m[[32mString[39m] = [33mList[39m(
  [32m"\ufeffThe Project Gutenberg EBook of La Chartreuse de Parme, by Stendhal"[39m,
  [32m""[39m,
  [32m"This eBook is for the use of anyone anywhere at no cost and with"[39m,
  [32m"almost no restrictions whatsoever.  You may copy it, give it away or"[39m,
  [32m"re-use it under the terms of the Project Gutenberg License included"[39m,
  [32m"with this eBook or online at www.gutenberg.org/license"[39m,
  [32m""[39m,
  [32m""[39m,
  [32m"Title: La Chartreuse de Parme"[39m,
  [32m""[39m,
  [32m"Author: Stendhal"[39m,
  [32m""[39m,
  [32m"Release Date: June 29, 2013 [EBook #796]"[39m,
  [32m""[39m,
  [32m"Language: French"[39m,
  [32m""[39m,
  [32m"Character set encoding: UTF-8"[39m,
  [32m""[39m,
  [32m

### Afficher les 50 premières lignes du fichier

In [23]:
def xPremiereLignes(list:List[String], x:Int):List[String]={
    list.take(x)
}

//xPremiereLignes(texte,50).foreach(println)

defined [32mfunction[39m [36mxPremiereLignes[39m

### Compter le nombre de lignes du fichier

In [24]:
def nombreDeLigne(list:List[String]):Int={
    list.size
}

//println(nombreDeLigne(texte))

defined [32mfunction[39m [36mnombreDeLigne[39m

### Filtrer les lignes qui commencent par la chaîne "Ceci" (utiliser une fonction lambda)

In [25]:
def findFirstWord(word:String, list:List[String]):(List[String],Int)={
    var ceci = list.filter(_.split(" ").head == word)
    (ceci,ceci.size)
}

//println(findFirstWord("Ceci",texte)._1)

defined [32mfunction[39m [36mfindFirstWord[39m

### Combien y en a-t-il ?

In [25]:
//println(findFirstWord("Ceci",texte)._2)

### Récuperez les dans une liste

In [26]:
var ceci = findFirstWord("Ceci",texte)._1

## Construction d'un dictionnaire

On voudrait construire un dictionnaire des termes possibles à partir du contenu des ouvrages disponibles.

Pour cela on va travailler sur l'ensemble de fichiers.

### Créer un programme permettant permetttant d'explorer l'ensemble des fichiers du répertoire TextesFrancais

In [36]:
import java.io.File

//https://alvinalexander.com/scala/how-to-list-files-in-directory-filter-names-scala

def getListOfFiles(dir: String):List[File] = {
    val d = new File(dir)
    if (d.exists && d.isDirectory) {
        d.listFiles.filter(_.isFile).toList
    } else {
        List[File]()
    }
}

var nomDesTextes = getListOfFiles("TextesFrancais")

### Extraire le premier enregistrement : que contient-il ?

In [37]:
val premierTexte = Source.fromFile(nomDesTextes.head).getLines.toList

[36mpremierTexte[39m: [32mList[39m[[32mString[39m] = [33mList[39m(
  [32m"\ufeffThe Project Gutenberg EBook of Entre Nous, by Lucie Vos"[39m,
  [32m""[39m,
  [32m"This eBook is for the use of anyone anywhere at no cost and with"[39m,
  [32m"almost no restrictions whatsoever.  You may copy it, give it away or"[39m,
  [32m"re-use it under the terms of the Project Gutenberg License included"[39m,
  [32m"with this eBook or online at www.gutenberg.org"[39m,
  [32m""[39m,
  [32m""[39m,
  [32m"Title: Entre Nous"[39m,
  [32m"       Lectures Fran\u00e7aises \u00e0 l'usage des ecoles primaires - I"[39m,
  [32m""[39m,
  [32m"Author: Lucie Vos"[39m,
  [32m""[39m,
  [32m"Illustrator: J. Berhardina Bokhorst"[39m,
  [32m""[39m,
  [32m"Release Date: November 10, 2013 [EBook #44157]"[39m,
  [32m""[39m,
  [32m"Language: French"[39m,
  [32m""[39m,
  [32m"Character set encoding: UTF-8"[39m,
  [32m""[39m,
  [32m"*** START OF THIS PROJECT GUTENBERG EBOOK EN

### Afficher le nom des fichiers 

In [38]:
nomDesTextes.foreach(println)

TextesFrancais/44157-0.txt
TextesFrancais/29052-0.txt
TextesFrancais/26476-0.txt
TextesFrancais/23578-0.txt
TextesFrancais/22917-0.txt
TextesFrancais/43277-0.txt
TextesFrancais/35969-0.txt
TextesFrancais/12284-0.txt
TextesFrancais/43567-0.txt
TextesFrancais/37534-0.txt
TextesFrancais/46469-0.txt
TextesFrancais/20577-0.txt
TextesFrancais/36635-0.txt
TextesFrancais/41099-0.txt
TextesFrancais/39953-0.txt
TextesFrancais/32948-0.txt
TextesFrancais/17646-0.txt
TextesFrancais/37654-0.txt
TextesFrancais/37184-0.txt
TextesFrancais/27043-0.txt
TextesFrancais/36510-0.txt
TextesFrancais/42192-0.txt
TextesFrancais/15239-0.txt
TextesFrancais/39171-0.txt
TextesFrancais/22780-0.txt
TextesFrancais/33157-0.txt
TextesFrancais/28332-0.txt
TextesFrancais/40750-0.txt
TextesFrancais/46470-0.txt
TextesFrancais/39739-0.txt
TextesFrancais/38527-0.txt
TextesFrancais/36477-0.txt
TextesFrancais/8719-0.txt
TextesFrancais/15107-0.txt
TextesFrancais/35445-0.txt
TextesFrancais/43956-0.txt
TextesFrancais/41226-0.txt
Te

TextesFrancais/44504-0.txt
TextesFrancais/17540-0.txt
TextesFrancais/17641-0.txt
TextesFrancais/25526-0.txt
TextesFrancais/36978-0.txt
TextesFrancais/43294-0.txt
TextesFrancais/17311-0.txt
TextesFrancais/27345-0.txt
TextesFrancais/23566-0.txt
TextesFrancais/34560-0.txt
TextesFrancais/29114-0.txt
TextesFrancais/43501-0.txt
TextesFrancais/37183-0.txt
TextesFrancais/27044-0.txt
TextesFrancais/42088-0.txt
TextesFrancais/32640-0.txt
TextesFrancais/43389-0.txt
TextesFrancais/42836-0.txt
TextesFrancais/28370-0.txt
TextesFrancais/41413-0.txt
TextesFrancais/40413-0.txt
TextesFrancais/42765-0.txt
TextesFrancais/33539-0.txt
TextesFrancais/42421-0.txt
TextesFrancais/36437-0.txt
TextesFrancais/42798-0.txt
TextesFrancais/36207-0.txt
TextesFrancais/42211-0.txt
TextesFrancais/36900-0.txt
TextesFrancais/28080-0.txt
TextesFrancais/19440-0.txt
TextesFrancais/37052-0.txt
TextesFrancais/17285-0.txt
TextesFrancais/45655-0.txt
TextesFrancais/13834-0.txt
TextesFrancais/44098-0.txt
TextesFrancais/28534-0.txt
T

TextesFrancais/26504-0.txt
TextesFrancais/6501-0.txt
TextesFrancais/17238-0.txt
TextesFrancais/29549-0.txt
TextesFrancais/17360-0.txt
TextesFrancais/36909-0.txt
TextesFrancais/23616-0.txt
TextesFrancais/27876-0.txt
TextesFrancais/27035-0.txt
TextesFrancais/43535-0.txt
TextesFrancais/45060-0.txt
TextesFrancais/45979-0.txt
TextesFrancais/44617-0.txt
TextesFrancais/45864-0.txt
TextesFrancais/18133-0.txt
TextesFrancais/27831-0.txt
TextesFrancais/35657-0.txt
TextesFrancais/27037-0.txt
TextesFrancais/13190-0.txt
TextesFrancais/15739-0.txt
TextesFrancais/42126-0.txt
TextesFrancais/20895-0.txt
TextesFrancais/37401-0.txt
TextesFrancais/35732-0.txt
TextesFrancais/45692-0.txt
TextesFrancais/17242-0.txt
TextesFrancais/35476-0.txt
TextesFrancais/44713-0.txt
TextesFrancais/18543-0.txt
TextesFrancais/13189-0.txt
TextesFrancais/31441-0.txt
TextesFrancais/7442-0.txt
TextesFrancais/40095-0.txt
TextesFrancais/46111-0.txt
TextesFrancais/27970-0.txt
TextesFrancais/15579-0.txt
TextesFrancais/36460-0.txt
Tex

### Construire une structure contenant l'ensemble des textes

In [71]:
var textes = List[List[String]]()

for (x <- nomDesTextes) {
    textes :: Source.fromFile(x,"ISO-8859-1").getLines.toList
}

### Construire une structure contenant l'ensemble des mots présents dans tous les fichiers (attention : on veut un enregistrement par mot et non pas par "mot par fichier" $\rightarrow$ `flatMap()`).

In [70]:
println(textes.size)

0


### Construire une structure permettant de mettre tous les mots en minuscule

### Construire un dictionnaire générant des couples (mot,fréquence) - étape map

### Parmi les mots les plus courants il y a des mots tellement utilisés qu'ils n'apportent pas d'information sur un document (on parle de stopwords). De fait on va filtrer ces mots (utiliser la liste vue en TP).

#### Afficher quelques stopwords

#### Filtrer le dictionnaire pour supprimer les stopwords

#### Quel est maintenant le top 10 ?

#### Si vous voyez encore des "mots" non informatifs, filtrez-les 

## Signature d'un document : indice TF-IDF

L'indice TF-IDF (Term Frequency-Inverse Document Frequency) est un indice statistique appliqué aux données textuelles qui permet mesurer l'importance d'un terme dans un document au regard du reste du corpus de texte. Il augmente proportionnellement au nombre d'occurrences du mot dans le document et varie également en fonction de la fréquence du mot dans le corpus.

### TF - Term Frequency

La "fréquence" d'un terme est  le nombre d'occurrences de ce terme dans le document considéré (on parle de "fréquence" par abus de langage).

Dans notre cas, cela revient à faire subire la procédure que nous avons utilisée pour construire notre dictionnaire non pas à l'ensemble du texte correspondant au corpus mais fichier par fichier.

### Fréquence inverse de document - IDF

A l'inverse du TF qui cherche à mesurer l'importance d'un terme dans **un** document, la fréquence inverse de document (inverse document frequency - IDF) mesure l'importance du terme dans **l'ensemble** du corpus. 

Cette mesure vise à donner un poids plus important aux termes les moins fréquents, considérés comme contenant plus d'informations.

Pratiquement, on calcule le logarithme en base 10 de l'inverse de la proportion de documents du corpus qui contiennent le terme, ce qui revient à la formule :
$$idf_i=\log_{10}{\frac{|D|}{|\{d_((j)):t_((i))\in d_((j))\}|))}}$$

avec :
- $|D|$ : le nombre total de documents dans le corpus ;
- $|\{d_((j)):t_((i))\in d_((j))\}|$ : le nombre de documents où le terme $t_((i))$ apparaît.

#### Calculer l'IDF pour tous les mots définis dans le dictionnaire (attention l'IDF dépend du document, il doit donc y en avoir autant que le nombre de mots fois le nombre de document)

### Calcul du [TF-IDF](https://fr.wikipedia.org/wiki/TF-IDF?oldformat=true)

Le calcul final revient simlement pour le terme $i$ dans le document $j$ à calculer le produit $tfidf_{(i,j)}=tf_{(i,j)}\cdot idf_i$

#### Calculer ce terme pour l'ensemble des mots du dictionnaire présents dans l'ensemble des documents.

#### Construire un histogramme des td-idf pour l'ensemble des documents

# Calculer le top 10 IDF pour un mot particulier