# Conteneurs, immutabilité, pattern matching, fonctions ordre supérieur

## FoldRight

Soit la fonction foldRight définie de la manière suivante (pensez à la fonction f comme un paramètre supplémentaire, cette forme de curryfication est utilisée en Scala pour faire de l'inférence de type) :

In [6]:
def foldRight[A,B](as: List[A], init: B)(f: (A, B) => B): B = 
    as match {
      case Nil => init
      case x::rest => f(x, foldRight(rest,init)(f))
    }

defined [32mfunction[39m [36mfoldRight[39m

**Utiliser cette fonction pour calculer la longueur d'une liste**

In [7]:
var list= List(1,2,3,5,8)
var init = 0
foldRight(list,init)((x,y)=>y+1)

Soit la fonction foldLeft définie de la manière suivante :

In [8]:
@annotation.tailrec
  def foldLeft[A,B](list: List[A], z: B)(f: (B, A) => B): B =
    list match {
      case Nil   => z
      case a::as => foldLeft(as, f(z, a))(f)
    }

defined [32mfunction[39m [36mfoldLeft[39m

**Utiliser cette fonction pour créer :**
- une fonction qui incrémente chaque élément d'une liste d'entiers.
- une fonction qui inverse une liste.

In [9]:
def incrementList(list:List[Int]):List[Int]= 
{
    foldLeft(list,List[Int]())((x,y)=>x:+y+1)
}

def inverseList[A](list:List[A]):List[A]=
{
    foldLeft(list,List[A]())((x,y)=>y::x)
}

var list= List(1,2,3,5,8)

incrementList(list)
inverseList(list)

## Objectifs du reste du TP

Dans les moteurs de recherche, on cherche à évaluer la pertinence d'un document par rapport à la requête effectuée par l'utilisateur. Pour ce faire, on calcule une mesure de l'intérêt de ce document et on trie les documents en fonction de cette mesure.

Parmi les techniques de calcul, la méthode TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode statistique qui évalue l'importance d'un terme contenu dans un document, relativement au corpus auquel il appartient. 

Plus le nombre d'occurrences du terme dans le document est importante, plus le poids de se mot augmente par rapport aux autres mots présents dans le document. 

Par ailleurs, un terme doit avoir d'autant plus d'importance qu'il est rare dans le corpus : un mot présent dans tous les documents n'est que peu discriminant.

La mesure TD-IDF du terme $i$ dans le document $j$ est ainsi définie par :
$$tfidf_{(i,j)}=tf_{(i,j)}\cdot   idf_i$$

Qui est bien d'autant plus grand que :
- le terme est rare dans le corpus
- qu'il est fréquent dans le document

## Travail à effectuer

Dans ce TP, on va construire étape par étape, une chaîne de traitement qui nous permettra de calculer le TF de tous les termes présents dans un document.

On fournit le fichier `texte.txt` qui est le fichier dont on veut calculer le TF.

### Récupérer dans une chaîne le contenu de l'intégralité du fichier `texte.txt` en tenant compte des erreurs sous une forme fonctionnelle (utiliser `Try`)

In [None]:
import scala.io.Source
import scala.util.{Try,Success,Failure}

def readTextFile(filename: String): Try[List[String]] = {
    Try(Source.fromFile(filename).getLines.toList)
}

val filename = "texte.txt"
readTextFile(filename) match {
    case Success(lines) => lines.foreach(println)
    case Failure(f) => println(f)
}

val fileContents = Source.fromFile(filename).getLines.mkString

﻿The Project Gutenberg EBook of Nanon, by George Sand

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project Gutenberg License included
with this eBook or online at www.gutenberg.net


Title: Nanon
       La bibliothèque précieuse

Author: George Sand

Release Date: March 1, 2005 [EBook #15226]

Language: French


*** START OF THIS PROJECT GUTENBERG EBOOK NANON ***




Produced by Ebooks libres et gratuits; this text is also available
at http://www.ebooksgratuits.com in Word format, Mobipocket Reader
format, eReader format and Acrobat Reader format.





George Sand



NANON



(1872)



Table des matières

I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
XXI
XXII
XXIII
XXIV
XXV
XXVI
XXVII
XXVIII




I

J'entreprends, dans un âge avancé, en 1850, d'écrire l'histoire de
ma jeunesse.

Mon but n'est pas d'intéresser à ma personne; il est de conser


-- Puisque te voilà une femme, me dit mon oncle en la dégustant, tu
mérites le plaisir que je vais te faire. Viens avec moi au-devant
de ton petit cousin Pierre, qui s'est chargé de ramener l'_ouaille
_et qui ne tardera pas d'arriver.

Ce mouton, ardemment désiré, était donc une brebis, et elle était
probablement des plus laides, car elle avait coûté trois livres.
Comme la somme me parut énorme, la bête me sembla belle. Certes,
j'avais eu sous les yeux bien des objets de comparaison depuis que
j'existais; mais je n'avais jamais songé à examiner le bétail des
autres, et mon mouton me plut tant, que je m'imaginai avoir le
plus bel animal de la terre. Sa figure me revint tout de suite. Il
me sembla qu'il me regardait avec amitié, et, quand il vint manger
dans ma petite main les feuilles et le déchet des légumes que
j'avais gardés pour lui, j'eus bien de la peine à me retenir de
crier de joie.

-- Ah! mon oncle, dis-je, frappée d'une idée qui ne m'était pas
encore venue, voilà bien un bea

tout et mourir sans avoir songé à faire leur testament, comme
s'ils n'avaient jamais aimé ni eux ni les autres. J'en ai vu aussi
qui se laissaient piller pour avoir la paix et non pour faire le
bien; mais j'ai vu surtout ces derniers moines, et je vous assure
qu'ils n'avaient aucun esprit d'aménagement. Ils ne songeaient ni
à la famille qu'ils ne devaient point avoir, ni à l'avenir de leur
communauté dont ils ne pouvaient avoir aucun souci. Ils ne se
souciaient pas non plus du bon rendement de la terre et des soins
qu'elle mérite. Ils vivaient au jour le jour comme des voyageurs
dans un campement, faisant trop de culture sur un point, pas assez
sur un autre, épuisant le sol qui se trouvait à leur convenance,
négligeant celui qu'ils ne pouvaient pas ou ne savaient pas
surveiller. Ils avaient dans le pays de plaine de grands étangs
qu'ils auraient bien pu dessécher et ensemencer; mais il aurait
fallu acheter du poisson pour leur carême et ils avaient beaucoup
de paresse et coupaient le b

-- C'est bien, je te conduirai ton mouton quand il aura assez
mangé.

-- Mais si les moines vous grondent?

-- Ils ne me gronderont pas. Je leur expliquerai leur devoir.

-- Vous êtes donc maître chez eux?

-- Moi? pas du tout. Je ne suis rien qu'un élève. On m'a confié à
eux pour être instruit et pour me préparer à être religieux quand
je serai en âge.

-- Et quand est-ce que vous serez en âge?

-- Dans deux ou trois ans. J'en ai bientôt seize.

-- Alors, vous êtes novice, comme on dit?

-- Pas encore, je ne suis ici que depuis deux jours.

-- C'est donc ça que je ne vous ai jamais vu? Et de quel pays êtes-
vous?

-- Je suis de ce pays; as-tu entendu parler de la famille et du
château de Franqueville?

-- Ma foi, non. Je ne connais que le pays de Valcreux. Est-ce que
vos parents sont pauvres, pour vous renvoyer comme ça d'avec eux?

-- Mes parents sont très riches; mais nous sommes trois enfants,
et, comme ils ne veulent pas diviser leur fortune, ils la gardent
pour le fils aîné. Ma s

de ne rien faire, on sait qu'il n'y a pas de gens plus malheureux.

-- Pourquoi sont-ils malheureux?

-- Parce qu'on les méprise, répondit Jacques en haussant les
épaules.

Et il alla se coucher aussi.

Je restai un petit moment après avoir rangé le souper tout
doucement pour ne point éveiller le père Jean, qui ronflait déjà,
et, comme Pierre couvrait le feu qui était notre seule clarté dans
la chambre, je m'approchai de lui pour causer tout bas. J'étais
tourmentée de savoir pourquoi les moines étaient méprisés et
malheureux.

-- Tu vois bien, me dit-il, que c'est des hommes qui n'ont ni
femmes ni enfants. On ne sait pas seulement s'ils ont père et
mère, frères ou soeurs. Sitôt qu'ils sont _encagés, _leur famille
les oublie ou les abandonne. Ils perdent jusqu'à leur nom, c'est
comme s'ils étaient tombés de la lune. Ils deviennent tous gras et
laids, et sales dans leurs grandes robes, encore qu'ils aient le
moyen de se tenir propres. Et puis ça s'ennuie à marmotter des
prières à toute h

Il avait donné son coeur à Dieu, comme sont portés à le faire ceux
qui n'ont que lui pour ami et pour soutien; mais, plus son
précepteur voulait lui expliquer Dieu à sa manière, plus l'élève
le comprenait à la sienne. Il ne regimbait point contre l'Église.
Il se contentait de la regarder comme une chose de ce monde qu'il
ne faut point placer trop haut et qu'on peut blâmer et critiquer
quand elle ne marche pas dans le vrai chemin du Ciel. Ce qu'il
m'avait dit dès le premier jour, il le pensa toute sa vie.
L'Église, selon lui, ne devait servir qu'à faire aimer Dieu, à
consoler les peines et à secourir le malheur. Pour tout le reste,
il ne s'en souciait guère, ne querellait point, laissait dire et
agissait selon sa conscience. Enfin, à force d'être négligé et
abandonné à lui-même, en même temps qu'on le plaçait en dehors de
tout, il s'était fait un monde à part selon ses rêves et il avait
pris un goût d'indépendance sauvage. Il ne résistait à personne et
cédait même à tout par complaisanc

je fus envieuse de savoir ce que cela pouvait être: la Bastille!

Les explications de mon grand-oncle ne me satisfaisaient pas,
parce qu'elles étaient toujours contredites par mes cousins;
quelquefois devant lui, ce qui le fâchait beaucoup. Je guettai
donc le petit frère pour le questionner, et, quand j'eus réussi à
le joindre au milieu de son école buissonnière, je le priai, lui
qui devait connaître plus de choses que nous, de me dire pourquoi
les uns se réjouissaient, et pourquoi les autres s'inquiétaient de
la Bastille. Dans mon idée, c'était une personne qu'on avait mise
en prison.

-- C'est-à-dire, me répondit-il, que la Bastille était une prison
affreuse que les gens de Paris ont jetée à bas.

Et il m'expliqua dans un sens très révolutionnaire la chose et
l'événement. En réponse à d'autres questions, il m'apprit que les
moines de Valcreux regardaient la victoire des Parisiens comme un
très grand malheur. Ils disaient que tout était perdu et parlaient
de faire réparer les brèches 

neuf heures et tout était muet comme en pleine nuit. Cependant
personne ne dormait cette nuit-là, on était comme hébété par la
crainte, on n'osait pas respirer. Le souvenir de cette panique est
resté dans nos campagnes comme ce qui a le plus marqué pour nous
dans la révolution. On l'appelle encore l'_année de la
grand'peur._

Rien ne remuait dans les grands châtaigniers qui nous
enveloppaient de leur ombre_. _Cette tranquillité du dehors passa
en nous, et, à demi-voix, nous nous mîmes à babiller. Nous ne
songions pas à avoir faim, mais le sommeil nous gagnait. Pierre
s'étendit par terre, devisa quelque peu sur les étoiles, m'apprit
qu'elles n'étaient pas à la même place aux mêmes heures durant le
cours de l'année et finit par s'endormir profondément.

Je me fis conscience de le réveiller. Je comptais bien faire le
guet toute seule, mais je ne pense pas en être venue à bout plus
d'un moment.

Je fus réveillée par un pied qui me heurtait dans l'ombre, et,
ouvrant les yeux, je vis comme u

Alors les portes du moutier furent ouvertes à une douzaine des
plus raisonnables, et on leur fit parcourir toutes les salles pour
leur montrer qu'on n'avait ni canons, ni sabres, ni fusils; mais
le petit Anguilloux, qui avait servi les maçons à la réparation
d'un caveau, dit qu'il avait vu beaucoup d'armes dans cet endroit-
là, et, en effet, on y trouva quantité de vieilles arquebuses hors
de service, des fusils à rouet du temps des guerres de religion et
beaucoup de pertuisanes rouillées privées de leurs manches. On
s'empara du tout, et on l'apporta sur la place, où chacun prit ce
qu'il voulut ou ce qu'il put; les arquebuses et fusils n'étaient
bons à rien, mais les fers de piques étaient entiers, et on
s'occupa de les fourbir et de leur tailler de bons manches dans le
taillis du couvent. Ce fut le seul dégât commis. Les moines
promirent l'asile en cas d'attaque et désignèrent à chaque famille
l'abri qu'on pourrait lui donner. Les deux étrangers furent
renvoyés; on ne se souciait poin

dire qu'il n'y en avait point, ou qu'ils ne s'aviseraient pas de
venir chez nous. Le lendemain, on se tint encore en défense, mais
ensuite on se remit au travail. Les femmes qui avaient caché leurs
enfants reparurent avec eux; on déterra le linge et le peu
d'argent qu'on avait enfouis, tout redevint tranquille comme
auparavant. On fut content du petit frère qui, en parlant à propos
aux moines, avait empêché les paroissiens de se brouiller avec
eux; on pensait qu'ils étaient pour durer encore longtemps et on
n'eût pas voulu encourir leur colère. Ils n'en montrèrent pas. On
prétendit que le petit frère les avait bien raisonnés. On remarqua
qu'il avait toujours nié l'arrivée des brigands et on commença à
le considérer plus qu'on n'avait fait jusque-là.

Tous les jours, je le trouvai sur mon chemin, et c'est à travers
champs qu'il m'apprit à_ _lire si vite et si bien, que tout le
monde s'en étonnait et qu'on parlait de moi dans la paroisse comme
d'une petite merveille. J'en étais fière pou

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



Nous ne sommes intéressés que par les mots du document. Or celui-ci contient aussi des ponctuations.

### Construire une chaîne ne contenant plus les ponctuations à partir de la chaîne précédente en remplaçant ces caractères par des espaces (utiliser `replace()`)

### Construire la liste de tous les mots présents dans le document à partir de la chaîne précédente (utiliser `split()`)

La casse des mots n'a pas d'importance pour le calcul qu'on souhaite effectuer ("Texte" et "texte" représente le même mot)

### Constuire la liste de tous les mots de la liste précédente passés en minuscule (utiliser `map()`)

### Utiliser la méthode `groupBy()` sur la liste précédente pour construire un dictionnaire dont les clefs sont les mots de la liste précédente et les valeurs la liste de toutes les occurences de ce mot

### A partir du dictionnaire précédent, construire un dictionnaire qui contient le nombre d'occurences de ce mot dans le document

### Afficher la liste des 10 mots les plus fréquents (utiliser `sortBy()`, `slice()` et `foreach()`)

Vous devriez normalement remarquer que les mots les plus fréquents ne sont pas vraiment informatifs : ce sont des mots de liaison comme des articles ou des conjonctions de subordination. On appelle couramment ces mots de "stopwords" : ols sont spécifiques de chaque langue.

Le fichier `stopwords.txt` fourni avec le TP contient une liste habituellement utilisée pour le français.

### Reprenez les étapes précédentes en filtrant les stopwords (méthode `filter()`)

### A partir du dictionnaire calculé après filtrage des stopwords, calculer le nombre de termes global présents dans le document

### Construire un dictionnaire contenant le TF de tous les termes du document (à l'exception des stopwords)