# Conteneurs, immutabilité, pattern matching, fonctions ordre supérieur

## FoldRight

Soit la fonction foldRight définie de la manière suivante (pensez à la fonction f comme un paramètre supplémentaire, cette forme de curryfication est utilisée en Scala pour faire de l'inférence de type) :

In [7]:
def foldRight[A,B](as: List[A], init: B)(f: (A, B) => B): B = 
    as match {
      case Nil => init
      case x::rest => f(x, foldRight(rest,init)(f))
    }

defined [32mfunction[39m [36mfoldRight[39m

**Utiliser cette fonction pour calculer la longueur d'une liste**

In [8]:
var list= List(1,2,3,5,8)
var init = 0
foldRight(list,init)((x,y)=>y+1)

Soit la fonction foldLeft définie de la manière suivante :

In [9]:
@annotation.tailrec
  def foldLeft[A,B](list: List[A], z: B)(f: (B, A) => B): B =
    list match {
      case Nil   => z
      case a::as => foldLeft(as, f(z, a))(f)
    }

defined [32mfunction[39m [36mfoldLeft[39m

**Utiliser cette fonction pour créer :**
- une fonction qui incrémente chaque élément d'une liste d'entiers.
- une fonction qui inverse une liste.

In [10]:
def incrementList(list:List[Int]):List[Int]= 
{
    foldLeft(list,List[Int]())((x,y)=>x:+y+1)
}

def inverseList[A](list:List[A]):List[A]=
{
    foldLeft(list,List[A]())((x,y)=>y::x)
}

var list= List(1,2,3,5,8)

incrementList(list)
inverseList(list)

## Objectifs du reste du TP

Dans les moteurs de recherche, on cherche à évaluer la pertinence d'un document par rapport à la requête effectuée par l'utilisateur. Pour ce faire, on calcule une mesure de l'intérêt de ce document et on trie les documents en fonction de cette mesure.

Parmi les techniques de calcul, la méthode TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode statistique qui évalue l'importance d'un terme contenu dans un document, relativement au corpus auquel il appartient. 

Plus le nombre d'occurrences du terme dans le document est importante, plus le poids de se mot augmente par rapport aux autres mots présents dans le document. 

Par ailleurs, un terme doit avoir d'autant plus d'importance qu'il est rare dans le corpus : un mot présent dans tous les documents n'est que peu discriminant.

La mesure TD-IDF du terme $i$ dans le document $j$ est ainsi définie par :
$$tfidf_{(i,j)}=tf_{(i,j)}\cdot   idf_i$$

Qui est bien d'autant plus grand que :
- le terme est rare dans le corpus
- qu'il est fréquent dans le document

## Travail à effectuer

Dans ce TP, on va construire étape par étape, une chaîne de traitement qui nous permettra de calculer le TF de tous les termes présents dans un document.

On fournit le fichier `texte.txt` qui est le fichier dont on veut calculer le TF.

### Récupérer dans une chaîne le contenu de l'intégralité du fichier `texte.txt` en tenant compte des erreurs sous une forme fonctionnelle (utiliser `Try`)

In [None]:
import scala.io.Source
import scala.util.{Try,Success,Failure}

def readTextFile(filename: String): Try[List[String]] = {
    Try(Source.fromFile(filename).getLines.toList)
}

val filename = "texte.txt"
readTextFile(filename) match {
    case Success(lines) => lines.foreach(println)
    case Failure(f) => println(f)
}

Nous ne sommes intéressés que par les mots du document. Or celui-ci contient aussi des ponctuations.

### Construire une chaîne ne contenant plus les ponctuations à partir de la chaîne précédente en remplaçant ces caractères par des espaces (utiliser `replace()`)

In [0]:
lines.foreach(replace('.',', ' '))
lines.foreach(println)

(console):1:28 expected (Char | Symbol)
lines.foreach(replace('.','' '))
                           ^

: 

### Construire la liste de tous les mots présents dans le document à partir de la chaîne précédente (utiliser `split()`)

La casse des mots n'a pas d'importance pour le calcul qu'on souhaite effectuer ("Texte" et "texte" représente le même mot)

### Constuire la liste de tous les mots de la liste précédente passés en minuscule (utiliser `map()`)

### Utiliser la méthode `groupBy()` sur la liste précédente pour construire un dictionnaire dont les clefs sont les mots de la liste précédente et les valeurs la liste de toutes les occurences de ce mot

### A partir du dictionnaire précédent, construire un dictionnaire qui contient le nombre d'occurences de ce mot dans le document

### Afficher la liste des 10 mots les plus fréquents (utiliser `sortBy()`, `slice()` et `foreach()`)

Vous devriez normalement remarquer que les mots les plus fréquents ne sont pas vraiment informatifs : ce sont des mots de liaison comme des articles ou des conjonctions de subordination. On appelle couramment ces mots de "stopwords" : ols sont spécifiques de chaque langue.

Le fichier `stopwords.txt` fourni avec le TP contient une liste habituellement utilisée pour le français.

### Reprenez les étapes précédentes en filtrant les stopwords (méthode `filter()`)

### A partir du dictionnaire calculé après filtrage des stopwords, calculer le nombre de termes global présents dans le document

### Construire un dictionnaire contenant le TF de tous les termes du document (à l'exception des stopwords)