# FA3 - Modélisation mathématique - Contrôle Continu

29 janvier 2025

## Exercice 1: Classifieur Basé sur les Fréquences

### Contexte

Dans cet exercice, vous allez implémenter un **classifieur basé sur les fréquences**. Le fonctionnement de ce modèle est illustré sur l'exemple ci-dessous:

### Exemple

Soit le **dataset** suivant. Le but est d'apprendre à prédire la **variable réponse** `BuyLaptop` en fonction des **variables caractéristiques** `Age`, `Income`, `Gender`, et `Education` qui décrivent le profil d'un individu.

| Age   | Income  | Gender | Education   | BuyLaptop |
|-------|---------|--------|-------------|-----------|
| young | high    | male   | bachelor    | no        |
| young | high    | female | bachelor    | yes       |
| middle| medium  | male   | master      | yes       |
| middle| high    | female | phd         | yes       |
| old   | low     | male   | highschool  | no        |
| old   | medium  | female | bachelor    | yes       |
| young | low     | female | bachelor    | no        |
| young | high    | male   | bachelor    | yes       |
| middle| high    | male   | phd         | yes       |
| old   | high    | female | master      | no        |
| young | medium  | female | phd         | yes       |
| middle| low     | male   | highschool  | no        |
| old   | low     | male   | master      | no        |

Pour ce faire, on procède selon les étapes suivantes :

1. **Calcul de l'attribut `class_counts` lié à la variable réponse `BuyLaptop` :**
```python
class_counts -> {"yes": 7, "no": 6}
```

2. **Calcul de l'attribut `feature_counts` lié aux variables réponses et caractéristiques :**
```python
feature_counts ->
{'yes' :
    [
     {"young": 3, "middle": 3, "old": 1},                    # Colonne 1
     {"high": 4, "medium": 3, "low": 0},                     # Colonne 2
     {"male": 3, "female": 4},                               # Colonne 3
     {"highschool": 0, "bachelor": 3, "master": 1, "phd": 3} # Colonne 4
    ],                
'no' :
    [
     {"young": 2, "middle": 1, "old": 3},                    # Colonne 1
     {"high": 2, "medium": 0, "low": 4},                     # Colonne 2
     {"male": 4, "female": 2},                               # Colonne 3
     {"highschool": 2, "bachelor": 2, "master": 2, "phd": 0} # Colonne 4
    ]}
```

3. **Implémentation de la méthode `fit`**

    Cette méthode regroupe les deux points précédents.
   
4. **Implémentation de la méthode `predict`**

    Pour prédire l'observation ci-dessous :
   ```python
    X_test = ["middle", "high", "female", "phd"]
    ```
    on suit les étapes suivantes :
    - **Calcul du score pour `"yes"` :**
      - Colonne 1 : `"middle"` → fréquence = 3  
      - Colonne 2 : `"high"`   → fréquence = 4  
      - Colonne 3 : `"female"` → fréquence = 4  
      - Colonne 4 : `"phd"`    → fréquence = 3
      - **Score total pour `"yes"` :** \( 3 + 4 + 4 + 3 = 14 \)
    - **Calcul du score pour `"no"` :**
      - Colonne 1 : `"middle"` → fréquence = 1  
      - Colonne 2 : `"high"`   → fréquence = 2  
      - Colonne 3 : `"female"` → fréquence = 2  
      - Colonne 4 : `"phd"`    → fréquence = 0
      - **Score total pour `"no"` :** \( 1 + 2 + 2 + 0 = 5 \)
    
    **Prédiction :** La classe prédite est `"yes"` car 14 > 5.

### Code

Complétez la classe **`FrequencyClassifier`** ci-dessous pour obtenir un fonctionnement comme décrit dans cet exemple.

In [1]:
import numpy as np
from collections import Counter
from sklearn.metrics import classification_report

In [3]:
class FrequencyClassifier:
    
    def __init__(self):
        
        pass

    def fit(self, X, y):
        """Apprend les fréquences des valeurs dans chaque colonne pour chaque classe."""
        
        pass
                
    def predict(self, X):
        """Prédit la classe de chaque observation en utilisant les fréquences."""

        pass

### Application

- Tester votre algorithme sur le **train set** `X_train, y_train` (le même que dans l'exemple) et le **test set** `X_test, y_test` donnés ci-dessous. 

- Présentez vos résultats.

In [4]:
# Exemple de données : jeu de données "weather"

X_train = np.array([
    ["young", "high", "male", "bachelor"],
    ["young", "high", "female", "bachelor"],
    ["middle", "medium", "male", "master"],
    ["middle", "high", "female", "phd"],
    ["old", "low", "male", "highschool"],
    ["old", "medium", "female", "bachelor"],
    ["young", "low", "female", "bachelor"],
    ["young", "high", "male", "bachelor"],
    ["middle", "high", "male", "phd"],
    ["old", "high", "female", "master"],
    ["young", "medium", "female", "phd"],
    ["middle", "low", "male", "highschool"],
    ["old", "low", "male", 	"master"]
])

y_train = np.array(["no", "yes", "yes", "yes", "no", "yes", 
                    "no", "yes", "yes", "no", "yes", "no", "no"])

In [5]:
X_test = np.array([
    ["young", "medium", "male", "master"],
    ["middle", "medium", "female", "phd"],
    ["old", "low", "female", "highschool"],
    ["old", "medium", "female", "master"],
    ["middle", "low", "female", "bachelor"],
])

y_test = np.array(["yes", "no", "no", "yes", "yes"])

## Exercice 2: Application

- Tester votre algorithme sur le **dataset** `iris` ci-dessous. 
- Présentez vos résultats.

In [169]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [170]:
data = load_iris()
X, y = data.data, data.target

# Diviser les données en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Exercice 3: KNN

L'algorithme des **$k$ plus proches voisins (KNN)** classifie un point $x$ en la classe $\hat c$ qui apparaît le plus fréquemment parmi ses $k$ plus proches voisins. *N'hésitez pas à me demander si vous ne vous rappelez plus du principe...*

En général, la notion de "proximité" est la distance euclidienne (distance classique). Mais si les data que l'on considère sont des mots ou des textes, cette notion ne fait plus de sens. Pour les mots ou les textes, il existe une distance (un peu compliquée, mais pas besoin de la connaître) appelée **distance de levenstein**, implémentée par la fonction ci dessous. Plus la distance entre `word_1` et `word_2` est **petite** (proche de 0), plus ces mots sont **proches**. Plus la distance est **grande** (proche de 1), plus ces mots sont **éloignés**.

1. Implémetez une version de l'**algorithme KNN** basé sur la **distance de Levenstein** (pas besoin de faire très élaboré).
2. Entraînez l'algorithme sur le dataset de mots `X, y` donné ci-dessous.
3. Prédisez les classes associées au test set ci-dessous.

```python
X_test = ["street", "clap"]

knn = KNN()
knn.fit(X, y)
knn.predict(X_test)
```

In [142]:
def levenstein_distance(word1, word2):
    m, n = len(word1), len(word2)
    
    matrix = np.zeros((m+1, n+1), dtype=int)
    
    matrix[:, 0] = np.arange(m+1)
    matrix[0, :] = np.arange(n+1)
    
    for i in range(1, m+1):
        for j in range(1, n+1):
            if word1[i-1] == word2[j-1]:
                substitution_cost = 0
            else:
                substitution_cost = 1

            matrix[i, j] = min(
                matrix[i-1, j] + 1,                # deletion
                matrix[i, j-1] + 1,                # insertion
                matrix[i-1, j-1] + substitution_cost    # substitution
            )
    
    similarity = 1 - matrix[m, n] / max(m, n)
    similarity_percentage = similarity * 100
    distance = (100 - similarity_percentage) / 100
    
    return distance

In [143]:
# Exemples
print(levenstein_distance("salopette", "saperlipopette")) # mots proches
print(levenstein_distance("salopette", "chemise"))        # mots éloignés

0.3571428571428572
0.8888888888888888


In [150]:
dataset = [ 
        # mots de classe 1
        ('stone', 1), ('stony', 1), ('store', 1), ('storm', 1), ('shore', 1),
        ('short', 1), ('sport', 1), ('spore', 1), ('spoon', 1), ('soon', 1),
        ('moon', 1), ('moan', 1), ('mean', 1), ('meat', 1), ('neat', 1),
        ('seat', 1), ('seal', 1), ('sell', 1), ('spell', 1), ('smell', 1),
        # mots de classe 2
        ('cat', 2), ('bat', 2), ('rat', 2), ('mat', 2), ('fat', 2), 
        ('hat', 2), ('sat', 2), ('pat', 2), ('cab', 2), ('tab', 2), 
        ('car', 2), ('bar', 2), ('tar', 2), ('far', 2), ('par', 2),
        ('sap', 2), ('tap', 2), ('map', 2), ('cap', 2), ('lap', 2)
        ]

X = [x[0] for x in dataset] # mots
y = [x[1] for x in dataset] # classes associées