# FI3 - Modélisation mathématique - Contrôle Continu

27 novembre 2024

## Exercice : Implémentation d'un Classifieur Basé sur les Fréquences

### Contexte

Dans cet exercice, vous allez implémenter un **classifieur basé sur les fréquences**. Le fonctionnement de ce modèle est illustré sur l'exemple ci-dessous:

### Exemple

Soit le **dataset** suivant. Le but est d'apprendre à prédire la **variable réponse** `PlayTennis` en fonction des **variables caractéristiques** `Outlook`, `Temperature`, `Humidity` et `Windy` qui décrivent la météo.

| Outlook    | Temperature | Humidity  | Windy  | PlayTennis  |
|------------|-------------|-----------|--------|-------|
| sunny      | hot         | high      | false  | no    |
| sunny      | hot         | high      | true   | no    |
| overcast   | hot         | high      | false  | yes   |
| rain       | mild        | high      | false  | yes   |
| rain       | cool        | normal    | false  | yes   |
| rain       | cool        | normal    | true   | no    |
| overcast   | cool        | normal    | true   | yes   |
| sunny      | mild        | high      | false  | no    |
| sunny      | cool        | normal    | false  | yes   |
| rain       | mild        | normal    | false  | yes   |
| sunny      | mild        | normal    | true   | yes   |
| overcast   | mild        | high      | true   | yes   |
| overcast   | hot         | normal    | false  | yes   |
| rain       | mild        | high      | true   | no    |


Pour ce faire, on procède selon les étapes suivantes:

1. **Calcul de l'attribut `class_counts` lié à la variable réponse `PlayTennis` :**
```python
class_counts -> {"yes": 9, "no": 5}
```
2. **Calcul de l'attribut `feature_counts` lié aux variables réponses et caractéristtiques:**
```python
feature_counts ->

{'yes' :
    [
     {"sunny": 2, "overcast": 4, "rain": 3}, # Colonne 1
     {"hot": 2, "mild": 4, "cool": 3},       # Colonne 2
     {"high": 3, "normal": 6},               # Colonne 3
     {"false": 6, "true": 3}                 # Colonne 4
    ],                
'no' :
    [
     {"sunny": 3, "rain": 2},                # Colonne 1
     {"hot": 2, "mild": 2, "cool": 1},       # Colonne 2
     {"high": 4, "normal": 1},               # Colonne 3
     {"false": 3, "true": 2}                 # Colonne 4
    ]}
```

3. **Implémentation dela méthode `fit`**

    Cette méthode regroupe les deux point précédents.
   
3. **Implémentation dela méthode `predict`**

    Pour prédire l'observation ci-dessous
   ```python
    X_test = ["sunny", "cool", "high", "true"]
    
    ```
    on suit les étapes suivante:
    - **Calcul du score pour `"yes"` :**
      - Colonne 1 : `"sunny"` → fréquence = 2  
      - Colonne 2 : `"cool"` → fréquence = 3  
      - Colonne 3 : `"high"` → fréquence = 3  
      - Colonne 4 : `"true"` → fréquence = 3
      - **Score total pour `"yes"` :** \( 2 + 3 + 3 + 3 = 11 \)
    - **Calcul du score pour `"no"` :**
      - Colonne 1 : `"sunny"` → fréquence = 3  
      - Colonne 2 : `"cool"` → fréquence = 1  
      - Colonne 3 : `"high"` → fréquence = 4  
      - Colonne 4 : `"true"` → fréquence = 2
      - **Score total pour `"no"` :** \( 3 + 1 + 4 + 2 = 10 \)
    
    **Prédiction :** La classe prédite est `"yes"` car 11 > 10.

### Code

Complétez la classe **`FrequencyClassifier`** ci-dessous pour obtenir un fonctionnement comme décrit dans cet exemple.

In [1]:
import numpy as np
from collections import Counter
from sklearn.metrics import classification_report

In [2]:
class FrequencyClassifier:
    
    def __init__(self):
        
        self.class_counts = {}    # Compte total des classes
        self.feature_counts = {}  # Comptes par colonne et par classe

    def fit(self, X, y):
        """Apprend les fréquences des valeurs dans chaque colonne pour chaque classe."""
        
        pass

    def predict(self, X):
        """Prédit la classe de chaque observation en utilisant les fréquences."""
        pass

### Application 1

- Tester votre algorithme sur le **train set** `X_train, y_train` (le même que dans l'exemple) et le **test set** `X_test, y_test` donnés ci-dessous. 

- Présentez vos résultats.

    *Ne vous inquiétez pas si les résultats ne sont pas transcendants...*

In [3]:
# Exemple de données : jeu de données "weather"

X_train = np.array([
    ["sunny", "hot", "high", "false"],
    ["sunny", "hot", "high", "true"],
    ["overcast", "hot", "high", "false"],
    ["rain", "mild", "high", "false"],
    ["rain", "cool", "normal", "false"],
    ["rain", "cool", "normal", "true"],
    ["overcast", "cool", "normal", "true"],
    ["sunny", "mild", "high", "false"],
    ["sunny", "cool", "normal", "false"],
    ["rain", "mild", "normal", "false"],
    ["sunny", "mild", "normal", "true"],
    ["overcast", "mild", "high", "true"],
    ["overcast", "hot", "normal", "false"],
    ["rain", "mild", "high", "true"]
])

y_train = np.array(["no", "no", "yes", "yes", "yes", "no", "yes", 
                    "no", "yes", "yes", "yes", "yes", "yes", "no"])

In [4]:
X_test = np.array([
    ["sunny", "mild", "normal", "false"],
    ["rain", "cool", "high", "true"],
    ["rain", "mild", "high", "false"],
    ["sunny", "hot", "high", "false"],
    ["sunny", "hot", "high", "true"],
])

y_test = np.array(["yes", "no", "yes", "yes", "no"])

### Application 2

- Tester votre algorithme sur le **dataset** `iris` ci-dessous. 

- Présentez vos résultats.

    *Les résultats devraient être bien meilleurs...*

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [6]:
data = load_iris()
X, y = data.data, data.target

# Diviser les données en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)