### Boutaleb/akeniouene

## Objet

L'objet est de voir si on peut prévoir la consommation ou la pollution à partir de quelques descriptions d'un véhicule. On utilise les données disponibles sur le site de [opendata du gouvernement](https://www.data.gouv.fr/en/datasets/emissions-de-co2-et-de-polluants-des-vehicules-commercialises-en-france/).

Charger les données de `mars-2014-complete.csv` (Avec `pandas`, utiliser le moteur `python` plutôt que `C`). Regardez également le dictionnaire des variables.

![image.png](attachment:image.png)

## Moyens

Pour la manipulation des données, je vous recommande d'utiliser `pandas`. C'est la librairie la plus simple pour charger des données, les modifier, les interroger. La documentation est accessible depuis le menu aide des notebooks.

Les méthodes `isna`, `notna`, `drop`, `dropna`, `describe` (regardez le paramètre `include`), `value_counts`, `dtypes`, `astype`  vous seront utiles.  
L'attribut `str` des champs texte permet d'appliquer des opérations textuelles comme `extract` ou réaliser des slices des chaînes de caractères. 

Je vous conseille le rapide survol des des 2 premiers liens et éventuellement le 3eme si nécessaire. 
- [10 mins avec pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
- [Les bases de pandas](https://pandas.pydata.org/docs/user_guide/basics.html)
- [Les 4 premiers notebooks de Jake VandenPlas sur pandas](https://github.com/jakevdp/PythonDataScienceHandbook/blob/8a34a4f653bdbdc01415a94dc20d4e9b97438965/notebooks/03.00-Introduction-to-Pandas.ipynb)

## Quelques indications 

Ajouter les cellules pour réaliser au moins toutes les opérations se trouvant dans cette liste

- Vérifier si des colonnes sont vides et les supprimer si nécessaire
- Regarder si les attributs sont discrets continus, s'ils contiennent des valeurs manquantes
- Pour les attributs discrets, savoir combien de valeurs différentes sont présentes et en déduire si les champs sont nécessaires ou non
- Séparer les attributs en plusieurs sous-listes:
   - Ceux qui indiquent une consommation
   - Ceux qui indiquent la pollution
   - Ceux qui sont des libellés 
   - Les autres (nommés attributs standards, attributs qu'on conserve dans la description d'une voiture ensuite dans les phases d'apprentissage)
- Créer des champs additionnels qu'on ajoute aux attributs standards
   - Le nombre de chevaux indiqué dans la désignation commerciale entre parenthèses
   - Le type de boîte de vitesse
   - Le nombre de vitesses (ou rapports) (on remplace le '.' par '0'), convertir cette colonne en 'int64'  
- Vérifier si les colonnes des attributs standards n'ont pas trop de valeurs manquantes (NaN), sinon les virer.
- Vous devez expliquer comment vous avez procédé, montrer des statistiques qui vous ont permis de faire vos choix, tracer des diagrammes si besoin (correlations, histogrammes, répartitions,...)


## Dans sklearn

- Votre ensemble de données sera décrit par les attributs standards.
- Pour certaines méthodes vous allez utilisez transformer les attributs discrets en numérique par du one-hot-encoding (voir dans preprocessing, `OneHotEncoder` ou dans pandas `get_dummies`)
- Vous devez appliquer et comparer plusieurs méthodes pour prédire la consommation mixte, et l'émission de CO2. 
- Vous pouvez aussi construire des problèmes de classification en prédisant par exemple les modèles qui consomment plus que la moyenne.
- Libre à vous de définir des problèmes de prédiction qui soient intéressants!
- Vous devez aussi appliquer des méthodes d'ensemble, des votes de classifieurs dans vos comparaisons.
- Vous devez régler des hyperparamètres et afficher des courbes d'apprentissage
- Vous **illustrez et commentez vos résultats**. 
- Vous pouvez également utiliser des méthodes de clustering sur ces attributs et regarder si les résultats obtenus peuvent être interprétés. 

## 0. Init

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
df=pd.read_csv("Data/mars-2014-complete.csv" ,sep=";",error_bad_lines=False,encoding = "ISO-8859-1",decimal=",")

FileNotFoundError: [Errno 2] No such file or directory: 'Data/mars-2014-complete.csv'

In [None]:
df.describe(include="all")

## I. Vérifier si des colonnes sont vides et les supprimer si nécessaire

In [None]:
df.isna().sum()
#les 4 dernieres colones ne contienne aucune valeur differente de NaN

In [None]:
#on les vires
df=df.drop(df.columns[-4:], axis='columns')

## II. Regarder si les attributs sont discrets continus, s'ils contiennent des valeurs manquantes 

In [None]:
df.nunique()

In [None]:
#on repartie les attributs
attrs_disct= ['cod_cbr','hybride','typ_boite_nb_rapp','ptcl','gamme','Carrosserie']
attrs_cont = list(set(df.columns).difference(set(attrs_disct)))

## III. Pour les attributs discrets, savoir combien de valeurs différentes sont présentes et en déduire si les champs sont nécessaires ou non

In [None]:
df.info()

In [None]:
attrs_disct_nb_30_en_nan = int(len(df) * 0.3) # 30% manquant
print("attrs disct 30% en nan: " + str(attrs_disct_nb_30_en_nan))

for elem in df.columns:
    if df[elem].isna().sum() > attrs_disct_nb_30_en_nan:
        df=df.drop(elem,axis=1)
        print(elem)

## IV. Séparer les attributs en plusieurs sous-listes:
   - Ceux qui indiquent une consommation
   - Ceux qui indiquent la pollution
   - Ceux qui sont des libellés 
   - Les autres (nommés attributs standards, attributs qu'on conserve dans la description d'une voiture ensuite dans les phases d'apprentissage)

In [None]:
attrs_cons=['conso_urb','conso_exurb','conso_mixte']
attrs_poll=['co2','co_typ_1','nox','hcnox','ptcl']
attrs_lib=['lib_mrq','lib_mod_doss','lib_mod']
attrs_concat=np.concatenate((attrs_cons,attrs_lib,attrs_poll))
attrs_std=list(set(df.columns).difference(set(attrs_concat)))
attrs_std

## V. Créer des champs additionnels qu'on ajoute aux attributs standards
   - Le nombre de chevaux indiqué dans la désignation commerciale entre parenthèses
   - Le type de boîte de vitesse
   - Le nombre de vitesses (ou rapports) (on remplace le '.' par '0'), convertir cette colonne en 'int64'  

In [None]:
df2=df['typ_boite_nb_rapp'].str.split(n=1, expand=True)
df2.columns = ['type_b','nb_a']
df=df.join(df2)
df.loc[df["nb_a"]=='.'] = 0
attrs_std.remove('typ_boite_nb_rapp')
attrs_std.append('type_b')
attrs_std.append('nb_a')

In [None]:
df3=df['dscom'].str.extract("((?<=\()\d*(?=ch\)))")
df3.columns = ['nb_ch']
attrs_std.append('nb_ch')
attrs_std.remove('dscom')
df=df.join(df3)

In [None]:
df.replace({'hybride': 'oui'}, 1, inplace=True)
df.replace({'hybride': 'non'}, 0, inplace=True)
df["hybride"] = df["hybride"].astype('int')

## VI. Vérifier si les colonnes des attributs standards n'ont pas trop de valeurs manquantes (NaN), sinon les virer.

In [None]:
attrs_std_nb_30_en_na = int(len(df) * 0.3) # 30% manquant
print("attrs std 30% en na: " + str(attrs_std_nb_30_en_na))

for elem in attrs_std:
    if df[elem].isna().sum() > attrs_std_nb_30_en_na:
        attrs_std.remove(elem)
        print(elem," est enlevé car il y a plus de 30% des valeurs en NA")

In [None]:
#apres avoir verifier que il y a pas beaucoup de NA on convertie vers 0
df['nb_ch'] = df['nb_ch'].fillna(0)
df['nb_ch']=df['nb_ch'].astype(int)
df["nb_a"] = df["nb_a"].fillna(0)
df["nb_a"]=df["nb_a"].astype(int)
df["gamme"]= pd.get_dummies(df["gamme"])
df["cod_cbr"]= pd.get_dummies(df["cod_cbr"])
df["Carrosserie"]= pd.get_dummies(df["Carrosserie"])
df["type_b"]= pd.get_dummies(df["type_b"])
df['puiss_max'] = pd.get_dummies(df['puiss_max'])

attrs_std.remove('champ_v9')
attrs_std.remove('tvv')
attrs_std.remove('cnit')


## VII. Vous devez expliquer comment vous avez procédé, montrer des statistiques qui vous ont permis de faire vos choix, tracer des diagrammes si besoin (correlations, histogrammes, répartitions,...)

In [None]:
df.info()

In [None]:
df.hist(figsize=(10, 10))

# Data

In [None]:
# on importe les classifieurs (on se permet d'exploiter votre fonction ;) )
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale

from sklearn.model_selection import cross_validate

from sklearn import metrics 

# une fonction pour évaluer un classifieur
def evaluate_method(clf, X, y):
    scores = cross_val_score(clf, X, y, cv=5)
    
    
def evaluate_classifiers(clfs, names, X, y):
    scores = {}
    best = None
    best_score = 0
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
    print("CROSS VALIDATION OVER 5 FOLDS")
    print("==========================")

    for clf, name in zip(clfs, names):
        scores[clf] = cross_validate(clf, X_train, y_train, 
                                     return_train_score=True, cv=5,
                                     return_estimator=True)
        
        train_scores = scores[clf]["train_score"]
        valid_scores = scores[clf]["test_score"]
        test_scores = [est_clf.score(X_test, y_test) for est_clf in scores[clf]["estimator"]]

        print(name)
        print("\tTraining time mean: %.2f" % np.mean(scores[clf]["fit_time"]))
        print("\tTrain mean: %.2f" % np.mean(train_scores))
        print("\tValidation mean: %.2f" % np.mean(valid_scores)) 
        model =clf.fit(X_train, y_train)
        print("\tTest: %.2f" % model.score(X_test, y_test))
        print()
        
        if(np.mean(valid_scores) > best_score):
            best_score = np.mean(valid_scores)
            best = clf
            best_name = name
            
    print("Best Classifier (according to validation): ", name, "with mean score %.2f" % best_score)


clfs = [
    DummyClassifier(strategy="stratified"),
    GaussianNB(),   
    DecisionTreeClassifier(criterion="entropy"),
    RandomForestClassifier()
]

names = ["Dummy", "GaussianNB", "DecisionTree", "RandomForest"]

In [None]:
#on utilise K-means afin de classifier l'emission de co2 
from sklearn.cluster import KMeans
a=df["co2"].fillna(-1)

a=np.array(a.values).reshape(-1,1)

kmeans = KMeans(n_clusters=9, random_state=0).fit(a)
df["labels"] = kmeans.predict(a)

In [None]:
attr_co2_labels=np.concatenate((attrs_std,["labels"]))

df_2 = df[attr_co2_labels].dropna()

X = df_2.drop(["labels"], axis=1)
X = scale(X)
y = df_2["labels"]
evaluate_classifiers(clfs, names, X, y)

In [None]:
#on utilise K-means afin de classifier la consom mixte
a=df["conso_mixte"].fillna(-1)

a=np.array(a.values).reshape(-1,1)

kmeans = KMeans(n_clusters=7, random_state=0).fit(a)
df["labels_conso"] = kmeans.predict(a)

In [None]:
attr_co2=np.concatenate((attrs_std,["labels_conso"]))

df_2 = df[attr_co2].dropna()

X = df_2.drop(["labels_conso"], axis=1)
X = scale(X)
y = df_2["labels_conso"]

evaluate_classifiers(clfs, names, X, y.round())

### Grid search

In [None]:
from sklearn.model_selection import GridSearchCV

# hyperparam : profondeur et criterion
clfs_grid = [GridSearchCV(estimator=DummyClassifier(random_state=42),
                          param_grid={'strategy': ('stratified', 'most_frequent')}),
             
             GridSearchCV(estimator=DecisionTreeClassifier(random_state=42), \
                          param_grid={'max_depth': np.arange(2,15), 
                                      'criterion':('gini', 'entropy')}),
             
             GridSearchCV(estimator=RandomForestClassifier(random_state=42), \
                          param_grid={'max_depth': np.concatenate((np.arange(2, 10), [None])), 
                                      'n_estimators': [10, 50, 100]}),
             
             GaussianNB()]

names = ["Dummy", "GaussianNB",  "DecisionTree", "RandomForest"]

In [None]:
attr_co2_labels=np.concatenate((attrs_std,["labels"]))

df_2 = df[attr_co2_labels].dropna()

X = df_2.drop(["labels"], axis=1)
X = scale(X)
y = df_2["labels"]
evaluate_classifiers(clfs_grid, names, X, y)

In [None]:
attr_co2=np.concatenate((attrs_std,["labels_conso"]))

df_2 = df[attr_co2].dropna()

X = df_2.drop(["labels_conso"], axis=1)
X = scale(X)
y = df_2["labels_conso"]

evaluate_classifiers(clfs_grid, names, X, y.round())