# Forest Cover Type Prediction
*Kevin Zagalo, Ismail Benkirane*

Le but de ce projet est de modifier les données et construire une methode pour classifier des forêts en 7 types, avec des données de 581 012 instances et 54 attributs, sans données manquantes. Les types de forêts sont les suivants :
      - Spruce/Fir
      - Lodgepole Pine
      - Ponderosa Pine
      - Cottonwood/Willow
      - Aspen
      - Douglas-fir
      - Krummholz
dont les attributs sont les suivants :
      - Elevation                          / quantitative   / meters / Elevation in meters 
      - Aspect                             / quantitative   / azimuth / Aspect in degrees azimuth 
      - Slope                              / quantitative   / degrees / Slope in degrees 
      - Horizontal_Distance_To_Hydrology   / quantitative   / meters / Horz Dist to nearest surface water features 
      - Vertical_Distance_To_Hydrology     / quantitative   / meters / Vert Dist to nearest surface water features 
      - Horizontal_Distance_To_Roadways    / quantitative   / meters / Horz Dist to nearest roadway 
      - Hillshade_9am / quantitative       / 0 to 255 index / Hillshade index at 9am, summer solstice 
      - Hillshade_Noon / quantitative      / 0 to 255 index / Hillshade index at noon, summer soltice 
      - Hillshade_3pm / quantitative       / 0 to 255 index / Hillshade index at 3pm, summer solstice 
      - Horizontal_Distance_To_Fire_Points / quantitative   / meters / Horz Dist to nearest wildfire ignition pts 
      - Wilderness_Area (4 binary columns) / qualitative    / 0 (absence) or 1 (presence) / Wilderness area design. 
      - Soil_Type (40 binary columns)      / qualitative    / 0 (absence) or 1 (presence) / Soil Type designation 
      - Cover_Type (7 types)               / integer        / 1 to 7 / Forest Cover Type designation

## Chargement des données

### Télécharement des données

Les données https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/covtype.data seront téléchargées à l'adresse *'./covtype/archives/'*

In [None]:
from urllib.request import urlopen
import os.path as osp
import os
import logging
import gzip
logging.getLogger().setLevel('INFO')

### Mémorisation des données dans un DataFrame

In [None]:
import pandas as pd
import numpy as np
import covtype

# df_covtype : DataFrame de toutes les données non traitées triées par attribut
df_covtype = pd.read_csv('covtype/archives/covtype.data.gz',
                         header=None,
                         names=covtype.attributs_names,
                         compression='gzip')

# On met toute les données numérique au type int
for name in covtype.attributs_names:
    df_covtype[name] = df_covtype[name].astype('int')

# labels : array des étiquettes des types de forêts
covtypes = list(set(df_covtype.Cover_Type))

## Analyse préliminaire et pré-traitement des données 
Avant toute modification des données et/ou élaboration de méthodes, nous tenterons de mieux comprendre les données pour eventuellement les modifier, c'est-à-dire :
- exhiber des corrélations
- supprimer des données inutiles
- ajouter des données qui seraient plus pertinentes
- modifier la façon de "qualifier" les données qualitatives

Le fichier *covtype.py* contient la fonction $\verb!scatter!$ qui affiche les nuages de points et les histogrammes de chaque attribut si le paramètre *volume = False*, et si les attributs sont au nombre de 3 et *volume = True*, alors on affiche les données dans un espace en 3-D. 

In [None]:
df_covtype.summary()

In [None]:
import matplotlib.pyplot as plt

nb_per_covtype = df_covtype.groupby('Cover_Type').size()
plt.bar(covtypes,nb_per_covtype.values)
plt.title('data per class')
plt.show()

Tout d'abord on constate sur la figure précédente que les données sont inégalement réparties selon les classes. Cela peut vouloir dire plusieurs choses : soit nos données sont mal échantillonnées, soit les types 1 et 2 sont effectivement largement plus répandues.	C'est quelque chose dont nous n'avons pas la maitrise, une discussion avec un expert sur le sujet serait préférable. On prendra donc cela en compte dans nos méthodes.

### Visualisation des données qualitatives
On préfèrera garder dans le DataFrame **df_covtype** des entiers plutôt que des vecteurs binaires, quitte à les y remettre dans les données de train et de test ensuite. Cela facilitera grandement l'analyse préliminaire. On utilisera donc **wilderness** et **soil** uniquement pour la partie test des modèles. C'est ce à quoi servent les fonctions $\verb!convert_to_binary!$ et $\verb!convert_to_int!$ du fichier *covtype.py*. Premièrement on remarque l'importance des ces attributs en regardant leur distribution respective par type de forêts.

#### Wilderness_Area
L'attribut Wilderness_Area n'apporte pas beaucoup d'information, mais elle permet de distinguer la classe 4, qui a du mal a être identifiée par les méthodes testées. Nous allons donc garder l'attribut $\verb!Wilderness_Area!$ comme un 4-vecteur binaire
   - 1 : Rawah
   - 2 : Neota
   - 3 : Comanche Peak
   - 4 : Cache la Poudre
   
*Important à remarquer : Les forêts de classe 4 ne sont que dans 'Cache la poudre' !*

In [None]:
wilderness = pd.concat([df_covtype[name] for name in covtype.attributs_names[10:14]],axis=1).values
df_covtype = df_covtype.drop(covtype.attributs_names[10:14],axis=1)
df_covtype['Wilderness_Area'] = covtype.convert_to_int(wilderness)
covtype.hist_by_covtype(df_covtype,'Wilderness_Area')

#### Soil_Type

Pour réduire presque de moitié les paramètres de $\verb!Soil_Type!$, nous considérerons uniquement les familles de sols, et le fait qu'ils soient rocheux, friable ou autre, pour atteindre le nombre de 24 paramètres.

   - 1 : Cathedral family - Rock outcrop complex, extremely stony.
   - 2 : Vanet - Ratake families complex, very stony.
   - 3 : Haploborolis - Rock outcrop complex, rubbly.
   - 4 : Ratake family - Rock outcrop complex, rubbly.
   - 5 : Vanet family - Rock outcrop complex complex, rubbly.
   - 6 : Vanet - Wetmore families - Rock outcrop complex, stony.
   - 7 : Gothic family.
   - 8 : Supervisor - Limber families complex.
   - 9 : Troutville family, very stony.
   - 10 : Bullwark - Catamount families - Rock outcrop complex, rubbly.
   - 11 : Bullwark - Catamount families - Rock land complex, rubbly.
   - 12 : Legault family - Rock land complex, stony.
   - 13 : Catamount family - Rock land - Bullwark family complex, rubbly.
   - 14 : Pachic Argiborolis - Aquolis complex.
   - 15 : unspecified in the USFS Soil and ELU Survey.
   - 16 : Cryaquolis - Cryoborolis complex.
   - 17 : Gateview family - Cryaquolis complex.
   - 18 : Rogert family, very stony.
   - 19 : Typic Cryaquolis - Borohemists complex.
   - 20 : Typic Cryaquepts - Typic Cryaquolls complex.
   - 21 : Typic Cryaquolls - Leighcan family, till substratum complex.
   - 22 : Leighcan family, till substratum, extremely bouldery.
   - 23 : Leighcan family, till substratum - Typic Cryaquolls complex.
   - 24 : Leighcan family, extremely stony.
   - 25 : Leighcan family, warm, extremely stony.
   - 26 : Granile - Catamount families complex, very stony.
   - 27 : Leighcan family, warm - Rock outcrop complex, extremely stony.
   - 28 : Leighcan family - Rock outcrop complex, extremely stony.
   - 29 : Como - Legault families complex, extremely stony.
   - 30 : Como family - Rock land - Legault family complex, extremely stony.
   - 31 : Leighcan - Catamount families complex, extremely stony.
   - 32 : Catamount family - Rock outcrop - Leighcan family complex, extremely stony.
   - 33 : Leighcan - Catamount families - Rock outcrop complex, extremely stony.
   - 34 : Cryorthents - Rock land complex, extremely stony.
   - 35 : Cryumbrepts - Rock outcrop - Cryaquepts complex.
   - 36 : Bross family - Rock land - Cryumbrepts complex, extremely stony.
   - 37 : Rock outcrop - Cryumbrepts - Cryorthents complex, extremely stony.
   - 38 : Leighcan - Moran families - Cryaquolls complex, extremely stony.
   - 39 : Moran family - Cryorthents - Leighcan family complex, extremely stony.
   - 40 : Moran family - Cryorthents - Rock land complex, extremely stony.
                
Nous aurons donc deux vecteurs binaires **soil_family** et **soil_group**, respectivement de taille 3 et 21 qui remplaceront la variable **soil**.

In [None]:
soil = pd.concat([df_covtype[name] for name in covtype.attributs_names[14:54]],axis=1).values
df_covtype = df_covtype.drop(covtype.attributs_names[14:54],axis=1)
df_covtype['Soil_Type'] = covtype.convert_to_int(soil)
covtype.hist_by_covtype(df_covtype,'Soil_Type')

In [None]:
dict_family = {'Cathedral':[0],'Vanet':[1,4,5],'Haploborolis':[2],'Ratake':[1,3],'Gothic':[6],'Supervisor':[7],
               'Troutville':[8],'Bullwark':[9,10,12],'Legault':[11,28,29],'Catamount':[9,10,12,25,30,31],'Pachic':[13],
               'unspecified':[14],'Cryaquolis':[15,16,18],'Rogert':[17],'Cryaquepts':[19,34],'Cryaquolls':[19,20,22],
               'Leighcan':[20,21,22,23,24,26,27,30,31,32,37,38],'Como':[28,29],'Cryorthents':[33,36,38,39],
               'Cryumbrepts':[34,35,36],'Bross':[35],'Moran':[37,38,39]}

dict_group = {'stony':[0,1,5,6,8,11,17,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39],
               'rubbly':[2,3,4,9,10,12],'other':[7,13,14,15,16,18,19,20,21,22]}

soil_family = covtype.redef_soil(soil,dict_family,bi_class=True)
df_covtype['Soil_Family'] = covtype.convert_to_int(soil_family)
covtype.hist_by_covtype(df_covtype,'Soil_Family')
    
soil_group = covtype.redef_soil(soil,dict_group)
df_covtype['Soil_Group'] = covtype.convert_to_int(soil_group)
covtype.hist_by_covtype(df_covtype,'Soil_Group')

### Visualisation des données numériques

On regarde d'abord les valeurs moyennes de chaque attribut, par classe, pour observer une première fois les attributs les plus significatifs.

In [None]:
df_covtype.groupby('Cover_Type').mean()

On commence par chercher des corrélations entre les données grâce la bibliothèque *seaborn*

In [None]:
import seaborn as sns
corr = df_covtype.corr()
sns.heatmap(corr, xticklabels=corr.columns.values,yticklabels=corr.columns.values,cmap=plt.cm.jet)
plt.show()

In [None]:
covtype.scatter(df_covtype,['Hillshade_3pm','Hillshade_Noon','Aspect','Elevation'])
df_covtype.boxplot(column='Elevation',by='Cover_Type')
df_covtype.boxplot(column=['Horizontal_Distance_To_Roadways','Horizontal_Distance_To_Fire_Points'],
                   by='Cover_Type')
plt.show()

Ici on voit que les données sur l'ombre au solstice ne varient pas beaucoup selon les types de forêts. Sans doute que moyenner ces trois valeurs peut être utile. Voyons déjà quels liens elles ont entre elles :

In [None]:
import plotly as py
import plotly.graph_objs as go

data,layout = covtype.scatter(df_covtype,['Elevation','Slope','Hillshade_3pm'],volume=True)
fig = go.Figure(data=data, layout=layout)
py.plotly.iplot(fig, filename='hillshade-scatter')

On peut voir que les données sont corrélées. On peut potentiellement réduire le nombre d'attributs et/ou les transformer pour exhiber ces corrélations.

### Modifications des données

D'abord, on utilisera plutôt les cosinus de $\verb!Aspect!$ et la pente des forêts $\verb!Slope!$. On aura des valeurs comprises entre -1 et 1, ce qui facilite les calculs, et des variables qui peuvent être fonctions affines ou quadratiques d'autres données telles que l'ombre des forêts ou encore l'altitude des arbres.

$$\verb!Aspect_Group! = (N,NW,W,SW,S,SE,E,NE)$$

On stockera le 8-vecteur binaire dans la variable **aspect_group** et un entier représentant ce vecteur binaire dans les données.

In [None]:
aspect_group = covtype.redef_aspect(df_covtype.Aspect.values)
df_covtype['Aspect_Group'] = covtype.convert_to_int(aspect_group)
card,Z = np.unique(df_covtype.Aspect_Group.values,return_counts=True)
labels = ['N','NE','E','SE','S','SW','W','NW']

colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue','lightgreen','lightblue','pink','red']

plt.pie(Z, labels=labels,colors = colors)
plt.axis('equal')
plt.xticks(())
plt.yticks()
plt.show()

#### $$ \verb!sqrt_Fire! = \sqrt{ \verb!Horizontal_Distance_To_Fire_Points!}$$

In [None]:
sqrt_Fire = np.sqrt(df_covtype.Horizontal_Distance_To_Fire_Points.values)
df_covtype['sqrt_Fire'] = sqrt_Fire
covtype.hist_by_covtype(df_covtype,'Horizontal_Distance_To_Fire_Points')
covtype.hist_by_covtype(df_covtype,'sqrt_Fire')

#### $$ \verb!sqrt_Roadways! = \sqrt{ \verb!Horizontal_Distance_To_Roadways!}$$

In [None]:
sqrt_Roadways = np.sqrt(df_covtype.Horizontal_Distance_To_Roadways.values)
df_covtype['sqrt_Roadways'] = sqrt_Roadways
covtype.hist_by_covtype(df_covtype,'Horizontal_Distance_To_Roadways')
covtype.hist_by_covtype(df_covtype,'sqrt_Roadways')

#### $$ \verb!sin_Aspect! = \sin (\verb!Aspect!)$$

In [None]:
df_covtype['sin_Aspect'] = np.sin(df_covtype.Aspect.values * np.pi/180)
covtype.hist_by_covtype(df_covtype,'Aspect')
covtype.hist_by_covtype(df_covtype,'sin_Aspect')

#### $$ \verb!cos_Slope! = \cos (\verb!Slope!)$$

In [None]:
cos_slope = np.cos(df_covtype.Slope.values * np.pi/180)
df_covtype['cos_Slope'] = cos_slope
covtype.hist_by_covtype(df_covtype,'Slope')
covtype.hist_by_covtype(df_covtype,'cos_Slope')

#### $$ \verb!Distance_To_Hydrology! = \sqrt{\verb!Vertical_Distance_To_Hydrology!^2 + \verb!Horizontal_Distance_To_Hydrology!^2}$$

In [None]:
def dist(x,y):
    return np.sqrt(np.array(x)**2 + np.array(y)**2)

df_covtype['Distance_To_Hydrology'] = dist(df_covtype.Vertical_Distance_To_Hydrology.values,
                                           df_covtype.Horizontal_Distance_To_Hydrology.values)

#### $$ \verb!Hillshade_mean! = \frac{\verb!Hillshade_9am! + \verb!Hillshade_Noon! + \verb!Hillshade_3pm!}{3}$$

Les données nous donnent peu d'informations, ou plutôt ces informations varient très peu en fonction des classes de forêts, excepté l'ombre à 15h de l'après-midi. Lien à faire avec la distibution de l'attribut $\verb!Aspect!$ qui montre que la plupart des forêts sont orientées à l'est.

In [None]:
hillshade_mean = df_covtype[['Hillshade_9am','Hillshade_Noon','Hillshade_3pm']].mean(axis=1)
df_covtype['Hillshade_mean'] = hillshade_mean
covtype.hist_by_covtype(df_covtype,'Hillshade_9am')
covtype.hist_by_covtype(df_covtype,'Hillshade_Noon')
covtype.hist_by_covtype(df_covtype,'Hillshade_3pm')
covtype.hist_by_covtype(df_covtype,'Hillshade_mean')

In [None]:
data,layout=covtype.scatter(df_covtype,['Elevation','cos_Slope','sin_Aspect'],volume=True)
fig = go.Figure(data=data, layout=layout)
py.plotly.iplot(fig, filename='corr_hillshade-scatter')

On va chercher ici à pouvoir regrouper les classes 5 et 6, qui ont du mal à être détectées dans les méthodes testées. L'idée vient du fait que l'ombre est forcément exprimée en fonction de $\verb!cos_Slope!$ et de $\cos(\verb!Aspect!)$. 

In [None]:
data,layout=covtype.scatter(df_covtype,['Hillshade_3pm','cos_Slope','Elevation'],volume=True)
fig = go.Figure(data=data, layout=layout)
py.plotly.iplot(fig, filename='corr_hillshade-scatter')

### PCA

On cherche d'abord à faire des combinaisons linéaires de nos paramètres grâce à un pca, de façon à donner plus d'importance à la classe 4 qui a du mal à être détectée par les différentes méthodes

In [None]:
target = df_covtype.Cover_Type.values

data0 = df_covtype.drop(['Horizontal_Distance_To_Hydrology','Vertical_Distance_To_Hydrology',
                         'Horizontal_Distance_To_Roadways','Horizontal_Distance_To_Fire_Points',
                         'Slope','Hillshade_9am','Hillshade_Noon','Aspect','Aspect_Group',
                         'Cover_Type','Wilderness_Area','Soil_Type','Soil_Family','Soil_Group'],axis=1).values

In [None]:
from sklearn.decomposition import PCA

pca = PCA()
pca.fit(data0[target == 4,:])
data0 = np.dot(data0,pca.components_) # projection des données sur les axes prinipaux de la pca

plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('composantes principales')
plt.ylabel('variance totale')
plt.show()

In [None]:
N,d = data0.shape
N,w = np.array(wilderness).shape
N,sf = np.array(soil_family).shape
N,sg = np.array(soil_group).shape
N,a = np.array(aspect_group).shape
data = np.zeros((N,d+w+sf+sg+a))

# Normalisation
for i in range(d):
    x = data0[:,i]
    data0[:,i] = (x-np.mean(x))/sum(x)

# On remet les données qualitative de sorte à pouvoir les exploiter
binary_data = np.concatenate([wilderness,soil_family,soil_group,aspect_group],axis=1)
data = np.concatenate([data0,binary_data],axis=1)

In [4]:
from sklearn.model_selection import train_test_split
seed = 0

# Ensemble de train et ensemble de test
(x_train,x_test,y_train,y_test) = train_test_split(data,target,random_state=seed,test_size=.3)

# Résumé
print("x_train shape:", x_train.shape,"y_train shape:", y_train.shape)
print(x_train.shape[0], 'train set')
print(x_test.shape[0], 'test set')

x_train shape: (406708, 45) y_train shape: (406708,)
406708 train set
174304 test set


## Test de différents modèles
Nous étudierons les modèles suivant : 
   - Logistic Regression
   - K-Nearest Neighbors
   - Artificial Neural Network
   - Random Forest
   - Quadratic Discriminant Analysis

In [None]:
from sklearn import metrics
from sklearn.grid_search import GridSearchCV
import time
import numpy as np

### Regression logistique

On cherche d'abord du côté de la regression logistique multinomiale. Comme elle est sensible aux trop grandes variances, on décide d'utiliser un paramètre de régularisation grâce à la pénalité *elastic net*. La loi a posteriori sachant que les données sont $(\textbf{x},\textbf{y}) = (\textbf{x}^{(i)},\textbf{y}^{(i)})_{i=1}^N$ est une loi multinomiale *(softmax)* 
$$\Pr (\widehat{y}=k \vert \textbf{w};\textbf{x}) = \frac{\exp(w_{0,k} + \textbf{w}_k .\textbf{x})}{\sum_{j=1}^7 \exp(w_0 + \textbf{w}_j . \textbf{x})} $$ 

et sa fonction de coùt est donc donnée par la log-vraisemblance 

$$\ell(\textbf{w};\textbf{x},\textbf{y}) = - \left[\frac{1}{N} \sum_{i=1}^{N} \left( \sum_{j=1}^7 y^{(i)}_j (w_{0,j} + \textbf{w}_j.\textbf{x}^{(i)}) - \log \sum_{j=1}^7 e^{w_{0,j} + \textbf{w}_j . \textbf{x}^{(i)}} \right) \right] + \lambda \left[ \frac{1 - \alpha}{2} \sum_{j=1}^7 \vert \vert \textbf{w}_j \vert \vert^2 + \alpha \sum_{j=1}^7 \vert \vert \textbf{w}_j \vert \vert \right]$$

où $N$ est le nombre d'observations. Le second terme de l'équation représente le terme de régularisation *elastic net*.

La pénalité elastic net $\alpha$ varie de 0 à 1. Quand $\alpha=0$, on a une regularisation L2, quand $\alpha=1$, on a une régularisation L1 ("lasso"). Quelques test montrent qu'il n'est pas nécessaire de faire varier alpha. Nous nous contenterons donc d'une régularisation L2.

In [None]:
from sklearn.linear_model import LogisticRegression

log_params = [{'C':[0.1,0.2,0.3],'solver':['sag','newton-cg']}]
log = GridSearchCV(LogisticRegression(random_state=seed,penalty='l2',multi_class='multinomial'),
                   param_grid=log_params,cv=10,n_jobs=-1)

log.fit(x_train, y_train)
log.grid_scores_

In [None]:
print ('Best accuracy obtained: {}'.format(log.best_score_))
print ('Parameters:')
for key, value in log.best_params_.items():
    print('\t{}:{}'.format(key,value))

In [None]:
# Best params: {'max_features': 0.3, 'n_estimators': 100, 'bootstrap': False, 'max_depth': 15, 'min_samples_leaf': 1}
LOG = LogisticRegression(C=.1, random_state=seed, multi_class='multinomial',
                         solver='sag',penalty='l2',n_jobs=-1)

LOG.fit(x_train, y_train)

covtype.plot_learning_curve(LOG,'logistic regression',data,target,cv=10,n_jobs=-1,train_sizes=np.linspace(0.1,1,10))
covtype.summarize(LOG,x_test,y_test)

### k-Nearest Neighbors
C'est un algorithme très lent, car il calcule la distance entre chaque point et les autres points, à chaque itération. En effet, la règle de calcul pour les k-plus proches voisins est $$\widehat{y} = argmax_{c} \sum_{x^{(i)} \in V_k} w_i \delta_{y^{(i)},c} $$ où $V_k$ est le voisinage des $k$ points les plus proches des données qu'on veut prédire. C'est une methode qui prend son temps : Nous nous contenterons de l'entrainer sur un ensemble de 100 000 données.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

K = range(1,20)

kNN = [KNeighborsClassifier(k) for k in K]

In [None]:
kNN_score = []

for clf in kNN:
    
    # Apprentissage
    logging.info("Training for k = " + str(clf.n_neighbors))
    start = time.time()
    x = clf.fit(x_train[:100000],y_train[:100000])
    end = time.time()
    logging.info('Training Time : ' + str(end - start))
    
    # Test
    logging.info("Testing")
    start = time.time()
    score = clf.score(x_valid[:10000],y_valid[:10000])
    end = time.time()
    kNN_score.append(score)
    logging.info('Testing Time : ' + str(end-start))

In [None]:
plt.scatter(K,kNN_score)
plt.plot(K,kNN_score)
plt.title('Accuracy by k')
plt.show()

### Random Forest

In [None]:
from sklearn.ensemble import ExtraTreesClassifier,RandomForestClassifier

modele = ExtraTreesClassifier(max_depth=50,n_estimators=15,bootstrap=True,class_weight={1:.1,2:.1,3:1,4:10,5:1,6:1,7:1})
modele.fit(df_covtype.drop('Cover_Type',axis=1).values,target)
# print(modele.feature_importances_) #use inbuilt class feature_importances of tree based classifiers
#plot graph of feature importances for better visualization
att_importances = pd.Series(modele.feature_importances_, index=df_covtype.drop('Cover_Type',axis=1).columns)
att_importances.nlargest(52).plot(kind='barh')
plt.rcParams["figure.figsize"] = [20,9]
plt.show()

In [None]:
rf_params = [{'n_estimators':[50, 100], 'max_depth':[5,10,15], 'max_features':[0.1, 0.3],
           'min_samples_leaf':[1,3], 'bootstrap':[True, False]}]
           
rfc = GridSearchCV(RandomForestClassifier(), param_grid=rf_params, cv = 10, n_jobs=-1)
rfc.fit(x_train, y_train)
rfc.grid_scores_

In [None]:
print ('Best accuracy obtained: {}'.format(rfc.best_score_))
print ('Parameters:')
for key, value in rfc.best_params_.items():
    print('\t{}:{}'.format(key,value))

In [None]:
# Best params: {'max_features': 0.3, 'n_estimators': 100, 'bootstrap': False, 'max_depth': 15, 'min_samples_leaf': 1}
RFC = RandomForestClassifier(n_estimators=100, max_depth=10, max_features=0.3, bootstrap=True, min_samples_leaf=1,
                             n_jobs=-1)
RFC.fit(x_train, y_train)
covtype.summarize(RFC,x_test,y_test)

### Multi-layer perceptron

#### With sklearn

In [None]:
from sklearn.neural_network import MLPClassifier

Alpha = [.01]

# Collection de classifier en fonction du parametre n_estimators
MLP=[MLPClassifier(hidden_layer_sizes=[14,7],alpha=a,activation='tanh',verbose=1,random_state=seed) for a in Alpha]
                       
MLP_score=[]

for clf in MLP:

    # Apprentissage
    logging.info("Training for alpha = " + str(clf.alpha))
    start = time.time()
    clf.fit(x_train,y_train)
    end = time.time()
    logging.info('Training Time : ' + str(end - start))

    # Test
    logging.info("Testing")
    score,test_time = summarize(clf,x_valid,y_valid)
    MLP_score.append(score)
    logging.info('Testing Time : ' + str(test_time) + '\n Accuracy : ' + str(score))

In [None]:
mlp=MLP[0]
mlp.loss_

### With keras

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.utils import np_utils
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline

In [None]:
# define baseline model
def baseline_model():
    # create model
    model = Sequential()
    model.add(Dense(14, input_dim=x_train.shape[1], activation='tanh'))
    model.add(Dense(max(covtypes), activation='softmax'))

    # Compile model
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    
    return model

In [None]:
# encode class values as integers
encoder = LabelEncoder()
encoder.fit(y_train[:50000])
encoded_Y = encoder.transform(y_train[:50000])

In [None]:
# evaluate model with standardized dataset
estimator = KerasClassifier(build_fn=baseline_model, epochs=10, batch_size=5, verbose=0)
results = cross_val_score(estimator, x_train[:50000], encoded_Y, cv=kfold)
print("Results: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))