In [2]:
# Chargement des donnees

import pandas as pd

train = pd.read_csv("Ressources" + '/' + "train.csv")
test  = pd.read_csv("Ressources" + '/' + "test.csv")

X_train = train[train.columns[:-2]]
y_train = train['Activity']

X_test = test[test.columns[:-2]]
y_test = test['Activity']

In [3]:
# Taille des donnees

print(train.shape)

(7352, 563)


Pour enlever les donnees redondantes, on peut intuitivement enlever par exemple les coordonnees polaires et cartesiennes qui doivent etre correlees. On peut ensuite selon le domaine de l'etude enlever les donnees qui ne nous paraissent pas pertinentes.

Sinon, on utilise des randoms forests qui vont faire ca pour nous. :D

In [4]:
# Modele de classification logique.
# On choisit ici 500 arbres.

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=500, oob_score=True)

In [5]:
# Entrainement sur les donnees brutes

model = rfc.fit(X_train, y_train)

In [6]:
# Etude des performances de ce modele

from sklearn.metrics import accuracy_score

pred = rfc.predict(X_test)
print("accuracy {:.2f}".format(accuracy_score(y_test, pred)))

accuracy 0.93


A partir du modele qui vient d'etre fait, on va estimer quelles variables sont importantes grace a "*model_feature_importances*" qui note de 0 a 1 l'utilisation plus ou moins intense de la variable dans la decision des arbres et de la foret en general.

L'importance des features est liee a la fraction des décisions de l'arbre influencé par celles-ci.

In [7]:
# Selection des variables importantes (seuil d'importance defini par 'threshold')

from sklearn.feature_selection import SelectFromModel

select = SelectFromModel(rfc, prefit=True, threshold=0.003)
X_train2 = select.transform(X_train)

print(X_train2.shape)

(7352, 84)


In [8]:
# On regarde si le modele est toujours aussi performant, si il met beaucoup moins de temps

import timeit

rfc2 = RandomForestClassifier(n_estimators=500, oob_score=True)

start_time = timeit.default_timer()

rfc2 = rfc2.fit(X_train2, y_train)

X_test2 = select.transform(X_test)

pred = rfc2.predict(X_test2)
elapsed = timeit.default_timer() - start_time
accuracy = accuracy_score(y_test, pred)

print("accuracy {:.2f} time {:.2f}s".format(accuracy, elapsed))


accuracy 0.89 time 24.81s


Par rapport au premier modele on perd peu en precisions et on a divise le temps par 3 environ!