# Prédiction du genre d'une personne à partir de sa photo

auteur : Umut Şimşekli & Alexandre Gramfort, challenge SD210 2017

L'objectif est de prédire le genre d'une personne (homme ou femme) à partir de caractéristiques extraites d'une photo.

Les données sont fournies par la société Morpho: http://www.morpho.com/fr

Le fichier que doit fournir chacun est un fichier au format .txt de 8496 lignes::

    1
    0
    -1
    1
    ...

où chaque ligne contient la prédiction. Contrairement à un problème de classification binaire où y=1 ou y=-1, vous avez la possibilité de prédire 0, ce qui signifie que vous ne savez pas. Il y a 8496 images dans l'ensemble de validation.


### Critère de performance 

Vous pouvez donc répondre pour chaque image : homme (y=1), femme (y=-1) ou je-ne-sais-pas (y=0).

Se tromper coûte 10 points et ne pas savoir coûte 1 point. Mathématiquement, le score est calculé de la façon suivante:
 
$score = \frac1{N} \sum_{i=1}^N \Bigl(\mathbb{1}(\hat{y}_i = 0) + 10 \times \mathbb{1}(y_i \hat{y}_i = -1)   \Bigr) $ 

où $\mathbb{1}(\cdot)$ est la fonction indicatrice; $\mathbb{1}(x) = 1$ si $x$ est vrai, et $\mathbb{1}(x) = 0$, sinon.

Plus ce nombre est petit mieux c'est.


# Données d'apprentissage: 

https://www.dropbox.com/s/dqudxed82ljnxa8/training_templates.csv

https://www.dropbox.com/s/l0f9z08rysp0kjy/training_labels.txt


# Données de validation:

https://www.dropbox.com/s/syrry7miykrmjz0/testing_templates.csv

Voyons cela par l'exemple:

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
# Critere de performance
def compute_pred_score(y_true, y_pred):
    y_pred_unq =  np.unique(y_pred)
    for i in y_pred_unq:
        if((i != -1) & (i!= 1) & (i!= 0) ):
            raise ValueError('The predictions can contain only -1, 1, or 0!')
    y_comp = y_true * y_pred
    score = float(10*np.sum(y_comp == -1) + np.sum(y_comp == 0))
    score /= y_comp.shape[0]
    return score

In [3]:
X_train_fname = 'training_templates.csv'
y_train_fname = 'training_labels.txt'
X_test_fname  = 'testing_templates.csv'
X_train = pd.read_csv(X_train_fname, sep=',', header=None).values
X_test  = pd.read_csv(X_test_fname,  sep=',', header=None).values
y_train = np.loadtxt(y_train_fname, dtype=np.int)

## Investigation des données

In [4]:
X_train.shape, X_test.shape, y_train.shape

((105600, 128), (8496, 128), (105600,))

In [5]:
print('n_samples : %d, n_features : %d' % X_train.shape)

n_samples : 105600, n_features : 128


In [6]:
np.mean(y_train), np.unique(y_train)

(0.0, array([-1,  1]))

In [7]:
#from sklearn.preprocessing import StandardScaler
#X_scaler = StandardScaler()
#X_train = X_scaler.fit_transform(X_train)
#X_test = X_scaler.transform(X_test)

## Exemple de classification

Voyons maintenant un exemple de classification et de production d'un fichier de soumission

In [8]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import roc_auc_score

param_grid = {"n_estimators":[40, 80, 120, 200],
              "min_impurity_split":np.logspace(-7, -3, 3)
}

clf = RandomForestClassifier(max_features="log2", bootstrap=False, random_state=42, verbose=True)
gs = GridSearchCV(clf, param_grid, cv=5)
gs.fit(X_train, y_train)

gs.best_estimator_

[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:   35.5s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:   36.0s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:   35.6s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:   35.6s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:   35.1s finished
[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Done  80 out of  80 | elapsed:  1.2min finished
[Parallel(n_jobs=1)]: Done  80 out of  80 | elapsed:    0.4s finished
[Parallel(n_jobs=1)]: Done  80 out of  80 | elapsed:  1.2min finished
[Parallel(n_jobs=1)]: Done  80 out of  80 | elapsed:    0.4s finished
[Parallel(n_jobs=1)]

RandomForestClassifier(bootstrap=False, class_weight=None, criterion='gini',
            max_depth=None, max_features='log2', max_leaf_nodes=None,
            min_impurity_split=9.9999999999999995e-08, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=200, n_jobs=1, oob_score=False, random_state=42,
            verbose=True, warm_start=False)

In [9]:
# Prediction
y_pred_train =  gs.best_estimator_.predict(X_train)
y_predict_train_proba = gs.best_estimator_.predict_proba(X_train)[:,0]
        
for i in range(len(y_pred_train)):
    if (y_predict_train_proba[i]<0.9)and(y_predict_train_proba[i]>1-0.9):
        y_pred_train[i]=0

# score
score = compute_pred_score(y_train, y_pred_train)
print('Score sur le train : %s' % score)

[Parallel(n_jobs=1)]: Done 200 out of 200 | elapsed:    5.9s finished
[Parallel(n_jobs=1)]: Done 200 out of 200 | elapsed:    5.9s finished


Score sur le train : 5.68181818182e-05


Génération de la prédiction sur le test et enregistrement du fichier à soumettre sur le site:

In [10]:
y_pred = gs.best_estimator_.predict(X_test)
y_predict_proba = gs.best_estimator_.predict_proba(X_test)[:,0]

for i in range(len(y_pred)):
    if (y_predict_proba[i]<0.9)and(y_predict_proba[i]>1-0.9):
        y_pred[i]=0
print np.unique(y_pred)

np.savetxt('y_pred.txt', y_pred, fmt='%d')
# 0.63

[Parallel(n_jobs=1)]: Done 200 out of 200 | elapsed:    0.6s finished
[Parallel(n_jobs=1)]: Done 200 out of 200 | elapsed:    0.6s finished


[-1  0  1]


Vous pouvez maintenant uploader votre fichier `y_pred.txt` sur le site.

Bonne chance !