# Prédiction du genre d'une personne à partir de sa photo

auteur : Umut Şimşekli & Alexandre Gramfort, challenge SD210 2017

L'objectif est de prédire le genre d'une personne (homme ou femme) à partir de caractéristiques extraites d'une photo.

Les données sont fournies par la société Morpho: http://www.morpho.com/fr

Le fichier que doit fournir chacun est un fichier au format .txt de 8496 lignes::

    1
    0
    -1
    1
    ...

où chaque ligne contient la prédiction. Contrairement à un problème de classification binaire où y=1 ou y=-1, vous avez la possibilité de prédire 0, ce qui signifie que vous ne savez pas. Il y a 8496 images dans l'ensemble de validation.


### Critère de performance 

Vous pouvez donc répondre pour chaque image : homme (y=1), femme (y=-1) ou je-ne-sais-pas (y=0).

Se tromper coûte 10 points et ne pas savoir coûte 1 point. Mathématiquement, le score est calculé de la façon suivante:
 
$score = \frac1{N} \sum_{i=1}^N \Bigl(\mathbb{1}(\hat{y}_i = 0) + 10 \times \mathbb{1}(y_i \hat{y}_i = -1)   \Bigr) $ 

où $\mathbb{1}(\cdot)$ est la fonction indicatrice; $\mathbb{1}(x) = 1$ si $x$ est vrai, et $\mathbb{1}(x) = 0$, sinon.

Plus ce nombre est petit mieux c'est.


# Données d'apprentissage: 

https://www.dropbox.com/s/dqudxed82ljnxa8/training_templates.csv

https://www.dropbox.com/s/l0f9z08rysp0kjy/training_labels.txt


# Données de validation:

https://www.dropbox.com/s/syrry7miykrmjz0/testing_templates.csv

Voyons cela par l'exemple:

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [10]:
# Critere de performance
def compute_pred_score(y_true, y_pred):
    y_pred_unq =  np.unique(y_pred)
    for i in y_pred_unq:
        if((i != -1) & (i!= 1) & (i!= 0) ):
            raise ValueError('The predictions can contain only -1, 1, or 0!')
    y_comp = y_true * y_pred
    score = float(10*np.sum(y_comp == -1) + np.sum(y_comp == 0))
    score /= y_comp.shape[0]
    return score

In [11]:
X_train_fname = 'training_templates.csv'
y_train_fname = 'training_labels.txt'
X_test_fname  = 'testing_templates.csv'
X_train = pd.read_csv(X_train_fname, sep=',', header=None).values
X_test  = pd.read_csv(X_test_fname,  sep=',', header=None).values
y_train = np.loadtxt(y_train_fname, dtype=np.int)

## Investigation des données

In [12]:
X_train.shape, X_test.shape, y_train.shape

((105600, 128), (8496, 128), (105600,))

In [13]:
print('n_samples : %d, n_features : %d' % X_train.shape)

n_samples : 105600, n_features : 128


In [14]:
np.mean(y_train), np.unique(y_train)

(0.0, array([-1,  1]))

## Exemple de classification

Voyons maintenant un exemple de classification et de production d'un fichier de soumission

In [19]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression()
clf.fit(X_train, y_train)

# Prediction
y_pred_train =  clf.predict(X_train)

# Compute the score
score = compute_pred_score(y_train, y_pred_train)
print('Score sur le train : %s' % score)

Score sur le train : 0.638731060606


Génération de la prédiction sur le test et enregistrement du fichier à soumettre sur le site:

In [18]:
y_pred = clf.predict(X_test)

np.savetxt('y_pred.txt', y_pred, fmt='%d')

Vous pouvez maintenant uploader votre fichier `y_pred.txt` sur le site.

Bonne chance !