<a href="https://colab.research.google.com/github/EladdadMahdi/EladdadMahdi/blob/main/1_Gender_detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img src="https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/logo_datascientest.png" style="height:150px;center"></center>

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1>Deep-Learning - Modules complémentaires</h1></center>
<center><h2>Classification sur des données structurées</h2></center>
<hr style="border-width:2px;border-color:#75DFC1">


Le but de cet exercice est de s'entraîner à faire une classification sur des données structurées à l'aide d'un réseau de neurones dense.

 Nous allons travailler avec la base de données **```gender_classification.csv```**, qui contient les caractéristiques physiques du visage d'hommes et de femmes ainsi que leur genre.

> La structure de l'exercice est la suivante : 
>> I - [Préparation du dataset](#preparation)
>>
>>
>> II - [Classification avec un algorithme classique (KNN)](#knn)
>>
>>
>> III - [Classification à l'aide d'un réseau de neurones dense](#dnn)

- Exécuter les cellules ci-dessous pour importer le dataset et les modules nécessaires à l'exercice.

In [None]:
!wget https://assets-datascientest.s3-eu-west-1.amazonaws.com/datasets/gender_classification.zip
!unzip gender_classification.zip




--2022-12-06 16:19:29--  https://assets-datascientest.s3-eu-west-1.amazonaws.com/datasets/gender_classification.zip
Resolving assets-datascientest.s3-eu-west-1.amazonaws.com (assets-datascientest.s3-eu-west-1.amazonaws.com)... 52.218.92.216, 52.218.89.168, 52.218.121.242, ...
Connecting to assets-datascientest.s3-eu-west-1.amazonaws.com (assets-datascientest.s3-eu-west-1.amazonaws.com)|52.218.92.216|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19483 (19K) [application/zip]
Saving to: ‘gender_classification.zip’


2022-12-06 16:19:30 (71.6 MB/s) - ‘gender_classification.zip’ saved [19483/19483]

Archive:  gender_classification.zip
  inflating: gender_classification.csv  


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.neighbors import KNeighborsClassifier

from tensorflow.keras import callbacks
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout, ReLU



# <a name="preparation"></a> I - Préparation du dataset

- (a) Charger le jeu de données **```gender_classification.csv```** dans un DataFrame ```df```.

- (b) Afficher la shape de ```df``` ainsi que ses 5 premières lignes.

In [None]:
df = pd.read_csv("gender_classification.csv")

df.head()

Unnamed: 0,long_hair,forehead_width_cm,forehead_height_cm,nose_wide,nose_long,lips_thin,distance_nose_to_lip_long,gender
0,1,11.8,6.1,1,0,1,1,Male
1,0,14.0,5.4,0,0,1,0,Female
2,0,11.8,6.3,1,1,1,1,Male
3,0,14.4,6.1,0,1,1,1,Male
4,1,13.5,5.9,0,0,0,0,Female


- (c) Vérifier que les colonnes de ```df``` sont du bon type, et traiter les valeurs manquantes s'il y en a.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5001 entries, 0 to 5000
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   long_hair                  5001 non-null   int64  
 1   forehead_width_cm          5001 non-null   float64
 2   forehead_height_cm         5001 non-null   float64
 3   nose_wide                  5001 non-null   int64  
 4   nose_long                  5001 non-null   int64  
 5   lips_thin                  5001 non-null   int64  
 6   distance_nose_to_lip_long  5001 non-null   int64  
 7   gender                     5001 non-null   object 
dtypes: float64(2), int64(5), object(1)
memory usage: 312.7+ KB


- (d) Préparer les données.
> Cette partie regroupe :
>> - L'encodage des variables
>>
>>
>> - la séparation des variables explicatives de la variable cible
>>
>>
>> - La création d'un jeu de test et d'entraînement
>>
>>
>> - Le scaling de ```X_train``` et ```X_test```

In [None]:
df["gender"] = df["gender"].replace({"Male": 0, "Female": 1})

X = df.drop("gender", axis=1)
y = df["gender"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = MinMaxScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# II - <a name="knn"></a> Classification avec un algorithme classique (KNN)

- (a) Instancier un modèle de classification KNN.

- (b) Fit le modèle aux données d'entraînement.

- (c) Effectuer une prédiction à partir des données de test (attention au scaling).

- (d) Afficher la matrice de confusion de la prédiction.

In [None]:
knn = KNeighborsClassifier()

knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
pd.crosstab(y_pred, y_test, rownames=["prediction"], colnames=["true"])

true,0,1
prediction,Unnamed: 1_level_1,Unnamed: 2_level_1
0,481,13
1,24,483


# III - <a name="dnn"></a> Classification à l'aide d'un réseau de neurones dense

- (a) Instancier un réseau de neurones dense de l'architecture de votre choix. 

- (b) Compiler le modèle avec une métrique appropriée.

- (c) Entraîner le modèle avec les paramètres de votre choix. On pourra également définir des callbacks.

- (d) Effectuer une prédiction à partir des données de test (attention au scaling).

- (e) Afficher la matrice de confusion de la prédiction

In [None]:
model = Sequential()

model.add(Dense(64))
model.add(Dropout(0.2))
model.add(ReLU())

model.add(Dense(32))
model.add(Dropout(0.2))
model.add(ReLU())

model.add(Dense(16))
model.add(Dropout(0.2))
model.add(ReLU())

model.add(Dense(2, activation="softmax"))

model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics=["accuracy"])

In [None]:
model.fit(X_train, y_train, epochs=200)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<keras.callbacks.History at 0x7f1539a65190>

In [None]:
y_pred = model.predict(X_test)



In [None]:
y_pred = np.apply_along_axis(lambda l: np.argmax(l), 1, y_pred)

In [None]:
print(y_pred)
y_test.shape

[0 0 0 ... 1 0 1]


(1001,)

In [None]:
pd.crosstab(y_pred, y_test.values)

col_0,0,1
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1
0,491,14
1,14,482
