# Apprendre à utiliser et visualiser un Dataset Synthetic

A la fin de ce workshop vous saurez:

-adopter un workflow de base avec github ( Develop, Verify, Commit)
-Generer un datset de classification 2D avec la librairie sklearn
-Visualiser les classes du dataset sur un graphique 2D
- Visualiser les predictions de votre réseau sur un graphie 2D
-...

In [None]:
#importer les librairies utiles

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_moons, make_circles, make_classification

In [None]:
# créer un dataset séparable par une ligne droite

train_size = 100
test_size = 50
total_size = train_size+ test_size

print("Total size: ", total_size)

X, y = make_classification(n_samples=total_size, n_features=2, 
                           n_redundant=0,n_informative=2, random_state=1, n_clusters_per_class=1)


In [None]:
X.shape, y.shape

In [None]:
y = y.reshape(-1, 1)
y.shape

In [None]:
X[:10], y[:10] 

In [None]:
#Séparation du train/test

X_train, y_train = (X[:train_size], y[:train_size])
X_test, y_test = (X[-test_size:], y[-test_size:])

assert X_test.shape[0] + X_train.shape[0] == total_size
assert y_test.shape[0] + y_train.shape[0] == total_size

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
# Visualiser le dataset d'une manière informative

plt.scatter(X_train[:,0], X_train[:,1],
           c=y_train[:,0],
           cmap=plt.cm.jet)

In [None]:
# Créer un dataset séparable par une ligne droite en 2D

def split_dataset(X, y, train_pct=0.66):
    """ Va séparer les datasets avec respect pour le pourcentage du dataset à mettre dans le train set.
    Warning: La dimension des exemples doit être la première.
    
    :X mes exemples, shape=(m, -1), m -> dimensions des exemples
    :y mes labels, shape=(m, -1), m -> dimensions des exemples
    :train_pct (default=0.66) Optionnal, c'est un pourcentage qui va séparer le de dataset avec train_pct * total_size dans le train set.
    
    return X_train, y_train, X_test, y_test 
    

    >>> X_train, y_train, X_test, y_test = split_dataset(X, y)
    """
    # 1ere dimension -> celle des exemples
    total_size = X.shape[0]
    
    if y.ndim == 1:
        y = y.reshape(-1, 1)
    
    # On récupère `train_pct` % du dataset pour le train set, aussi il faut convertir en entier pour numpy ...
    train_size = int(train_pct * total_size)
    # ... et on met le reste danss le test set
    test_size  = total_size - train_size 
    
    # On met les `train_size` premier exemples/labels dans le train set ...
    X_train, y_train = (X[:train_size], y[:train_size])
    # ... et les test_size derniers exemples/labels dans le test set.
    X_test , y_test  = (X[-test_size:], y[-test_size:])

    # On s'assure que tous les exemples soient présents dans le test set ou le train set.
    assert X_test.shape[0] + X_train.shape[0] == total_size
    assert y_test.shape[0] + y_train.shape[0] == total_size
    
    return X_train, y_train, X_test, y_test 



X, y = make_classification(n_samples=200,
                          n_features=2, n_redundant=0, n_informative=2,
                          random_state=1, n_clusters_per_class=1)

for each in (X, y):
    print(each.shape)

print()

X_train, y_train, X_test, y_test = split_dataset(X, y)

for each in (X_train, y_train, X_test, y_test):
    print(each.shape)

In [None]:
X_train[:10], y_train[:10]

In [None]:
X_test[:10], y_test[:10

In [None]:
# Visualiser le dataset d'une manière informative

plt.scatter(X_train[:, 0], X_train[:, 1],
           c=y_train[:, 0],
           cmap=plt.cm.jet)

In [None]:
# Refactoriser plot_dataset

def plotdataset(X, y):
    """
    Permet d'afficher les classes `y` d'exemples à é features ` X` 
    Warning: la dimension des exemples doit etre en premiere.
    
    Soit m , le nombre d'exemples sc
    """
    plt.scatter(X[:,0], X[:,1],
                c=y[:,0],
                cmap=plt.cm.jet)
    return None

plotdataset(x_train, y_train)