<a href="https://colab.research.google.com/github/antmaio/Creactif_Fastai/blob/main/Fastai_Seance6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Données en Tableau

In [3]:
import torch.nn as nn
import pandas as pd
from fastai.tabular.all import *
torch.cuda.empty_cache()

In [4]:
path = untar_data(URLs.ADULT_SAMPLE)
path.ls()

(#3) [Path('/root/.fastai/data/adult_sample/export.pkl'),Path('/root/.fastai/data/adult_sample/adult.csv'),Path('/root/.fastai/data/adult_sample/models')]

Visualisation du tableau (DataFrame) :

In [5]:
df = pd.read_csv(path/'adult.csv')
df.head(5)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,49,Private,101320,Assoc-acdm,12.0,Married-civ-spouse,,Wife,White,Female,0,1902,40,United-States,>=50k
1,44,Private,236746,Masters,14.0,Divorced,Exec-managerial,Not-in-family,White,Male,10520,0,45,United-States,>=50k
2,38,Private,96185,HS-grad,,Divorced,,Unmarried,Black,Female,0,0,32,United-States,<50k
3,38,Self-emp-inc,112847,Prof-school,15.0,Married-civ-spouse,Prof-specialty,Husband,Asian-Pac-Islander,Male,0,0,40,United-States,>=50k
4,42,Self-emp-not-inc,82297,7th-8th,,Married-civ-spouse,Other-service,Wife,Black,Female,0,0,50,United-States,<50k


In [6]:
df.nunique() #Nombre de classe unique dans chaque colonne

age                  73
workclass             9
fnlwgt            21648
education            16
education-num        16
marital-status        7
occupation           15
relationship          6
race                  5
sex                   2
capital-gain        119
capital-loss         92
hours-per-week       94
native-country       42
salary                2
dtype: int64

NaN = Not a Number ⇒ Donnée non récoltée

## Exercice 1:
Afficher les 10 derniers éléments du tableau

In [7]:
# Votre code

## Création du DataLoader

y_names : ce que l'on veut estimer (sortie du réseau de neurones)

cat_names : les entrées que l'on peut diviser en catégories (discrètes), ex: chat / chien

cont_names : les entrées qui peuvent prendre des valeurs continues, ex: valeur des pixels dans une image

In [None]:
cat_names = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race']
cont_names = ['age', 'fnlwgt', 'education-num']

dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
                                   cat_names=cat_names, cont_names=cont_names)

Erreur car la fonction dataloaders ne comprend pas les données non numériques (idem que chat/chien)

⇒ On utilise la Transform "Categorify":

In [None]:
dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
                                  cat_names=cat_names, cont_names=cont_names,
                                  procs = Categorify)

test = pd.DataFrame(dls.train_ds[['occupation','education-num']])
test = test.sort_index()
print(test[:5])

## Exercice 2:
Pourquoi nous n'avons pas les mêmes indices que dans df.head(5) ? Comment les catégories sont-elles définies dans Categorify ?

Composition d'un batch : [entrées catégorielles, entrées continues, sorties]

In [None]:
print(f'length: {len(dls.one_batch())}')
print(dls.one_batch()[0][:5])
print(dls.one_batch()[1][:5])
print(dls.one_batch()[2][:5])

Pour gérer les éléments manquants, on utilise la Transform "FillMissing"

Note : les éléments manquants vont être remplacés par la valeur médiane

In [None]:
dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
                                  cat_names=cat_names, cont_names=cont_names,
                                  procs = [Categorify, FillMissing])
test = pd.DataFrame(dls.train_ds[['occupation','education-num']])
test = test.sort_index()
print(test[:5])

Pour optimiser le traitement des entrées continues, on utilise la Transform "Normalize"

In [9]:
dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
                                  cat_names=cat_names, cont_names=cont_names,
                                  procs = [Categorify, FillMissing, Normalize])
test = pd.DataFrame(dls.train_ds[['occupation','education-num']])
test = test.sort_index()
print(test[:5])

   occupation  education-num
1           5       1.529290
2           0      -0.034703
3          11       1.920289
4           9      -0.034703
5           7      -0.425702


## Learner


Il y a deux manières de procéder pour pouvoir créer notre Learner : 
1. Soit nous utilisons un Learner relatif aux données tabulaire tabular_learner
2. Soit nous utilisons le learner général de fastai mais cela implique de définir nos paramètres nous-mêmes. Cependant, nous pouvons facilement modifier les paramètres de l'architecture du modèle à utiliser.

In [10]:
"""Méthode 1)"""
from fastai.tabular.model import TabularModel

dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
                                  cat_names=cat_names, cont_names=cont_names,
                                  procs = [Categorify, FillMissing, Normalize])

tab_learn = tabular_learner(dls, metrics=accuracy)
tab_learn.model

TabularModel(
  (embeds): ModuleList(
    (0): Embedding(10, 6)
    (1): Embedding(17, 8)
    (2): Embedding(8, 5)
    (3): Embedding(16, 8)
    (4): Embedding(7, 5)
    (5): Embedding(6, 4)
    (6): Embedding(3, 3)
  )
  (emb_drop): Dropout(p=0.0, inplace=False)
  (bn_cont): BatchNorm1d(3, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (layers): Sequential(
    (0): LinBnDrop(
      (0): Linear(in_features=42, out_features=200, bias=False)
      (1): ReLU(inplace=True)
      (2): BatchNorm1d(200, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): LinBnDrop(
      (0): Linear(in_features=200, out_features=100, bias=False)
      (1): ReLU(inplace=True)
      (2): BatchNorm1d(100, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (2): LinBnDrop(
      (0): Linear(in_features=100, out_features=2, bias=True)
    )
  )
)

Analyse du réseau :      
1. Embeddings : Les couches d'embeddings permettent de convertir des indices en vecteur de données. A chaque indice (provenant du Categorify) va être associé un vecteur d'information et nous pouvons donc retrouver ce vecteur à partir de cet indice. En informatique, nous appelons ça une look-up table.
2. Linear : Couche de neurones dont la taille du vecteur d'entrée et celle de celui de sortie est fixe.

In [11]:
#Embeddings
nombre_de_mots, taille_du_vecteur = 3, 5
embedding = nn.Embedding(nombre_de_mots, taille_du_vecteur)
print('Look Up table size : ', embedding)

idx=torch.LongTensor([0,0,1,1,2,2])
embedding(idx)

Look Up table size :  Embedding(3, 5)


tensor([[-0.7003,  0.4197,  0.6222, -0.1447, -1.3347],
        [-0.7003,  0.4197,  0.6222, -0.1447, -1.3347],
        [-0.0112, -1.0629,  0.4426, -0.7759, -0.2942],
        [-0.0112, -1.0629,  0.4426, -0.7759, -0.2942],
        [ 2.1101,  2.0026, -0.2100,  0.0350,  1.9787],
        [ 2.1101,  2.0026, -0.2100,  0.0350,  1.9787]],
       grad_fn=<EmbeddingBackward0>)

In [None]:
idx=torch.LongTensor([3])
embedding(idx)
#throw an error because idx>len(vocabalury)

In [14]:
tab_learn.model.embeds

ModuleList(
  (0): Embedding(10, 6)
  (1): Embedding(17, 8)
  (2): Embedding(8, 5)
  (3): Embedding(16, 8)
  (4): Embedding(7, 5)
  (5): Embedding(6, 4)
  (6): Embedding(3, 3)
)

Une couche linéaire est une couche qui opère une opération matricielle sur le vecteur d'entrée. Elle est définie par un nombre de neurone d'entrée et un nombre de neurone de sortie
nn(6).svg

In [16]:
#Linear
#perform the operation linear.weight @ x + b
in_size=5
out_size=2
linear=nn.Linear(in_size, out_size)

print('Shape')
print(linear.weight.shape)
print(linear.bias.shape)

x = torch.rand(in_size)

res = linear.weight @  x + linear.bias

print(f'Shape of Linear operation : {linear.weight.shape}  @  {x.shape}  + {linear.bias.shape} = {res.shape}')

Shape
torch.Size([2, 5])
torch.Size([2])
Shape of Linear operation : torch.Size([2, 5])  @  torch.Size([5])  + torch.Size([2]) = torch.Size([2])


Entrainement de notre modèle

In [17]:
tab_learn.fit(1)

epoch,train_loss,valid_loss,accuracy,time
0,0.374574,0.362748,0.83231,00:06


In [None]:
"""
Méthode 2)
"""

emb_szs = get_emb_sz(dls.train_ds, {}) #infer the size of embeddings from our data
n_cont = len(dls.cont_names) #number of continous var
n_out = get_c(dls) #infer the number of classes from our dataloader

mymodel = TabularModel(emb_szs=emb_szs, n_cont=n_cont, out_sz=n_out, layers=[200,100])
learn = Learner(dls, mymodel, metrics=accuracy)

print('Model from Learner : ', learn.model)
print('Model from tabular_learner : ', tab_learn.model)

#tab_learn.model

## Exercice 3

Entrainer le modèle défini par le Learner général

In [None]:
#Votre code ici

# Création de son propre réseau de neurones

Il est possible de créer sa propre architecture de réseau de neurone grâce à la classe nn.Module de Pytorch qui regroupe des fonctionnalités sur lesquelles se base FastAI pour la définition du réseau

Vous pouvez avoir la liste des couches spécifiques existantes dans la documentation de Pytorch https://pytorch.org/docs/stable/nn.html 

In [19]:
class NeuralNetwork(nn.Module):
  def __init__(self):
    #Définition des opérations et couches du réseau
    super(NeuralNetwork, self).__init__()
    self.linear1 = nn.Linear(3, 10)
    self.linear2 = nn.Linear(10, 2)
  def forward(self, x):
    #Application des opérations définies dans __init__ 
    x = self.linear1(x)
    x = self.linear2(x)
    return x

In [20]:
my_first_model = NeuralNetwork()

x = torch.rand(3)
out = my_first_model(x)

print(out.shape)

torch.Size([2])


## Exercice 4 

Créez un réseau de neurones composées de 4 couches linéaires. Ce réseau permet de de classifier la classe (parmis 2) d'une modalité à partir de 10 données d'entrée. La taille des couches cachées et de 100 neurones.

Testez si votre modèle fonctionne (pas d'erreur invoquée) à partir d'un vecteur random

In [None]:
# Votre code

# Exercice 5
Entraîner notre réseau à partir de données créées au sein de l'environnement

1) Créer une matrice de nombres aléatoires de 1000 lignes, 10 colonnes

Tips: fonction random.rand de numpy

In [None]:
# votre code

2) Transformer notre matrice en dataframe et ajouter une colonne "category" contenant des booléens aléatoires

Tips: fonction random.choice de numpy

In [None]:
# votre code

3) Créer un dls adapté à notre réseau "Linear"

Tips: réflechir à l'utilité des embeddings

In [None]:
# votre code

4) Créer un modèle MLP contenant 1 couche cachée de 42 neurones

Tips: l'entrée est composée des cat et des cont

In [109]:
# votre code

5) Entraîner le modèle sur 1 epoch

In [110]:
# votre code