In [1]:
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
#Lecture de tous les mots
words = open('dataset/names.txt', 'r').read().splitlines()
words [:8]

['emma', 'olivia', 'ava', 'isabella', 'sophia', 'charlotte', 'mia', 'amelia']

In [3]:
#Création des dictionnaires
chars = sorted(list(set(''.join(words)))) # estraction de chaque caracère de la liste de mots
stoi = {s:i+1 for i,s in enumerate(chars)} # Création d'un liste en commençant à l'indice 1 ou chaque caractère est associcé à un index
stoi['.'] = 0 #jout du caractère "." à l'indice 0
itos = {i:s for s,i in stoi.items()} # Création d'une liste inverse pour avoir le nombre et la corespondance du caractere
print(itos)

{1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f', 7: 'g', 8: 'h', 9: 'i', 10: 'j', 11: 'k', 12: 'l', 13: 'm', 14: 'n', 15: 'o', 16: 'p', 17: 'q', 18: 'r', 19: 's', 20: 't', 21: 'u', 22: 'v', 23: 'w', 24: 'x', 25: 'y', 26: 'z', 0: '.'}


In [4]:
#Construction du dataset
block_size = 3 # taille du contexte dans cet exemple 

X, Y = [], [] #Création de deux liste X pour les entrées et Y pour la sortie attendue

for w in words [:5]:
    print (w)
    context = [0] * block_size # On initie le contexte avec [0, 0, 0]
    for ch in w + '.': # Pour chauqe catactère du mot

        ix = stoi[ch] # On récupère la valeur du nombre correspondant à la lettre
        X.append(context) # On ajoute le contexte à la liste X
        Y.append(ix) # On ajoute la valeur numérique du caractère à la liste Y
        
        #On affiche le contexte + ----> + le caractère du mot que l'on traite 
        print(''.join(itos[i] for i in context), '--->', itos[ix])
        # La même chose mais on affiche les indexes
        #print(''.join(str(i) for i in context), '--->', ix)
 
        
        
        # On jette le premier élément du contexte et on d&calle tout a gauche
        #et on ajoute la valeur numérique de la lettre dans le contexte
        context = context[1:] + [ix]

X = torch.tensor(X)
Y = torch.tensor(Y)
        

emma
... ---> e
..e ---> m
.em ---> m
emm ---> a
mma ---> .
olivia
... ---> o
..o ---> l
.ol ---> i
oli ---> v
liv ---> i
ivi ---> a
via ---> .
ava
... ---> a
..a ---> v
.av ---> a
ava ---> .
isabella
... ---> i
..i ---> s
.is ---> a
isa ---> b
sab ---> e
abe ---> l
bel ---> l
ell ---> a
lla ---> .
sophia
... ---> s
..s ---> o
.so ---> p
sop ---> h
oph ---> i
phi ---> a
hia ---> .


In [5]:
X.shape, X.dtype, Y.shape, Y.dtype

(torch.Size([32, 3]), torch.int64, torch.Size([32]), torch.int64)

In [6]:
#Création de la matrice des embeddings, ou chaque caractère est 
# représenté par une matrice a deux dimensions aléaroires pour commencer
C = torch.randn((27, 2))
#print (C)

In [7]:
######################################################
####### CONSTRUCTION DE LA COUCHE D'EMBEDDING ########
######################################################

In [8]:
# Embedding de la matric X
# A ce stade X contient les contexte de 3 index
# Le réseau ne peut pas travailler avec ces indexes c'est pourquoi on va 
# embedder X pour donner un représentation mathématique des caractères via
# des vecteurs denses
# Avant embedding = X[i] = [5, 13, 13]
# Après embedding = X[i] = [[1.7, -0.3], [0.2, +1.5], [0.2, +1.5]]
# [
      #C[5],    # embedding de 'e' → [1.7, -0.3]
      #C[13],   # embedding de 'm' → [0.2, +1.5]
      #C[13]    # embedding de 'm' → [0.2, +1.5]
# ]
emb = C[X]
# On obtient un tenseur de 32 lignes (le nombre d'exemple dans notre training set), dans chaque ligne 3 éléments (contexte) 
# et pour chaque élément la version embedder donc une matrice de 2 dimensions
emb.shape

torch.Size([32, 3, 2])

In [9]:
######################################################
######### CONSTRUCTION DE LA HIDDEN LAYER ############
######################################################

In [10]:
#Initialisatin des poids aléatoirement
W1 = torch.randn((6, 100)) 
# 6 lignes car 
# 6 entrées car notre embedding contient 6 valeurs par ligne
# 3 lettres de contexte * 2 embedding par lettre  
# [[1.7, -0.3], [0.2, +1.5], [0.2, +1.5]]
# La matrice est applatit avant d'être envoyé au neuronne pour ne faire q'un seul vecteur
# [1.7, -0.3, 0.2, 1.5, 0.2, 1.5]   # vecteur de taille 6

# 100 neuronnes cachés avec 6 poids => Taille initié à l'expérience :) 

#Initialisation des biais aléatoirement
b1 = torch.randn(100)
# 100 biais car 100 neuronnes
#Chaque neuronne reçoit la valeur de l'embedding applati,


# Il fait son calcul tanh(aX + b) et en sortie on a une valeur
h = torch.tanh(emb.view(-1, 6) @ W1 + b1)

#Explication du emb.view
# A ce stade on veut muliplier une matrice emb de dimensions [32, 3, 2]
# par la matrice W1 de dimension [6, 100]
# Ce qui est imossible, la multiplication d'une matrice A par une matrice B impose
# que le nombre de colonne de la matrice A soit égal au nombre de ligne de la matrice B
# Il faut donc que la matrice emb ai 6 colonne (actuellement 3)
# la fonction view permet, sans créer de nouveau tenseur en mémoire, de transoformer 
# la forme de notre matrice et pour garder une forme dynamique on indique -1 au niveau
# de la ligne, torch sait alors que ce sera forcément 32 dans notre cas car il fait
# autmatiquement le calcul en fonction de la taille du tenseur d'origine
# origine 32 * 3 * 2 = 192 donc si on indique 6 il fait 192 / 6 pour déduire 32

print('shape emb :', emb.shape)
print('shape W1 :', W1.shape)
print('shape b1 :', b1.shape)
print('shape emb.view(-1, 6) :', emb.view(-1, 6).shape)

# La shape de h sera égale au nombre de ligne de la matrice emb.view(-1, 6) >> 32
# Et du nombre de colonne de la matrice W1 >> 100
# Règle de la multiplication des matrices

##  Règle mathématique d'addition de matrice, pour addition deux matrices il faut qu'elle soient de mêm taille :
# L'addition de emb.view(-1, 6) @ W1  b1 à 1 dimension  est possible grace au
# Broadcasting, qui va étendre automatiquement le plus petit vecteur pour que la forme soit compatible
# b1 est un vecteru composé d'une ligne et de 100 valeurs (colonnes)
# Pour permettre l'addition le broadcasting va répété virtuellement b1 sur 32 lignes
print('shape de h :', h.shape)

shape emb : torch.Size([32, 3, 2])
shape W1 : torch.Size([6, 100])
shape b1 : torch.Size([100])
shape emb.view(-1, 6) : torch.Size([32, 6])
shape de h : torch.Size([32, 100])


In [11]:
######################################################
######## CONSTRUCTION DE LA COUCHE DE SORTIE #########
######################################################

In [16]:
#Initialisatin des poids aléatoirement
W2 = torch.randn((100, 27)) 
# 100 lignes car 
# 100 sorties de notre hidden layer (shape de h : torch.Size([32, 100]))
# 27 colonnes car 27 sortie étant données le nombre de caractère possible   

#Initialisation des biais aléatoirement
b2 = torch.randn(27)

######################################################
#################### Forward Pass ####################
######################################################

# 27 Scores bruts non normalisés, un niveau "d'energie attribué a chaque caractère"
logits = h @ W2 + b2
logits.shape

# On va calculer la probabilité
    #counts = logits.exp() # Transforme chaque score brut en nombre strictement positif 
#on le divise par la valeur des sommes de toutes les colonnes pour en faire une moyenne »
    #prob = counts / counts.sum(1, keepdims=True) ## Normalisation pour que la somme d'une ligne soit égale à 1
# prob contient 32 lignes (nombre d'exemple) et 27 colonne représentant chauqe caractère et la probabilité affecté a chaque caractère
# Création d'un vecteur de 32 valeurs dans le quel on stock la valeur prédite par le modèle
# Pour chaque caractère qui était attendu (donc ce n'est forcément celui qui a eu la meilleur probabilité
# Ce qui est normal, à ce stade le modèle n'est pas encore entrainé)
    #preparationCalculLoss = prob[torch.arange(32), Y]
    #print (preparationCalculLoss)

# On prend la probabilité du caractère correct, on prend son log, on met un signe moins, on moyenne :
# c’est la Negative Log-Likelihood, la mesure standard de “à quel point le modèle a eu tort”.
# C'est cette valeur que l'on va tenter de minimiser pour améliorer notre modèle
    #loss = -preparationCalculLoss.log().mean()
    #print (loss.item())

# La fonction F.cross_entropy(logits, y) faile calcul du neagative loglikelihood de façon plus efficiente
# cross_entropy fait tout en une seule opération efficace au lieu de 4 quand on le fait manuellement
# cross_entropy est NUMÉRIQUEMENT STABLE >> 
    # Si un logit = 50 → exp(50) ≈ 5 × 10²¹ → explosion
    # Si un logit = –50 → exp(–50) ≈ 1.9e–22 → underflow
        # ➡️ aucun overflow
        # ➡️ aucun underflow
        # ➡️ même si les logits sont énormes
        # ➡️ gradients fiables
# C’est plus rapide (implémenté en C++/CUDA)
loss = F.cross_entropy(logits, Y)
print('Caclul de la loss: ', loss)

In [24]:
# Si on ne fait pas ça on a cette erreur
# RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
for p in parameters:
    p.requires_grad = True

In [25]:
######################################################
################### Entrainement #####################
######################################################
parameters = [C, W1, W2, b1, b2]



for k in range(200):

    # 1) Forward pass
    emb = C[X]                      # [32, 3, 2]
    h = torch.tanh(emb.view(32, 6) @ W1 + b1)   # [32, 100]
    logits = h @ W2 + b2           # [32, 27]
    loss = F.cross_entropy(logits, Y)

    # 2) Backprop
    for p in parameters:
        p.grad = None              # reset gradients
    loss.backward()

    # 3) Gradient descent
    for p in parameters:
        p.data += -0.1 * p.grad    # gradient descent

    print(loss.item())


15.841652870178223
12.190972328186035
10.364726066589355
9.19583511352539
7.876575946807861
7.002636909484863
6.338400363922119
5.7566046714782715
5.264477252960205
4.804817199707031
4.403929710388184
4.027704238891602
3.7040207386016846
3.4027419090270996
3.1420130729675293
2.8859381675720215
2.662510871887207
2.434684991836548
2.2368736267089844
2.032646656036377
1.8584678173065186
1.6803371906280518
1.5371460914611816
1.3858317136764526
1.2780719995498657
1.1552858352661133
1.0732132196426392
0.9778939485549927
0.9087672233581543
0.8344378471374512
0.7799637913703918
0.7249069213867188
0.6888688802719116
0.6497572660446167
0.6278157234191895
0.5975610017776489
0.5833364725112915
0.5582679510116577
0.5479008555412292
0.5274479389190674
0.519249677658081
0.5029134154319763
0.49609577655792236
0.48294585943222046
0.47704827785491943
0.4662506580352783
0.46100082993507385
0.45196497440338135
0.44720444083213806
0.43952685594558716
0.4351608157157898
0.42855754494667053
0.424525082111358