# Représentation des symboles en vecteurs numérique

Les algorithme de ML & DL ne peuvent pas traité les symboles en tant que telle, nous devons les transformers en vecteur numérique 

#### Différentes façon de vectoriser des symboles
- Vectorisation par la présence et la fréquence des tokens
    - Méthode la plus simple et la moins gourmande
    - Méthode limité car ne prend pas en compte le contexte et la sémantique de la phrase. On perd les relations entre les mots.
- Vectorisation par la contingence des tokens
    - Méthode intermédiaire
    - Le fait que les tokens sont utilisé au même endroit. Ce n'est pas la méthode de ML la plus perfomante
    - Exemple : J'ai un chat à la maison resemble à J'ai un chien à la maison. Il y a donc une contingence entre chat et maison et chien et maison
- Vectorisation par apprentissage auto-supervisé
    - Méthode la plus compliqué et gourmande
    - On va demandé a notre algorithme de ML de prédire les mots dans la phrase. Le modèle va crée un espace vectorielle avec le contexte et le sémantique du texte grace a cette technique
    - Exemple: J'ai un chien a la maison , le modèle va prédire le mots après J'ai, puis après un...

In [2]:
# One-Hot Encoding
import numpy as np

def make_one_hot(label, classes):
    vect = np.zeros(len(classes))
    if label in classes: vect[classes[label]] = 1
    return list(vect)

labels = [
    'chien', 'chat', 'ours', 'loup', 
    'chat', 'chat', 'ours', 'chien', 
    'chien', 'loup', 'ours', 'ours'
]

classes = {
    label: class_index
    for class_index, label in enumerate(list(dict.fromkeys(labels).keys()))
}

one_hot_labels = [make_one_hot(label, classes) for label in labels]

[[1.0, 0.0, 0.0, 0.0],
 [0.0, 1.0, 0.0, 0.0],
 [0.0, 0.0, 1.0, 0.0],
 [0.0, 0.0, 0.0, 1.0],
 [0.0, 1.0, 0.0, 0.0],
 [0.0, 1.0, 0.0, 0.0],
 [0.0, 0.0, 1.0, 0.0],
 [1.0, 0.0, 0.0, 0.0],
 [1.0, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.0, 1.0],
 [0.0, 0.0, 1.0, 0.0],
 [0.0, 0.0, 1.0, 0.0]]

In [18]:
# One-Hot Encoding avec un texte des misérables
import numpy as np

text = """
Il jouait on ne sait quel effrayant jeu de cache-cache avec la mort ; 
chaque fois que la face camarde du spectre s'approchait, le gamin 
lui donnait une pichenette. Une balle pourtant, mieux ajustée ou 
plus traître que les autres, finit par atteindre l'enfant feu follet. 
On vit Gavroche chanceler, puis il s'affaissa.
"""

vocab = {
    word: vocab_index
for vocab_index, word in enumerate(dict.fromkeys(text.split(' ')).keys())}

def make_one_hot(label, vocab):
    vect = np.zeros(len(vocab))
    if label in vocab: vect[vocab[label]] = 1
    return list(vect)

one_hot_one_liner = lambda label: [1.0 if word == label else 0.0 for word in vocab]

print(make_one_hot('Gavroche', vocab))  # On peut voir que plus le texte est grand et plus le One-Hot Encoding est grand 
                                        # (Une liste de 51 element pour un aussi petit texte)
print(one_hot_one_liner('Gavroche'))

[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0]


In [23]:
# Fréquence d'apparition de symbole

text = """
Il jouait on ne sait quel effrayant jeu de cache-cache avec la mort ; 
chaque fois que la face camarde du spectre s'approchait, le gamin 
lui donnait une pichenette. Une balle pourtant, mieux ajustée ou 
plus traître que les autres, finit par atteindre l'enfant feu follet. 
On vit Gavroche chanceler, puis il s'affaissa.
"""

def vectorize_with_freq(text: str, vocab: list):
    words: list[str] = text.split(' ')    
    return np.array(
        [words.count(word) if word in words else 0 for word in vocab]
    ) / len(words)
    """
        Cette liste compréhension est l'équivalent de ce code :
        vect = np.zeros(len(vocab))
    
        for letter in text.lower():
            vect[vocab[letter]] += 1
            
        vect /= len(text)
    """

print(f'Résultat de la Fréquence d\'apparition de symbole\n{vectorize_with_freq(text, vocab)}')

Résultat de la Fréquence d'apparition de symbole
[0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.03773585
 0.01886792 0.01886792 0.01886792 0.01886792 0.03773585 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792 0.01886792
 0.01886792 0.01886792 0.01886792]


#### Les problèmes de la fréquence d'apparition des symboles
- La taille d'un document est égale a celle du vocabulaire
- Il ne prend pas en compte la sémantique 
    - Exemple: "vent" et "vents" sont considérés commes des labels (features) différente
- La fréquence d'apparition ne met pas forcément en valeurs les mots les plus important ("le" a une fréquence plus grande que "Gavroche" alors qu'il est plus important)

### Fréquence d'apparition de Ngrams

Un Ngrams est une suite de tokens de taille n et est généralement couplé à une segmentation plus courte (en charactere par exemple) et permet de contrôler la taille du vocabulaire

Cette méthode perd le sens de la phrase mais nous permet de controller la taille des vecteurs, il est en plus possible de combiner des Ngrams de taille X (1, 2, 3, 4 ,5)

Mais on se retrouve avec les mêmes problèmes de la fréquence d'apparition des symboles

- Il ne prend pas en compte la sémantique 
    - Exemple: "vent" et "vents" sont considérés commes des labels (features) différente
- La fréquence d'apparition ne met pas forcément en valeurs les mots les plus important 

In [27]:
# Fréquence d'apparition de Ngrams
text = """
Il jouait on ne sait quel effrayant jeu de cache-cache avec la mort ; 
chaque fois que la face camarde du spectre s'approchait, le gamin 
lui donnait une pichenette. Une balle pourtant, mieux ajustée ou 
plus traître que les autres, finit par atteindre l'enfant feu follet. 
On vit Gavroche chanceler, puis il s'affaissa.
"""

ngram_split_one_liner = lambda n: [
    word + text[i + j] for i, word in enumerate(text) for j in range(1, n) if not i + n -1 == len(text)
]

print(ngram_split_one_liner(2))

['\nI', 'Il', 'l ', ' j', 'jo', 'ou', 'ua', 'ai', 'it', 't ', ' o', 'on', 'n ', ' n', 'ne', 'e ', ' s', 'sa', 'ai', 'it', 't ', ' q', 'qu', 'ue', 'el', 'l ', ' e', 'ef', 'ff', 'fr', 'ra', 'ay', 'ya', 'an', 'nt', 't ', ' j', 'je', 'eu', 'u ', ' d', 'de', 'e ', ' c', 'ca', 'ac', 'ch', 'he', 'e-', '-c', 'ca', 'ac', 'ch', 'he', 'e ', ' a', 'av', 've', 'ec', 'c ', ' l', 'la', 'a ', ' m', 'mo', 'or', 'rt', 't ', ' ;', '; ', ' \n', '\nc', 'ch', 'ha', 'aq', 'qu', 'ue', 'e ', ' f', 'fo', 'oi', 'is', 's ', ' q', 'qu', 'ue', 'e ', ' l', 'la', 'a ', ' f', 'fa', 'ac', 'ce', 'e ', ' c', 'ca', 'am', 'ma', 'ar', 'rd', 'de', 'e ', ' d', 'du', 'u ', ' s', 'sp', 'pe', 'ec', 'ct', 'tr', 're', 'e ', ' s', "s'", "'a", 'ap', 'pp', 'pr', 'ro', 'oc', 'ch', 'ha', 'ai', 'it', 't,', ', ', ' l', 'le', 'e ', ' g', 'ga', 'am', 'mi', 'in', 'n ', ' \n', '\nl', 'lu', 'ui', 'i ', ' d', 'do', 'on', 'nn', 'na', 'ai', 'it', 't ', ' u', 'un', 'ne', 'e ', ' p', 'pi', 'ic', 'ch', 'he', 'en', 'ne', 'et', 'tt', 'te', 'e.', '. '