In [4]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [20]:
sentences = [
    'I love my dog',
    'i love my cat',
    'you love my dog!',
    'Do you think my dog loves me?'

]

In [21]:
tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
(word_index)

{'my': 1,
 'love': 2,
 'dog': 3,
 'i': 4,
 'you': 5,
 'cat': 6,
 'do': 7,
 'think': 8,
 'loves': 9,
 'me': 10}

##### Les valeurs des mots sont donnees en fonction de leur occurences d'apparition et l'ordre d'apparition(si deux mots on mm occurences)

In [22]:
sequences = tokenizer.texts_to_sequences(sentences)
print('\nSequences avant le padding:', sequences)



Sequences avant le padding: [[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]


##### PROBLEME: Pas la meme taille!

In [None]:
padded = pad_sequences(sequences) # Par defaut padding='pre', truncating='pre', maxlen=taille de la plus grande sequence
print('\nSequences apres le padding:', padded)


Sequences apres le padding: [[ 0  0  0  4  2  1  3]
 [ 0  0  0  4  2  1  6]
 [ 0  0  0  5  2  1  3]
 [ 7  5  8  1  3  9 10]]


In [24]:
padded = pad_sequences(sequences,maxlen=5) 
print('\nSequences apres le padding:', padded)


Sequences apres le padding: [[ 0  4  2  1  3]
 [ 0  4  2  1  6]
 [ 0  5  2  1  3]
 [ 8  1  3  9 10]]


In [25]:
## Utiliser des mots hors du vocabulaire
new_sentences = [
    'i really love my dog',
    'my cat loves me'
]
new_seq = tokenizer.texts_to_sequences(new_sentences)
print('\nNew sequences avant le padding:', new_seq)


New sequences avant le padding: [[4, 2, 1, 3], [1, 6, 9, 10]]


In [16]:
text_vectorizer = keras.layers.TextVectorization(
    max_tokens=None,
    standardize='lower_and_strip_punctuation',
    split='whitespace',
    ngrams=None,
    output_mode='int',
    output_sequence_length=None,
)

In [17]:
text_vectorizer.adapt(sentences)


In [18]:
text_vectorizer(sentences)

<tf.Tensor: shape=(3, 4), dtype=int64, numpy=
array([[4, 3, 2, 5],
       [4, 3, 2, 7],
       [6, 3, 2, 5]], dtype=int64)>

{'love': 1,
 'my': 2, 
 'i': 3,
 'dog': 4,
 'cat': 5,
 'you': 6
}

### Mini Projet: Predire si une phrase a un Conotation Positive ou Negative

In [27]:
import pandas as pd

In [28]:
## Construction de la data
data = {
    'phrase': [
        # Bonne connotation
       "Il est très économe." ,

        "C'est une personne ambitieuse. ",

        "Elle a défendu ses convictions avec passion. ",

        "C'est un quartier authentique et vivant. ",
        "Il a un regard perspicace sur les situations. ",

        "C'est un parfum discret et raffiné. ",

        "C'est une solution novatrice. ",

        "C'est un enfant plein de vie. ",

        "Elle a une silhouette fine et élancée. ",
        "C'est un leader né. ",
        
        # Mauvaise connotation  
        "Il est radin. ",

        "C'est une personne arriviste. ",

        "Elle a imposé ses opinions avec agressivité. ",

        "C'est un quartier bruyant et populaire. ",

        "Il est sans cesse en train de critiquer. ",
        "C'est un parfum qui ne se remarque presque pas. ",

        "C'est une idée farfelue. ",
        "C'est un enfant turbulent et agité. ",
        "Elle est très maigre. ",

        "Il a un caractère dominateur.",
    ],
    'connotation': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  # 1 = bonne
                   0, 0, 0, 0, 0, 0, 0, 0, 0, 0]   # 0 = mauvaise
}

df = pd.DataFrame(data)

In [30]:
df.to_csv('connotation_phrases.csv', index=False)

In [55]:
data = pd.read_csv('connotation_phrases.csv')

In [56]:
data

Unnamed: 0,phrase,connotation
0,Il est très économe.,1
1,C'est une personne ambitieuse.,1
2,Elle a défendu ses convictions avec passion.,1
3,C'est un quartier authentique et vivant.,1
4,Il a un regard perspicace sur les situations.,1
...,...,...
772,Elle se montre très hautaine.,0
773,Il ne met aucune limite.,0
774,Elle dénigre les succès d’autrui.,0
775,Il rejette toute forme de critique.,0


In [57]:
sentences = data['phrase'].tolist()
labels = data['connotation'].tolist()

In [58]:
sentences

['Il est très économe.',
 "C'est une personne ambitieuse.",
 'Elle a défendu ses convictions avec passion.',
 "C'est un quartier authentique et vivant.",
 'Il a un regard perspicace sur les situations.',
 "C'est un parfum discret et raffiné.",
 "C'est une solution novatrice.",
 "C'est un enfant plein de vie.",
 'Elle a une silhouette fine et élancée.',
 "C'est un leader né.",
 "Il fait preuve d'une grande générosité.",
 'Elle parle toujours avec bienveillance.',
 'Il a une attitude exemplaire.',
 "C'est une personne de confiance.",
 'Elle a un sourire chaleureux.',
 'Il est très appliqué dans son travail.',
 'Elle apporte une énergie positive.',
 'Il possède une grande intelligence émotionnelle.',
 "C'est une idée brillante.",
 'Sa créativité est remarquable.',
 'Elle cuisine avec talent.',
 'Il fait preuve d’un sang-froid admirable.',
 'Son discours était inspirant.',
 'Elle a un sens aigu de l’organisation.',
 'Il est très respectueux.',
 'C’est une solution efficace.',
 'Elle a une 

In [59]:
tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
(word_index)

{'il': 1,
 'elle': 2,
 'est': 3,
 'les': 4,
 'a': 5,
 'de': 6,
 'très': 7,
 'une': 8,
 'un': 9,
 'toujours': 10,
 'trop': 11,
 'se': 12,
 'des': 13,
 'fait': 14,
 'autres': 15,
 'grande': 16,
 'ses': 17,
 'avec': 18,
 'montre': 19,
 'ne': 20,
 'jamais': 21,
 'tout': 22,
 'preuve': 23,
 'la': 24,
 'à': 25,
 'son': 26,
 'et': 27,
 'parle': 28,
 'prend': 29,
 'sens': 30,
 'beaucoup': 31,
 'sait': 32,
 'sans': 33,
 'manque': 34,
 'facilement': 35,
 'souvent': 36,
 'dans': 37,
 'idées': 38,
 'en': 39,
 'met': 40,
 'constamment': 41,
 "c'est": 42,
 'attitude': 43,
 'possède': 44,
 'le': 45,
 'garde': 46,
 'du': 47,
 'travail': 48,
 'calme': 49,
 'comportement': 50,
 'pour': 51,
 'critique': 52,
 'encourage': 53,
 'choses': 54,
 'situations': 55,
 'vite': 56,
 'respecte': 57,
 'cherche': 58,
 'agit': 59,
 'c’est': 60,
 'd’une': 61,
 'esprit': 62,
 'extrêmement': 63,
 'rapidement': 64,
 'trouve': 65,
 'aucune': 66,
 'travaille': 67,
 'manière': 68,
 'respect': 69,
 'dramatise': 70,
 'rien': 71

In [60]:
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
print(padded)

[[ 1  3  7 ...  0  0  0]
 [42  8 99 ...  0  0  0]
 [ 2  5 17 ...  0  0  0]
 ...
 [ 2  4  0 ...  0  0  0]
 [ 1  6 52 ...  0  0  0]
 [ 2 70 33 ...  0  0  0]]


In [61]:
labels

[1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,


In [62]:
# Séparation entraînement/test
X_train, X_test, y_train, y_test = train_test_split(padded, labels, test_size=0.3, random_state=42)

In [63]:
X_train.shape

(543, 8)

In [64]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [65]:
# Modèle simple
model = LogisticRegression()
model.fit(X_train, y_train)

# Évaluation
predictions = model.predict(X_test)
print(f"Précision: {accuracy_score(y_test, predictions):.2f}")

Précision: 0.56


In [71]:
## Faire une predicion sur une nouvelle phrase
new_phrases = [
    "C'est une personne généreuse.",
]
new_seq = tokenizer.texts_to_sequences(new_phrases)
padded_new_seq = pad_sequences(new_seq, maxlen=padded.shape[1], padding='post')
predictions_new = model.predict(padded_new_seq)

In [67]:
print(predictions_new)

[1]


In [70]:
## Faire une predicion sur une nouvelle phrase
new_phrases = [
    "Elle est très maigre.",

]
new_seq = tokenizer.texts_to_sequences(new_phrases)
padded_new_seq = pad_sequences(new_seq, maxlen=padded.shape[1], padding='post')
predictions_new = model.predict(padded_new_seq)
print(predictions_new)

[0]


In [73]:
## Faire une predicion sur une nouvelle phrase
new_phrases = [
    "Elle est très gros lui.",
]
new_seq = tokenizer.texts_to_sequences(new_phrases)
padded_new_seq = pad_sequences(new_seq, maxlen=padded.shape[1], padding='post')
predictions_new = model.predict(padded_new_seq)
print(predictions_new)

[0]
