## DVS et réduction de la dimension

In [1]:
import numpy as np
from sklearn.decomposition import TruncatedSVD

# Matrice document-terme
A = np.array([
    [1, 0, 1, 1],  # Document 1
    [0, 1, 1, 1],  # Document 2
    [1, 1, 0, 0]   # Document 3
])

# Appliquer Truncated SVD avec 2 dimensions latentes
svd = TruncatedSVD(n_components=2)
A_reduit = svd.fit_transform(A)

# Afficher la matrice réduite
print("Matrice réduite après Truncated SVD :")
print(A_reduit)

# Afficher les valeurs singulières
print("Valeurs singulières :")
print(svd.singular_values_)

# Composantes des termes dans l'espace latent
print("Composantes des termes (V) :")
print(svd.components_)


Matrice réduite après Truncated SVD :
[[ 1.54985297 -0.31297888]
 [ 1.54985297 -0.31297888]
 [ 0.87032429  1.11469082]]
Valeurs singulières :
[2.35829447 1.19935282]
Composantes des termes (V) :
[[ 0.43516215  0.43516215  0.55734541  0.55734541]
 [ 0.55734541  0.55734541 -0.43516215 -0.43516215]]


## Exemple de LSA avec des documents de texte naturel

In [3]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

# Création des documents
documents = [
    "Digital marketing uses social media to attract more customers.",
    "Data analysis is crucial in marketing campaigns.",
    "Online marketing tools help increase sales and brand awareness.",
    "Artificial intelligence personalizes customer experiences.",
    "Neural networks are used in artificial intelligence applications.",
    "Machine learning is a branch of artificial intelligence.",
    "AI algorithms optimize advertising strategies.",
    "Marketing campaigns driven by AI are more effective."
]

# La vectorization TF-IDF avec suppression des mots vides
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(documents)

# affichage des mots dans le vocabulaire
terms = vectorizer.get_feature_names_out()
print("Les mots dans le vocabulaire:")
print(terms)

# réduction de la dimension de la matrice TF-IDF
lsa_model = TruncatedSVD(n_components=2)
X_lsa = lsa_model.fit_transform(X)

# Affichage de la matrice réduite, qui représente le lien de chaque document avec les topics
print("\nProjection des documents dans les deux premières espaces latents (LSA matrix):")
print(X_lsa.round(4))

# Analyse des topics
# lsa_model.components_ est la matrice Vk' dans le décomposition en valeurs singulière
#cette matrice illsutre le lien de chaque terme dans le vocab avec les deux topics
term_component_matrix = pd.DataFrame(lsa_model.components_, columns=terms).round(4)
print("\nTerm contributions to each latent topic (components):")
print(term_component_matrix.shape)
print(term_component_matrix)
# Affichage des mots les plus dominants dans chaque topic
#boucle optionnelle juste pour identifier les topics 
for i, comp in enumerate(lsa_model.components_):
    terms_in_comp = zip(terms, comp)
    sorted_terms = sorted(terms_in_comp, key=lambda x: x[1], reverse=True)
    print(f"\nTopic {i+1}: Dominant terms")
    for term, weight in sorted_terms[:5]:  # Top 5 terms for each topic
        print(f"{term}: {weight:.4f}")


Les mots dans le vocabulaire:
['advertising' 'ai' 'algorithms' 'analysis' 'applications' 'artificial'
 'attract' 'awareness' 'branch' 'brand' 'campaigns' 'crucial' 'customer'
 'customers' 'data' 'digital' 'driven' 'effective' 'experiences' 'help'
 'increase' 'intelligence' 'learning' 'machine' 'marketing' 'media'
 'networks' 'neural' 'online' 'optimize' 'personalizes' 'sales' 'social'
 'strategies' 'tools' 'used' 'uses']

Projection des documents dans les deux premières espaces latents (LSA matrix):
[[-0.      0.3474]
 [-0.      0.6823]
 [-0.      0.3293]
 [ 0.7116  0.    ]
 [ 0.6846  0.    ]
 [ 0.7116  0.    ]
 [-0.      0.3271]
 [-0.      0.7664]]

Term contributions to each latent topic (components):
(2, 37)
   advertising     ai  algorithms  analysis  applications  artificial  \
0      -0.0000 -0.000     -0.0000   -0.0000        0.2057      0.4942   
1       0.1086  0.328      0.1086    0.2424        0.0000      0.0000   

   attract  awareness  branch   brand  ...  neural  online 

### LDA

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Création des documents
documents = [
    "Digital marketing uses social media to attract more customers.",
    "Data analysis is crucial in marketing campaigns.",
    "Online marketing tools help increase sales and brand awareness.",
    "Artificial intelligence personalizes customer experiences.",
    "Neural networks are used in artificial intelligence applications.",
    "Machine learning is a branch of artificial intelligence.",
    "AI algorithms optimize advertising strategies.",
    "Marketing campaigns driven by AI are more effective."
]

# La vectorization TF-IDF avec suppression des mots vides
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(documents)

# Affichage des mots dans le vocabulaire
terms = vectorizer.get_feature_names_out()
print("Les mots dans le vocabulaire:")
print(terms)

# Application du modèle LDA
lda = LatentDirichletAllocation(n_components=3, random_state=0)
lda.fit(X)

print(lda.transform(X)) #les distribution des topics selon les documents
print(lda.components_) #les scores de chaque mots dans le vocab dans chaque sujet

Les mots dans le vocabulaire:
['advertising' 'ai' 'algorithms' 'analysis' 'applications' 'artificial'
 'attract' 'awareness' 'branch' 'brand' 'campaigns' 'crucial' 'customer'
 'customers' 'data' 'digital' 'driven' 'effective' 'experiences' 'help'
 'increase' 'intelligence' 'learning' 'machine' 'marketing' 'media'
 'networks' 'neural' 'online' 'optimize' 'personalizes' 'sales' 'social'
 'strategies' 'tools' 'used' 'uses']
[[0.09927165 0.80398275 0.0967456 ]
 [0.78767734 0.10571562 0.10660704]
 [0.09171857 0.08953205 0.81874938]
 [0.10539824 0.78875692 0.10584484]
 [0.09903982 0.80143052 0.09952966]
 [0.10539824 0.78875692 0.10584484]
 [0.79011151 0.1045948  0.10529368]
 [0.78816103 0.10551444 0.10632453]]
[[0.79190089 1.14687747 0.79190089 0.82429129 0.33460834 0.33458885
  0.33478114 0.33417051 0.33471857 0.33417051 1.17404768 0.82429129
  0.33471856 0.33478114 0.82429129 0.33478114 0.84325158 0.84325158
  0.33471856 0.33417051 0.33417051 0.33458885 0.33471857 0.33471857
  0.9880963  0

In [11]:
import numpy as np
# Sortie 1 : Affichage des 3 sujets découverts par LDA, avec les 5 mots principaux de chaque sujet

topics = lda.components_
top_words_topic1 = [terms[i] for i in topics[0].argsort()[:-7:-1]] #[début, fin , step]= 
top_words_topic2 = [terms[i] for i in topics[1].argsort()[:-7 :-1]] #argsort() ordre ascendant
top_words_topic3 = [terms[i] for i in topics[2].argsort()[:-7:-1]]

print("\nSujets découverts par LDA :")
print(f"Sujet 1: {top_words_topic1}")
print(f"Sujet 2: {top_words_topic2}")
print(f"Sujet 3: {top_words_topic3}")

# Sortie 2 : Distribution des topics pour chaque document
doc_topic_dist = lda.transform(X)
print("\nDistribution des topics pour chaque document (probabilités) :")
for doc_idx, topic_dist in enumerate(doc_topic_dist):
    print(f"Document {doc_idx + 1}: {np.round(topic_dist, 2)}")

# Sortie 3 : Log-likelihood (log-vraisemblance)
log_likelihood = lda.score(X)
print(f"\nLog-vraisemblance du modèle (log-likelihood): {log_likelihood}")

# Sortie 4 : Perplexité (mesure de qualité du modèle)
perplexity = lda.perplexity(X)
print(f"\nPerplexité du modèle: {perplexity}")

# Sortie 5 : Affichage complet des topics avec tous les mots et leurs poids
print("\nTous les mots pour chaque topic avec leurs poids :")
for topic_idx, topic in enumerate(lda.components_):
    print(f"\nTopic {topic_idx + 1}:")
    top_words = [terms[i] for i in topic.argsort()[:-11 - 1:-1]]  # Affichage des 10 mots principaux
    print(f"Mots principaux : {top_words}")
    print(f"Poids : {np.round(topic[topic.argsort()[:-11 - 1:-1]], 2)}")



Sujets découverts par LDA :
Sujet 1: ['campaigns', 'ai', 'marketing', 'effective', 'driven', 'data']
Sujet 2: ['artificial', 'intelligence', 'experiences', 'customer', 'personalizes', 'branch']
Sujet 3: ['online', 'sales', 'brand', 'help', 'increase', 'awareness']

Distribution des topics pour chaque document (probabilités) :
Document 1: [0.1 0.8 0.1]
Document 2: [0.79 0.11 0.11]
Document 3: [0.09 0.09 0.82]
Document 4: [0.11 0.79 0.11]
Document 5: [0.1 0.8 0.1]
Document 6: [0.11 0.79 0.11]
Document 7: [0.79 0.1  0.11]
Document 8: [0.79 0.11 0.11]

Log-vraisemblance du modèle (log-likelihood): -96.4895658942396

Perplexité du modèle: 163.95092708893736

Tous les mots pour chaque topic avec leurs poids :

Topic 1:
Mots principaux : ['campaigns', 'ai', 'marketing', 'effective', 'driven', 'data', 'analysis', 'crucial', 'advertising', 'strategies', 'algorithms']
Poids : [1.17 1.15 0.99 0.84 0.84 0.82 0.82 0.82 0.79 0.79 0.79]

Topic 2:
Mots principaux : ['artificial', 'intelligence', 'exp

### Word2vec

In [2]:
import gensim
from gensim.models import Word2Vec

# Exemple minimal de corpus (liste de phrases)
corpus = [
    ['les', 'données', 'sont', 'importantes'],
    ['les', 'données', 'sont', 'le', 'nouveau', 'pétrole'],
    ['le', 'traitement', 'des', 'données', 'est', 'essentiel'],
    ['la', 'science', 'des', 'données', 'transforme', 'le', 'monde']
]

# Créer et entraîner le modèle Word2Vec
# min_count=1 permet de garder les mots qui apparaissent au moins une fois
model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, workers=4)

# Exemple : obtenir l'embedding du mot "données"
embedding = model.wv['données']
print(f"Embedding du mot 'données':\n{embedding}")


Embedding du mot 'données':
[-5.3622725e-04  2.3643136e-04  5.1033497e-03  9.0092728e-03
 -9.3029495e-03 -7.1168090e-03  6.4588725e-03  8.9729885e-03
 -5.0154282e-03 -3.7633716e-03  7.3805046e-03 -1.5334714e-03
 -4.5366134e-03  6.5540518e-03 -4.8601604e-03 -1.8160177e-03
  2.8765798e-03  9.9187379e-04 -8.2852151e-03 -9.4488179e-03
  7.3117660e-03  5.0702621e-03  6.7576934e-03  7.6286553e-04
  6.3508903e-03 -3.4053659e-03 -9.4640139e-04  5.7685734e-03
 -7.5216377e-03 -3.9361035e-03 -7.5115822e-03 -9.3004224e-04
  9.5381187e-03 -7.3191668e-03 -2.3337686e-03 -1.9377411e-03
  8.0774371e-03 -5.9308959e-03  4.5162440e-05 -4.7537340e-03
 -9.6035507e-03  5.0072931e-03 -8.7595852e-03 -4.3918253e-03
 -3.5099984e-05 -2.9618145e-04 -7.6612402e-03  9.6147433e-03
  4.9820580e-03  9.2331432e-03 -8.1579173e-03  4.4957981e-03
 -4.1370760e-03  8.2453608e-04  8.4986202e-03 -4.4621765e-03
  4.5175003e-03 -6.7869602e-03 -3.5484887e-03  9.3985079e-03
 -1.5776526e-03  3.2137157e-04 -4.1406299e-03 -7.6826881e

### Affichage de touts les embeddings

In [4]:
import numpy as np
# Obtenir les mots dans le vocabulaire

words = list(model.wv.index_to_key)

# Obtenir les embeddings pour tous les mots du vocabulaire
embeddings_matrix = np.array([model.wv[word] for word in words])

# Visualiser la matrice des embeddings sous forme de DataFrame pour voir les vecteurs associés à chaque mot
embeddings_df = pd.DataFrame(embeddings_matrix, index=words)
print("Matrice des Embeddings Word2Vec :")
print(embeddings_df)

Matrice des Embeddings Word2Vec :
                   0         1         2         3         4         5   \
données     -0.000536  0.000236  0.005103  0.009009 -0.009303 -0.007117   
le          -0.008620  0.003666  0.005190  0.005742  0.007467 -0.006168   
des          0.000095  0.003077 -0.006813 -0.001375  0.007669  0.007346   
sont        -0.008243  0.009299 -0.000198 -0.001967  0.004604 -0.004095   
les         -0.007139  0.001241 -0.007177 -0.002245  0.003719  0.005833   
monde       -0.008727  0.002130 -0.000873 -0.009318 -0.009428 -0.001411   
transforme   0.008132 -0.004457 -0.001068  0.001007 -0.000191  0.001148   
science      0.008169 -0.004443  0.008987  0.008255 -0.004436  0.000303   
la          -0.009579  0.008944  0.004164  0.009234  0.006644  0.002925   
essentiel   -0.005156 -0.006668 -0.007777  0.008311 -0.001982 -0.006855   
est          0.007089 -0.001568  0.007947 -0.009489 -0.008029 -0.006640   
traitement   0.009770  0.008165  0.001281  0.005098  0.001408 -0.0