In [None]:
import numpy as np
from Collections import Counter

In [10]:
import re

corpus = [
    "La Terre est la troisième planète du Système solaire.",
    "Mars est une planète rocheuse avec une atmosphère mince.",
    "Jupiter est la plus grande planète du Système solaire.",
    "Les planètes tournent autour du Soleil."]

def preprocess(corpus):
    preprocessed = []
    for doc in corpus:
        doc = doc.lower()
        doc = re.sub(r"[^a-zA-Z\s]", "", doc)
        tokens = doc.split()
        preprocessed.append(tokens)
    return preprocessed

# Appel de la fonction
preprocessed_corpus = preprocess(corpus)

# Affichage
print("Corpus pré-traité :")
print(preprocessed_corpus)

Corpus pré-traité :
[['la', 'terre', 'est', 'la', 'troisime', 'plante', 'du', 'systme', 'solaire'], ['mars', 'est', 'une', 'plante', 'rocheuse', 'avec', 'une', 'atmosphre', 'mince'], ['jupiter', 'est', 'la', 'plus', 'grande', 'plante', 'du', 'systme', 'solaire'], ['les', 'plantes', 'tournent', 'autour', 'du', 'soleil']]


In [17]:
import re
import numpy as np
from collections import Counter

def preprocess(corpus):
    preprocessed = []
    for doc in corpus:
        doc = doc.lower()
        doc = re.sub(r"[^a-zA-Z\s]", "", doc)
        tokens = doc.split()
        preprocessed.append(tokens)
    return preprocessed

corpus = [
    "La Terre est la troisième planète du Système solaire.",
    "Mars est une planète rocheuse avec une atmosphère mince.",
    "Jupiter est la plus grande planète du Système solaire.",
    "Les planètes tournent autour du Soleil."]

# Appel de preprocess
docs_tokens = preprocess(corpus)

# Construire le vocabulaire
vocabulaire = sorted(set(mot for doc in docs_tokens for mot in doc))
mot_a_index = {mot: i for i, mot in enumerate(vocabulaire)}

# Initialiser la matrice TF
tf_matrice = np.zeros((len(docs_tokens), len(vocabulaire)))

# Remplir la matrice
for i, doc in enumerate(docs_tokens):
    compte_mots = Counter(doc)
    for mot, compte in compte_mots.items():
        j = mot_a_index[mot]
        tf_matrice[i][j] = compte

print("Matrice TF :\n", tf_matrice)


Matrice TF :
 [[0. 0. 0. 1. 1. 0. 0. 2. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0.]
 [1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 2.]
 [0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0.]]


In [18]:
def calculer_idf(tf_matrice):
    N = tf_matrice.shape[0]
    df = np.sum(tf_matrice > 0, axis=0)
    idf = np.log((1 + N) / (1 + df)) + 1
    return idf

idf = calculer_idf(tf_matrice)
tfidf_matrice = tf_matrice * idf

print("Matrice TF-IDF :\n", tfidf_matrice)


Matrice TF-IDF :
 [[0.         0.         0.         1.22314355 1.22314355 0.
  0.         3.02165125 0.         0.         0.         1.22314355
  0.         0.         0.         1.51082562 0.         1.51082562
  1.91629073 0.         1.91629073 0.        ]
 [1.91629073 0.         1.91629073 0.         1.22314355 0.
  0.         0.         0.         1.91629073 1.91629073 1.22314355
  0.         0.         1.91629073 0.         0.         0.
  0.         0.         0.         3.83258146]
 [0.         0.         0.         1.22314355 1.22314355 1.91629073
  1.91629073 1.51082562 0.         0.         0.         1.22314355
  0.         1.91629073 0.         1.51082562 0.         1.51082562
  0.         0.         0.         0.        ]
 [0.         1.91629073 0.         1.22314355 0.         0.
  0.         0.         1.91629073 0.         0.         0.
  1.91629073 0.         0.         0.         1.91629073 0.
  0.         1.91629073 0.         0.        ]]


In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Corpus
corpus = [
    "La Terre est la troisième planète du Système solaire.",
    "Mars est une planète rocheuse avec une atmosphère mince.",
    "Jupiter est la plus grande planète du Système solaire.",
    "Les planètes tournent autour du Soleil."
]

# Matrice TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(corpus).toarray()

print("Matrice TF-IDF :\n", tfidf_matrix)

# SVD
U, S, VT = np.linalg.svd(tfidf_matrix, full_matrices=False)

# Choisir k
k = 2
U_k = U[:, :k]
s_k = np.diag(S[:k])
VT_k = VT[:k, :]

print("\nU_k (documents → thèmes) :\n", U_k)
print("\nS_k (poids des thèmes) :\n", s_k)
print("\nVT_k (thèmes → mots) :\n", VT_k)



Matrice TF-IDF :
 [[0.         0.         0.         0.24208495 0.24208495 0.
  0.         0.59804616 0.         0.         0.         0.24208495
  0.         0.         0.         0.29902308 0.         0.29902308
  0.37927286 0.         0.37927286 0.        ]
 [0.31919701 0.         0.31919701 0.         0.20373932 0.
  0.         0.         0.         0.31919701 0.31919701 0.20373932
  0.         0.         0.31919701 0.         0.         0.
  0.         0.         0.         0.63839402]
 [0.         0.         0.         0.2587105  0.2587105  0.40531999
  0.40531999 0.31955894 0.         0.         0.         0.2587105
  0.         0.40531999 0.         0.31955894 0.         0.31955894
  0.         0.         0.         0.        ]
 [0.         0.43003652 0.         0.27448674 0.         0.
  0.         0.         0.43003652 0.         0.         0.
  0.43003652 0.         0.         0.         0.43003652 0.
  0.         0.43003652 0.         0.        ]]

U_k (documents → thèmes) 

In [26]:
def mots_importants_par_theme(VT_k, vocabulaire, top_n=5):
    for i, theme in enumerate(VT_k):
        print(f"\nThème {i+1} :")
        indices_top = np.argsort(-np.abs(theme))[:top_n]
        for idx in indices_top:
            print(f"- {vocabulaire[idx]} (poids : {theme[idx]:.4f})")

# Appel de la fonction
mots_importants_par_theme(VT_k, vocabulaire)



Thème 1 :
- la (poids : -0.4907)
- solaire (poids : -0.3310)
- systme (poids : -0.3310)
- plante (poids : -0.3039)
- est (poids : -0.3039)

Thème 2 :
- plantes (poids : 0.3567)
- les (poids : 0.3567)
- tournent (poids : 0.3567)
- soleil (poids : 0.3567)
- autour (poids : 0.3567)


In [27]:
from scipy.linalg import svd

U_sci, s_sci, VT_sci = svd(tfidf_matrix, full_matrices=False)

# Comparaison simple
print("Différence entre SVD numpy et scipy :")
print("||U - U_sci|| =", np.linalg.norm(U - U_sci))
print("||s - s_sci|| =", np.linalg.norm(S - s_sci))
print("||VT - VT_sci|| =", np.linalg.norm(VT - VT_sci))

Différence entre SVD numpy et scipy :
||U - U_sci|| = 0.0
||s - s_sci|| = 0.0
||VT - VT_sci|| = 0.0


In [16]:
!pip install numpy




You should consider upgrading via the 'C:\Priscillia-project\INSI\Algèbres linéaires\asl-project\venv\Scripts\python.exe -m pip install --upgrade pip' command.


In [24]:
!pip install scikit-learn


Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp39-cp39-win_amd64.whl (11.2 MB)
     ---------------------------------------- 11.2/11.2 MB 8.3 MB/s eta 0:00:00
Collecting threadpoolctl>=3.1.0
  Downloading threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Collecting joblib>=1.2.0
  Downloading joblib-1.5.1-py3-none-any.whl (307 kB)
     -------------------------------------- 307.7/307.7 KB 6.5 MB/s eta 0:00:00
Collecting scipy>=1.6.0
  Using cached scipy-1.13.1-cp39-cp39-win_amd64.whl (46.2 MB)
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn
Successfully installed joblib-1.5.1 scikit-learn-1.6.1 scipy-1.13.1 threadpoolctl-3.6.0


You should consider upgrading via the 'C:\Priscillia-project\INSI\Algèbres linéaires\asl-project\venv\Scripts\python.exe -m pip install --upgrade pip' command.
