In [18]:
!pip install scikit-learn
from sklearn.feature_extraction.text import CountVectorizer

def vectorisation_bag_of_words(corpus):
    """
    Vectorise un corpus de texte avec l'approche Bag of Words.

    Args:
    - corpus (list): Une liste de chaînes de texte.

    Returns:
    - tuple: (Matrice BoW, Liste des mots)
    """
    # Initialiser le CountVectorizer
    vectoriseur = CountVectorizer()

    # Appliquer le CountVectorizer sur le corpus
    matrice_bow = vectoriseur.fit_transform(corpus)

    # Liste des mots (caractéristiques)
    mots = vectoriseur.get_feature_names_out()

    return matrice_bow, mots

# Exemple d'utilisation
corpus = ["Ceci est le premier document.", "Ceci est le deuxième document.", "Et voici le troisième document."]

matrice_bow, mots = vectorisation_bag_of_words(corpus)

# Afficher la matrice BoW
print("Matrice BoW :")
print(matrice_bow.toarray())

# Afficher la liste des mots
print("\nListe des mots :")
print(mots)

Matrice BoW :
[[1 0 1 1 0 1 1 0 0]
 [1 1 1 1 0 1 0 0 0]
 [0 0 1 0 1 1 0 1 1]]

Liste des mots :
['ceci' 'deuxième' 'document' 'est' 'et' 'le' 'premier' 'troisième'
 'voici']



[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: C:\Users\pourt\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [39]:
import pandas as pd
df_questions = pd.read_csv('C:\\Users\\pourt\\PythonPourLaDataScience\\Datascrapping\\data.csv', encoding='latin-1', sep='|')

liste=[]
for i in range(len(df_questions['question'])):
    x=type(df_questions['question'][i])
    if x!=str:
        liste.append((x,i))
print(liste)

print(len(df_questions['question']))

df_questions=df_questions.drop(159)

[(<class 'float'>, 159)]
441


In [40]:
matrice_bow, mots = vectorisation_bag_of_words(df_questions['question'])

In [42]:
print(matrice_bow)

  (0, 2076)	1
  (0, 6836)	1
  (0, 5714)	1
  (0, 6030)	4
  (0, 6563)	1
  (0, 3027)	14
  (0, 755)	1
  (0, 4197)	10
  (0, 5975)	10
  (0, 9747)	1
  (0, 827)	1
  (0, 9940)	3
  (0, 9810)	1
  (0, 7355)	1
  (0, 3077)	9
  (0, 7410)	7
  (0, 2309)	1
  (0, 1064)	1
  (0, 2050)	4
  (0, 1567)	2
  (0, 781)	2
  (0, 8380)	4
  (0, 6045)	14
  (0, 3266)	2
  (0, 6581)	1
  :	:
  (439, 148)	1
  (439, 4163)	1
  (439, 7180)	1
  (439, 3047)	1
  (439, 6473)	1
  (439, 10528)	1
  (439, 9990)	1
  (439, 6277)	1
  (439, 1128)	5
  (439, 7503)	2
  (439, 2125)	3
  (439, 1725)	3
  (439, 5393)	1
  (439, 2611)	1
  (439, 1197)	1
  (439, 6744)	1
  (439, 7155)	1
  (439, 6743)	1
  (439, 8782)	1
  (439, 1953)	1
  (439, 5672)	1
  (439, 7263)	1
  (439, 140)	1
  (439, 8437)	1
  (439, 1129)	1


In [48]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from scipy.sparse import csr_matrix

def kmeans_classification(matrice_sparse, nombre_clusters=3, normaliser=True):
    """
    Classe les points d'une matrice sparse avec la méthode des k-moyennes.

    Args:
    - matrice_sparse (scipy.sparse.csr_matrix): La matrice sparse à classer.
    - nombre_clusters (int): Le nombre de clusters à former (par défaut, 3).
    - normaliser (bool): Indique si les données doivent être normalisées (par défaut, True).

    Returns:
    - numpy.ndarray: Tableau des étiquettes de cluster pour chaque point.
    """
    # Si la matrice n'est pas déjà une matrice CSR, la convertir
    if not isinstance(matrice_sparse, csr_matrix):
        matrice_sparse = csr_matrix(matrice_sparse)

    # Normaliser les données si nécessaire
    if normaliser:
        normaliseur = StandardScaler()
        matrice_sparse = normaliseur.fit_transform(matrice_sparse)

    # Appliquer la méthode des k-moyennes
    kmeans = KMeans(n_clusters=nombre_clusters, random_state=42)
    etiquettes_clusters = kmeans.fit_predict(matrice_sparse)

    return etiquettes_clusters

# Exemple d'utilisation
from scipy.sparse import random

# Générer une matrice sparse aléatoire pour l'exemple
matrice_exemple = random(1000, 50, density=0.1, format='csr', random_state=42)

# Appliquer la classification k-moyennes
etiquettes_clusters = kmeans_classification(matrice_exemple, nombre_clusters=5)

# Afficher les étiquettes de cluster pour chaque point
#print(etiquettes_clusters)

ValueError: Cannot center sparse matrices: pass `with_mean=False` instead. See docstring for motivation and alternatives.

In [52]:
from sklearn.cluster import KMeans
import numpy as np
from scipy.sparse import csr_matrix

def clustering_kmeans(matrice_sparse, nombre_clusters):
    """
    Effectue le clustering des colonnes d'une matrice sparse avec la méthode des k-means.

    Args:
    - matrice_sparse (scipy.sparse.csr_matrix): Matrice sparse.
    - nombre_clusters (int): Nombre de clusters à former.

    Returns:
    - numpy.ndarray: Tableau des étiquettes de cluster pour chaque colonne.
    """
    if not isinstance(matrice_sparse, csr_matrix):
        raise ValueError("La matrice doit être au format csr_matrix.")

    # Convertir la matrice sparse en une matrice dense
    matrice_dense = matrice_sparse.todense()

    # Transposer la matrice pour que les colonnes représentent les points
    matrice_transposee = np.transpose(matrice_dense)

    # Appliquer la méthode des k-means
    kmeans = KMeans(n_clusters=nombre_clusters, random_state=42)
    etiquettes_clusters = kmeans.fit_predict(matrice_transposee)

    return etiquettes_clusters

clustering_kmeans(matrice_bow, 5)


TypeError: np.matrix is not supported. Please convert to a numpy array with np.asarray. For more information see: https://numpy.org/doc/stable/reference/generated/numpy.matrix.html