# Le point sur les **Matrices creuses**

*Dans le cadre de HomeCredit, le nombre de variables catégorielle à hot encoder est important. De même, les détails des balances mensuelles par client s'étalent sur 96 mois qu'il s'agit de mettre en colonnes à l'aide d'un pivot. Ajoutons à cela le feature engineering avec ses variables additionnelles, peut-être quelques expansions polynomiales ici et là : je vais me retrouver avec beaucoup de colonnes avant de procéder à ma normalisation et ma réduction de dimensionnalité.*

*Ma question porte sur les matrices creuses. Ils me semble qu'elles répondent exactement à ce type de problématique, mais il me semble qu'elles font partie de Scipy et ne font pas forcément bon ménage avec Pandas ou Scikitlearn.*

*Que peux-tu m'en dire en synthèse, comment les utiliser dans le contexte que je viens de te décrire, si possible avec quelques exemples de code illustratifs ?*

Effectivement, les matrices creuses peuvent être très utiles dans le cas de datasets contenant un grand nombre de variables, mais où la majorité des valeurs sont nulles. Dans ce cas, il est souvent plus efficace d'utiliser des matrices creuses plutôt que des matrices denses, car les matrices creuses ne stockent que les valeurs non nulles, ce qui permet de réduire considérablement la mémoire nécessaire pour stocker les données.

Les matrices creuses sont disponibles dans la bibliothèque Scipy, et peuvent être converties en objets Pandas ou Numpy si besoin. Il est également possible d'utiliser des matrices creuses avec Scikit-learn en utilisant la classe `sparse.csr_matrix`.

Voici un exemple de conversion d'une matrice Pandas dense en une matrice Scipy creuse :

In [1]:
import pandas as pd
from scipy.sparse import csr_matrix

# Création d'une matrice Pandas dense
df = pd.DataFrame({'col1': [1, 0, 0, 2], 'col2': [0, 3, 0, 0], 'col3': [4, 0, 5, 0]})

# Conversion en matrice Scipy creuse
sparse_matrix = csr_matrix(df.values)

Pour utiliser une matrice creuse avec Scikit-learn, vous pouvez simplement fournir la matrice creuse à la fonction ou à l'estimateur approprié. Voici un exemple de transformation PCA utilisant une matrice creuse :

In [2]:
from sklearn.decomposition import PCA
from scipy.sparse import csr_matrix

# Création d'une matrice Scipy creuse
sparse_matrix = csr_matrix(df.values)

# Réduction de la dimensionnalité avec PCA
pca = PCA(n_components=2)
reduced_sparse_matrix = pca.fit_transform(sparse_matrix)

TypeError: PCA does not support sparse input. See TruncatedSVD for a possible alternative.

*Quand chat racconte des cracks..* :
* TypeError: PCA does not support sparse input. See TruncatedSVD for a possible alternative.
* https://stackoverflow.com/questions/33603787/performing-pca-on-large-sparse-matrix-by-using-sklearn
* https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.SparsePCA.html

Enfin, pour créer des matrices creuses à partir de données textuelles, vous pouvez utiliser la fonction `CountVectorizer` de Scikit-learn. Cette fonction crée une matrice creuse contenant les comptages de chaque mot dans le corpus :

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# Création d'un corpus de textes
corpus = ['Ce texte contient des mots.', 'Ce texte aussi.', 'Ce texte est différent des autres.']

# Vectorisation des textes en matrice creuse
vectorizer = CountVectorizer()
sparse_matrix = vectorizer.fit_transform(corpus)

En résumé, les matrices creuses sont très utiles pour travailler avec des datasets contenant un grand nombre de variables, et leur utilisation est assez simple avec Scipy, Pandas et Scikit-learn. N'hésitez pas à les utiliser pour optimiser l'utilisation de la mémoire et améliorer les performances de votre modèle.

*Ok, merci beaucoup. Sous-question : si dans mon jeu de données, j'ai des sections (des sous-ensemble de variables) denses, et d'autres creuses, comment je fais : tout dense, tout creux, ou existe-t-il un moyen hybride ?*

Oui, il est possible d'utiliser des matrices creuses pour les sections creuses et des matrices denses pour les sections denses, et ensuite les concaténer en une seule matrice.

Par exemple, si vous avez une matrice dense `X_dense` et une matrice creuse `X_sparse`, vous pouvez les concaténer horizontalement (c.-à-d. ajouter des colonnes) en utilisant la fonction `hstack` de la bibliothèque `scipy.sparse` :

In [None]:
from scipy.sparse import hstack

# X_dense : matrice dense
# X_sparse : matrice creuse
X = hstack([X_sparse, X_dense])

Avec cette méthode, vous pouvez garder les parties denses et creuses de votre jeu de données séparées, tout en les combinant en une seule matrice.

Il est également possible de créer des matrices creuses à partir de matrices denses et vice versa en utilisant les fonctions de conversion de `scipy.sparse`. Par exemple, pour convertir une matrice dense en matrice creuse, vous pouvez utiliser la fonction `csr_matrix` de `scipy.sparse` :

In [None]:
from scipy.sparse import csr_matrix

# X_dense : matrice dense
X_sparse = csr_matrix(X_dense)

Et pour convertir une matrice creuse en matrice dense, vous pouvez simplement utiliser la méthode `toarray()` de la matrice creuse :

In [None]:
# X_sparse : matrice creuse
X_dense = X_sparse.toarray()

Il est donc possible de passer de l'un à l'autre selon vos besoins.

*Ok, et une telle matrice hybride pourra idem être passée aux méthodes fit et transform de sklearn ?*

Oui, les matrices creuses hybrides peuvent être utilisées avec les méthodes de Scikit-learn. Scikit-learn prend en charge les formats de matrices creuses standard tels que `csr_matrix`, `csc_matrix` et `coo_matrix`, et cela inclut également les matrices hybrides.

Par exemple, si vous utilisez une matrice hybride qui a été créée à l'aide de `hstack`, vous pouvez simplement la passer à une méthode de Scikit-learn telle que suit :

In [None]:
from scipy.sparse import hstack
from sklearn.linear_model import LogisticRegression

# Création de la matrice hybride
X_hybrid = hstack([X_sparse, X_dense])

# Instanciation d'un modèle de régression logistique
logreg = LogisticRegression()

# Entraînement du modèle en utilisant la matrice hybride
logreg.fit(X_hybrid, y)