# 6.2. [**Extraction de caract√©ristique**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_2_feature_extraction.ipynb)</br>([*Feature extraction*](https://scikit-learn.org/stable/modules/feature_extraction.html))

Le module [**`sklearn.feature_extraction`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction) peut √™tre utilis√© pour extraire des caract√©ristiques dans un format pris en charge par les algorithmes d'apprentissage automatique √† partir de jeux de donn√©es consistant en formats tels que le texte et l'image.

**Remarque** : L'extraction de caract√©ristiques est tr√®s diff√©rente de la [**S√©lection de caract√©ristiques** (1.13)](https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection) : la premi√®re consiste √† transformer des donn√©es arbitraires, telles que du texte ou des images, en caract√©ristiques num√©riques utilisables pour l'apprentissage automatique. La seconde est une technique d'apprentissage automatique appliqu√©e √† ces caract√©ristiques.

# <a id='dict-feature-extraction'></a> 6.2.1. Charger des caract√©ristiques depuis des dictionnaires

[DictVectorizer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html

La classe [**`DictVectorizer`**][DictVectorizer] peut √™tre utilis√©e pour convertir des tableaux de caract√©ristiques repr√©sent√©s sous forme de listes d'objets Python standard en la repr√©sentation NumPy / SciPy utilis√©e par les estimateurs scikit-learn. Bien qu'il ne soit pas particuli√®rement rapide √† traiter, le dictionnaire Python a l'avantage d'√™tre pratique √† utiliser, d'√™tre creux (les caract√©ristiques absentes n'ont pas besoin d'√™tre stock√©es) et de stocker les noms de caract√©ristiques en plus de leurs valeurs.

[**`DictVectorizer`**][DictVectorizer] impl√©mente ce qu'on appelle le codage "un-sur-K" ou "un-chaud" pour les caract√©ristiques cat√©gorielles (nominales, discr√®tes). Les caract√©ristiques cat√©gorielles sont des paires "attribut-valeur" o√π la valeur est restreinte √† une liste de possibilit√©s discr√®tes sans ordre (par exemple des identificateurs de sujet, des types d'objets, des balises, des noms...).

Dans ce qui suit, "ville" est un attribut cat√©goriel tandis que "temp√©rature" est une caract√©ristique num√©rique traditionnelle.

In [1]:
measurements = [
    {'city': 'Dubai', 'temperature': 33.},
    {'city': 'London', 'temperature': 12.},
    {'city': 'San Francisco', 'temperature': 18.},
]

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()

vec.fit_transform(measurements).toarray()
# array([[ 1.,  0.,  0., 33.],
#        [ 0.,  1.,  0., 12.],
#        [ 0.,  0.,  1., 18.]])

vec.get_feature_names_out()
# array(['city=Dubai', 'city=London', 'city=San Francisco', 'temperature'], ...)

array(['city=Dubai', 'city=London', 'city=San Francisco', 'temperature'],
      dtype=object)

[**`DictVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html) accepte des valeurs de cha√Æne multiples pour une caract√©ristique, par exemple des cat√©gories multiples pour un film.

Supposons qu'une base de donn√©es classe chaque film en utilisant certaines cat√©gories (non obligatoires) et son ann√©e de sortie.

In [2]:
movie_entry = [
    {'category': ['thriller', 'drama'], 'year': 2003},
    {'category': ['animation', 'family'], 'year': 2011},
    {'year': 1974}
]
vec.fit_transform(movie_entry).toarray()
# array([[0.000e+00, 1.000e+00, 0.000e+00, 1.000e+00, 2.003e+03],
#        [1.000e+00, 0.000e+00, 1.000e+00, 0.000e+00, 2.011e+03],
#        [0.000e+00, 0.000e+00, 0.000e+00, 0.000e+00, 1.974e+03]])
vec.get_feature_names_out()
# array(['category=animation', 'category=drama', 'category=family',
#        'category=thriller', 'year'], ...)
vec.transform({'category': ['thriller'], 'unseen_feature': '3'}).toarray()
# array([[0., 0., 0., 1., 0.]])

array([[0., 0., 0., 1., 0.]])

[DictVectorizer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html

[**`DictVectorizer`**][DictVectorizer] peut √©galement √™tre utilis√© pour la transformation de repr√©sentation pour entra√Æner des classificateurs de s√©quences dans les mod√®les de traitement automatique de la langue naturelle qui fonctionnent g√©n√©ralement en extrayant des fen√™tres de caract√©ristiques autour d'un mot particulier. Par exemple, supposons qu'on a un premier algorithme qui extrait les √©tiquettes de partie du discours (PoS) que l'on souhaite utiliser comme √©tiquettes compl√©mentaires pour entra√Æner un classificateur de s√©quences (par exemple un analyseur de segments). Le dictionnaire suivant pourrait √™tre une telle fen√™tre de caract√©ristiques extraites autour du mot "sat" dans la phrase "The cat sat on the mat." :

In [4]:
pos_window = [{
    'word-2': 'the',
    'pos-2': 'DT',
    'word-1': 'cat',
    'pos-1': 'NN',
    'word+1': 'on',
    'pos+1': 'PP',
    },
    # in a real application one would extract many such dictionaries
]

[TfidfTransformer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html

La description peut √™tre vectoris√©e en une matrice creuse bidimensionnelle adapt√©e pour √™tre utilis√©e dans un classificateur (peut-√™tre apr√®s avoir √©t√© utilis√©e dans un [**`TfidfTransformer`**][TfidfTransformer] pour la normalisation) : 

In [5]:
vec = DictVectorizer()
pos_vectorized = vec.fit_transform(pos_window)
pos_vectorized
# <1x6 sparse matrix of type '<... 'numpy.float64'>'
#     with 6 stored elements in Compressed Sparse ... format>
pos_vectorized.toarray()
# array([[1., 1., 1., 1., 1., 1.]])
vec.get_feature_names_out()
# array(['pos+1=PP', 'pos-1=NN', 'pos-2=DT', 'word+1=on', 'word-1=cat',
#        'word-2=the'], ...)

array(['pos+1=PP', 'pos-1=NN', 'pos-2=DT', 'word+1=on', 'word-1=cat',
       'word-2=the'], dtype=object)

Comme vous pouvez l'imaginer, si l'on extrait un tel contexte autour de chaque mot individuel d'un corpus de documents, la matrice r√©sultante sera tr√®s large (de nombreuses caract√©ristiques uniques) avec la plupart d'entre elles valant z√©ro la plupart du temps. Afin de rendre la structure de donn√©es r√©sultante capable de tenir en m√©moire, la classe `DictVectorizer` utilise par d√©faut une matrice `scipy.sparse` plut√¥t qu'une `numpy.ndarray`.

# <a id='feature-hashing'></a> 6.2.2. Hachage de caract√©ristique

[FeatureHasher]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.FeatureHasher.html
[MultinomialNB]: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html
[chi2]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html
[CountVectorizer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

La classe [**`FeatureHasher`**][FeatureHasher] est un vectoriseur √† haute vitesse et faible consommation de m√©moire qui utilise une technique connue sous le nom de "hashing trick" ou ["hachage de caract√©ristiques"](https://en.wikipedia.org/wiki/Feature_hashing). Au lieu de construire une table de hachage des caract√©ristiques rencontr√©es lors de l'entra√Ænement, comme le font les vectoriseurs, les instances de [**`FeatureHasher`**][FeatureHasher] appliquent une fonction de hachage aux caract√©ristiques pour d√©terminer leur index de colonne dans les matrices d'√©chantillons directement. Le r√©sultat est une augmentation de la vitesse et une r√©duction de l'utilisation de la m√©moire, aux d√©pens de l'inspectabilit√©; le hasher ne se souvient pas de la forme des caract√©ristiques d'entr√©e et n'a pas de m√©thode `inverse_transform`.

Comme la fonction de hachage peut causer des collisions entre des caract√©ristiques (non li√©es), une fonction de hachage sign√©e est utilis√©e et le signe de la valeur de hachage d√©termine le signe de la valeur stock√©e dans la matrice de sortie pour une caract√©ristique. De cette fa√ßon, les collisions sont susceptibles d'annuler plut√¥t que d'accumuler des erreurs, et la moyenne attendue de la valeur de toute caract√©ristique de sortie est de z√©ro. Ce m√©canisme est activ√© par d√©faut avec `alternate_sign=True` et est particuli√®rement utile pour les petites tailles de table de hachage (`n_features < 10000`). Pour les grandes tailles de table de hachage, il peut √™tre d√©sactiv√©, pour permettre de passer la sortie √† des estimateurs tels que [**`MultinomialNB`**][MultinomialNB] ou des s√©lecteurs de caract√©ristiques [**`chi2`**][chi2] qui attendent des entr√©es non n√©gatives.

[**`FeatureHasher`**][FeatureHasher] accepte soit des mappings (comme les `dict` de Python et ses variantes dans le module `collections`), des paires `(feature, value)` ou des cha√Ænes, en fonction du param√®tre `input_type` du constructeur. Les mappings sont trait√©s comme des listes de paires `(feature, value)`, tandis que les cha√Ænes simples ont une valeur implicite de 1, donc ['feat1', 'feat2', 'feat3'] est interpr√©t√© comme `[('feat1', 1), ('feat2', 1), ('feat3', 1)]`. Si une seule caract√©ristique appara√Æt plusieurs fois dans un √©chantillon, les valeurs associ√©es seront additionn√©es (donc `('feat', 2)` et `('feat', 3.5)` deviennent `('feat', 5.5)`). La sortie de [**`FeatureHasher`**][FeatureHasher] est toujours une matrice `scipy.sparse` dans le format CSR.

Le hachage de caract√©ristiques peut √™tre utilis√© pour la classification de documents, mais contrairement √† [**`CountVectorizer`**][CountVectorizer], [**`FeatureHasher`**][FeatureHasher] ne fait pas de d√©coupage de mots ni aucun autre pr√©traitement, sauf l'encodage Unicode-to-UTF-8. Voir [**Vectorisation d'un grand corpus de texte √† l'aide de l'astuce du hachage** (6.2.3.8)](https://scikit-learn.org/stable/modules/feature_extraction.html#hashing-vectorizer) ci-dessous pour un tokenizer / hasher combin√©.

En exemple, consid√©rons une t√¢che de traitement par mots du langage naturel qui a besoin de caract√©ristiques extraites √† partir de paires `(token, part_of_speech)`. On pourrait utiliser une fonction g√©n√©ratrice de Python pour extraire des caract√©ristiques :

In [None]:
def token_features(token, part_of_speech):
    if token.isdigit():
        yield "numeric"
    else:
        yield "token={}".format(token.lower())
        yield "token,pos={},{}".format(token, part_of_speech)
    if token[0].isupper():
        yield "uppercase_initial"
    if token.isupper():
        yield "all_uppercase"
    yield "pos={}".format(part_of_speech)

Ensuite, le `raw_X` √† utiliser pour `FeatureHasher.transform` peut √™tre construit en utilisant:

In [None]:
raw_X = (token_features(tok, pos_tagger(tok)) for tok in corpus)

et donn√© √† un hachage avec:

In [None]:
hasher = FeatureHasher(input_type='string')
X = hasher.transform(raw_X)

pour obtenir une matrice `scipy.sparse` `X`.

Notez l'utilisation d'une compr√©hension de g√©n√©rateur, qui introduit de la paresse dans l'extraction de caract√©ristiques: les jetons ne sont trait√©s que sur demande du hachage.

## <a id='implementation-details'></a> 6.2.2.1. D√©tails d'impl√©mentation

[FeatureHasher]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.FeatureHasher.html

[**`FeatureHasher`**][FeatureHasher] utilise la variante sign√©e 32 bits de MurmurHash3. En cons√©quence (et √† cause des limitations de `scipy.sparse`), le nombre maximum de caract√©ristiques prises en charge est actuellement de $2^{31} - 1$.

La formulation d'origine de l'astuce du hachage par Weinberger et al. utilisait deux fonctions distinctes $h$ et $\xi$ pour d√©terminer respectivement l'index de colonne et le signe d'une caract√©ristique. La pr√©sente impl√©mentation fonctionne en supposant que le bit de signe de MurmurHash3 est ind√©pendant de ses autres bits.

Comme un simple modulo est utilis√© pour transformer la fonction de hachage en un index de colonne, il est conseill√© d'utiliser une puissance de deux comme param√®tre `n_features`; sinon, les caract√©ristiques ne seront pas r√©parties de mani√®re √©quilibr√©e sur les colonnes.

## R√©f√©rences

Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola and Josh Attenberg (2009). [‚Äú**Feature hashing for large scale multitask learning**](https://alex.smola.org/papers/2009/Weinbergeretal09.pdf)[‚Äù](https://drive.google.com/file/d/1zcMDHxm0Nf3gCmBpViDg_pQ_5N6GB11I/view?usp=share_link) Proc. ICML.

[**MurmurHash3**](https://github.com/aappleby/smhasher).


# <a id='text-feature-extraction'></a> 6.2.3. Extraction de caract√©ristiques de texte

## <a id='the-bag-of-words-representation'></a> 6.2.3.1. La repr√©sentation sac de mots

L'analyse de texte est un domaine d'application majeur pour les algorithmes d'apprentissage automatique. Cependant, les donn√©es brutes, une s√©quence de symboles, ne peuvent pas √™tre directement donn√©es aux algorithmes eux-m√™mes car la plupart d'entre eux attendent des vecteurs de caract√©ristiques num√©riques de taille fixe plut√¥t que des documents de texte brut de longueur variable.

Afin de r√©soudre ce probl√®me, scikit-learn fournit des utilitaires pour les m√©thodes les plus courantes pour extraire des caract√©ristiques num√©riques √† partir de contenus de texte, √† savoir:
* **Tokenisation** des cha√Ænes et donner un identifiant entier pour chaque jeton possible, par exemple en utilisant des espaces blancs et des signes de ponctuation comme s√©parateurs de jetons.
* **Comptage** des occurrences de jetons dans chaque document.
* **Normalisation** et **pond√©ration** avec une importance d√©croissante les jetons qui apparaissent dans la plupart des √©chantillons/documents.

Dans ce sch√©ma, les caract√©ristiques et les √©chantillons sont d√©finis comme suit:
* Chaque **fr√©quence d'occurrence individuelle de jeton** (normalis√©e ou non) est trait√©e comme une **caract√©ristique**.
* Le vecteur de toutes les fr√©quences de jetons pour un **document** donn√© est consid√©r√© comme un √©chantillon **multivari√©**.

Un corpus de documents peut ainsi √™tre repr√©sent√© par une matrice avec une ligne par document et une colonne par jeton (par exemple mot) qui appara√Æt dans le corpus.

Nous appelons **vectorisation** le processus g√©n√©ral de transformer une collection de documents de texte en vecteurs de caract√©ristiques num√©riques. Cette strat√©gie sp√©cifique (tokenisation, comptage et normalisation) est appel√©e la repr√©sentation **sac de mots** ou "sac de n-grammes". Les documents sont d√©crits par des occurrences de mots en ignorant compl√®tement les informations de position relatives des mots dans le document.

## <a id='sparsity'></a> 6.2.3.2. Sparsity (Raret√©)

Comme la plupart des documents utilisent g√©n√©ralement un tr√®s petit sous-ensemble des mots utilis√©s dans le corpus, la matrice r√©sultante aura de nombreuses valeurs de caract√©ristiques qui sont nulles (g√©n√©ralement plus de 99% d'entre elles).

Par exemple, une collection de 10 000 documents de texte courts (comme des e-mails) utilisera un vocabulaire d'une taille de l'ordre de 100 000 mots uniques au total, tandis que chaque document utilisera individuellement de 100 √† 1000 mots uniques.

Afin de pouvoir stocker une telle matrice en m√©moire mais √©galement pour acc√©l√©rer les op√©rations alg√©briques matrice / vecteur, les impl√©mentations utiliseront g√©n√©ralement une repr√©sentation creuse telle que les impl√©mentations disponibles dans le package `scipy.sparse`.

## <a id='common-vectorizer-usage'></a> 6.2.3.3. Utilisation courante du Vectoriseur

[**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) impl√©mente √† la fois la tokenisation et le d√©compte des occurrences dans une seule classe :

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

Ce mod√®le a de nombreux param√®tres, mais les valeurs par d√©faut sont assez raisonnables (veuillez consulter la documentation de r√©f√©rence pour plus de d√©tails) :

In [2]:
vectorizer = CountVectorizer()
vectorizer

Utilisons-le pour tokeniser et compter les occurrences de mots dans un corpus minimaliste de documents textuels :

In [3]:
corpus = [
    'This is the first document.',
    'This is the second document.',
    'And the third one.',
    'Is this the first document?',
]
X = vectorizer.fit_transform(corpus)
X
# <4x9 sparse matrix of type '<class 'numpy.int64'>'
#         with 19 stored elements in Compressed Sparse Row format>

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 19 stored elements in Compressed Sparse Row format>

La configuration par d√©faut tokenise la cha√Æne en extrayant des mots d'au moins 2 lettres. La fonction sp√©cifique qui r√©alise cette √©tape peut √™tre demand√©e explicitement :

In [4]:
analyze = vectorizer.build_analyzer()
analyze("This is a text document to analyze.") == (
    ['this', 'is', 'text', 'document', 'to', 'analyze']
)
# True

True

Chaque terme trouv√© par l'analyseur pendant l'ajustement est affect√© √† un indice d'entier unique correspondant √† une colonne dans la matrice r√©sultante. Cette interpr√©tation des colonnes peut √™tre r√©cup√©r√©e comme suit :

In [5]:
vectorizer.get_feature_names_out()
# array(['and', 'document', 'first', 'is', 'one', 'second', 'the',
#        'third', 'this'], ...)

X.toarray()
# array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
#        [0, 1, 0, 1, 0, 2, 1, 0, 1],
#        [1, 0, 0, 0, 1, 0, 1, 1, 0],
#        [0, 1, 1, 1, 0, 0, 1, 0, 1]]...)

array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 1, 0, 1]], dtype=int64)

La correspondance inverse du nom de caract√©ristique √† l'index de colonne est stock√©e dans l'attribut `vocabulary_` du vectoriseur :

In [6]:
vectorizer.vocabulary_.get('document')
# 1

1

Ainsi, les mots qui n'ont pas √©t√© vus dans le corpus d'entra√Ænement seront compl√®tement ignor√©s lors de futurs appels √† la m√©thode de transformation :

In [7]:
vectorizer.transform(['Something completely new.']).toarray()
# array([[0, 0, 0, 0, 0, 0, 0, 0, 0]]...)

array([[0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

Notez que dans le corpus pr√©c√©dent, les premiers et derniers documents ont exactement les m√™mes mots, ils sont donc encod√©s en vecteurs √©gaux. En particulier, nous perdons l'information que le dernier document est une forme interrogative. Pour pr√©server certaines des informations d'ordre local, nous pouvons extraire des 2-grammes de mots en plus des 1-grammes (mots individuels) :

In [8]:
bigram_vectorizer = CountVectorizer(
    ngram_range=(1, 2),
    token_pattern=r'\b\w+\b',
    min_df=1
)
analyze = bigram_vectorizer.build_analyzer()
analyze('Bi-grams are cool!') == (
    ['bi', 'grams', 'are', 'cool', 'bi grams', 'grams are', 'are cool']
)
# True

True

Le vocabulaire extrait par ce vectoriseur est donc beaucoup plus grand et peut maintenant r√©soudre les ambigu√Øt√©s encod√©es dans les patrons de positionnement local :

In [9]:
X_2 = bigram_vectorizer.fit_transform(corpus).toarray()
X_2
# array([[0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0],
#        [0, 0, 1, 0, 0, 1, 1, 0, 0, 2, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0],
#        [1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0],
#        [0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1]]...)

array([[0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0],
       [0, 0, 1, 0, 0, 1, 1, 0, 0, 2, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0],
       [0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1]],
      dtype=int64)

En particulier, la forme interrogative "Est-ce que" n'est pr√©sente que dans le dernier document :

In [10]:
feature_index = bigram_vectorizer.vocabulary_.get('is this')
X_2[:, feature_index]
# array([0, 0, 0, 1]...)

array([0, 0, 0, 1], dtype=int64)

### <a id='using-stop-words'></a> Utilisation des mots vides

Les mots vides sont des mots tels que "et", "the" ou "him" qui sont cens√©s √™tre peu informatifs pour repr√©senter le contenu d'un texte et peuvent √™tre enlev√©s pour √©viter d'√™tre consid√©r√©s comme un signal pour la pr√©diction. Cependant, parfois, des mots similaires sont utiles pour la pr√©diction, tels que pour classer le style d'√©criture ou la personnalit√©.

Il y a plusieurs probl√®mes connus dans notre liste de mots vides "anglais" fournie. Elle n'a pas pour objectif d'√™tre une solution g√©n√©rale "tout en un", car certaines t√¢ches peuvent n√©cessiter une solution plus personnalis√©e. Voir [NQY18] pour plus de d√©tails.

Veuillez faire attention au choix d'une liste de mots vides. Les listes populaires de mots vides peuvent inclure des mots tr√®s informatifs pour certaines t√¢ches, tels que *computer*.

Vous devez √©galement vous assurer que la liste de mots vides a subi le m√™me pr√©traitement et la m√™me tokenisation que celui utilis√© dans le vectoriseur. Par exemple, le mot *we've* est divis√© en *we* et *ve* par le tokeniseur par d√©faut de `CountVectorizer`, donc si *we've* est dans `stop_words` mais que *ve* ne l'est pas, *ve* sera conserv√© √† partir de *we've* dans le texte transform√©. Nos vectoriseurs essayeront d'identifier et d'avertir √† propos de certaines incoh√©rences.

#### R√©f√©rences

[NQY18] J. Nothman, H. Qin and R. Yurchak (2018). [‚Äú**Stop Word Lists in Free Open-source Software Packages**](https://scikit-learn.org/stable/modules/feature_extraction.html)[‚Äù](https://drive.google.com/file/d/1k0wR1OX6ZjWEvmQTdYbFvpKr2eOwE0Dv/view?usp=share_link). In Proc. Workshop for NLP Open Source Software.


## <a id='tfidf-term-weighting'></a> 6.2.3.4. Pond√©ration Tf-idf

[TfidfTransformer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html
[TfidfVectorizer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

Dans un corpus de texte important, certaines mots seront tr√®s pr√©sents (par exemple "the", "a", "is" en anglais) et porteront donc tr√®s peu d'information significative sur le contenu r√©el du document. Si nous devions alimenter les donn√©es de comptage directement √† un classificateur, ces termes tr√®s fr√©quents masqueraient les fr√©quences de termes plus rares mais plus int√©ressants.

Afin de r√©√©quilibrer les donn√©es de comptage en valeurs flottantes appropri√©es pour une utilisation par un classificateur, il est tr√®s courant d'utiliser la transformation tf-idf.

Tf signifie **fr√©quence de terme** tandis que tf-idf signifie fr√©quence de terme multipli√©e par la **fr√©quence inverse de document** : $\text{tf-idf(t,d)}=\text{tf(t,d)} \times \text{idf(t)}$.

En utilisant les param√®tres par d√©faut de `TfidfTransformer`, `TfidfTransformer(norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)`, la fr√©quence de terme, le nombre de fois qu'un terme appara√Æt dans un document donn√©, est multipli√© par la composante idf, qui est calcul√©e comme

$\text{idf}(t) = \log{\frac{1 + n}{1+\text{df}(t)}} + 1$, 

o√π $n$ est le nombre total de documents dans le jeu de documents, et $\text{df}(t)$ est le nombre de documents dans le jeu de documents qui contiennent le terme $t$. Les vecteurs tf-idf r√©sultants sont ensuite normalis√©s par la norme euclidienne :

$v_{norm} = \frac{v}{||v||_2} = \frac{v}{\sqrt{v{_1}^2 +
v{_2}^2 + \dots + v{_n}^2}}$.

Ceci √©tait √† l'origine un sch√©ma de pond√©ration de termes d√©velopp√© pour la recherche d'informations (en tant que fonction de classement pour les r√©sultats de moteur de recherche) qui a √©galement trouv√© une bonne utilisation en classification de documents et en clustering.

Les sections suivantes contiennent des explications et des exemples suppl√©mentaires qui illustrent comment les tf-idf sont exactement calcul√©s et comment les tf-idf calcul√©s dans [**`TfidfTransformer`**][TfidfTransformer] et [**`TfidfVectorizer`**][TfidfVectorizer] de scikit-learn diff√®rent l√©g√®rement de la notation de livre de texte standard qui d√©finit l'idf comme

$\text{idf}(t) = \log{\frac{n}{1+\text{df}(t)}}$

Dans [**`TfidfTransformer`**][TfidfTransformer] et [**`TfidfVectorizer`**][TfidfVectorizer] avec `smooth_idf=False`, le compte "1" est ajout√© √† l'idf au lieu du d√©nominateur de l'idf :

$\text{idf}(t) = \log{\frac{n}{\text{df}(t)}} + 1$

Cette normalisation est impl√©ment√©e par la classe [**`TfidfTransformer`**][TfidfTransformer].

In [11]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer(smooth_idf=False)
transformer
# TfidfTransformer(smooth_idf=False)

Encore une fois, veuillez consulter la documentation de r√©f√©rence pour les d√©tails sur tous les param√®tres.

Prenons un exemple avec les comptes suivants. Le premier terme est pr√©sent √† 100% du temps, et n'est donc pas tr√®s int√©ressant. Les deux autres caract√©ristiques sont pr√©sentes moins de 50% du temps, donc probablement plus repr√©sentatives du contenu des documents.

In [12]:
counts = [
    [3, 0, 1],
    [2, 0, 0],
    [3, 0, 0],
    [4, 0, 0],
    [3, 2, 0],
    [3, 0, 2]
]
tfidf = transformer.fit_transform(counts)
print(tfidf)
# <6x3 sparse matrix of type '<... 'numpy.float64'>'
#     with 9 stored elements in Compressed Sparse ... format>

tfidf.toarray()
# array([[0.81940995, 0.        , 0.57320793],
#        [1.        , 0.        , 0.        ],
#        [1.        , 0.        , 0.        ],
#        [1.        , 0.        , 0.        ],
#        [0.47330339, 0.88089948, 0.        ],
#        [0.58149261, 0.        , 0.81355169]])

  (0, 2)	0.5732079309279059
  (0, 0)	0.8194099510753754
  (1, 0)	1.0
  (2, 0)	1.0
  (3, 0)	1.0
  (4, 1)	0.8808994832762984
  (4, 0)	0.47330339145578754
  (5, 2)	0.8135516873095774
  (5, 0)	0.5814926070688599


array([[0.81940995, 0.        , 0.57320793],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.47330339, 0.88089948, 0.        ],
       [0.58149261, 0.        , 0.81355169]])

Chaque ligne est normalis√©e pour avoir une norme euclidienne unitaire:

$$
v_{norm} = \frac{v}{||v||_2} = \frac{v}{\sqrt{v{_1}^2 +
v{_2}^2 + \dots + v{_n}^2}}
$$

Par exemple, nous pouvons calculer le tf-idf du premier terme dans le premier document dans le tableau des effectifs `counts` de la mani√®re suivante:
* $n = 6$
* $\text{df}(t)_{\text{term1}}$
* $\text{idf}(t)_{\text{term1}} = \log \frac{n}{\text{df}(t)} + 1 = \log(1)+1 = 1$
* $\text{tf-idf}_{\text{term1}} = \text{tf} \times \text{idf} = 3 \times 1 = 3$

Maintenant, si nous r√©p√©tons ce calcul pour les deux autres termes dans le document, nous obtenons
* $\text{tf-idf}_{\text{term2}} = 0 \times (\log(6/1)+1) = 0$
* $\text{tf-idf}_{\text{term3}} = 1 \times (\log(6/2)+1) \approx 2.0986$

et le vecteur de tf-idf bruts:
* $\text{tf-idf}_{\text{raw}} = [3, 0, 2.0986]$

Ensuite, en appliquant la norme euclidienne (L2), nous obtenons les tf-idf suivants pour le document 1:
* $\frac{[3, 0, 2.0986]}{\sqrt{\big(3^2 + 0^2 + 2.0986^2\big)}} = [ 0.819,  0,  0.573].$

De plus, le param√®tre par d√©faut `smooth_idf=True` ajoute "1" au num√©rateur et au d√©nominateur, comme si un document suppl√©mentaire avait √©t√© vu contenant tous les termes dans la collection exactement une fois, ce qui emp√™che les divisions par z√©ro:

$\text{idf}(t) = \log{\frac{1 + n}{1+\text{df}(t)}} + 1$

En utilisant cette modification, le tf-idf du troisi√®me terme dans le document 1 change pour 1,8473:

$\text{tf-idf}_{\text{term3}} = 1 \times \log(7/3)+1 \approx 1.8473$

Et le tf-idf normalis√© en L2 change pour:

$\frac{[3, 0, 1.8473]}{\sqrt{\big(3^2 + 0^2 + 1.8473^2\big)}} = [0.8515, 0, 0.5243]$

In [13]:
transformer = TfidfTransformer()
transformer.fit_transform(counts).toarray()
# array([[0.85151335, 0.        , 0.52433293],
#        [1.        , 0.        , 0.        ],
#        [1.        , 0.        , 0.        ],
#        [1.        , 0.        , 0.        ],
#        [0.55422893, 0.83236428, 0.        ],
#        [0.63035731, 0.        , 0.77630514]])

array([[0.85151335, 0.        , 0.52433293],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.55422893, 0.83236428, 0.        ],
       [0.63035731, 0.        , 0.77630514]])

Les poids de chaque caract√©ristique calcul√©s par l'appel de la m√©thode `fit` sont stock√©s dans un attribut du mod√®le :

In [14]:
transformer.idf_
# array([1. ..., 2.25..., 1.84...])

array([1.        , 2.25276297, 1.84729786])

Comme tf-idf est tr√®s souvent utilis√© pour les caract√©ristiques de texte, il existe √©galement une autre classe appel√©e [**`TfidfVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) qui combine toutes les options de [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) et [**`TfidfTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html) en un seul mod√®le :

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(corpus)
# <4x9 sparse matrix of type '<... 'numpy.float64'>'
#     with 19 stored elements in Compressed Sparse ... format>

Bien que la normalisation tf-idf soit souvent tr√®s utile, il peut y avoir des cas o√π les marqueurs d'occurrence binaire peuvent offrir de meilleures caract√©ristiques. Cela peut √™tre obtenu en utilisant le param√®tre `binary` de [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html). En particulier, certains estimateurs tels que [**Bernoulli Naive Bayes** (1.9.4)](https://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes) mod√®lent explicitement des variables al√©atoires bool√©ennes discr√®tes. De plus, les textes tr√®s courts ont tendance √† avoir des valeurs tf-idf bruyantes, tandis que les informations d'occurrence binaire sont plus stables.

Comme d'habitude, la meilleure fa√ßon d'ajuster les param√®tres d'extraction de caract√©ristiques est d'utiliser une grille de validation crois√©e, par exemple en installant le extracteur de caract√©ristiques avec un classificateur :

### Exemples

#### [**Exemple de pipeline pour l'extraction et l'√©valuation des caract√©ristiques de texte**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_grid_search_text_feature_extraction.ipynb)<br/>([*Sample pipeline for text feature extraction and evaluation*](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html))

## <a id='decoding-text-files'></a> 6.2.3.5. D√©codage de fichiers de texte

Le texte est compos√© de caract√®res, mais les fichiers sont compos√©s d'octets. Ces octets repr√©sentent des caract√®res selon certaines encodages. Pour travailler avec des fichiers de texte en Python, leurs octets doivent √™tre d√©cod√©s en un jeu de caract√®res appel√© Unicode. Les encodages courants sont ASCII, Latin-1 (Europe de l'Ouest), KOI8-R (russe) et les encodages universels UTF-8 et UTF-16. Beaucoup d'autres existent.

üìå Il est important de noter que le terme "jeu de caract√®res" peut aussi √™tre utilis√© pour d√©crire un encodage, mais ce terme est moins pr√©cis, car plusieurs encodages peuvent exister pour un seul jeu de caract√®res.

Les extracteurs de caract√©ristiques de texte dans scikit-learn sont capables de d√©coder les fichiers de texte, √† condition que l'encodage soit indiqu√©. Le [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) prend un param√®tre `encoding` √† cet effet. Pour les fichiers de texte modernes, l'encodage par d√©faut est probablement UTF-8 (`encoding= "utf-8"`).

Si le texte que vous chargez n'est pas r√©ellement encod√© en UTF-8, vous obtiendrez une `UnicodeDecodeError`. Vous pouvez √©viter ces erreurs en d√©finissant le param√®tre `decode_error` soit sur "ignore" ou "replace". Pour plus de d√©tails, veuillez consulter la documentation de la fonction Python `bytes.decode`. Pour plus de d√©tails (tapez `help(bytes.decode)` √† l'invite Python).

Si vous rencontrez des difficult√©s pour d√©coder du texte, voici quelques solutions √† essayer :
* Trouvez l'encodage r√©el du texte. Le fichier peut comporter un en-t√™te ou un fichier README qui indique l'encodage, ou vous pouvez supposer un encodage standard en fonction de la source du texte.
* Vous pouvez d√©terminer le type d'encodage g√©n√©ral en utilisant la commande UNIX `file`. Le module Python `chardet` inclut un script appel√© `chardetect.py` qui peut deviner l'encodage sp√©cifique, m√™me si vous ne pouvez pas √™tre s√ªr de la pr√©cision de son hypoth√®se.
* Vous pouvez essayer d'utiliser UTF-8 et ignorer les erreurs. Vous pouvez d√©coder les cha√Ænes de caract√®res en octets avec `bytes.decode(errors='replace')` pour remplacer toutes les erreurs de d√©codage avec un caract√®re sans signification, ou d√©finir `decode_error='replace'` dans le vectoriseur. Cela peut endommager la pertinence de vos caract√©ristiques.
* Le texte r√©el peut provenir de diff√©rentes sources qui peuvent avoir utilis√© diff√©rents encodages ou m√™me √™tre d√©cod√© de mani√®re n√©gligente dans un encodage diff√©rent de celui avec lequel il a √©t√© encod√©. C'est courant pour le texte r√©cup√©r√© sur le Web. Le paquet Python [**ftfy**](https://github.com/rspeer/python-ftfy) peut automatiquement trier certains types d'erreurs de d√©codage, il est donc  possible de d√©coder le texte inconnu en `latin-1` et de le corriger ensuite √† l'aide de `ftfy`.
* Si le texte est dans un m√©lange d'encodages qui est simplement trop difficile √† trier (ce qui est le cas pour le jeu de donn√©es 20 Newsgroups), vous pouvez vous rabattre sur un encodage simple √† un seul octet tel que `latin-1`. Certaines parties du texte peuvent s'afficher incorrectement, mais au moins la m√™me s√©quence d'octets repr√©sentera toujours la m√™me caract√©ristique.

Par exemple, l'extrait de code suivant utilise `chardet` (non fourni avec scikit-learn, il doit √™tre install√© s√©par√©ment) pour d√©terminer l'encodage de trois textes. Il vectorise ensuite les textes et affiche le vocabulaire appris. La sortie n'est pas affich√©e ici.

In [4]:
import chardet
from sklearn.feature_extraction.text import CountVectorizer
text1 = b"Sei mir gegr\xc3\xbc\xc3\x9ft mein Sauerkraut"
text2 = b"holdselig sind deine Ger\xfcche"
text3 = b"\xff\xfeA\x00u\x00f\x00 \x00F\x00l\x00\xfc\x00g\x00e\x00l\x00n\x00 \x00d\x00e\x00s\x00 \x00G\x00e\x00s\x00a\x00n\x00g\x00e\x00s\x00,\x00 \x00H\x00e\x00r\x00z\x00l\x00i\x00e\x00b\x00c\x00h\x00e\x00n\x00,\x00 \x00t\x00r\x00a\x00g\x00 \x00i\x00c\x00h\x00 \x00d\x00i\x00c\x00h\x00 \x00f\x00o\x00r\x00t\x00"
decoded = [
    x.decode(chardet.detect(x)['encoding'])
    for x in (text1, text2, text3)
]        
v = CountVectorizer().fit(decoded).vocabulary_    
for term in v:
    print(v)

{'sei': 15, 'mir': 13, 'gegr√º√üt': 6, 'mein': 12, 'sauerkraut': 14, 'holdselig': 10, 'sind': 16, 'deine': 1, 'ger√ºche': 7, 'auf': 0, 'fl√ºgeln': 4, 'des': 2, 'gesanges': 8, 'herzliebchen': 9, 'trag': 17, 'ich': 11, 'dich': 3, 'fort': 5}
{'sei': 15, 'mir': 13, 'gegr√º√üt': 6, 'mein': 12, 'sauerkraut': 14, 'holdselig': 10, 'sind': 16, 'deine': 1, 'ger√ºche': 7, 'auf': 0, 'fl√ºgeln': 4, 'des': 2, 'gesanges': 8, 'herzliebchen': 9, 'trag': 17, 'ich': 11, 'dich': 3, 'fort': 5}
{'sei': 15, 'mir': 13, 'gegr√º√üt': 6, 'mein': 12, 'sauerkraut': 14, 'holdselig': 10, 'sind': 16, 'deine': 1, 'ger√ºche': 7, 'auf': 0, 'fl√ºgeln': 4, 'des': 2, 'gesanges': 8, 'herzliebchen': 9, 'trag': 17, 'ich': 11, 'dich': 3, 'fort': 5}
{'sei': 15, 'mir': 13, 'gegr√º√üt': 6, 'mein': 12, 'sauerkraut': 14, 'holdselig': 10, 'sind': 16, 'deine': 1, 'ger√ºche': 7, 'auf': 0, 'fl√ºgeln': 4, 'des': 2, 'gesanges': 8, 'herzliebchen': 9, 'trag': 17, 'ich': 11, 'dich': 3, 'fort': 5}
{'sei': 15, 'mir': 13, 'gegr√º√üt': 6, 'mein

(Selon la version de `chardet`, il pourrait se tromper sur le premier.)

Pour une introduction √† Unicode et aux encodages de caract√®res en g√©n√©ral, voir l'article [**Le minimum absolu que tout d√©veloppeur logiciel devrait conna√Ætre √† propos d'Unicode**](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)  de Joel Spolsky.

## <a id='applications-and-examples'></a> 6.2.3.6. Applications et exemples

La repr√©sentation "sac de mots" est tr√®s simpliste mais surprenamment utile en pratique.

En particulier dans un **environnement supervis√©**, elle peut √™tre combin√©e avec des mod√®les lin√©aires rapides et √©volutifs pour former des **classificateurs de documents**, par exemple:

* [**Classification de documents textuels √† l'aide de caract√©ristiques rares**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/text/plot_document_classification_20newsgroups.ipynb)<br/>([*Classification of text documents using sparse features*](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html))

Dans un **environnement non supervis√©**, elle peut √™tre utilis√©e pour regrouper des documents similaires en utilisant des algorithmes de clustering tels que K-means:

* [**Clustering de documents textuels √† l'aide de k-means**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/text/plot_document_clustering.ipynb)<br/>([*Clustering text documents using k-means*](https://scikit-learn.org/stable/auto_examples/text/plot_document_clustering.html))

Enfin, il est possible de d√©couvrir les principaux sujets d'un corpus en relaxant la contrainte d'affectation dure du clustering, par exemple en utilisant [**la factorisation de matrice non-n√©gative (NMF ou NNMF) (2.5.7)**](https://scikit-learn.org/stable/modules/decomposition.html#nmf):

* [**Extraction de th√®me avec la factorisation de matrice non-n√©gative et l'allocation latente de Dirichlet**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/applications/feature_selection/plot_topics_extraction_with_nmf_lda.ipynb)<br/>([*Topic extraction with Non-negative Matrix Factorization and Latent Dirichlet Allocation*](https://scikit-learn.org/stable/applications/feature_selection/plot_topics_extraction_with_nmf_lda.html))

## <a id='limitations-of-the-bag-of-words-representation'></a> 6.2.3.7. Limitations de la repr√©sentation Sac de mots

Une collection d'unigrammes (ce que repr√©sente le sac de mots) ne peut pas capturer les phrases et les expressions √† plusieurs mots, en ignorant en pratique toute d√©pendance √† l'ordre des mots. De plus, le mod√®le de sac de mots ne prend pas en compte les fautes d'orthographe potentielles ou les d√©rivations de mots.

Les N-grammes viennent √† la rescousse! Au lieu de construire une simple collection d'unigrammes (n = 1), on peut pr√©f√©rer une collection de bigrammes (n = 2), o√π les occurrences de paires de mots cons√©cutifs sont compt√©es.

On peut √©galement consid√©rer une collection de n-grammes de caract√®res, une repr√©sentation r√©siliente aux fautes d'orthographe et aux d√©rivations.

Par exemple, disons que nous avons affaire √† un corpus de deux documents: `['words', 'wprds']`. Le deuxi√®me document contient une faute d'orthographe du mot 'words'. Une simple repr√©sentation de sac de mots consid√©rerait ces deux documents comme tr√®s distincts, diff√©rant dans les deux caract√©ristiques possibles. Une repr√©sentation de 2-grammes de caract√®res, cependant, trouverait que les documents correspondent dans 4 des 8 caract√©ristiques, ce qui peut aider le classifieur pr√©f√©r√© √† d√©cider mieux:

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(2, 2))
counts = ngram_vectorizer.fit_transform(['words', 'wprds'])
ngram_vectorizer.get_feature_names_out()
# array([' w', 'ds', 'or', 'pr', 'rd', 's ', 'wo', 'wp'], ...)
counts.toarray().astype(int)
# array([[1, 1, 1, 0, 1, 1, 1, 0],
#        [1, 1, 0, 1, 1, 1, 0, 1]])

array([[1, 1, 1, 0, 1, 1, 1, 0],
       [1, 1, 0, 1, 1, 1, 0, 1]])

Dans l'exemple ci-dessus, l'analyseur `char_wb` est utilis√©, ce qui cr√©e des n-grammes uniquement √† partir de caract√®res situ√©s √† l'int√©rieur des limites des mots (remplis d'espaces de chaque c√¥t√©). L'analyseur `char`, en revanche, cr√©e des n-grammes qui s'√©tendent √† travers les mots :

In [2]:
ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(5, 5))
ngram_vectorizer.fit_transform(['jumpy fox'])
# <1x4 sparse matrix of type '<... 'numpy.int64'>'
#    with 4 stored elements in Compressed Sparse ... format>
ngram_vectorizer.get_feature_names_out()
# array([' fox ', ' jump', 'jumpy', 'umpy '], ...)

ngram_vectorizer = CountVectorizer(analyzer='char', ngram_range=(5, 5))
ngram_vectorizer.fit_transform(['jumpy fox'])
# <1x5 sparse matrix of type '<... 'numpy.int64'>'
#     with 5 stored elements in Compressed Sparse ... format>

ngram_vectorizer.get_feature_names_out()
# array(['jumpy', 'mpy f', 'py fo', 'umpy ', 'y fox'], ...)

array(['jumpy', 'mpy f', 'py fo', 'umpy ', 'y fox'], dtype=object)

La variante `char_wb` qui prend en compte les limites des mots est particuli√®rement int√©ressante pour les langues qui utilisent des espaces pour s√©parer les mots car elle g√©n√®re des caract√©ristiques beaucoup moins bruyantes que la variante brute `char` dans ce cas. Pour de telles langues, elle peut am√©liorer √† la fois l'exactitude pr√©dictive et la vitesse de convergence des classifieurs entra√Æn√©s √† l'aide de ces caract√©ristiques tout en conservant la robustesse en ce qui concerne les fautes d'orthographe et les d√©rivations de mots.

Bien que certaines informations de positionnement local puissent √™tre pr√©serv√©es en extrayant des n-grammes au lieu de mots individuels, les sacs de mots et les sacs de n-grammes d√©truisent la plupart de la structure interne du document et donc la plupart de la signification port√©e par cette structure interne.

Pour aborder la t√¢che plus large de la compr√©hension du langage naturel, la structure locale des phrases et des paragraphes doit donc √™tre prise en compte. Beaucoup de ces mod√®les seront donc con√ßus comme des probl√®mes de "sortie structur√©e", qui sont actuellement hors du champ d'application de scikit-learn.

## <a id='vectorizing-a-large-text-corpus-with-the-hashing-trick'></a> 6.2.3.8. Vectoriser un grand corpus de textes √† l'aide de l'astuce du hachage

Le sch√©ma de vectorisation ci-dessus est simple mais le fait qu'il contienne une **correspondance en m√©moire des jetons de cha√Æne avec les indices de caract√©ristiques entiers** (l'attribut de `vocabulary_`) entra√Æne plusieurs **probl√®mes lors de la manipulation de grands ensembles de donn√©es** :
* plus le corpus est grand, plus le vocabulaire se d√©veloppera et donc la consommation de m√©moire √©galement,
* l'ajustement n√©cessite l'allocation de structures de donn√©es interm√©diaires de taille proportionnelle √† celle de l'ensemble de donn√©es d'origine.
* la construction de la correspondance de mots n√©cessite un passage complet sur l'ensemble de donn√©es, il n'est donc pas possible d'adapter les classifieurs de texte de mani√®re strictement en ligne.
* la conservation et la d√©s√©rialisation de vectoriseurs avec un grand `vocabulary_` peut √™tre tr√®s lente (typiquement beaucoup plus lente que la conservation / la d√©s√©rialisation de structures de donn√©es plates comme un tableau NumPy de la m√™me taille),
* il n'est pas facilement possible de diviser le travail de vectorisation en sous-t√¢ches concurrentes car l'attribut de `vocabulary_` devrait √™tre un √©tat partag√© avec une barri√®re de synchronisation √† grains fins : la correspondance entre la cha√Æne de jeton et l'indice de caract√©ristique d√©pend de l'ordre de la premi√®re occurrence de chaque jeton et devrait donc √™tre partag√©e, ce qui pourrait nuire aux performances des travailleurs concurrents au point de les rendre plus lents que la variante s√©quentielle.

Il est possible de surmonter ces limitations en combinant le "hashing trick" ([**Hachage de caract√©ristiques** (6.2.2)](https://scikit-learn.org/stable/modules/feature_extraction.html#feature-hashing)) impl√©ment√© par la classe [**`FeatureHasher`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.FeatureHasher.html) et les fonctionnalit√©s de pr√©traitement et de tokenization de [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html).

Cette combinaison est mise en ≈ìuvre dans [**`HashingVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html), une classe de transformeur qui est en grande partie compatible avec l'API de [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html). [**`HashingVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html) est sans √©tat, ce qui signifie que vous n'avez pas besoin de l'ajuster avec `fit` :

In [4]:
from sklearn.feature_extraction.text import HashingVectorizer
hv = HashingVectorizer(n_features=10)
hv.transform(corpus)
# <4x10 sparse matrix of type '<... 'numpy.float64'>'
#     with 16 stored elements in Compressed Sparse ... format>

NameError: name 'corpus' is not defined

Vous pouvez voir que 16 jetons de caract√©ristiques non nuls ont √©t√© extraits dans la sortie vectorielle : c'est moins que les 19 non nuls extraits pr√©c√©demment par [**`CountVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) sur le m√™me corpus jouet. La divergence vient des collisions de la fonction de hachage en raison de la faible valeur du param√®tre `n_features`.

Dans un cadre r√©el, le param√®tre `n_features` peut √™tre laiss√© √† sa valeur par d√©faut de `2 ** 20` (environ un million de caract√©ristiques possibles). Si la m√©moire ou la taille des mod√®les en aval est un probl√®me, la s√©lection d'une valeur inf√©rieure, telle que `2 ** 18`, pourrait aider sans introduire trop de collisions suppl√©mentaires sur les t√¢ches de classification de texte typiques.

Notez que la dimensionnalit√© n'affecte pas le temps d'entra√Ænement CPU des algorithmes qui fonctionnent sur des matrices CSR `(LinearSVC(dual=True)`, `Perceptron`, `SGDClassifier`, `PassiveAggressive`), mais elle affecte les algorithmes qui fonctionnent avec des matrices CSC `(LinearSVC(dual=False)`, `Lasso()`, etc.).

Essayons √† nouveau avec les param√®tres par d√©faut :

In [5]:
hv = HashingVectorizer()
hv.transform(corpus)

NameError: name 'corpus' is not defined

Nous n'obtenons plus de collisions, mais cela se fait au prix d'une dimensionnalit√© beaucoup plus grande de l'espace de sortie. Bien s√ªr, d'autres termes que les 19 utilis√©s ici peuvent encore entrer en collision les uns avec les autres.

Le [**`HashingVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html) pr√©sente √©galement les limitations suivantes :
* il n'est pas possible d'inverser le mod√®le (pas de m√©thode `inverse_transform`), ni d'acc√©der √† la repr√©sentation de cha√Æne d'origine des caract√©ristiques, en raison de la nature unidirectionnelle de la fonction de hachage qui effectue la correspondance.
* il ne fournit pas de pond√©ration IDF car cela introduirait une dimension d'√©tat dans le mod√®le. Un [**`TfidfTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html) peut lui √™tre ajout√© dans un pipeline si n√©cessaire.

## <a id='performing-out-of-core-scaling-with-hashingvectorizer'></a> 6.2.3.9. Effectuer une mise √† l'√©chelle hors ligne avec HashingVectorizer

Un d√©veloppement int√©ressant de l'utilisation de [**`HashingVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html) est la capacit√© √† effectuer une mise √† l'√©chelle hors ligne. Cela signifie que nous pouvons apprendre √† partir de donn√©es qui ne rentrent pas dans la m√©moire principale de l'ordinateur.

Une strat√©gie pour mettre en ≈ìuvre une mise √† l'√©chelle hors ligne consiste √† diffuser des donn√©es √† l'estimateur en mini-lots. Chaque mini-lot est vectoris√© en utilisant [**`HashingVectorizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html) afin de garantir que l'espace d'entr√©e de l'estimateur a toujours la m√™me dimensionnalit√©. La quantit√© de m√©moire utilis√©e √† tout moment est donc limit√©e par la taille d'un mini-lot. Bien qu'il n'y ait pas de limite √† la quantit√© de donn√©es pouvant √™tre trait√©es en utilisant cette approche, d'un point de vue pratique, le temps d'apprentissage est souvent limit√© par le temps CPU que l'on veut consacrer √† la t√¢che.

Pour un exemple complet de mise √† l'√©chelle hors ligne dans une t√¢che de classification de texte, consultez l'exemple [**Classification hors ligne de documents textuels**](https://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html).

## <a id='customizing-the-vectorizer-classes'></a> 6.2.3.10. Personnalisation des classes vectorizer

Il est possible de personnaliser le comportement en passant un objet appelable au constructeur du vectoriseur.

In [6]:
def my_tokenizer(s):
    return s.split()

vectorizer = CountVectorizer(tokenizer=my_tokenizer)
vectorizer.build_analyzer()(u"Some... punctuation!") == (
    ['some...', 'punctuation!'])
# True

True

En particulier, nous nommons :
* `preprocessor` : une fonction qui prend un document entier en entr√©e (sous forme d'une cha√Æne de caract√®res unique) et renvoie une version √©ventuellement transform√©e du document, toujours sous forme d'une cha√Æne de caract√®res unique. Cela peut √™tre utilis√© pour supprimer les balises HTML, mettre tout le document en minuscules, etc.
* `tokenizer` : une fonction qui prend la sortie du preprocessor et la divise en jetons, puis renvoie une liste de ceux-ci.
* `analyzer` : une fonction qui remplace le preprocessor et le tokenizer. Les analyseurs par d√©faut appellent tous le preprocessor et le tokenizer, mais les analyseurs personnalis√©s peuvent sauter cette √©tape. L'extraction de n-grammes et le filtrage des mots vides ont lieu au niveau de l'analyseur, de sorte qu'un analyseur personnalis√© peut devoir reproduire ces √©tapes.

(Les utilisateurs de Lucene pourraient reconna√Ætre ces noms, mais il faut savoir que les concepts de scikit-learn ne se mappent pas n√©cessairement de mani√®re univoque sur les concepts de Lucene.)

Pour rendre le preprocessor, le tokenizer et les analyseurs conscients des param√®tres du mod√®le, il est possible de d√©river de la classe et de remplacer les m√©thodes d'usine `build_preprocessor`, `build_tokenizer` et `build_analyzer` au lieu de passer des fonctions personnalis√©es.

Quelques astuces :
* Si les documents sont pr√©-d√©coup√©s par un package externe, alors stockez-les dans des fichiers (ou des cha√Ænes) avec les tokens s√©par√©s par des espaces et passez `analyzer=str.split`.
* Les analyses de jetons avanc√©es telles que l'la racinisation, la lemmatisation, la s√©paration en compos√©s, le filtrage en fonction de la partie du discours, etc. ne sont pas incluses dans le codebase de scikit-learn, mais peuvent √™tre ajout√©es en personnalisant soit le tokenizer, soit l'analyseur. Voici un `CountVectorizer` avec un tokenizer et un lemmatizer utilisant [**NLTK**](https://www.nltk.org/) :

In [7]:
from nltk import word_tokenize          
from nltk.stem import WordNetLemmatizer 
class LemmaTokenizer:
    def __init__(self):
        self.wnl = WordNetLemmatizer()
    def __call__(self, doc):
        return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]

vect = CountVectorizer(tokenizer=LemmaTokenizer())

(Notez que cela ne filtrera pas la ponctuation.)

L'exemple suivant transformera par exemple l'orthographe britannique en orthographe am√©ricaine :

In [8]:
import re
def to_british(tokens):
    for t in tokens:
        t = re.sub(r"(...)our$", r"\1or", t)
        t = re.sub(r"([bt])re$", r"\1er", t)
        t = re.sub(r"([iy])s(e$|ing|ation)", r"\1z\2", t)
        t = re.sub(r"ogue$", "og", t)
        yield t

class CustomVectorizer(CountVectorizer):
    def build_tokenizer(self):
        tokenize = super().build_tokenizer()
        return lambda doc: list(to_british(tokenize(doc)))

print(CustomVectorizer().build_analyzer()(u"color colour"))
# [...'color', ...'color']

['color', 'color']


pour d'autres styles de pr√©traitement; des exemples incluent la racinisation, la lemmatisation ou la normalisation des jetons num√©riques, cette derni√®re √©tant illustr√©e dans : [**Biclustering documents with the Spectral Co-clustering algorithm**](https://scikit-learn.org/stable/auto_examples/bicluster/plot_bicluster_newsgroups.html)

La personnalisation du vectoriseur peut √©galement √™tre utile lors du traitement de langues asiatiques qui n'utilisent pas de s√©parateur de mots explicite tel que l'espace.

# <a id='image-feature-extraction'></a> 6.2.4. Extraction de caract√©ristiques d'image

## <a id='patch-extraction'></a> 6.2.4.1. Extraction de patchs

La fonction [**`extract_patches_2d`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.extract_patches_2d.html) extrait des patchs d'une image stock√©e sous forme de tableau bidimensionnel, ou tridimensionnel avec des informations de couleur le long du troisi√®me axe. Pour reconstruire une image √† partir de tous ses patchs, utilisez [**`reconstruct_from_patches_2d`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.reconstruct_from_patches_2d.html). Par exemple, g√©n√©rons une image de 4x4 pixels avec 3 canaux de couleur (par exemple, en format RVB) :

In [9]:
import numpy as np
from sklearn.feature_extraction import image

one_image = np.arange(4 * 4 * 3).reshape((4, 4, 3))
one_image[:, :, 0]  # R channel of a fake RGB picture
# array([[ 0,  3,  6,  9],
#        [12, 15, 18, 21],
#        [24, 27, 30, 33],
#        [36, 39, 42, 45]])

patches = image.extract_patches_2d(one_image, (2, 2), max_patches=2,
    random_state=0)
patches.shape
# (2, 2, 2, 3)

patches[:, :, :, 0]
# array([[[ 0,  3],
#         [12, 15]],
# 
#        [[15, 18],
#         [27, 30]]])

patches = image.extract_patches_2d(one_image, (2, 2))
patches.shape
# (9, 2, 2, 3)

patches[4, :, :, 0]
# array([[15, 18],
#        [27, 30]])

array([[15, 18],
       [27, 30]])

Reconstruisons maintenant l'image d'origine √† partir des patchs en effectuant une moyenne sur les zones de recouvrement :

In [10]:
reconstructed = image.reconstruct_from_patches_2d(patches, (4, 4, 3))
np.testing.assert_array_equal(one_image, reconstructed)

La classe [**`PatchExtractor`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.PatchExtractor.html) fonctionne de la m√™me mani√®re que [**`extract_patches_2d`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.extract_patches_2d.html), mais elle prend en charge plusieurs images en entr√©e. Elle est impl√©ment√©e en tant qu'estimateur, elle peut donc √™tre utilis√©e dans des pipelines. Voir :

In [11]:
five_images = np.arange(5 * 4 * 4 * 3).reshape(5, 4, 4, 3)
patches = image.PatchExtractor(patch_size=(2, 2)).transform(five_images)
patches.shape
# (45, 2, 2, 3)

(45, 2, 2, 3)

## <a id='connectivity-graph-of-an-image'></a> 6.2.4.2. Graphe de connectivit√© d'une image

Plusieurs estimateurs dans scikit-learn peuvent utiliser des informations de connectivit√© entre les caract√©ristiques ou les √©chantillons. Par exemple, la classification de Ward ([**classification hi√©rarchique** (2.3.6)](https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering)) peut regrouper seulement les pixels voisins d'une image, formant ainsi des patches contigus :

<img alt="https://scikit-learn.org/stable/_images/sphx_glr_plot_coin_ward_segmentation_001.png" src="https://scikit-learn.org/stable/_images/sphx_glr_plot_coin_ward_segmentation_001.png" style="width: 200.0px; height: 200.0px;" />

√Ä cet effet, les estimateurs utilisent une matrice de "connectivit√©", indiquant quelles √©chantillons sont connect√©s.

La fonction [**`img_to_graph`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.img_to_graph.html) renvoie une telle matrice √† partir d'une image 2D ou 3D. De m√™me, [**`grid_to_graph`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.grid_to_graph.html) construit une matrice de connectivit√© pour les images √©tant donn√©e la forme de ces images.

Ces matrices peuvent √™tre utilis√©es pour imposer la connectivit√© dans les estimateurs qui utilisent des informations de connectivit√©, tels que la classification de Ward (classification hi√©rarchique), mais aussi pour construire des noyaux pr√©calcul√©s, ou des matrices de similarit√©.

### Exemples

#### [**Une d√©mo de clustering hi√©rarchique Ward structur√© sur une image de pi√®ces de monnaie**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/2_3_cluster/plot_coin_ward_segmentation.ipynb)<br/>([*A demo of structured Ward hierarchical clustering on an image of coins*](https://scikit-learn.org/stable/auto_examples/cluster/plot_coin_ward_segmentation.html))

#### [**Classification spectrale pour la segmentation d'images**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/2_3_cluster/plot_segmentation_toy.ipynb)<br/>([*Spectral clustering for image segmentation*](https://scikit-learn.org/stable/auto_examples/cluster/plot_segmentation_toy.html))

#### [**Agglom√©ration de caract√©ristiques vs s√©lection univari√©e**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/2_3_cluster/plot_feature_agglomeration_vs_univariate_selection.ipynb)<br/>([*Feature agglomeration vs. univariate selection*](https://scikit-learn.org/stable/auto_examples/cluster/plot_feature_agglomeration_vs_univariate_selection.html))