# **Exploration de corpus variés**

Quelques cas d'applications pour se faire la main :
* Le cas proposé (paroles de chansons) à faire from scratch pour éviter de se sentir bête
* Articles de loi sur Légifrance
* Définitions du CNRTL
* Le corpus autour de la data sur Wikipedia EN
* Le contenu des cours d'OC
* Des livres complets que l'on peut récupérer en ligne, comme Le Discours de la Méthode, ou Récolte et Semailles.
* L'exemple Kaggle du TP qui arrive dans deux chapitres

Voir également les exemples de NLTK


Kaggle : https://www.kaggle.com/competitions/nlp-getting-started/data Disaster Tweets

# Chargement des corpus

## Les corpus de NLTK

### 1. Corpus Gutenberg

NLTK inclut une petite sélection de textes provenant de l'archive électronique Project Gutenberg, qui contient environ 25 000 livres électroniques gratuits, hébergés à l'adresse http://www.gutenberg.org/. Nous commençons par faire charger le package NLTK par l'interpréteur Python, puis nous demandons de voir les identificateurs de fichiers via `nltk.corpus.gutenberg.fileids()` de ce corpus :

In [None]:
import nltk
# nltk.download('gutenberg')
nltk.corpus.gutenberg.fileids()

In [None]:
emma = nltk.corpus.gutenberg.words('austen-emma.txt')
len(emma)

In [None]:
emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
emma.concordance("surprize")

In [None]:
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids():
    num_chars = len(gutenberg.raw(fileid))
    num_words = len(gutenberg.words(fileid))
    num_sents = len(gutenberg.sents(fileid))
    num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))
    print(round(num_chars/num_words), round(num_words/num_sents), round(num_words/num_vocab), fileid)

In [None]:
macbeth_sentences = gutenberg.sents('shakespeare-macbeth.txt')
print(macbeth_sentences)
print(macbeth_sentences[1116])
longest_len = max(len(s) for s in macbeth_sentences)
print(longest_len)
print([s for s in macbeth_sentences if len(s) == longest_len])

### 2. Texte web et chat

Bien que Project Gutenberg contienne des milliers de livres, il représente une littérature établie. Il est important de considérer également un langage moins formel. La petite collection de textes Web de NLTK inclut des contenus provenant d'un forum de discussion Firefox, des conversations entendues à New York, le scénario du film *Pirates des Caraïbes*, des annonces personnelles et des critiques de vin:

In [None]:
from nltk.corpus import webtext
# nltk.download('webtext')
for fileid in webtext.fileids():
    print(fileid, webtext.raw(fileid)[:65], '...')

Il existe également un corpus de sessions de messagerie instantanée, collecté à l'origine par la Naval Postgraduate School pour des recherches sur la détection automatique des prédateurs Internet. Le corpus contient plus de 10 000 messages, anonymisés en remplaçant les noms d'utilisateur par des noms génériques de la forme "UserNNN" et édités manuellement pour supprimer toute autre information d'identification. Le corpus est organisé en 15 fichiers, où chaque fichier contient plusieurs centaines de messages collectés à une date donnée, pour une salle de chat spécifique à l'âge (ados, 20 ans, 30 ans, 40 ans, plus une salle de chat générique pour adultes). Le nom de fichier contient la date, la salle de chat et le nombre de messages ; par exemple, 10-19-20s_706posts.xml contient 706 messages collectés de la salle de chat 20 ans le 19/10/2006.

In [None]:
from nltk.corpus import nps_chat
# nltk.download('nps_chat')
chatroom = nps_chat.posts('10-19-20s_706posts.xml')
chatroom[123]

### 3. Corpus Brown

Le corpus Brown était le premier corpus électronique de million de mots en anglais, créé en 1961 à l'Université Brown. Ce corpus contient des textes provenant de 500 sources et les sources ont été catégorisées par genre, comme les *nouvelles*, les *éditoriaux*, etc. La table 1.1 donne un exemple de chaque genre (pour une liste complète, voir `http://icame.uib.no/brown/bcm-los.html`).

**Table 1.1 :**

Document d'exemple pour chaque section du corpus Brown

|ID|Ficher|Genre|Description|
|-|-|-|-|
|A16|ca16|news|Chicago Tribune: *Society Reportage*|
|B02|cb02|editorial|Christian Science Monitor: *Editorials*|
|C17|cc17|reviews|Time Magazine: *Reviews*|
|D12|cd12|religion|Underwood: *Probing the Ethics of Realtors*|
|E36|ce36|hobbies|Norling: *Renting a Car in Europe*|
|F25|cf25|lore|Boroff: *Jewish Teenage Culture*|
|G22|cg22|belles_lettres|Reiner: *Coping with Runaway Technology*|
|H15|ch15|government|US Office of Civil and Defence Mobilization: *The Family Fallout Shelter*|
|J17|cj19|learned|Mosteller: *Probability with Statistical Applications*|
|K04|ck04|fiction|W.E.B. Du Bois: *Worlds of Color*|
|L13|cl13|mystery|Hitchens: *Footsteps in the Night*|
|M01|cm01|science_fiction|Heinlein: *Stranger in a Strange Land*|
|N14|cn15|adventure|Field: *Rattlesnake Ridge*|
|P12|cp12|romance|Callaghan: *A Passion in Rome*|
|R06|cr06|humor|Thurber: *The Future, If Any, of Comedy*|

Nous pouvons accéder au corpus sous forme de liste de mots ou de liste de phrases (où chaque phrase est elle-même une liste de mots). Nous pouvons éventuellement spécifier des catégories ou des fichiers particuliers à lire :

In [None]:
from nltk.corpus import brown
# nltk.download('brown')
print(brown.categories())
print(brown.words(categories='news'))
print(brown.words(fileids=['cg22']))
print(brown.sents(categories=['news', 'editorial', 'reviews']))

In [None]:
from nltk.corpus import brown
news_text = brown.words(categories='news')
fdist = nltk.FreqDist(w.lower() for w in news_text)
modals = ['can', 'could', 'may', 'might', 'must', 'will']
for m in modals:
    print(m + ':', fdist[m], end=' ')

Le corpus Brown est une ressource pratique pour étudier les différences systématiques entre les genres, une sorte d'enquête linguistique connue sous le nom de **stylistique**. Comparons les genres dans leur utilisation des verbes modaux. La première étape consiste à produire les comptes pour un genre particulier. N'oubliez pas d'importer nltk avant de faire ce qui suit:

In [None]:
cfd = nltk.ConditionalFreqDist(
    (genre, word)
    for genre in brown.categories()
    for word in brown.words(categories=genre))
genres = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor']
modals = ['can', 'could', 'may', 'might', 'must', 'will']
cfd.tabulate(conditions=genres, samples=modals)

### 4. Corpus Reuters

Le **Corpus Reuters** contient 10 788 documents d'actualités totalisant 1,3 million de mots. Les documents ont été classés en 90 sujets et regroupés en deux ensemble appelés "formation" et "test"; ainsi, le texte avec l'ID de fichier `'test/14826'` est un document tiré de l'ensemble de test. Cette séparation est destinée à entraîner et à tester des algorithmes qui détectent automatiquement le sujet d'un document, comme nous le verrons dans le chapitre [**Apprendre à classer le texte** (6)](https://www.nltk.org/book/ch06.html#chap-data-intensive).

In [None]:
from nltk.corpus import reuters
# nltk.download('reuters')
display(reuters.fileids()[:10])
display(reuters.categories()[:10])

### 5. Corpus des discours inauguraux

Dans 1, nous avons examiné le Corpus des Discours Inauguraux, mais nous l'avons traité comme un seul texte. Le graphique de fig-inaugural utilisait "décalage de mot" comme l'un des axes ; c'est l'index numérique du mot dans le corpus, comptant à partir du premier mot du premier discours. Cependant, le corpus est en réalité une collection de 55 textes, un pour chaque discours présidentiel. Une propriété intéressante de cette collection est sa dimension temporelle :

In [None]:
from nltk.corpus import inaugural
# nltk.download('inaugural')
inaugural.fileids()
[fileid[:4] for fileid in inaugural.fileids()][:10]

Remarquez que l'année de chaque texte apparaît dans son nom de fichier. Pour obtenir l'année à partir du nom de fichier, nous avons extrait les quatre premiers caractères, en utilisant `fileid[:4]`.

Examinons comment les mots *America* et *citizen* sont utilisés au fil du temps. Le code suivant convertit les mots dans le corpus inaugural en minuscules en utilisant `w.lower()` [1], puis vérifie s'ils commencent par l'un des "cibles" `america` ou `citizen` en utilisant `startswith()` [1]. Il comptera donc les mots comme *American's* et *Citizens*. Nous apprendrons à propos des distributions de fréquence conditionnelles dans 2 ; pour l'instant, considérons simplement la sortie, montrée dans 1.1.

In [None]:
cfd = nltk.ConditionalFreqDist(
    (target, fileid[:4])
    for fileid in inaugural.fileids()
    for w in inaugural.words(fileid)
    for target in ['america', 'citizen']
    if w.lower().startswith(target))
cfd.plot()
display(cfd) # pb

Figure 1.1: *Graphique d'une distribution de fréquence conditionnelle : tous les mots dans le corpus de discours inauguraux qui commencent par america ou citizen sont comptés ; des comptes séparés sont gardés pour chaque discours ; ils sont tracés de sorte que les tendances dans l'utilisation au fil du temps puissent être observées ; les comptes ne sont pas normalisés pour la longueur du document.*

### 6. Corpus de textes annotés

De nombreux corpus de textes contiennent des annotations linguistiques, représentant des tags morphosyntaxiques, des entités nommées, des structures syntaxiques, des rôles sémantiques, etc. NLTK fournit des moyens pratiques pour accéder à plusieurs de ces corpus, et possède des paquets de données contenant des corpus et des échantillons de corpus, téléchargeables gratuitement pour une utilisation en enseignement et en recherche. La Table 1.2 liste certains des corpus. Pour des informations sur leur téléchargement, consultez http://nltk.org/data. Pour davantage d'exemples sur l'accès aux corpus NLTK, veuillez consulter le HOWTO Corpus à http://nltk.org/howto.

Tableau 1.2:

Certains des corpus et échantillons de corpus distribués avec NLTK : pour des informations sur leur téléchargement et utilisation, veuillez consulter le site web NLTK.

solé pour la confusion. Voici la traduction de la table en format markdown :
Corpus	Compilateur	Contenus
Corpus inaugural	CSpan	Discours inauguraux présidentiels américains (1789-présent)
Corpus POS-taggué indien	Kumaran et al	60k mots, taggués (bengali, hindi, marathi, telugu)
Corpus MacMorpho	NILC, USP, Brésil	1M de mots, taggués (portugais brésilien)

|Corpus|Compilateur|Contenus|
|------|-----------|--------|
|Corpus inaugural|CSpan|Discours inauguraux présidentiels des États-Unis (1789-présent)|
|Corpus POS-tagué indien|Kumaran et al|60k mots, taggés (Bangla, Hindi, Marathi, Telugu)|
|Corpus MacMorpho|NILC, USP, Brésil|1M mots, taggés (portugais brésilien)|
|Critiques de films|Pang, Lee|2k critiques de films avec classification de la polarité de l'avis|
|Corpus de noms|Kantrowitz, Ross|8k noms masculins et féminins|
|NIST 1999 Info Extr (sélections)|Garofolo|63k mots, marquage SGML de nouvelles et d'entités nommées|
|Nombank|Meyers|115k propositions, 1400 cadres nominaux|
|Corpus NPS Chat|Forsyth, Martell|10k messages de chat IM, taggés POS et dialogue-act|
|Open Multilingual WordNet|Bond et al|15 langues, alignées sur WordNet anglais|
|Corpus PP Attachment|Ratnaparkhi|28k phrases prépositionnelles, taggées comme modificateurs nominaux ou verbaux|
|Proposition Bank|Palmer|113k propositions, 3300 cadres verbeux|
|Classification des questions|Li, Roth|6k questions, catégorisées|
|Corpus Reuters|Reuters|1.3M mots, 10k documents de nouvelles, catégorisés|
|Thesaurus de Roget|Projet Gutenberg|200k mots, formatés|
|RTE Textual Entailment|Dagan et al|8k paires de phrases, catégorisées|
|SEMCOR|Rus, Mihalcea|880k mots, taggés pour le part-of-speech et le sens|
|Corpus Senseval 2|Pedersen|600k mots, taggés pour le part-of-speech et le sens|
|SentiWordNet|Esuli, Sebastiani|scores de sentiment pour 145k ensembles de synonymes WordNet|
|textes de Shakespeare (sélections)|Bosak|8 livres en format XML|
|Corpus de l'état de l'Union|CSPAN|485k mots, formatés|
|Corpus de mots vides|Porter et al|2,400 mots vides pour 11 langues|
|Corpus Swadesh|Wiktionary|listes comparatives de mots pour 24 langues|
|Switchboard Corpus (selections)|LDC|36 conversations téléphoniques, transcrites et analysées|
|Univ Decl of Human Rights|Organisation des Nations Unies|480k mots, plus de 300 langues|
|Penn Treebank (selections)|LDC|40k mots, taggés et analysés|
|TIMIT Corpus (selections)|NIST/LDC|Fichiers audio et transcriptions pour 16 locuteurs|
|VerbNet 2.1|Palmer et al|5k verbes, organisés hiérarchiquement, liés à WordNet|
|Wordlist Corpus|OpenOffice.org et al|960k mots et 20k affixes pour 8 langues|
|WordNet 3.0 (anglais)|Miller, Fellbaum|145k ensembles de synonymes|

### 7. Corpus dans d'autres langues

NLTK est livré avec des corpus pour de nombreuses langues, bien que dans certains cas vous devrez apprendre à manipuler les encodages de caractères en Python avant d'utiliser ces corpus (voir 3.3).

In [None]:
# nltk.download('cess_esp')
# nltk.corpus.cess_esp.words()
# ['El', 'grupo', 'estatal', 'Electricit\xe9_de_France', ...]
# nltk.download('floresta')
nltk.corpus.floresta.words()
# ['Um', 'revivalismo', 'refrescante', 'O', '7_e_Meio', ...]
# nltk.download('indian')
nltk.corpus.indian.words('hindi.pos')
# ['पूर्ण', 'प्रतिबंध', 'हटाओ', ':', 'इराक', 'संयुक्त', ...]
# nltk.download('udhr')
nltk.corpus.udhr.fileids()
# ['Abkhaz-Cyrillic+Abkh', 'Abkhaz-UTF8', 'Achehnese-Latin1', 'Achuar-Shiwiar-Latin1',
# 'Adja-UTF8', 'Afaan_Oromo_Oromiffa-Latin1', 'Afrikaans-Latin1', 'Aguaruna-Latin1',
# 'Akuapem_Twi-UTF8', 'Albanian_Shqip-Latin1', 'Amahuaca', 'Amahuaca-Latin1', ...]
nltk.corpus.udhr.words('Javanese-Latin1')[11:]
# ['Saben', 'umat', 'manungsa', 'lair', 'kanthi', 'hak', ...]

Le dernier de ces corpus, `udhr`, contient la Déclaration universelle des droits de l'homme dans plus de 300 langues. Les identifiants de fichier pour ce corpus incluent des informations sur l'encodage de caractères utilisé dans le fichier, comme `UTF8` ou `Latin1`. Utilisons une distribution de fréquence conditionnelle pour examiner les différences dans les longueurs des mots pour une sélection de langues incluses dans le corpus `udhr`. La sortie est affichée dans 1.2 (exécutez le programme vous-même pour voir un graphique en couleurs). Notez que `True` et `False` sont les valeurs booléennes intégrées de Python.

In [None]:
from nltk.corpus import udhr
languages = ['Chickasaw', 'English', 'German_Deutsch',
    'Greenlandic_Inuktikut', 'Hungarian_Magyar', 'Ibibio_Efik']
cfd = nltk.ConditionalFreqDist(
    (lang, len(word))
    for lang in languages
    for word in udhr.words(lang + '-Latin1'))
cfd.plot(cumulative=True)

Figure 1.2 : *Distributions cumulatives de longueur de mots : Six traductions de la Déclaration universelle des droits de l'homme sont traitées ; ce graphique montre que les mots ayant 5 lettres ou moins représentent environ 80 % du texte en ibibio, 60 % du texte en allemand et 25 % du texte en inuktitut.*

**A vous de jouer** : Choisissez une langue qui vous intéresse dans `udhr.fileids()`, et définissez une variable `raw_text = udhr.raw(Language-Latin1)`. Maintenant, tracez une distribution de fréquence des lettres du texte en utilisant `nltk.FreqDist(raw_text).plot()`.

Malheureusement, pour de nombreuses langues, des corpus importants ne sont pas encore disponibles. Souvent, il n'y a pas de soutien gouvernemental ou industriel pour développer des ressources linguistiques, et les efforts individuels sont épars et difficiles à découvrir ou à réutiliser. Certaines langues n'ont pas de système d'écriture établi, ou sont en danger. (Voir 7 pour des suggestions sur la façon de localiser des ressources linguistiques.)

## Les corpus de SKL

### 7.2.2. Le jeu de données textuelles 20 newsgroups

[fetch_20newsgroups]: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups.html
[CountVectorizer]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
[fetch_20newsgroups_vectorized]: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups_vectorized.html

Le jeu de données 20 newsgroups comprend environ 18 000 publications de groupes de discussion sur 20 sujets divisés en deux sous-ensembles: un pour l'entraînement (ou le développement) et l'autre pour les tests (ou pour l'évaluation des performances). La séparation entre l'ensemble d'entraînement et l'ensemble de test est basée sur des messages publiés avant et après une date spécifique.

Ce module contient deux chargeurs. Le premier, [**`sklearn.datasets.fetch_20newsgroups`**][fetch_20newsgroups], renvoie une liste des textes bruts qui peuvent alimenter  des extracteurs de caractéristiques de texte tels que [**`CountVectorizer`**][CountVectorizer] avec des paramètres personnalisés pour extraire des vecteurs de caractéristiques. Le second, [**`sklearn.datasets.fetch_20newsgroups_vectorized`**][fetch_20newsgroups_vectorized], renvoie des caractéristiques prêtes à l'emploi, c'est-à-dire qu'il n'est pas nécessaire d'utiliser un extracteur de caractéristiques.

Caractéristiques du jeu de données :

* Classes : 20
* Nombre d'échantillons : 18 846
* Dimensionalité : 1
* Caractéristiques : text

#### 7.2.2.1. Utilisation

[fetch_20newsgroups]: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups.html
[load_files]: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html

La fonction [**`sklearn.datasets.fetch_20newsgroups`**][fetch_20newsgroups] est une fonction de récupération / mise en cache de données qui télécharge l'archive de données du site 20 newsgroups d'origine, extrait le contenu de l'archive dans le dossier `~/scikit_learn_data/20news_home` et appelle [**`sklearn.datasets.load_files`**][load_files] sur l'ensemble d'entraînement ou de test, ou les deux :

In [1]:
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

from pprint import pprint
pprint(list(newsgroups_train.target_names))

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']


Les données réelles se trouvent dans les attributs `filename` et `target`. L'attribut cible est l'index entier de la catégorie :

In [2]:
newsgroups_train.filenames.shape
# (11314,)
newsgroups_train.target.shape
# (11314,)
newsgroups_train.target[:10]
# array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

Il est possible de charger seulement une sous-sélection des catégories en passant la liste des catégories à charger à la fonction [**`sklearn.datasets.fetch_20newsgroups`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups.html) :

In [3]:
cats = ['alt.atheism', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train', categories=cats)

list(newsgroups_train.target_names)
# ['alt.atheism', 'sci.space']
newsgroups_train.filenames.shape
# (1073,)
newsgroups_train.target.shape
# (1073,)
newsgroups_train.target[:10]
# array([0, 1, 1, 1, 0, 1, 1, 0, 0, 0])

array([0, 1, 1, 1, 0, 1, 1, 0, 0, 0], dtype=int64)

#### Convertir le texte en vecteurs

Afin d'alimenter des modèles prédictifs ou de clustering avec les données textuelles, il est nécessaire de convertir le texte en vecteurs de valeurs numériques adaptés pour l'analyse statistique. Cela peut être réalisé avec les utilitaires de `sklearn.feature_extraction.text`, comme le montre l'exemple suivant qui extrait des vecteurs [**TF-IDF**](https://en.wikipedia.org/wiki/Tf%E2%80%93idf) d'unigrammes d'un sous-ensemble de 20news :

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train', categories=categories)
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape
# (2034, 34118)

(2034, 34118)

Les vecteurs TF-IDF extraits sont très creux, avec une moyenne de 159 composants non-nuls par échantillon dans un espace de plus de 30000 dimensions (moins de 0,5 % de caractéristiques non-nulles) :

In [5]:
vectors.nnz / float(vectors.shape[0])

159.0132743362832

[**`sklearn.datasets.fetch_20newsgroups_vectorized`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups_vectorized.html) est une fonction qui retourne des fonctionnalités de comptage de jetons prêtes à l'emploi au lieu de noms de fichiers.

#### 7.2.2.3. Filtrer le texte pour un entraînement plus réaliste

Il est facile pour un classificateur de surapprendre sur des éléments particuliers qui apparaissent dans les données 20 Newsgroups, tels que les en-têtes de groupes de nouvelles. De nombreux classificateurs obtiennent des scores F très élevés, mais leurs résultats ne se généraliseraient pas à d'autres documents qui ne sont pas de cette période de temps.

Par exemple, examinons les résultats d'un classificateur Naive Bayes multinomial, qui est rapide à entraîner et qui obtient un score F décent :

In [6]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
newsgroups_test = fetch_20newsgroups(subset='test', categories=categories)
vectors_test = vectorizer.transform(newsgroups_test.data)
clf = MultinomialNB(alpha=.01)
clf.fit(vectors, newsgroups_train.target)
MultinomialNB(alpha=0.01, class_prior=None, fit_prior=True)

pred = clf.predict(vectors_test)
metrics.f1_score(newsgroups_test.target, pred, average='macro')
# 0.88213...

0.8821359240272957

(L'exemple [**Classification de documents de textes en utilisant des caractéristiques creuses**](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html) mélange les données d'entraînement et de test, au lieu de les segmenter par le temps, et dans ce cas le classificateur Naive Bayes multinomial obtient un score F beaucoup plus élevé de 0,88. Etes-vous déjà suspicieux de ce qui se passe à l'intérieur de ce classificateur ?)

Examinons ce que sont les caractéristiques les plus informatives :

In [9]:
import numpy as np
def show_top10(classifier, vectorizer, categories):
    feature_names = vectorizer.get_feature_names_out()
    for i, category in enumerate(categories):
        top10 = np.argsort(classifier.feature_count_[i])[-10:]
        print("%s: %s" % (category, " ".join(feature_names[top10])))

show_top10(clf, vectorizer, newsgroups_train.target_names)
# alt.atheism: edu it and in you that is of to the
# comp.graphics: edu in graphics it is for and of to the
# sci.space: edu it that is in and space to of the
# talk.religion.misc: not it you in is that and to of the

alt.atheism: edu it and in you that is of to the
comp.graphics: edu in graphics it is for and of to the
sci.space: edu it that is in and space to of the
talk.religion.misc: not it you in is that and to of the


Vous pouvez maintenant voir de nombreuses choses que ces caractéristiques ont surappris :
* Presque chaque groupe est distingué par la présence ou non de têtes telles que `NNTP-Posting-Host:` et `Distribution:`.
* Une autre caractéristique significative concerne l'affiliation de l'expéditeur à une université, indiquée soit par leurs en-têtes, soit par leur signature.
* Le mot "article" est une caractéristique significative, en fonction de la fréquence avec laquelle les gens citent des messages précédents de cette façon: "Dans l'article [ID de l'article], [nom] <[adresse e-mail]> a écrit:".
* D'autres caractéristiques correspondent aux noms et aux adresses e-mail de personnes particulières qui ont publié à ce moment-là.

Avec une telle abondance d'indices qui distinguent les groupes de nouvelles, les classificateurs n'ont presque pas besoin d'identifier les sujets à partir du texte et ils performent tous à un niveau élevé.

Pour cette raison, les fonctions qui chargent les données 20 Newsgroups fournissent un paramètre appelé **remove**, lui indiquant quelles informations enlever de chaque fichier. **remove** devrait être un tuple contenant n'importe quel sous-ensemble de `('headers', 'footers', 'quotes')`, indiquant qu'il faut supprimer les en-têtes, les blocs de signature et les blocs de citation respectivement.

In [8]:
newsgroups_test = fetch_20newsgroups(
    subset='test',
    remove=('headers', 'footers', 'quotes'),
    categories=categories
)
vectors_test = vectorizer.transform(newsgroups_test.data)
pred = clf.predict(vectors_test)
metrics.f1_score(pred, newsgroups_test.target, average='macro')
# 0.77310...

0.7731035068127478

Ce classificateur a perdu une grande partie de son score F simplement parce que nous avons enlevé des métadonnées qui n'ont peu à voir avec la classification de sujets. Il perd encore plus si nous enlevons également ces métadonnées des données d'entraînement.

In [10]:
newsgroups_train = fetch_20newsgroups(
    subset='train',
    remove=('headers', 'footers', 'quotes'),
    categories=categories
)
vectors = vectorizer.fit_transform(newsgroups_train.data)
clf = MultinomialNB(alpha=.01)
clf.fit(vectors, newsgroups_train.target)
MultinomialNB(alpha=0.01, class_prior=None, fit_prior=True)

In [11]:
vectors_test = vectorizer.transform(newsgroups_test.data)
pred = clf.predict(vectors_test)
metrics.f1_score(newsgroups_test.target, pred, average='macro')
# 0.76995...

0.7699517518452172

D'autres classificateurs font mieux face à cette version plus difficile de la tâche. Essayez l'exemple de [**pipeline d'extraction et d'évaluation des caractéristiques de texte**](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html) avec et sans l'option `remove` pour comparer les résultats.

#### Considérations de données

Les Cleveland Indians sont une équipe de baseball de la ligue majeure basée à Cleveland, Ohio, États-Unis. En décembre 2020, il a été rapporté que « Après plusieurs mois de discussion déclenchée par la mort de George Floyd et un bilan national sur la race et le colonialisme, les Cleveland Indians ont décidé de changer de nom ». Le propriétaire de l'équipe, Paul Dolan, a « clairement fait comprendre que l'équipe ne fera pas de son surnom informel - le Tribe - son nouveau nom d'équipe ». « Ce ne sera pas un demi-pas loin des Indiens », a déclaré Dolan. « Nous n'aurons pas de nom à thème amérindien ».

https://www.mlb.com/news/cleveland-indians-team-name-change

#### Recommandation

* Lors de l'évaluation de classificateurs de texte sur les données 20 Newsgroups, vous devriez enlever les métadonnées liées aux groupes de nouvelles. Dans scikit-learn, vous pouvez le faire en définissant `remove=('headers', 'footers', 'quotes')`. Le score F sera plus bas parce qu'il est plus réaliste.
* Cet ensemble de données de texte contient des données qui peuvent être inappropriées pour certaines applications NLP. Un exemple est indiqué dans la section "Considérations de données" ci-dessus. Le défi de l'utilisation de jeux de données de texte actuels en NLP pour des tâches telles que la complétion de phrases, le regroupement et d'autres applications est que le texte biaisé et inflammatoire culturel se propagera. Cela devrait être pris en compte lors de l'utilisation du jeu de données, de la revue de la sortie et du biais devrait être documenté.

#### Exemples

**Pipeline d'échantillon pour l'extraction et l'évaluation des caractéristiques de texte**

**Classification de documents de texte à l'aide de caractéristiques creuses**

**Comparaison FeatureHasher et DictVectorizer**

##### [**Regroupement de documents texte à l'aide de k-means**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/text/plot_document_clustering.ipynb)<br/>([*Clustering text documents using k-means*](https://scikit-learn.org/stable/auto_examples/text/plot_document_clustering.html))

## Les corpus de Spacy

## Les exemples Kaggle de référence

## Autres corpus d'exemples standards

## Mes propres corpus