## Familiarisation avec les modules sklearn de chargement de textes

Scikit-learn fournit des modules permettant de transformer une collection de documents en matrices de représentations de type "**bag of words**".

La clé est que les matrices construites utilisent le type scipy.sparse, adapté pour les **matrices creuses**.

Ces modules font au choix
- le calcul du vocabulaire (la correspondance entre mots et id de mots) (méthode fit)
- la transformation de documents en matrices de comptes d'occurrences (méthode transform)
- ou les 2 à la fois (fit_transform)


In [35]:
# https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
train_corpus = [
     'Ceci est un document.',
     'Ce document est encore un document à moi.',
     'Et voilà le troisième.',
     'Le premier document est-il le plus intéressant?',

 ]
vectorizer = CountVectorizer(token_pattern=r"[^ ]+")
# le vectorizer est vide
#print(vectorizer.vocabulary_)
#print(vectorizer.get_feature_names())

# on le remplit, tout en transformant les données de train 
X_train = vectorizer.fit_transform(train_corpus)

# la matrice est une matrice creuse
print(type(X_train))
print(X_train.shape)
print(X_train)

# la voici rétablie en matrice complète
print(X_train.toarray()) 

<class 'scipy.sparse.csr.csr_matrix'>
(4, 17)
  (0, 3)	1
  (0, 14)	1
  (0, 5)	1
  (0, 1)	1
  (1, 10)	1
  (1, 16)	1
  (1, 4)	1
  (1, 2)	2
  (1, 0)	1
  (1, 14)	1
  (1, 5)	1
  (2, 13)	1
  (2, 9)	1
  (2, 15)	1
  (2, 7)	1
  (3, 8)	1
  (3, 11)	1
  (3, 6)	1
  (3, 12)	1
  (3, 9)	2
  (3, 2)	1
[[0 1 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0]
 [1 0 2 0 1 1 0 0 0 0 1 0 0 0 1 0 1]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 1 0]
 [0 0 1 0 0 0 1 0 1 2 0 1 1 0 0 0 0]]


In [36]:
# le mapping appris entre mots et id de mots
print(vectorizer.vocabulary_)
print(vectorizer.get_feature_names())

test_corpus = [ 'Ah un nouveau document.',
              'Et ceci est encore un document.']

X_test = vectorizer.transform(test_corpus)
print(X_test.shape)
print(vectorizer.vocabulary_)
print(vectorizer.get_feature_names())

{'ce': 0, 'document.': 3, 'et': 7, 'est': 5, 'le': 9, 'un': 14, 'plus': 11, 'ceci': 1, 'document': 2, 'intéressant?': 8, 'troisième.': 13, 'est-il': 6, 'encore': 4, 'moi.': 10, 'premier': 12, 'voilà': 15, 'à': 16}
['ce', 'ceci', 'document', 'document.', 'encore', 'est', 'est-il', 'et', 'intéressant?', 'le', 'moi.', 'plus', 'premier', 'troisième.', 'un', 'voilà', 'à']
(2, 17)
{'ce': 0, 'document.': 3, 'et': 7, 'est': 5, 'le': 9, 'un': 14, 'plus': 11, 'ceci': 1, 'document': 2, 'intéressant?': 8, 'troisième.': 13, 'est-il': 6, 'encore': 4, 'moi.': 10, 'premier': 12, 'voilà': 15, 'à': 16}
['ce', 'ceci', 'document', 'document.', 'encore', 'est', 'est-il', 'et', 'intéressant?', 'le', 'moi.', 'plus', 'premier', 'troisième.', 'un', 'voilà', 'à']


In [40]:
# QUESTIONS:

# Que se passe-t-il pour les mots du test_corpus non présents dans le train_corpus?
# Comparez avec :
# vectorizer.fit(test_corpus)
# vectorizer.fit_transform(test_corpus)

# comment changer la tokenisation effectuee? (lors de la création de l'instance de CountVectorizer)
# en particulier, comment simplement splitter sur les espaces (en supposant donc que les textes sont déjà tokenisés)
# aide: pour voir tous les membres de l'instance, et en déduire quel membre modifier:
print("\nMEMBRES:", vectorizer.__dict__)

train_corpus = [
     'Ceci est un document .',
     'Ce document est encore un document à moi .',
     'Et voilà le troisième .',
     'Le premier document est -il le plus intéressant ?',
 ]
X_train = vectorizer.fit_transform(train_corpus)

print(vectorizer.vocabulary_)
print(vectorizer.get_feature_names())

# étudiez la classe TfidfTransformer
# https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html
# en déduire comment passer à des vecteurs normalisés
# Cherchez ce qu'est une pondération TF.IDF
tfidf = TfidfTransformer()
print(tfidf.fit_transform(train_corpus))


MEMBRES: {'analyzer': 'word', 'max_features': None, 'preprocessor': None, 'vocabulary_': {'intéressant': 9, 'ce': 3, '-il': 0, 'troisième': 14, 'et': 8, 'est': 7, 'moi': 11, 'le': 10, 'un': 15, 'plus': 12, '.': 1, 'ceci': 4, 'document': 5, 'encore': 6, '?': 2, 'premier': 13, 'voilà': 16, 'à': 17}, 'max_df': 1.0, 'decode_error': 'strict', 'stop_words': None, 'strip_accents': None, 'binary': False, 'dtype': <class 'numpy.int64'>, 'token_pattern': '[^ ]+', 'input': 'content', 'tokenizer': None, 'vocabulary': None, 'lowercase': True, 'min_df': 1, 'encoding': 'utf-8', 'fixed_vocabulary_': False, '_stop_words_id': 94436103786736, 'ngram_range': (1, 1), 'stop_words_': set()}
{'intéressant': 9, 'ce': 3, '-il': 0, 'troisième': 14, 'et': 8, 'est': 7, 'moi': 11, 'le': 10, 'un': 15, 'plus': 12, '.': 1, 'ceci': 4, 'document': 5, 'encore': 6, '?': 2, 'premier': 13, 'voilà': 16, 'à': 17}
['-il', '.', '?', 'ce', 'ceci', 'document', 'encore', 'est', 'et', 'intéressant', 'le', 'moi', 'plus', 'premier',