# Traitement de textes : Text processing 

Il existe différentes librairies sous Python pour analyser le texte. 
L'analyse peut aller de l'extraction de mots simple (une tokenisation), jusqu'à l'analyse un peu plus "poussée" </br>
telle que la construction, de vecteurs de mots pondérés, de vecteurs continus (LSI, LDA, embedings,..).
De manière générale le  "text processing" passe par les étapes suivantes=
- segmentation des textes en mots simples (tokenizer) avec ou sans suppression de mots vides
- construction du vocabulaire (le dictionnaire): vocabulary—lexicon
- vectorisation d'un texte avec ou non pondération

Il existe différentes librairies qui assurent ces fonctions d'analyse de textes: NTK, SKLEARN, GENSIM.

## 1 - Bibliothèque (librairie) NLTK
Le texte ci-dessous montre deux fonctions, 
- la première construit à partir d'un texte, son sac de mots (le texte en question est segmenté (split), tokenizé, suppression de mots vides, normalisation.
- La seconde fonction fait un comptage (bag of words avec les fréquence des mots).

In [None]:
!pip install nltk

In [None]:
#NLTK
import nltk
import nltk
from nltk import word_tokenize, sent_tokenize 
from nltk.util import ngrams
nltk.download('punkt')


### Lecture des données (Load text file)

In [None]:
with open('./data/text_file1.txt') as f:
        text=f.read()

text_fr='''ceci est un exemple de texte qui sera traité par nltK. \
      Il existe différentes librairies sous Python pour analyser le texte. \
      L'analyse peut consister à extraire les mots simples, jusqu''à l''analyse un peu plus \
      "poussée", vecteurs de mots pondérés, représentations continues (LSI, LDA, embedings,..).\
      '''

text_en="    Text representation is one of the fundamental problems in text mining and \
    Information Retrieval (IR).\
    It aims to numerically represent the unstructured text documents to make them mathematically computable."


### Extraire les phrases
Un text peut être segmenté de différentes manières, par phrase (sentence), par mots, par charactères, par n-grams, ...

In [None]:
sentences=sent_tokenize(text_fr)
sentences

#### Extraire les mots (tokenizer) 

In [None]:
# seuls les mots (tokens) sont extraits)
tokens = word_tokenize(text_fr.lower())
print("LES TOKENS:")
print(tokens)


#### Extraire les n-grams

In [None]:
#récuperer la liste des n grammes (récupérer les mots adjenents 2 à deux.)
print()
list(ngrams(tokens,2))
print('LES nGRAMs')
print(list(ngrams(tokens,2)))


#### Suppression des mots vides

In [None]:
# suppression des stop words "french, english, ...
stop_words = nltk.corpus.stopwords.words('french')
#Liste des mots sans les mots vides
new_tokens = [w for w in tokens if not w in stop_words]
print(new_tokens)

#### Suppression des caractères spéciaux

In [None]:
import string 
cleaned_tokens = [token for token in new_tokens 
                if not token.isdigit() and not token in string.punctuation] 
print(cleaned_tokens)

### Normalisation
- Stemming 

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer,  SnowballStemmer

#for french 
stemmer = SnowballStemmer(language='french')

# English
#stemmer = PorterStemmer()
#stemmer = SnowballStemmer(language='english')

stemmed_tokens = [stemmer.stem(w) for w in new_tokens if not w in stop_words]
print("Normalisation selon lemmatiseur")
print(stemmed_tokens)


- Lemmatisation (utiliser WoredNet par exemple)

In [None]:
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(w) for w in new_tokens if not w in stop_words]
#print("Normalisation selon lemmatiseur")
print(lemmatized_tokens)


#### Comptage des mots

In [None]:
# compter les tokens (construire le bag of words (Mot,count))
# librairie pour le comptage des mots
from collections import Counter
bag_of_words = Counter(cleaned_tokens)
print("\nLES BAG OF WORDS")
print(bag_of_words)


## 2- Bibliothèque Spacy
Cette bibliothèque offre plusieurs méthodes permettant de traiter de manière fine le texte.</br>
Elle propose une méthode générique, nommée, nlp, qui prend en argument un pipepline (prédéfini) (vous pourrez aussi définir votre propre pipline)(https://spacy.io/models).</br>
Le pipeline comporte un ensemble d'étapes de traitement d'un texte, qui va 
- du plus simple, nlp=spacy.bank("en"), pipline comportant uniquement le tokeniser, ici english, pour le françcais 'fr"
- jusqu'au plus complet nlp=spacy("fr_core_news_sm")( pour les textes en français), (en_core_web_sm pour l'anglais), qui propose plusieurs étapes (voir les cellules ci-dessous) 


In [None]:
import spacy

Pipeline spacy minimal:</br>
 <img height=300 width=400 src="./images/spacy_blank_pipeline.jpg" />

Pipeline spacy plus complet:</br>
<img height=400 width=500 src="./images/image_spacy_pipeline.png" />

#### Pipeline spacy minimal

In [None]:
# On commence par le modèle le plus simple
nlp=spacy.blank("fr")

text_fr='''ceci est un exemple de texte qui sera traité par nltK. \
      Il existe différentes librairies sous Python pour analyser le texte. \
      L'analyse peut consister à extraire les mots simples, jusqu''à l''analyse un peu plus \
      "poussée", vecteurs de mots pondérés, représentations continues (LSI, LDA, embedings,..).\
      '''

text_en="Text representation is one of the fundamental problems in text mining and Information Retrieval (IR).\
#It aims to numerically represent the unstructured text documents to make them mathematically computable"

text=text_fr

In [None]:
# traiter le texte
doc=nlp(text)
print (doc) 

In [None]:
# Afficher les différents composantns NLP qui ont été utilisés dans ce pipline
nlp.pipe_names

#### Pipeline spacy prédéfini 
Vous pourrez aller sur le site de spacy pour sélectionner le pipeline de votre choix.

<img height=400 width=500 src="./images/list_tasks_spacy.png" />

On peut prendre l'un de ces piplines </br>
- fr_code_news_sm, pour traiter des textes en français
- en_core_web_sm pour l'anglais

In [None]:
nlp=spacy.load("fr_core_news_sm")

In [None]:
# Un simple appel nlp
doc=nlp(text)

In [None]:
#Afficher les composants du pipeline
nlp.pipe_names

In [None]:
# Exemple affichage des token (les mots) du lemme et de la POS (etiquetage grammatical) des mots
for token in doc:
    print(token, " | ", spacy.explain(token.pos_), " | ", token.lemma_)

In [None]:
print(dir(doc))

## 3. Bibliothèque Sklearn
Scikit learn (SKLEARN) est une bibliothèque de "Machine learning". </br>
[Scikit-learn](https://scikit-learn.org/stable/index.html)
Elle propose deux manières (méthodes) assez simples pour construire des vecteurs de textes :
- Un simple `countVectorizer` qui construit un vecteur d'id (idenifiant de tokens)avec les férquences des mots 
- ou un `TfidfVectorizer` vecteur, IDs pondérés à la tf.idf

[Scikit-learn- vectorization](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction.text)
Vous trouverez ci dessous ces deux cas.

In [None]:
#NLP avec scikit-learn
# Libraire pour la vectorization des textes
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

#### Lecture des données.
Vous pourrez manipuler deux types de textes (documents). Le premier très petit  5 documents, définis dans une liste python, </br>
le second est un fichier comportant plus de 800000 documents issus du web (on ne va pas travailler sur l'ensemble des documents de ce fichier).</br>
La fonction load permet de limiter le nombre de documents à extraire.

In [None]:
# Choisir une option lecture du Texte et la procédure de construction des tockens

# Sample of 5 documents 
def get_documents():
    documents = [
    "Text retrieval is the process of finding text and documents, that are relevant to a user's query.",
    "Gensim is a popular library for topic modeling and text retrieval in Python.",
    "Cosine similarity is a metric used to measure how similar two vectors are.",
    "Vectorization is the process of converting text data into numerical vectors.",
    "Python is a versatile programming language used for various applications."
    ]  
    return documents

## Plusieurs fichiers dans un répértoire
def readfiles_from_dir(dir_path='./data'):
    for file_name in os.listdir(dir_path):
        if ".txt" in file_name:
            texts = [simple_preprocess(remove_stopwords(sentence))
                  for sentence in open(os.path.join(dir_path, file_name), encoding='utf-8')]
    return texts

# Function to read texts from a file
def read_texts_from_file(file_path,n):
    with open(file_path, 'r', encoding='utf-8') as file:
        texts = file.readlines()

    return texts[0:n]

def get_names():
    documents = [
    "Dupont",
    "dupond",
    "martin"
    ]  
    return documents

In [None]:
# lecture du fichier 
#file_path = './data/msmarco/collection.tsv'
##documents = read_texts_from_file(file_path,100)
#file_path='../cours/pdf/Cours_RI.pdf'
#documents=get_pdf_doc(file_path)

documents=get_documents()

In [None]:
names=get_names()

In [None]:
documents[1]

#### Convertir les documents sous forme vectorielle
- Un vecteur par document comportant TfDdf (ou un simple count) 
- On peut limiter le nombre de termes de l'espace vectoriel, ici à 20000 par exemple</br>


In [None]:
#Un simple counter 
#(le résultat est une matrice TermexDocuments avec la fréquence de chaque terme dans un document
# Définir un modèle de trasformation 
cv = CountVectorizer(analyzer='word', ngram_range = (1, 1), max_features=100)

doc_vectors_count = cv.fit_transform(documents).todense()

# on peut aussi extraire des n-grams 
#il suffit de rajouter ngram_range = (2, 3) dans les paramètres (extraire les bigrams)



In [None]:
cv.vocabulary_

In [7]:
doc_vectors_count[0]

matrix([[1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
         0, 1, 0, 0, 1, 1, 1, 0, 0, 2, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0]])

In [8]:
# on peut aussi extraire des n-grams 
#il suffit de rajouter ngram_range = (2, 3) (bi et tri grams) dans les paramètres (extraire les bigrams)

cv = CountVectorizer(analyzer='word', ngram_range = (1, 2), max_features=100)

doc_vectors_count = cv.fit_transform(documents).todense()


In [9]:
cv.vocabulary_

{'text': 65,
 'retrieval': 58,
 'is': 27,
 'the': 71,
 'process': 49,
 'of': 44,
 'finding': 14,
 'and': 0,
 'documents': 12,
 'that': 69,
 'are': 4,
 'relevant': 56,
 'to': 73,
 'user': 83,
 'query': 55,
 'text retrieval': 68,
 'retrieval is': 60,
 'is the': 30,
 'the process': 72,
 'process of': 50,
 'of finding': 46,
 'finding text': 15,
 'text and': 66,
 'and documents': 1,
 'documents that': 13,
 'that are': 70,
 'are relevant': 5,
 'relevant to': 57,
 'to user': 75,
 'user query': 84,
 'gensim': 19,
 'popular': 47,
 'library': 34,
 'for': 16,
 'topic': 76,
 'modeling': 40,
 'in': 23,
 'python': 53,
 'gensim is': 20,
 'is popular': 29,
 'popular library': 48,
 'library for': 35,
 'for topic': 17,
 'topic modeling': 77,
 'modeling and': 41,
 'and text': 2,
 'retrieval in': 59,
 'in python': 24,
 'cosine': 8,
 'similarity': 63,
 'metric': 38,
 'used': 80,
 'measure': 36,
 'how': 21,
 'similar': 61,
 'two': 78,
 'vectors': 89,
 'cosine similarity': 9,
 'similarity is': 64,
 'is metri

In [None]:
#afficher le vocabulaire
print(len(cv.vocabulary_))

In [None]:
#afficher (la liste des features (le vocabulaire) non traité"
cv.get_feature_names_out()

In [10]:
# afficher le vecteur du premier document 
print(doc_vectors_count[0])

[[1 1 0 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
  0 0 0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0 0 0 2 1 0 1 1 1 1
  1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0]]


In [None]:
#afficher les dimensions de la matrice doc-termes(voca)
doc_vectors_count.shape

In [11]:
# Une version avec tfidf
tf_idf_vectorizer = TfidfVectorizer(stop_words='english', token_pattern=r'\w+', max_features=100)
doc_vectors_tfidf = tf_idf_vectorizer.fit_transform(documents)
#.todense()


In [None]:
vectorizer.get_params()

#### Visualiser (le vocabulaire, les vecteurs des documents, ...)

In [None]:
tf_idf_vectorizer.vocabulary_

In [14]:
print(doc_vectors_tfidf[4])

  (0, 0)	0.3983516165374428
  (0, 27)	0.3983516165374428
  (0, 7)	0.3983516165374428
  (0, 15)	0.3983516165374428
  (0, 30)	0.3983516165374428
  (0, 25)	0.32138757599667
  (0, 16)	0.32138757599667


#### Calcul des similarites entre textes
- Calculer la simialrité entre deux textes
- Vérifier les dimensions des vecteurs requête et documents.</br>
[Sklearn cosine-similarity](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html)

In [None]:
import numpy as np

#User query
query = "text retrieval france"
# transform la requête sous forme d'un vecteur dans l'espace engendré par le vocavulaire des documents
# on utlise un ransform sans le fit  
query_vector = tf_idf_vectorizer.transform([query])

# Calculate cosine similarity between the query and documents
similarities = cosine_similarity(query_vector, doc_vectors_tfidf).flatten()

# Get the index of the most similar document
most_similar_index = np.argmax(similarities)

# Display the most relevant document
print("Query:", query)
print("Most relevant document:", documents[most_similar_index])
print("Cosine Similarity:", similarities[most_similar_index])


In [None]:
similarities

In [None]:
print(query_vector.shape, doc_vectors_tfidf.shape,similarities.flatten().shape)

In [None]:
def get_tfidf_top_features(documents,n_top=10):
  tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2,  stop_words='english')
  tfidf = tfidf_vectorizer.fit_transform(documents)
  importance = np.argsort(np.asarray(tfidf.sum(axis=0)).ravel())[::-1]
  tfidf_feature_names = np.array(tfidf_vectorizer.get_feature_names_out())
  return tfidf_feature_names[importance[:n_top]]

In [None]:
get_tfidf_top_features(documents)