# ***Text Mining in Python: Steps and Examples***   
Dans le scénario d'aujourd'hui, un moyen de réussir les gens est identifié par la façon dont ils communiquent et partagent des informations avec les autres. C'est là que les concepts de langage entrent en jeu. Cependant, il existe de nombreuses langues dans le monde. Chacun a de nombreux standards et alphabets, et la combinaison de ces mots disposés de manière significative a abouti à la formation d'une phrase. Chaque langue a ses propres règles lors du développement de ces phrases et ces ensembles de règles sont également connus sous le nom de grammaire.
   
Dans le monde d'aujourd'hui, selon les estimations de l'industrie, seulement 20% des données sont générées au format structuré au moment où nous parlons, lorsque nous tweetons, lorsque nous envoyons des messages sur WhatsApp, e-mail, Facebook, Instagram ou tout autre message texte. Et la majorité de ces données existe sous forme textuelle qui est un format hautement non structuré. Afin de produire des informations significatives à partir des données de texte, nous devons suivre une méthode appelée Analyse de texte.  






## ***What is Text Mining?***  
   
L'exploration de texte est le processus de dérivation d'informations significatives à partir d'un texte en langage naturel.  
   
***What is NLP?***  
*Le traitement du langage naturel (NLP) fait partie de l'informatique et de l'intelligence artificielle qui traite des langues humaines.*   
   
En d'autres termes, la PNL est un composant de l'exploration de texte qui effectue un type spécial d'analyse linguistique qui aide essentiellement une machine à «lire» le texte . Il utilise une méthodologie différente pour déchiffrer les ambiguïtés dans le langage humain , y compris les suivantes: résumé automatique, marquage d'une partie du discours, désambiguïsation, découpage, ainsi que désambiguïsation et compréhension et reconnaissance du langage naturel. Nous verrons tous les processus étape par étape en utilisant Python.   
   
Tout d'abord, nous devons installer la bibliothèque NLTK qui est la boîte à outils en langage naturel pour créer des programmes Python pour travailler avec des données en langage humain et qui fournit également une interface facile à utiliser.   
    



## ***Terminologies in NLP***  
* ***Tokenization***  
La tokenisation est la première étape de la NLP. C'est le processus de fractionnement des chaînes en jetons qui à leur tour sont de petites structures ou unités. La tokenisation implique trois étapes qui consistent à décomposer une phrase complexe en mots, à comprendre l'importance de chaque mot par rapport à la phrase et enfin à produire une description structurelle sur une phrase d'entrée.  
   
***Code***

In [2]:
import numpy as np
import nltk
import os
import nltk.corpus
import nltk
nltk.download('punkt')


# sample text for performing tokenization
text = "In Brazil they drive on the right-hand side of the road. Brazil has a large coastline on the eastern side of South America"

# importing word_tokenize from nltk
from nltk.tokenize import word_tokenize

# Passing the string text into word tokenize for breaking the sentences
token = word_tokenize(text)
token

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['In',
 'Brazil',
 'they',
 'drive',
 'on',
 'the',
 'right-hand',
 'side',
 'of',
 'the',
 'road',
 '.',
 'Brazil',
 'has',
 'a',
 'large',
 'coastline',
 'on',
 'the',
 'eastern',
 'side',
 'of',
 'South',
 'America']

À partir de la sortie ci-dessus, nous pouvons voir le texte divisé en jetons. Les mots, les virgules, les ponctuations sont appelés des jetons.

***Finding frequency distinct in the text***

In [3]:
# finding the frequency distinct in the tokens
# Importing FreqDist library from nltk and passing token into FreqDist

from nltk.probability import FreqDist

fdist = FreqDist(token)
fdist

FreqDist({'.': 1,
          'America': 1,
          'Brazil': 2,
          'In': 1,
          'South': 1,
          'a': 1,
          'coastline': 1,
          'drive': 1,
          'eastern': 1,
          'has': 1,
          'large': 1,
          'of': 2,
          'on': 2,
          'right-hand': 1,
          'road': 1,
          'side': 2,
          'the': 3,
          'they': 1})

'the' se trouve 3 fois dans le texte, 'Brazil' se trouve 2 fois dans le texte, etc.

In [4]:
# To find the frequency of top 10 words
fdist1 = fdist.most_common(10)
fdist1

[('the', 3),
 ('Brazil', 2),
 ('on', 2),
 ('side', 2),
 ('of', 2),
 ('In', 1),
 ('they', 1),
 ('drive', 1),
 ('right-hand', 1),
 ('road', 1)]

* ***Stemming***(Tige)  
La tige se réfère généralement à la normalisation des mots dans sa forme de base ou sa forme racine.  
   
Par exemple, si nous avons des mots attendus, attendant et attendons. Ici, le mot racine est «attendre».Il existe deux méthodes dans Stemming, à savoir, Porter Stemming (supprime les terminaisons morphologiques et flexionnelles communes des mots) et Lancaster Stemming (un algorithme de souche plus agressif).

In [5]:
# Importing Porterstemmer from nltk library
# Checking for the word ‘giving’ 

from nltk.stem import PorterStemmer

pst = PorterStemmer()
pst.stem("waiting")

'wait'

In [6]:
# Checking for the list of words

stm = ["waited", "waiting", "waits"]
for word in stm :
   print(word+ ":" +pst.stem(word))

waited:wait
waiting:wait
waits:wait


In [8]:
# Importing LancasterStemmer from nltk

from nltk.stem import LancasterStemmer

lst = LancasterStemmer()
stm = ["giving", "given", "given", "gave"]
for word in stm :
 print(word+ ":" +lst.stem(word))

giving:giv
given:giv
given:giv
gave:gav


Lancaster est plus agressif que Porter Stemmer

En termes plus simples, c'est le processus de conversion d'un mot dans sa forme de base. La différence entre la racine(stemming) et la lemmatisation est que la lemmatisation considère le contexte et convertit le mot en sa forme de base significative, alors que la racine(stemming) supprime simplement les derniers caractères, ce qui conduit souvent à des significations incorrectes et des fautes d'orthographe.  
   
Par exemple, la lemmatisation identifierait correctement la forme de base du «caring» au «care», alors que la tige(stemming) couperait la partie «ing» et la convertirait en voiture.   
   
La lemmatisation peut être implémentée en python en utilisant Wordnet Lemmatizer, Spacy Lemmatizer, TextBlob, Stanford CoreNLP

In [11]:
# Importing Lemmatizer library from nltk

from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer() 
 
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora"))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
rocks : rock
corpora : corpus


* ***Stop Words***(Arrêter les mots)  
 Les «mots vides( “Stop words” ) sont les mots les plus courants dans une langue comme «le», «a», «at», «for», «above», «on», «is», «all». Ces mots n'ont aucun sens et sont généralement supprimés des textes. Nous pouvons supprimer ces mots vides en utilisant la bibliothèque nltk  
 

In [13]:
# importing stopwors from nltk library
from nltk import word_tokenize
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')

a = set(stopwords.words("english"))

text = "Cristiano Ronaldo was born on February 5, 1985, in Funchal, Madeira, Portugal."
text1 = word_tokenize(text.lower())
print(text1)
stopwords = [x for x in text1 if x not in a]
print(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
['cristiano', 'ronaldo', 'was', 'born', 'on', 'february', '5', ',', '1985', ',', 'in', 'funchal', ',', 'madeira', ',', 'portugal', '.']
['cristiano', 'ronaldo', 'born', 'february', '5', ',', '1985', ',', 'funchal', ',', 'madeira', ',', 'portugal', '.']


* ***Part of speech tagging (POS)*** (Partie du balisage vocal (POS))  
   
Le balisage de partie de discours(Part-of-speech tagging) est utilisé pour attribuer des parties de discours à chaque mot d'un texte donné (comme les noms, les verbes, les pronoms, les adverbes, la conjonction, les adjectifs, l'interjection) en fonction de sa définition et de son contexte. Il existe de nombreux outils disponibles pour les étiqueteurs de point de vente et certains des étiqueteurs largement utilisés sont NLTK, Spacy, TextBlob, Standford CoreNLP, etc.


In [16]:
import nltk
nltk.download('averaged_perceptron_tagger')

text = "vote to choose a particular man or a group (party) to represent them in parliament"
#Tokenize the text
tex = word_tokenize(text)
for token in tex:
  print(nltk.pos_tag([token]))

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[('vote', 'NN')]
[('to', 'TO')]
[('choose', 'NN')]
[('a', 'DT')]
[('particular', 'JJ')]
[('man', 'NN')]
[('or', 'CC')]
[('a', 'DT')]
[('group', 'NN')]
[('(', '(')]
[('party', 'NN')]
[(')', ')')]
[('to', 'TO')]
[('represent', 'NN')]
[('them', 'PRP')]
[('in', 'IN')]
[('parliament', 'NN')]


* ***Named entity recognition*** (Reconnaissance des entités nommées)  
C'est le processus de détection des entités nommées telles que le nom de la personne, le nom de l'emplacement, le nom de l'entreprise, les quantités et la valeur monétaire.

In [20]:
text = "Google’s CEO Sundar Pichai introduced the new Pixel at Minnesota Roi Centre Event"

#importing chunk library from nltk
from nltk import ne_chunk
import nltk
nltk.download('maxent_ne_chunker')
import nltk
nltk.download('words')

# tokenize and POS Tagging before doing chunk
token = word_tokenize(text)
tags = nltk.pos_tag(token)
chunk = ne_chunk(tags)
chunk

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


TclError: ignored

Tree('S', [Tree('PERSON', [('Google', 'NNP')]), ('’', 'NNP'), ('s', 'VBD'), Tree('ORGANIZATION', [('CEO', 'NNP'), ('Sundar', 'NNP'), ('Pichai', 'NNP')]), ('introduced', 'VBD'), ('the', 'DT'), ('new', 'JJ'), ('Pixel', 'NNP'), ('at', 'IN'), Tree('ORGANIZATION', [('Minnesota', 'NNP'), ('Roi', 'NNP'), ('Centre', 'NNP')]), ('Event', 'NNP')])

* ***Chunking*** (Regrouper)  
La segmentation(Chunking) signifie collecter des informations individuelles et les regrouper en plus grandes parties. Dans le contexte de la NLP et de l'exploration de texte, le segmentation(Chunking) signifie un regroupement de mots ou de jetons en morceaux.

In [21]:
text = "We saw the yellow dog"
token = word_tokenize(text)
tags = nltk.pos_tag(token)
reg = "NP: {<DT>?<JJ>*<NN>}" 
a = nltk.RegexpParser(reg)
result = a.parse(tags)
print(result)

(S We/PRP saw/VBD (NP the/DT yellow/JJ dog/NN))
