-----------
-----------

<h2><center>Pre procesamiento de Textos</center></h2>

---

En el escenario actual, una forma de éxito de las personas se identifica por la forma en cómo se comunican y comparten información con los demás. 

Ahí es donde entran en escena los conceptos del lenguaje. Sin embargo, existen muchos idiomas en el mundo. Cada uno tiene muchos estándares y alfabetos, y la combinación de estas palabras organizadas de manera significativa resultó en la formación de una oración. Cada idioma tiene sus propias reglas al desarrollar estas oraciones y estos conjuntos de reglas también se conocen como gramática.

----------

En el mundo actual, según las estimaciones de la industria, solo el 20 por ciento de los datos se generan en el formato estructurado mientras hablamos, cuando twitteamos, cuando enviamos mensajes en WhatsApp, correo electrónico, Facebook, Instagram o cualquier mensaje de texto. Y la mayoría de estos datos existen en forma textual, que es un formato muy desestructurado. Para producir información significativa a partir de los datos de texto, debemos seguir un método llamado Análisis de texto.

---------


<h3><center>¿Qué es Text Mining?</center></h3>

Text Mining es el proceso de derivar información significativa a partir de texto en lenguaje natural.

---

<h3><center>¿Qué es la NPL?</center></h3>

El procesamiento del lenguaje natural (NPL) es un componente de la minería de textos que realiza un tipo especial de análisis lingüístico que esencialmente ayuda a una máquina a “leer” texto. 

Utiliza una metodología diferente para descifrar las ambigüedades en el lenguaje humano, que incluye lo siguiente: resumen automático, etiquetado de parte del discurso, desambiguación, fragmentación, así como desambiguación y comprensión y reconocimiento del lenguaje natural. Veremos todos los procesos paso a paso usando Python.

----

<h3><center>Terminologías en NPL</center></h3>

### Tokenización

La tokenización es el primer paso en la NPL. Es el proceso de romper cadenas en fichas que a su vez son pequeñas estructuras o unidades. La tokenización implica tres pasos que consisten en dividir una oración compleja en palabras, comprender la importancia de cada palabra con respecto a la oración y finalmente producir una descripción estructural en una oración de entrada.

In [2]:
# Importing necessary library
import pandas as pd
import numpy as np
import nltk
import os
import nltk.corpus# sample text for performing tokenization
text = "In Brazil they drive on the right-hand side of the road. Brazil has a large coastline on the eastern side of South America"# importing word_tokenize from nltk
from nltk.tokenize import word_tokenize# Passing the string text into word tokenize for breaking the sentences
token = word_tokenize(text)
token

['In',
 'Brazil',
 'they',
 'drive',
 'on',
 'the',
 'right-hand',
 'side',
 'of',
 'the',
 'road',
 '.',
 'Brazil',
 'has',
 'a',
 'large',
 'coastline',
 'on',
 'the',
 'eastern',
 'side',
 'of',
 'South',
 'America']

In [3]:
# finding the frequency distinct in the tokens
# Importing FreqDist library from nltk and passing token into FreqDist
from nltk.probability import FreqDist
fdist = FreqDist(token)
fdist

FreqDist({'the': 3, 'Brazil': 2, 'on': 2, 'side': 2, 'of': 2, 'In': 1, 'they': 1, 'drive': 1, 'right-hand': 1, 'road': 1, ...})

In [4]:
# To find the frequency of top 10 words
fdist1 = fdist.most_common(10)
fdist1

[('the', 3),
 ('Brazil', 2),
 ('on', 2),
 ('side', 2),
 ('of', 2),
 ('In', 1),
 ('they', 1),
 ('drive', 1),
 ('right-hand', 1),
 ('road', 1)]

### Derivado

La derivación generalmente se refiere a normalizar las palabras en su forma básica o raíz.

In [6]:
# Importing Porterstemmer from nltk library
# Checking for the word ‘giving’ 
from nltk.stem import PorterStemmer
pst = PorterStemmer()
pst.stem("waiting")

'wait'

In [8]:
# Checking for the list of words
stm = ["waited", "waiting", "waits"]
for word in stm :
    print(word+ ":" +pst.stem(word))

waited:wait
waiting:wait
waits:wait


In [11]:
# Importing LancasterStemmer from nltk
from nltk.stem import LancasterStemmer
lst = LancasterStemmer()
stm = ["giving", "given", "given", "gave"]
for word in stm :
    print(word+ ":" +lst.stem(word))

giving:giv
given:giv
given:giv
gave:gav


### Lematización

En términos más simples, es el proceso de convertir una palabra a su forma básica. La diferencia entre la derivación y la lematización es que la lematización considera el contexto y convierte la palabra a su forma básica significativa, mientras que la derivación simplemente elimina los últimos caracteres, lo que a menudo conduce a significados incorrectos y errores ortográficos.

Por ejemplo, la lematización identificaría correctamente la forma básica de "caring" a "care", mientras que la derivación cortaría la parte "ing" y la convertiría en automóvil (car).

In [17]:
!pip install nltk
nltk.download('wordnet')



[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\beyon\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [18]:
# Importing Lemmatizer library from nltk
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() 
 
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora"))

rocks : rock
corpora : corpus


In [None]:
# importing stopwors from nltk library
from nltk import word_tokenize
from nltk.corpus import stopwords
a = set(stopwords.words(‘english’))text = “Cristiano Ronaldo was born on February 5, 1985, in Funchal, Madeira, Portugal.”
text1 = word_tokenize(text.lower())
print(text1)stopwords = [x for x in text1 if x not in a]
print(stopwords)

### Stop Words

Las "palabras vacías" son las palabras más comunes en un idioma como "el", "a", "en", "para", "arriba", "en", "es", "todos". 

Estas palabras no proporcionan ningún significado y generalmente se eliminan de los textos. Podemos eliminar estas palabras vacías usando la biblioteca nltk



In [25]:
# importing stopwors from nltk library
from nltk import word_tokenize
from nltk.corpus import stopwords
a = set(stopwords.words('english'))

text = "Cristiano Ronaldo was born on February 5, 1985, in Funchal, Madeira, Portugal."
text1 = word_tokenize(text.lower())
print(text1)

stopwords = [x for x in text1 if x not in a]
print(stopwords)

['cristiano', 'ronaldo', 'was', 'born', 'on', 'february', '5', ',', '1985', ',', 'in', 'funchal', ',', 'madeira', ',', 'portugal', '.']
['cristiano', 'ronaldo', 'born', 'february', '5', ',', '1985', ',', 'funchal', ',', 'madeira', ',', 'portugal', '.']


### Parte del etiquetado de voz (POS)

El etiquetado de la oración se utiliza para asignar cada palabra de un texto dado (como sustantivos, verbos, pronombres, adverbios, conjunción, adjetivos, interjección) según su definición y su contexto. 

Hay muchas herramientas disponibles para los etiquetadores POS y algunos de los etiquetadores más utilizados son NLTK, Spacy, TextBlob, Standford CoreNLP, etc.

![img](https://miro.medium.com/max/700/1*JRej3tXz1qjoW_ZFSpfJNQ.png)

In [28]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\beyon\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [29]:
text = "vote to choose a particular man or a group (party) to represent them in parliament"
#Tokenize the text
tex = word_tokenize(text)
for token in tex:
    print(nltk.pos_tag([token]))

[('vote', 'NN')]
[('to', 'TO')]
[('choose', 'NN')]
[('a', 'DT')]
[('particular', 'JJ')]
[('man', 'NN')]
[('or', 'CC')]
[('a', 'DT')]
[('group', 'NN')]
[('(', '(')]
[('party', 'NN')]
[(')', ')')]
[('to', 'TO')]
[('represent', 'NN')]
[('them', 'PRP')]
[('in', 'IN')]
[('parliament', 'NN')]


### Reconocimiento de entidad nombrada

Es el proceso de detectar las entidades nombradas, como el nombre de la persona, el nombre de la ubicación, el nombre de la empresa, las cantidades y el valor monetario.

![img](https://miro.medium.com/max/527/1*jdt9-0S1lJm-caVKXNdyfQ.png)

In [31]:
nltk.download('maxent_ne_chunker')

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\beyon\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping chunkers\maxent_ne_chunker.zip.


True

In [33]:
nltk.download('words')

[nltk_data] Downloading package words to
[nltk_data]     C:\Users\beyon\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.


True

In [35]:
text = "Google’s CEO Sundar Pichai introduced the new Pixel at Minnesota Roi Centre Event"

#importing chunk library from nltk
from nltk import ne_chunk

# tokenize and POS Tagging before doing chunk
token = word_tokenize(text)
tags = nltk.pos_tag(token)
chunk = ne_chunk(tags)
chunk

The Ghostscript executable isn't found.
See http://web.mit.edu/ghostscript/www/Install.htm
If you're using a Mac, you can try installing
https://docs.brew.sh/Installation then `brew install ghostscript`


LookupError: 

Tree('S', [Tree('PERSON', [('Google', 'NNP')]), ('’', 'NNP'), ('s', 'VBD'), Tree('ORGANIZATION', [('CEO', 'NNP'), ('Sundar', 'NNP'), ('Pichai', 'NNP')]), ('introduced', 'VBD'), ('the', 'DT'), ('new', 'JJ'), ('Pixel', 'NNP'), ('at', 'IN'), Tree('ORGANIZATION', [('Minnesota', 'NNP'), ('Roi', 'NNP'), ('Centre', 'NNP')]), ('Event', 'NNP')])

### Fragmentación

(Chunking) significa recoger información individual y agruparla en partes más grandes. En el contexto de la NPL y la minería de texto, fragmentar significa agrupar palabras o tokens en fragmentos.

![img](https://miro.medium.com/max/700/0*0sID7SOM5aDE6Lwq.png)

In [40]:
text = "We saw the yellow dog"
token = word_tokenize(text)
tags = nltk.pos_tag(token)

reg = "NP: {<DT>?<JJ>*<NN>}"
a = nltk.RegexpParser(reg)
result = a.parse(tags)
print(result)

(S We/PRP saw/VBD (NP the/DT yellow/JJ dog/NN))
