<a href="https://colab.research.google.com/github/AndresMontesDeOca/TextMining/blob/main/EjemplosPipelineNLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejemplos NLTK

Codigo fuente de este notebook ha sido extraido de:

* Deep Learning for Natural Language Processing
* Medium Word2Vec Model
* Kavita Ganesan - Gensim Word2Vec
* Python Text Processing with NLTK 2.0 Cookbook

Ejemplo de pipeline:
* Segmentacion de sentencias
* Tokenizacion de palabras
* Pos tagger
* Lematizacion
* Stemmer
* Bag of words


## Importar librerias

In [None]:
# NLTK con Google Colab
import os
import nltk
# nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping grammars\bas

In [None]:
! pip install -U -q spacy
! python -m spacy download es_core_news_lg
! python -m spacy download es

In [None]:
import spacy
import pprint

pp = pprint.PrettyPrinter(compact=True)

## Tokenizacion
Es una unidad útil en el procesamiento del lenguaje posterior, puede ser una palabra, una frase, un párrafo. Generalmente se realiza una tokenización de acuerdo a las palabras

In [None]:
text="""El ministro de Salud porteño, Dr. Fernán Quirós, aseguró que hubo acuerdo para limitar el transporte público, la nocturnidad y las reuniones sociales. Sin embargo, hay distintas posturas con los gobiernos nacional y bonaerense sobre qué temperamentos se deben adoptar"""
text

In [None]:
# Tokenizacion por sentencias con el idioma español
from nltk.tokenize import sent_tokenize

text_sent = sent_tokenize(text, language='spanish')
text_sent

In [None]:
# Otra forma de tokenizar sentencias teniendo en cuenta el idioma español
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')
spanish_tokens = spanish_tokenizer.tokenize(text)

spanish_tokens

In [None]:
# Tokenizacion por palabras
from nltk.tokenize import word_tokenize

pp.pprint(word_tokenize(text))

In [None]:
# Tokenizacion con expreciones reguales
# Pagina para probar las expreciones regulaes -> https://regexr.com/
from nltk.tokenize import regexp_tokenize

reg_exp_tokens = regexp_tokenize(text, "[\w']+")
pp.pprint(reg_exp_tokens)

In [None]:
# Separación en palabras mediante expresiones regulares definiendo el espacio como separador
reg_exp_tokens = regexp_tokenize(text, '\s+', gaps=True)
pp.pprint(reg_exp_tokens)

## Stop words
Son listados de palabras que no agregan valor para el procesamiento de NLP. Eliminarlas no cambia el significado de la oración

In [None]:
from nltk.corpus import stopwords
import pprint

english_stops = set(stopwords.words('english'))
pp.pprint(english_stops)

In [None]:
import string
spanish_stops = set( stopwords.words('spanish'))
spanish_stops.update(string.punctuation) # Tambien le agrego los simbolos y signos de puntuacion -> !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
pp.pprint(len(spanish_stops))

words_eliminar = ['buenas','hola','tardes']
spanish_stops.update(words_eliminar) # Tambien le agrego los simbolos y signos de puntuacion -> !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
pp.pprint(len(spanish_stops))

In [None]:
# Filtrar los stopwords en el texto
text_token = word_tokenize(text)
pp.pprint(text_token)
text_token_stopwords = [x.lower() for x in text_token if x.lower() not in spanish_stops]

In [None]:
pp.pprint(text_token_stopwords)

## Stemmer
Utilizado para obtener la palabra canónica. Este tipo de proceso se encarga de  truncar la palabra descartando el género y el tiempo

Por ejemplo

* corriendo -> corr

In [None]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

palabras=['corro','correr', 'corriendo','corredor']
for p in palabras:
  print(stemmer.stem(p))

## Lematizacion
Se utiliza para obtener la palabra canónica, es decir el origen de la palabra. Igual que en el stemmer se eliminar el tiempo verbal y el género, pero se obtiene la palabra completa

Por ejemplo
* corriendo -> Correr


In [None]:
# Lematizador con Spacy
nlp = spacy.load("es_core_news_lg")
doc = nlp(" ".join(palabras))

for token in doc:
  print(token.lemma_)

## PoS tagging
* Proceso de clasificación de las palabras de acuerdo a su función, por ejemplo sustantivo, adjetivo, verbo..

* ¡Importante! Se debe utilizar antes de realizar procesos que modifican y descartan los tokens.

* Existen varias clasificaciones ->  https://www.winwaed.com/blog/2011/11/08/part-of-speech-tags/

* Por ejemplo si necesito conocer las cualidades de un objeto solamente tengo que capturar los adjetivos. También es útil en el análisis de sentimiento

* Las palabras pueden ser morfológicamente idénticas pero dependiendo de la ubicación en la frase pueden tener diferente significado. Por ejemplo la palabra presente
  * Recibí un hermoso **presente** de parte de mis amigos.
  * Me **presente** a rendir la tesis




In [None]:
doc = nlp(" ".join(palabras))

for token in doc:
  print(token, token.pos_)

In [None]:
nltk.pos_tag(palabras) # La funcion de Pos Tagging de NLTK no incluye el idioma español

## Dependencias Sintacticas
Permite identificar cómo relacionan las palabras teniendo en cuenta las relaciones sintácticas

In [None]:
from spacy import displacy

doc = nlp(text_sent[0])

# For every token in document, print it's tokens to the root
for token in doc:
    pp.pprint('{} --> {}'.format(token, token.head))

displacy.render(doc, style='dep', jupyter = True, options = {'distance': 120})


## Collocations
Son dos o más palabras que tienden a aparecer juntos. Por ejemplo "Buenos Aires", "República Argentina"

Estos pares de palabras se pueden considerar también como un token


In [None]:
! pip install wikipedia
import wikipedia
subject = ['Maradona', 'Bill Clinton','Barack Obama','Angela Merkel','Argentina']

wikipedia.set_lang("es")
wikiPage = ",".join([wikipedia.page(wikipedia.search(w)[0]).content for w in subject])

In [None]:
wikiPage

In [None]:
# Busqueda de la frecuencia de Bigramas
from nltk.collocations import BigramCollocationFinder,BigramAssocMeasures

import nltk
nltk.download('punkt')
words_wiki = word_tokenize(wikiPage)


finder = BigramCollocationFinder.from_words(words_wiki)
finder.apply_freq_filter(2)
finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in spanish_stops)
bigram_measures = BigramAssocMeasures()
mejores_bigramas = list(finder.nbest(bigram_measures.pmi, 100))
mejores_bigramas

In [None]:
resultado = [ bigrama for bigrama in mejores_bigramas if 'argentina' in " ".join(bigrama).lower()]
resultado

In [None]:
# Armado de Trigramas
from nltk.collocations import TrigramCollocationFinder,TrigramAssocMeasures

finder = TrigramCollocationFinder.from_words(words_wiki)
finder.apply_freq_filter(2)
finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in spanish_stops)
bigram_measures = BigramAssocMeasures()
mejores_bigramas = list(finder.nbest(bigram_measures.raw_freq, 10))
mejores_bigramas

## WordNet
Base de datos en ingles en la cual se incluyen sinonimos, antonimos, significados

In [None]:
from nltk.corpus import wordnet
import nltk
nltk.download('wordnet')

sinonimos = wordnet.synsets("driving")
sinonimos

In [None]:
# Palabra canonica del primer sinonimo
print(sinonimos[0].lemmas()[0].name())

In [None]:
# Definicion
print(sinonimos[3].definition())

In [None]:
# Ejemplos de uso
print(sinonimos[3].examples())

In [None]:
print("Total:       " + str(len(nltk.corpus.wordnet.synsets('great'))))
print("Sustantivos: " + str(len(nltk.corpus.wordnet.synsets('great', pos='n'))))
print("Adjetivos:   " + str(len(nltk.corpus.wordnet.synsets('great', pos='a'))))

## Corrector ortografico

In [None]:
! apt install -qq enchant
! apt install myspell-es
! pip install pyenchant

In [None]:
import enchant
from nltk.metrics import edit_distance
class SpellingReplacer(object):
  def __init__(self, dict_name='es', max_dist=2):
    self.spell_dict = enchant.Dict(dict_name)
    self.max_dist = max_dist
  def replace(self, word):
    if self.spell_dict.check(word):
      return word
    suggestions = self.spell_dict.suggest(word)
    if suggestions and edit_distance(word, suggestions[0]) <= self.max_dist:
      return suggestions[0]
    else:
      return word

replacer = SpellingReplacer()
print(replacer.replace('mineri'))

## Vectorizacion de Tokens
El texto que estamos analizando es no estructurado, las técnicas de vectorización de tokens nos permiten generar un espacio de características para que pueda ser utilizado en los modelos

### Bag of word - BOW
Cada documento corresponde a una fila, cada token a una columna y como valor se asigna la cantidad de veces que esta ese token en el documento

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
data=[
      "the Ramiess sings classic songs",
      "the he he listens to old pop ",
      "the the and rock music",
      "the and also listens to classical songs",
      "the listens songs"]

count_vectorizer = CountVectorizer()
data_tranform = count_vectorizer.fit_transform(data)

pd.DataFrame.sparse.from_spmatrix(data_tranform, columns=count_vectorizer.get_feature_names_out())

In [None]:
data_tranform

In [None]:
# Vocabulario -> El objetivo de relizar los procesos de lematizacion, stemmer y stopwords es reducir el vocabulario posible
print(count_vectorizer.get_feature_names_out())

Consideraciones a tener en cuenta:
* No respeta el orden de las palabras: Si tengo dos frases diferentes pero con las mismas palabras no las voy a poder identificar -> "no, tengo dinero" "no tengo dinero"
* Generalmente se tiene una dimensionalidad alta, se tendrá una característica por cada palabra en el corpus
* Como resultado se tiene una matriz dispersa, es decir la gran mayoría de los valores corresponden al 0


### TF-IDF
En corpus de texto extensos, algunas palabras estarán muy presentes (por ejemplo, "the", "a", "is" en inglés), por lo tanto, llevarán muy poca información significativa sobre el contenido real del documento.
Si tuviéramos un conteo directo, esos términos se posicionarán sobre los términos más interesantes.

Una forma de ponderar los tokens teniendo en cuenta las frecuencias de las palabras es utilizar tf-idf


**Ejemplo:**

Supongamos tenemos un corpus de **10 M** de documentos donde la palabra **feliz** aparece **1.000** veces dentro del corpus.

Al mismo tiempo un documento específico de **100** palabras tiene la  palabra ***feliz*** aparece 5 veces.
* **TF**= (5/100) = **0.05**
* **IDF**= log(10 M / 1,000) = **4**
* **TF-IDF** =  0.05 × 4 = **0.20**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()

data_tranform = tfidf_vectorizer.fit_transform(data)

pd.DataFrame.sparse.from_spmatrix(data_tranform, columns=tfidf_vectorizer.get_feature_names_out())

In [None]:
data_tranform

El objetivo de usar tf-idf en lugar de las frecuencias de ocurrencias es reducir el impacto de los tokens más frecuentes, por lo tanto, son empíricamente menos informativos que las características que ocurren en un determinado corpus.

## Práctica
Definir una función de python que reciba como parámetro un texto y realice la limpieza y depuración de datos teniendo en cuenta las funcionalidades vistas en esta práctica.

Pasos recomensados:
* Tokenizacion
* Stopwords
* Corrector ortografico
* Lematizacion o Stemmer

In [None]:
! pip install -q wikipedia


In [None]:
import wikipedia

subject = ['Barack Obama']

wikipedia.set_lang("es")
wikiPage = wikipedia.page(wikipedia.search(subject)[0]).content

In [None]:
wikiPage

In [None]:
def pre_procesamiento_texto(text):
   #tokenizador
   #stemer
   #....
  return text.split()

results = pre_procesamiento_texto(wikiPage)
print(results)

In [None]:
from nltk.text import Text
t = Text(results)

In [None]:
t.plot(20)