# Preprocesado de texto con NLP

In [3]:
# Importamos y descargamos algunos paquetes necesarios
import nltk
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('treebank')
nltk.download('omw-1.4')

from nltk.tree import Tree
from IPython.display import display

import os

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping chunkers\maxent_ne_chunker.zip.
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.
[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\treebank.zip.
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Usuario\AppData\Roami

In [4]:
from nltk.corpus import twitter_samples    # sample Twitter dataset from NLTK
import matplotlib.pyplot as plt            # library for visualization
import random                              # pseudo-random number generator

nltk.download('twitter_samples')

[nltk_data] Downloading package twitter_samples to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\twitter_samples.zip.


True

In [5]:
# select the set of positive and negative tweets
all_positive_tweets = twitter_samples.strings('positive_tweets.json')
all_negative_tweets = twitter_samples.strings('negative_tweets.json')

In [6]:
print('Number of positive tweets: ', len(all_positive_tweets))
print('Number of negative tweets: ', len(all_negative_tweets))

print('\nThe type of all_positive_tweets is: ', type(all_positive_tweets))
print('The type of a tweet entry is: ', type(all_negative_tweets[0]))

Number of positive tweets:  5000
Number of negative tweets:  5000

The type of all_positive_tweets is:  <class 'list'>
The type of a tweet entry is:  <class 'str'>


# Tweets sin preprocesar

Echamos un vistazo a los tweets

In [7]:
# print positive in greeen
print('\033[92m' + all_positive_tweets[random.randint(0,5000)])

# print negative in red
print('\033[91m' + all_negative_tweets[random.randint(0,5000)])

[92m@UKBusinessLunch Hi we will be joining you again today :)
[91mKafi din Bad mene aj koi post share ki he so friends like &amp; rewert to bunta he Warnaaaaaaa...........:(


In [15]:
# Our selected sample. Complex enough to exemplify each step
tweet = all_positive_tweets[2277]
print(tweet)

My beautiful sunflowers on a sunny Friday morning off :) #sunflowers #favourites #happy #Friday off… https://t.co/3tfYom0N1i


Vemos que vienen con cosas como hasthtags, URLs... Deberemos eliminar estas partes en nuestro codigo para poder procesar correctamente el texto.

In [16]:
# Eliminamos los enlaces, textos innecesarios como 'RT' y simbolos como '#'
# hacemos esto mediante expresiones regulares.

import re                                  # library for regular expression operations

print('\033[92m' + tweet)
print('\033[94m')

# remove old style retweet text "RT"
tweet2 = re.sub(r'^RT[\s]+', '', tweet)

# remove hyperlinks
tweet2 = re.sub(r'https?:\/\/.*[\r\n]*', '', tweet2)

# remove hashtags
# only removing the hash # sign from the word
tweet2 = re.sub(r'#', '', tweet2)

print(tweet2)

[92mMy beautiful sunflowers on a sunny Friday morning off :) #sunflowers #favourites #happy #Friday off… https://t.co/3tfYom0N1i
[94m
My beautiful sunflowers on a sunny Friday morning off :) sunflowers favourites happy Friday off… 


## Tokenización

La segmentación o **"tokenización"** de texto es una de las herramientas fundamentales para preprocesar textos de lenguaje natural. En este notebook vamos a ver algunas de las aproximaciones mas comunes, utilizando en este caso el lenguaje inglés como ejemplo

Una de las maneras mas sencillas de realizar esta tarea es segmentar los tokens (palabras) separados por espacios en blanco

In [17]:
text = "This is Andrew's text, isn't it?"
tokenizer = nltk.tokenize.WhitespaceTokenizer()
tokenizer.tokenize(text)


['This', 'is', "Andrew's", 'text,', "isn't", 'it?']

> - La palabra it? es en realidad una palabra con un simbolo
> - La palabra isn't es en realidad una combinacion semantica de is + not

Deberemos utilizar algo un poco más elaborado que utilizar espacios unicamente a la hora de tokenizar.

In [18]:
from nltk.tokenize import word_tokenize
tokenizer = nltk.tokenize.TreebankWordTokenizer()
print(tokenizer.tokenize(text))
# el mismo método se puede invocar con la funcion word_tokenize()
print(word_tokenize(text))

['This', 'is', 'Andrew', "'s", 'text', ',', 'is', "n't", 'it', '?']
['This', 'is', 'Andrew', "'s", 'text', ',', 'is', "n't", 'it', '?']


Dependiendo del idioma, este proceso puede no ser evidente, ni codificable según reglas fijas. Por ejemplo en el caso de idiomas con abundancia de palabras compuestas, como el alemán. 

Rechtsschutzversicherungsgesellschaften: compañía de seguros que proporciona protección legal 

Fijémonos que la segmentación no es correcta, incluso itentando utilizar reglas aplicadas al idioma aleman