In [1]:
import pandas as pd
import numpy as np

import re
import nltk

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Carga de archivos de datos

### Debido a que son archivos de texto que no se separan por columnas, no lo abrimos con pandas para que no sea un dataset sino que solo leemos todo el archivo, linea por linea.

In [6]:
f_blogs = open('en_US/en_US.blogs.txt', 'r')
blogs = f_blogs.read()
f_blogs.close()
blogs = word_tokenize(blogs)

f_news = open('en_US/en_US.news.txt', 'r')
news = f_news.read()
f_news.close()
news = word_tokenize(news)

f_twitter = open('en_US/en_US.twitter.txt', 'r')
tweets = f_twitter.read()
f_twitter.close()
tweets = word_tokenize(tweets)

# Limpieza de datos

### Pasamos todo el texto a minusculas por medio de un for en donde se pasa a minuscula cada palabra en el archivo de texto.

In [45]:
blogs = [word.lower() for word in blogs]
news = [word.lower() for word in news]
tweets = [word.lower() for word in tweets]

### Eliminamos los caractéres especiales por medio de expresiones regulares con la libreria re de python. Con esta expresión regular quitamos todo aquello que no sea letras o numeros de manera que eliminamos tambien los signos de puntuación.

In [46]:
special_characters = re.compile("[^A-Za-z0-9]+")

In [47]:
blogs = [special_characters.sub(r' ', word) for word in blogs]
news = [special_characters.sub(r' ', word) for word in news]
tweets = [special_characters.sub(r' ', word) for word in tweets]

### Eliminamos las url, tambien con expresiones regulares verificando que el inicio sea con http o https.

In [48]:
url_pattern = re.compile('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))', flags=re.MULTILINE)

In [49]:
blogs = [url_pattern.sub(r' ', word) for word in blogs]
news = [url_pattern.sub(r' ', word) for word in news]
tweets = [url_pattern.sub(r' ', word) for word in tweets]

### Eliminamos los caracteres especiales por medio de una expresión regular (con ayuda de la libreria que tra python de las expresiones regulares y un for para validar cada palabra. 
### Lo eliminamos por medio de los patterns de emojis (u"\U0001F600-\U0001F64F), simbolos (u"\U0001F300-\U0001F5FF), simbolos de mapa y transporte (u"\U0001F680-\U0001F6FF"), y banderas (u"\U0001F1E0-\U0001F1FF")

In [50]:
emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"
        u"\U0001F300-\U0001F5FF" 
        u"\U0001F680-\U0001F6FF"
        u"\U0001F1E0-\U0001F1FF"
                           "]+", flags=re.UNICODE)

In [51]:
blogs = [emoji_pattern.sub(r'', word) for word in blogs]
news = [emoji_pattern.sub(r'', word) for word in news]
tweets = [emoji_pattern.sub(r'', word) for word in tweets]

### Eliminamos las stopword con ayuda de la libreria de NLTK y su modulo de corpus

In [9]:
# nltk.download('stopwords')
# nltk.download('punkt')

blogs = [word for word in blogs if not word in stopwords.words()]
news = [word for word in news if not word in stopwords.words()]
tweets = [word for word in tweets if not word in stopwords.words()]