## Importar librerías y dataset.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [19]:
dataset = pd.read_csv('text_classification_train.csv')

In [20]:
dataset

Unnamed: 0,text,emotion,id
0,My favourite food is anything I didn't have to...,27,eebbqej
1,"Now if he does off himself, everyone will thin...",27,ed00q6i
2,WHY THE FUCK IS BAYLESS ISOING,2,eezlygj
3,To make her feel threatened,14,ed7ypvh
4,Dirty Southern Wankers,3,ed0bdzj
...,...,...,...
43405,Added you mate well I’ve just got the bow and ...,18,edsb738
43406,Always thought that was funny but is it a refe...,6,ee7fdou
43407,What are you talking about? Anything bad that ...,3,efgbhks
43408,"More like a baptism, with sexy results!",13,ed1naf8


## Limpieza de los datos.

In [5]:
import re # Importación de expresiones regulares para eliminar todo caracter distinto a letras
import nltk # importe de un kit con las principales palabras "inútiles" 
nltk.download('stopwords') # descarga de todas las palabras inservibles del mundo
from nltk.corpus import stopwords # incorporo la lista anterior de palabras para utilizarlas
from nltk.stem.porter import PorterStemmer # permite transformar palabras a su mínima conjugación 

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Danko\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
# Crearemos un corpus (colección de texto sin ruidos)
corpus = []

In [7]:
# bucle de limpieza
for i in range (0,1000):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i])
    # Función sub: el primer parámetro indica que borraremos todo menos minúsculas y mayúsculas
    # El segundo parámetro indica que carácter sustituiremos en el lugar de los carácteres borrados  
    # El tercer parámetro indica a que elemento se le hará esta sustitución
    review = review.lower() # minúsculas
    review = review.split() # cadena a lista de palabras
    ps = PorterStemmer() # objeto para eliminar las conjugaciones de una palabra
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]
    # Este es un bucle que pasa por todas las palabras de la cadena y mantiene la palabra si ésta
    # no se encuentra en la lista de palabras inservibles
    # Un detalle importante, dado que "stopwords.words('english')" es una lista, si queremos un
    # código más rápido, rodearemos con la palabra "set()" para que la selección se transforme en un
    # conjunto, y en vez de recorrer todos los elementos hasta encontrar la palabra, el conjunto hallará
    # todas las palabras diferentes. Esto desarrollará un algoritmo mucho más rápido que pasará muchas
    # menos veces por la comprobación.
    # Ps.stem no guarda la palabra tal y como se encontraba, sino su mínima conjugación.
    review = ' '.join(review) # transformación de la lista a cadena de texto
    corpus.append(review) # añadir en la lista corpus cada review

## Creación del Bag of Words

In [17]:
from sklearn.feature_extraction.text import CountVectorizer # transformación de palabras a vectores
# de frecuencia. En la documentación se pueden observar muchas funciones, inclusive la automatización
# de la limpieza que realicé anteriormente de forma manual.
cv = CountVectorizer(max_features= 1500) # creamos el objeto
X = cv.fit_transform(corpus).toarray() # matriz dispersa filas: valoraciones columnas: 0 y 1
# es recomendable transformar a una matriz toarray, ya que se crearán muchas columnas
y = dataset.iloc[:,1].values

In [18]:
y

array([1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1,
       0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1,