# Alberto J. Orio García.

## Prueba de Conocimiento: Machine Learning & NLP

Usando el dataset de **`Tweets.csv`** y utilizando métodos de procesamiento de datos de **`NLP`**, desarrolla un modelo de predicción sobre la columna de **`sentiment`**.

- Usa diferentes modelos de clasificación y compara sus métricas y el tiempo de ejecución de cada uno.
- Retorna un **`DataFrame`** con los resultados (metricas) de todos los modelos.
- Selecciona el mejor modelo y aplica **`GridSearch()`** para encontrar los mejores parámetros.
- Usa algoritmos de **`PCA`** o de **`SMOTE`** si consideras que es necesario.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
from nltk.stem import WordNetLemmatizer

# Bag-of-Words y TF-IDF
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

# Normalizacion
from sklearn.preprocessing import MinMaxScaler

# GridSearchCV
from sklearn.model_selection import GridSearchCV

# Train, Test
from sklearn.model_selection import train_test_split

# Metricas
from sklearn.metrics import jaccard_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# Clasificadores
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

# Validacion
from sklearn.model_selection import StratifiedKFold

In [2]:
df = pd.read_csv("Tweets.csv")

df.head(3)

Unnamed: 0,textID,text,selected_text,sentiment
0,cb774db0d1,"I`d have responded, if I were going","I`d have responded, if I were going",neutral
1,549e992a42,Sooo SAD I will miss you here in San Diego!!!,Sooo SAD,negative
2,088c60f138,my boss is bullying me...,bullying me,negative


### Preprocesamiento.

In [3]:
# Las columnas texID y selected_text no son necesarias.
# Esto es para eliminarlas.

df.drop(['textID', 'selected_text',], axis = 1, inplace = True)
df

Unnamed: 0,text,sentiment
0,"I`d have responded, if I were going",neutral
1,Sooo SAD I will miss you here in San Diego!!!,negative
2,my boss is bullying me...,negative
3,what interview! leave me alone,negative
4,"Sons of ****, why couldn`t they put them on t...",negative
...,...,...
27476,wish we could come see u on Denver husband l...,negative
27477,I`ve wondered about rake to. The client has ...,negative
27478,Yay good for both of you. Enjoy the break - y...,positive
27479,But it was worth it ****.,positive


In [4]:
# Para averiguar el número de elementos que no son NaN.
# Se ve que en la columna text hay un NaN.

df.count()

text         27480
sentiment    27481
dtype: int64

In [5]:
# Para eliminar ese NaN (en realidad, esto elimina todas las filas
# en las que hubiera al menos un valor NaN).

df.dropna(inplace = True)
df

Unnamed: 0,text,sentiment
0,"I`d have responded, if I were going",neutral
1,Sooo SAD I will miss you here in San Diego!!!,negative
2,my boss is bullying me...,negative
3,what interview! leave me alone,negative
4,"Sons of ****, why couldn`t they put them on t...",negative
...,...,...
27476,wish we could come see u on Denver husband l...,negative
27477,I`ve wondered about rake to. The client has ...,negative
27478,Yay good for both of you. Enjoy the break - y...,positive
27479,But it was worth it ****.,positive


In [6]:
# Para ver el tamaño de los datos: 27.480 filas
# y 2 columnas. Viendo esto, seguramente no sea
# necesario realizar PCA para reducir la dimensionalidad.

df.shape

(27480, 2)

In [7]:
# Para averiguar el número de valores de cada tipo.
# Se ve que no existe un desbalance significativo, por 
# lo que no será necesario aplicar SMOTE.
df['sentiment'].value_counts()

neutral     11117
positive     8582
negative     7781
Name: sentiment, dtype: int64

In [8]:
# Para obtener todos los textos en una lista.

lista_textos = df['text'].to_list()

In [9]:
lista_textos[0:10]

[' I`d have responded, if I were going',
 ' Sooo SAD I will miss you here in San Diego!!!',
 'my boss is bullying me...',
 ' what interview! leave me alone',
 ' Sons of ****, why couldn`t they put them on the releases we already bought',
 'http://www.dothebouncy.com/smf - some shameless plugging for the best Rangers forum on earth',
 '2am feedings for the baby are fun when he is all smiles and coos',
 'Soooo high',
 ' Both of you',
 ' Journey!? Wow... u just became cooler.  hehe... (is that possible!?)']

In [10]:
# Para agrupar los stopwords, o palabras carentes de
# significado e importancia, que serán excluidas del análisis.
# Se le añaden los saltos de línea y los asteriscos, que
# probablemente representan insultos.

stopwords = nltk.corpus.stopwords.words("english")
stopwords.append("<br />")
stopwords.append("*")
stopwords.append("**")
stopwords.append("***")
stopwords.append("****")

In [11]:
# Con esta función, se pasan los textos a minúsculas, se
# descartan las palabras cortas, y se eliminan los stopwords
# definidos anteriormente.

def depurar(lista, stopwords):
    tokens_depurados = list()

    for texto in lista:
        
        tokens_textos = list()
        tokens = nltk.word_tokenize(text = texto.lower(), language = "english")
        
        for token in tokens:
            if (token not in stopwords) and (len(token) > 2):
                tokens_textos.append(token)
                
        tokens_depurados.append(tokens_textos) 
    
    return tokens_depurados

In [12]:
%%time
# Utilizando la función previa, se guarda en una 
# variable la lista de textos ya limpios.

textos_limpios = depurar(lista_textos, stopwords)

Wall time: 8.96 s


In [13]:
textos_limpios[0:10]

[['responded', 'going'],
 ['sooo', 'sad', 'miss', 'san', 'diego'],
 ['boss', 'bullying', '...'],
 ['interview', 'leave', 'alone'],
 ['sons', 'put', 'releases', 'already', 'bought'],
 ['http',
  '//www.dothebouncy.com/smf',
  'shameless',
  'plugging',
  'best',
  'rangers',
  'forum',
  'earth'],
 ['2am', 'feedings', 'baby', 'fun', 'smiles', 'coos'],
 ['soooo', 'high'],
 [],
 ['journey', 'wow', '...', 'became', 'cooler', 'hehe', '...', 'possible']]

In [14]:
# Para quedarse solo con las raices de las palabras,
# conservando, eso sí, su significado.

def lematizar(lista):
    
    textos = list()
    
    for texto in lista:
        lemmatizer = WordNetLemmatizer()
        textos.append(" ".join([lemmatizer.lemmatize(word) for word in texto]))

    return textos

In [15]:
%%time
# De nuevo, se guarda en una variable
# la lista de textos ya tratados, usando la
# función definida en la celda anterior.

textos_tratados = lematizar(textos_limpios)

Wall time: 3.91 s


In [16]:
textos_tratados[0:10]

['responded going',
 'sooo sad miss san diego',
 'bos bullying ...',
 'interview leave alone',
 'son put release already bought',
 'http //www.dothebouncy.com/smf shameless plugging best ranger forum earth',
 '2am feeding baby fun smile coo',
 'soooo high',
 '',
 'journey wow ... became cooler hehe ... possible']

In [17]:
# Para transformar el texto en números, en
# forma de matriz, donde las columnas la forman 
# las palabras que aparecen en el texto, y las filas
# las veces que aparecen en el texto. Es 
# necesario pasar los datos en forma de array
# y entrenar y transformar el modelo. 

count_vectorizer = CountVectorizer()

oraciones = np.array(textos_tratados)

bag = count_vectorizer.fit_transform(oraciones)

bag

<27480x24212 sparse matrix of type '<class 'numpy.int64'>'
	with 184815 stored elements in Compressed Sparse Row format>

In [18]:
# Se utiliza TF-IDF para reducir el peso de aquellas
# palabras que aparecen mucho. Se realiza sobre la operación
# anterior, se entrena y transforma, y se guarda en la
# variable bag, igual que antes. Adicionalemente, se
# reduce su precisión a 2 decimales.

tfidf = TfidfTransformer()

np.set_printoptions(precision = 2)

bag = tfidf.fit_transform(bag)

bag

<27480x24212 sparse matrix of type '<class 'numpy.float64'>'
	with 184815 stored elements in Compressed Sparse Row format>

In [19]:
# Para separar los datos, ya tratados y pasados a números,
# en X e y, y en conjuntos de entranamiento y de test.

X_train, X_test, y_train, y_test = train_test_split(bag, df["sentiment"].values, test_size = 0.2, random_state = 42)

print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape},  y_test: {y_test.shape}")

X_train: (21984, 24212), y_train: (21984,)
X_test: (5496, 24212),  y_test: (5496,)


### Modelos de clasificación.

In [20]:
%%time

# GaussianNB()

model = GaussianNB()

# Entrenamiento
model.fit(X_train.toarray(), y_train)

# Predicciones
yhat = model.predict(X_test.toarray())

# Métricas
print("Jaccard Index:", jaccard_score(y_test, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test, yhat))
print("Precisión:"    , precision_score(y_test, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test, yhat, average = "macro"))
print("ROC AUC:"      , roc_auc_score(y_test, yhat))

Jaccard Index: 0.20634374791808505
Accuracy: 0.3571688500727802
Precisión: 0.3966652843069424
Sensibilidad: 0.3905876075836776
F1-score: 0.33589273140933257


  return f(*args, **kwargs)


ValueError: Unable to convert array of bytes/strings into decimal numbers with dtype='numeric'

In [21]:
confusion_matrix(y_test, yhat)

array([[1139,  190,  243],
       [1541,  282,  413],
       [ 953,  193,  542]], dtype=int64)