In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Caso Práctico de Módulo 2: Clasificación de Tweets en Español (Análisis de Sentimientos)

* En el siguiente ejercicio tiene como objetivo aplicar los conocimientos vistos hasta el momento de:
    - Normalización de textos (procesamiento de textos)
    - Clasificación de textos
    
    
* El ejercicio consiste en clasificar una serie de tweets en Español que estan clasificados como '***positivos***', '***neutros***', '***negativos***' o '***None***' (desconocido), aunque solo vamos a trabajar con los tweets clasificados correctamente (los no desconocidos).


* Para este ejercicio se pide realizar todo el proceso de clasificación visto hasta el momento:
    1. Carga de los datos (ya implementado en el ejercicio)
    2. Normalización de los tweets
    3. Creacción de la Bolsa de Palabras de frecuencias
    4. Particionado de Datos
    5. Creacción de modelos
    6. Evaluación de los modelos



<hr>


## Carga de Datos


* El primer paso que vamos a realizar es el de cargar los datos.


* Estos datos estan en un archivo con extensión '*txt*' pero tienen estructura de '*csv*' y tienen como separador '***::::***'.


* Este fichero lo podemos leer como un '*csv*' con pandas, estructurándolo de la siguiente manera:
    - **Posición 0**: Tweet
    - **Posición 1**: Sentimiento (Positivo | Neutro | Negativo)
    
    
* Los tweets estan clasificados con 4 etiquetas, pero vamos a trabajar solo con los tweets que sean '***positivos***', '***neutros***' o '***negativos***'.

In [2]:
import pandas as pd
tweets_file = '/content/drive/MyDrive/AprendizajeAutomatico/tweets_castellano.txt'
df = pd.read_csv(tweets_file, sep="::::", names=['tweet','sentimiento'] ,engine='python')
df = df[df['sentimiento'].isin(['positivo', 'neutro', 'negativo'])]
tweets = [tuple(x) for x in df.values]
print('Número de Tweets Cargados: {num}'.format(num=len(tweets)))
df.head(5)

Número de Tweets Cargados: 5735


Unnamed: 0,tweet,sentimiento
1,@PauladeLasHeras No te libraras de ayudar me/n...,neutro
2,@marodriguezb Gracias MAR,positivo
3,"Off pensando en el regalito Sinde, la que se v...",negativo
4,Conozco a alguien q es adicto al drama! Ja ja ...,positivo
6,Toca @crackoviadeTV3 . Grabación dl especial N...,positivo


<hr>


## Normalización



Para este ejercicio haremos uso de *spaCy* para la tokenización y normalización.

Para *normalizar* los tweets realizaremos las siguientes acciones:

- Pasamos las frases a minúsculas.
- Eliminamos los signos de puntuación.
- Eliminamos las palabras con menos de 3 caracteres.
- Eliminamos las Stop-Words.
- Eliminamos los enlaces (vamos a dejar las menciones '@'.
- Pasamos la palabra a su lema

Todos estos pasos los vamos a realizar en una misma función.

In [4]:
!pip install spacy



In [5]:
!python -m spacy download es_core_news_sm

2023-11-19 18:31:10.789482: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-11-19 18:31:10.789545: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-11-19 18:31:10.789591: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
Collecting es-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.6.0/es_core_news_sm-3.6.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m78.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully in

In [7]:
import spacy

from tqdm import tqdm

nlp = spacy.load('es_core_news_sm')

# Divido los datos en dos listas
#     X: los tweets
#     y: target (polaridad)

X = [doc[0] for doc in tweets]
y = [doc[1] for doc in tweets]

def normalize(frases):
    """normalizamos la lista de frases y devolvemos la misma lista de frases normalizada"""
    for index, frase in enumerate(tqdm(frases)):
        frase = nlp(frase.lower()) # Paso la frase a minúsculas y a un objeto de la clase Doc de Spacy
        frases[index] = " ".join([word.lemma_ for word in frase if (not word.is_punct)
                                     and (len(word.text) > 2) and (not word.is_stop)
                                     and (not word.text.startswith('http'))])
    return frases

# Normalizamos las frases
X = normalize(X)

100%|██████████| 5735/5735 [01:05<00:00, 88.11it/s] 


<hr>


## Bolsa de Palabras de Frecuencias



El siguiente paso es transformar los tweets a una bolsa de palabras de frecuencias para que sirva de entrada al modelo.

Vamos a utilizar (para construir la bolsa de palabras) la clase "CountVectorizer" de scikit, quedándonos con:

- Las 1500 palabras más frecuentes.
- Que las palabras aparezcan por los menos en 3 tweets.

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(max_features=1500, min_df=3)

# Pasamos los tweets normalizados a Bolsa de palabras
X = vectorizer.fit_transform(X)

<hr>


## Particionado de Datos (Train y Test)

* Particionar los datos en conjunto de Train y Test de la siguiente manera:
    - 80% de datos de entrenamiento
    - 20% de datos de test


In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print('Número de Tweets para el entrenamiento: {num}'.format(num=X_train.shape[0]))
print('Número de Tweets para el test: {num}'.format(num=X_test.shape[0]))

Número de Tweets para el entrenamiento: 4588
Número de Tweets para el test: 1147


<hr>


## Creacción del Modelo


Vamos a crear una serie de modelos con los siguientes Algoritmos de Aprendizaje de clasificación:

- Regresion Logistica
- Support Vector Machine
- Random Forest

In [10]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

lr = LogisticRegression(solver='lbfgs', multi_class='multinomial', max_iter=1000)
svm_lin = SVC(kernel='linear')
svm_rbf = SVC(kernel='rbf')
rf = RandomForestClassifier(n_estimators=200, bootstrap=True, criterion='gini', max_depth=50, random_state=0)

clasificadores = {'Regresion Logistica': lr,
                  'SVM lineal': svm_lin,
                  'SVM rbf': svm_rbf,
                  'Random Forest': rf}


# Ajustamos los modelos y calculamos el accuracy para los datos de entrenamiento
for k, v in clasificadores.items():
    print ('CREANDO MODELO: {clas}'.format(clas=k))
    v.fit(X_train, y_train)
    accuracy_train = v.score(X_train, y_train)
    print ('\tAccuracy Train: {acc_train}'.format(acc_train=accuracy_train))

CREANDO MODELO: Regresion Logistica
	Accuracy Train: 0.8291194420226679
CREANDO MODELO: SVM lineal
	Accuracy Train: 0.8443766346992153
CREANDO MODELO: SVM rbf
	Accuracy Train: 0.8696599825632084
CREANDO MODELO: Random Forest
	Accuracy Train: 0.7765911072362686


<hr>


## Evaluación del Modelo



Para cada uno de los modelos vamos a calcular las siguientes métricas de evaluación:

- Accuracy
- Precision
- Recall
- F1

In [11]:
import warnings
warnings.filterwarnings("ignore")
from sklearn.metrics import accuracy_score,precision_score, recall_score, f1_score

def evaluation(model, name, X_train, y_train, X_test, y_test):

    model_dict = {}
    model_dict['name'] = name
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    model_dict['accuracy_train'] = accuracy_score(y_true=y_train, y_pred=y_pred_train)
    model_dict['accuracy_tests'] = accuracy_score(y_true=y_test, y_pred=y_pred_test)
    model_dict['precision_train'] = precision_score(y_true=y_train, y_pred=y_pred_train, average='weighted')
    model_dict['precision_tests'] = precision_score(y_true=y_test, y_pred=y_pred_test, average='weighted')
    model_dict['recall_train'] = recall_score(y_true=y_train, y_pred=y_pred_train, average='weighted')
    model_dict['recall_tests'] = recall_score(y_true=y_test, y_pred=y_pred_test, average='weighted')
    model_dict['f1_train'] = f1_score(y_true=y_train, y_pred=y_pred_train, average='weighted')
    model_dict['f1_tests'] = f1_score(y_true=y_test, y_pred=y_pred_test, average='weighted')

    return model_dict


# Calculamos las métricas de los modelos por separado
evaluacion = list()
for key, model in clasificadores.items():
    evaluacion.append(evaluation(model=model, name=key,
                                 X_train=X_train, y_train=y_train,
                                 X_test=X_test, y_test=y_test))

# Pasamos los resultados a un DataFrame para visualizarlos mejor
results = pd.DataFrame.from_dict(evaluacion)
results.set_index("name", inplace=True)
results

Unnamed: 0_level_0,accuracy_train,accuracy_tests,precision_train,precision_tests,recall_train,recall_tests,f1_train,f1_tests
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Regresion Logistica,0.829119,0.652136,0.83168,0.623286,0.829119,0.652136,0.818896,0.63268
SVM lineal,0.844377,0.634699,0.849189,0.612534,0.844377,0.634699,0.837833,0.621041
SVM rbf,0.86966,0.659983,0.882659,0.58775,0.86966,0.659983,0.856378,0.620002
Random Forest,0.776591,0.629468,0.835224,0.564166,0.776591,0.629468,0.756571,0.582581
