<a href="https://colab.research.google.com/github/tnarrosf/unir-mubio01-grupo5/blob/main/python/TallerGrupal_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
# Instalar librerías (si no están instaladas)
!pip install numpy pandas matplotlib seaborn scikit-learn tensorflow requests spacy swifter

Collecting swifter
  Downloading swifter-1.4.0.tar.gz (1.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m13.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: swifter
  Building wheel for swifter (setup.py) ... [?25l[?25hdone
  Created wheel for swifter: filename=swifter-1.4.0-py3-none-any.whl size=16507 sha256=d447fd627560fee8e24fc42174b49e6210c5a79a73257ebb2f54c0430d4ebaed
  Stored in directory: /root/.cache/pip/wheels/e4/cf/51/0904952972ee2c7aa3709437065278dc534ec1b8d2ad41b443
Successfully built swifter
Installing collected packages: swifter
Successfully installed swifter-1.4.0


# Preparación del entorno

Importación de librerías a usar.

In [14]:
# Generacion de numeros (pseudo) aleatorios
import random

# pandas
import pandas as pd

# Seaborn
import seaborn as sns

# Librerías de scikit learn
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.ensemble import RandomForestClassifier

# Librerías para crear gráficos
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# Expresiones regulares
import re

# Librería de procesamiento de lenguaje natural
import spacy

# procesamiento en paralelo en Pandas
import swifter



Definición del estado inicial de los generadores de números pseudoaleatorios, para asegurar que el resultado sea reproducible.

In [15]:
random.seed(42)

# Implementación de algoritmos de aprendizaje automático

In [2]:
# Tomar el conjunto de datos iris que ofrece Seaborn
data = sns.load_dataset('iris')


data.head(10)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [None]:
# Verificar las columnas y el tamaño del DataFrame
print(data.columns)
print("Shape of DataFrame:", data.shape)


Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')
Shape of DataFrame: (150, 5)


In [None]:
total_nan = data.isna().sum().sum()

print(f"Número total de valores nulos: {total_nan}")


Número total de valores nulos: 0


In [None]:
data.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

In [None]:
#Selección de características y etiquetas
X = data.drop('species', axis=1)
y = data['species']


In [None]:
# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba (70-30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

En el caso que nos ocupa, vemos factible aplicar una proporción de 70%-30% entre los conjuntos de entrenamiento y prueba ya que el tamaño de la muestra es bastante reducido (solo 150 muestras) y las características de los análisis que vamos a realizar nos lo permite manteniendose relativamente fiables.

In [None]:
#Escalado de Características

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


In [None]:

encoder = OneHotEncoder(sparse=False)

# Ajustar y transformar las etiquetas de entrenamiento y prueba
y_train_encoded = encoder.fit_transform(y_train.values.reshape(-1, 1))
y_test_encoded = encoder.transform(y_test.values.reshape(-1, 1))




##Support Vector Machines


In [None]:


# Inicializar y entrenar el modelo SVM
svm_model = SVC(kernel='linear', random_state=42)
svm_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
svm_pred = svm_model.predict(X_test)

# Calcular métricas
svm_accuracy = accuracy_score(y_test, svm_pred)
svm_precision = precision_score(y_test, svm_pred, average='weighted')
svm_recall = recall_score(y_test, svm_pred, average='weighted')
svm_f1 = f1_score(y_test, svm_pred, average='weighted')

# Imprimir métricas
print("Support Vector Machines:")
print("Accuracy:", svm_accuracy)
print("Precision:", svm_precision)
print("Recall:", svm_recall)
print("F1-score:", svm_f1)


Support Vector Machines:
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0


##Random Forest



In [None]:

# Inicializar y entrenar el modelo Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
rf_pred = rf_model.predict(X_test)

# Calcular métricas
rf_accuracy = accuracy_score(y_test, rf_pred)
rf_precision = precision_score(y_test, rf_pred, average='weighted')
rf_recall = recall_score(y_test, rf_pred, average='weighted')
rf_f1 = f1_score(y_test, rf_pred, average='weighted')

print("Random Forest:")
print("Accuracy:", rf_accuracy)
print("Precision:", rf_precision)
print("Recall:", rf_recall)
print("F1-score:", rf_f1)


Random Forest:
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0


##Naive Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Inicializar y entrenar el modelo Naive Bayes
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
nb_pred = nb_model.predict(X_test)

# Calcular métricas
nb_accuracy = accuracy_score(y_test, nb_pred)
nb_precision = precision_score(y_test, nb_pred, average='weighted')
nb_recall = recall_score(y_test, nb_pred, average='weighted')
nb_f1 = f1_score(y_test, nb_pred, average='weighted')

# Imprimir métricas
print("Naive Bayes:")
print("Accuracy:", nb_accuracy)
print("Precision:", nb_precision)
print("Recall:", nb_recall)
print("F1-score:", nb_f1)


Naive Bayes:
Accuracy: 0.9777777777777777
Precision: 0.9793650793650793
Recall: 0.9777777777777777
F1-score: 0.9777448559670783


##Discusión

# Implementación de algoritmos de aprendizaje automático profundo

Como paso previo, y para evitar perder el archivo de datos en caso de borrado de la sesión de ejecución, subimos una copia del archivo de datos al Github compartido del equipo.
Así, el archivo estará disponible a través de la URL para su carga con Pandas.


In [16]:
# Variables Globales a este segundo ejercicio
data_file_url = 'https://raw.githubusercontent.com/tnarrosf/unir-mubio01-grupo5/main/python/datos/sentiment_analysis.csv'

# Modelo del idioma inglés de spaCy
nlp = spacy.load('en_core_web_sm')


## Carga y preprocesamiento de los datos


In [17]:
# Cargar en un dataframe desde la URL
df_tuits_raw = pd.read_csv(data_file_url, delimiter=';')

df_tuits_raw.head(20)


Unnamed: 0,Polaridad,Id_tuit,Fecha,Query,Usuario,Tuit
0,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
1,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
2,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
3,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."
4,0,1467811372,Mon Apr 06 22:20:00 PDT 2009,NO_QUERY,joy_wolf,@Kwesidei not the whole crew
5,0,1467811592,Mon Apr 06 22:20:03 PDT 2009,NO_QUERY,mybirch,Need a hug
6,0,1467811594,Mon Apr 06 22:20:03 PDT 2009,NO_QUERY,coZZ,@LOLTrish hey long time no see! Yes.. Rains a...
7,0,1467812579,Mon Apr 06 22:20:17 PDT 2009,NO_QUERY,pardonlauren,I just re-pierced my ears
8,0,1467812723,Mon Apr 06 22:20:19 PDT 2009,NO_QUERY,TLeC,@caregiving I couldn't bear to watch it. And ...
9,0,1467812771,Mon Apr 06 22:20:19 PDT 2009,NO_QUERY,robrobbierobert,"@octolinz16 It it counts, idk why I did either..."


Definimos una funcion que aplica los saneamientos de las cadenas de texto establecidos en el enunciado.


In [28]:

def preprocesamiento(mensaje):
  # todo a minusculas
  mensaje = mensaje.lower()
  # eliminar URLS. Re personalizada a partir de https://regexlib.com/REDetails.aspx?regexp_id=3001
  urls_re = r'((http(s)?://)|(www\.))[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(:[a-zA-Z0-9]*)?/?([a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~])*'
  mensaje = re.sub(urls_re, '', mensaje)

  # eliminar emoticonos: están expresados como una palabra (o dos) entre dos asteriscos
  emoti_re = r'\*\w+(\s\w+)?\*'
  mensaje = re.sub(emoti_re, '', mensaje)

  # Eliminar caracteres especiales y signos de puntuacion
  mensaje = re.sub(r'[^a-z0-9\s]', '', mensaje)

  # Lematización con spacy excluyendo los stopwords
  doc = nlp(mensaje)
  lemmatized_tokens = [token.lemma_ for token in doc if not token.is_space | token.is_stop]

  mensaje_limpio = ' '.join(lemmatized_tokens)
  return mensaje_limpio


Para nuestra actividad nos interesan principalmente los campos Polaridad (0 - Negativo, 1 - Positivo) y Tuit (texto del mensaje).

Generamos un nuevo DataFrame con los tuits procesados, y la Polaridad.

In [31]:
print(df_tuits_raw.columns.tolist())
df_tuits_procesados = df_tuits_raw[['Polaridad', 'Tuit']].copy()
# este paso tarda mucho. Alrededor de 13 minutos
df_tuits_procesados['Tuit'] = df_tuits_procesados['Tuit'].swifter.apply(preprocesamiento)

df_tuits_procesados

['Polaridad', 'Id_tuit', 'Fecha', 'Query', 'Usuario', 'Tuit']


Pandas Apply:   0%|          | 0/100000 [00:00<?, ?it/s]

Unnamed: 0,Polaridad,Tuit
0,0,upset not update facebook texte cry result sch...
1,0,kenichan dive time ball manage save 50 rest bound
2,0,body feel itchy like fire
3,0,nationwideclass behave m mad not
4,0,kwesidei crew
...,...,...
99995,1,grandma make dinenr mum
99996,1,midmorne snack time bowl cheese noodle yum
99997,1,shadela like terminiator movie come like 3 word d
99998,1,destinyhope92 m great thaanks wbuu


## División del cojunto de datos
Separación del conjunto de datos en tres grupos: uno de entrenamiento, uno de validación y otro de testeo.

La proporción será 60% - 20% - 20%.

In [33]:
# Selección de características (X) y etiquetas (y)
X = df_tuits_procesados.drop('Polaridad', axis=1)
y = df_tuits_procesados['Polaridad']

# Separamos el grupo de entrenamiento, del resto (validación + prueba)
X_train, X_resto, y_train, y_resto = train_test_split(X, y, test_size=0.4, random_state=42)

# Separar resto en validación y prueba
X_val, X_test, y_val, y_test = train_test_split(X_resto, y_resto, test_size=0.5, random_state=42)



In [38]:
print("Entrenamiento", X_train.shape, y_train.shape)
print("Validacion", X_val.shape, y_val.shape)
print("Test", X_test.shape, y_test.shape)


Entrenamiento (60000, 1) (60000,)
Validacion (20000, 1) (20000,)
Test (20000, 1) (20000,)
