<a href="https://colab.research.google.com/github/d-tomas/workshops/blob/main/20220317/notebooks/aprendizaje_automatico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aprendizaje automático

En este *notebook* vamos a desarrollar un sistema para análisis de sentimientos (*clasificación*), otro para predecir el precio de una casa (*regresión*) y también un algoritmo de agrupamiento (*clustering*).

## Pasos previos

In [None]:
# Librerías

import matplotlib.pyplot as plt  # Para hacer gráficas
import numpy as np  # Obtener valores únicos en un vector
import pandas as pd
from sklearn.metrics import accuracy_score  # Calcular la precisión del clasificador
from sklearn.model_selection import train_test_split  # Separar el dataset en entrenamiento y test
from sklearn.metrics import confusion_matrix  # Sacar la matriz de confusión
from sklearn.metrics import mean_absolute_error  # Mean Absolut Error (MAE) para regresión
from sklearn.svm import SVC  # Algoritmo Support Vector Machines
from sklearn.tree import DecisionTreeClassifier  # Algoritmo Decission tree
from sklearn.naive_bayes import MultinomialNB  # Algoritmo Naïve Bayes
from sklearn.neural_network import MLPClassifier  # Algoritmo Neural Networks
from sklearn.neighbors import KNeighborsClassifier  # Algoritmo k-NN
from sklearn.feature_extraction.text import TfidfVectorizer  # Matriz de términos por documento con TF-IDF
from xgboost import XGBRegressor  # Algoritmo de regresión XGBoost
from sklearn.cluster import KMeans  # Algoritmo de clustering K-means
import seaborn as sns  # Visualización del mapa de calor

# Descargamos el corpus para entrenar y evaluar el sistema de clasificación
!wget https://raw.githubusercontent.com/d-tomas/workshops/main/20220317/datasets/cell_phones.csv
# Descargamos el corpus para entrenar y evaluar el sistema de regresión
!wget https://raw.githubusercontent.com/d-tomas/workshops/main/20220317/datasets/houses.csv
# Descargamos el corpus para probar el algoritmo de clustering
!wget https://raw.githubusercontent.com/d-tomas/workshops/main/20220317/datasets/iris.csv

## Clasificación

Vamos a contruir un sistema de **análisis de sentimientos**. Vamos a entrenar el sistema con un *dataset* que consta de 1000 opiniones sobre teléfonos móbiles en inglés, 500 positivas (etiquetadas como `POS`) y 500 negativas (etiquetadas como `NEG`).



In [None]:
# Vemos que pinta tiene el corpus de entrenamiento

!head cell_phones.csv

In [None]:
# Cargamos los datos para clasificación

data_classification = pd.read_csv('cell_phones.csv')
data_classification

In [None]:
# Crear el clasificador para el análisis de sentimientos

corpus = data_classification['content'].values  # Guardamos los mensajes
y = data_classification['opinion'].values  # Guardamos las opiniones

# Tenemos que transformar las palabras en números
# Cada palabra del mensaje se representa por su TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

# Separamos el corpus en entrenamiento (80%) y test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Usamos SVM como algoritmo para la clasificaión
model = SVC(kernel = 'linear')

# Puedes probar otros modelos. Descomenta el que quieras usar
# model = DecisionTreeClassifier()  # Decission tree
# model = KNeighborsClassifier()  # k-NN
# model = MLPClassifier()  # Neural network
# model = MultinomialNB()  # Naïve Bayes

# Entrenamos el modelo
model.fit(X_train, y_train)

# Hacemos la predicción sobre todo el conjunto de test
predictions = model.predict(X_test)

# Calculamos la precisión del algoritmo
print('Precisión: {:.2%}\n'.format(accuracy_score(predictions, y_test)))
print('Matriz de confusión:')

plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix(y_test, predictions), annot=True, linewidth=3)
plt.yticks(rotation=0)
plt.show()


In [None]:
# Si queremos probar el modelo con una nueva entrada

new_input = ['I love this phone!!']
# Tenemos que transformar el texto a números, como se hizo al entrenar
new_input = vectorizer.transform(new_input)
model.predict(new_input)  # Predecimos la etiqueta para la nueva entrada (POS o NEG)

## Regresión

Vamos a contruir un sistema para **predecir precios de casas**. Vamos a entrenar el sistema con un *dataset* que consta de 1460 ejemplos de casas, con 80 características para cada una y su precio de venta.

In [None]:
# Cargamos los datos para regresión

data_regression = pd.read_csv('houses.csv')
data_regression

In [None]:
# Mostramos información de las distintas columnas y sus tipos de datos

data_regression.info()

In [None]:
# Construimos el modelo de regresión

y = data_regression['SalePrice']  # Objetivo a predecir (el precio de las casas)
X = data_regression.drop(labels='SalePrice', axis=1)  # Todas las características de cada casa (menos su precio)

# Las variables categoriales (las que no contienen números) deben convertirse a números
# Usamos la técnica 'one-hot-encoding'
X = pd.get_dummies(X)

# Creamos los conjuntos de entrenamiento (80%) y test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Creamos el modelo pasándole algunos parámetros para ajustarlo y mejorar el rendimiento
model = XGBRegressor(colsample_bytree=0.6, learning_rate=0.015, max_depth=4, min_child_weight=3, n_estimators=3000, subsample=0.75, random_state=1)
model.fit(X_train, y_train)  # Entrenamos el modelo

# Hacemos la predicción sobre el conjunto de test
predictions = model.predict(X_test)

# Calculamos la precisión del algoritmo (MAE)
# Cuanto más pequeño sea este valor mejor
print("MAE: {:,.0f}".format(mean_absolute_error(predictions, y_test)))

## Clustering

Vamos a realizar un ejercicio de agrupamiento sobre un *dataset* de plantas que consta de 150 muestras, con 4 características para cada una de ellas. Como conocemos la especie de cada una, vamos a poder visualizar si los clusters generados concuerdan con la especie a la que pertenece cada muestra.

In [None]:
# Cargamos los datos para el clustering

data_clustering = pd.read_csv('iris.csv')
data_clustering

In [None]:
# Mostramos la información del DataFrame

data_clustering.info()

In [None]:
# Mostramos la frecuencia de cada una de las clases

data_clustering['species'].value_counts()

In [None]:
# Distribución de cada clase en función de cada una de las características

sns.kdeplot(data = data_clustering, x='sepal_length', hue='species')
plt.show()
sns.kdeplot(data = data_clustering, x='sepal_width', hue='species')
plt.show()
sns.kdeplot(data = data_clustering, x='petal_length', hue='species')
plt.show()
sns.kdeplot(data = data_clustering, x='petal_width', hue='species')
plt.show()

In [None]:
# Buscamos el número óptimo de clusters para aplicar k-means

wcss = []  # Within cluster sum of squares (WCSS)
X = data_clustering.drop('species', axis=1).values  # Eliminamos la columna que representa la clase

for i in range(1, 11):
  kmeans = KMeans(n_clusters=i, random_state=0)
  kmeans.fit(X)
  wcss.append(kmeans.inertia_)  # intertia_ -> Suma de las distancias al cuadrado de las muestras con respecto a su centroide más cercano

In [None]:
# Usamos el método del codo para determinar el número óptimo de clusters para aplicar k-means
# El número óptimo es donde tiene lugar el codo
# Esto ocurre cuando el WCSS no desciende significativamente en cada iteración

sns.lineplot(x=range(1, 11), y=wcss)
plt.title('Método del codo')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.show()

In [None]:
# Hacemos el clustering con k-means 

kmeans = KMeans(n_clusters=3, random_state=0)  # Creamos 3 clusters (por el método del codo)
y = kmeans.fit_predict(X)  # Asignamos un cluster a cada muestra
y  # Mostramos las etiquetas asignadas a cada muestra

In [None]:
# Visualización de los clusters

sns.scatterplot(x=X[y == 0, 2], y=X[y == 0, 3])
sns.scatterplot(x=X[y == 1, 2], y=X[y == 1, 3])
sns.scatterplot(x=X[y == 2, 2], y=X[y == 2, 3])

# Mostramos los centroides de los clusters
sns.scatterplot(x=kmeans.cluster_centers_[:, 2], y=kmeans.cluster_centers_[:,3], s=100, label = 'Centroides')

plt.legend(bbox_to_anchor=(1.01, 1.01), loc=2)

plt.show()

# Referencias

* [Iris dataset](https://archive.ics.uci.edu/ml/datasets/iris)