# **Ejercicios de aprendizaje supervisado - Clasificación**

## **Ejercicio 1 - Clasificación binaria**
En el tema hemos visto que hay dos tipos de aprendizaje supervisado: la clasificación y la regresión. Recuerda que la clasificación binaria se utiliza para predecir una variable objetivo que sólo tiene dos etiquetas, normalmente representadas numéricamente con un cero o un uno.

Partiendo del conjunto de datos proporcionados, tu tarea es examinar los datos y elegir qué columna podría ser la variable objetivo de la clasificación binaria.

1. `"customer_service_calls"`
2. `"total_night_charge"`
3. `"churn"`
4. `"account_length"`

In [None]:
# Lectura de dataframe en churn_df (data/telecom_churn_clean.csv)
import pandas as pd

churn_df = pd.read_csv('data/telecom_churn_clean.csv', index_col=0)
churn_df['churn'].unique()
churn_df['account_length'].unique()
churn_df['customer_service_calls'].unique()
churn_df['total_night_charge'].unique()




## **Ejercicio 2 - El flujo de trabajo del aprendizaje supervisado**

Recuerda que scikit-learn ofrece un flujo de trabajo repetible para utilizar modelos de aprendizaje supervisado que nos permitan predecir los valores de la variable objetivo cuando se presentan nuevos datos.

Reordena el pseudocódigo proporcionado para que represente con precisión el flujo de trabajo de la construcción de un modelo de aprendizaje supervisado y la realización de predicciones.

In [None]:
# PASO 1
from sklearn.module import Model
# PASO 2
model = Model()
# PASO 3
model.fit(X, y)
# PASO 4
model.predict(X_new)

## **Ejercicio 3 - k-Nearest Neighbors: Fitting**

En este ejercicio, construirás tu primer modelo de clasificación utilizando el conjunto de datos `churn_df` utilizado en el ejercicio 1.

Las características a utilizar serán "account_length" y "customer_service_calls". El objetivo, "churn", debe ser una sola columna con el mismo número de observaciones que los datos de las características.

Convertirás las características y la variable objetivo en matrices de NumPy, crearás una instancia de un clasificador KNN y lo ajustarás a los datos.

### **Instrucciones**
1. Importa `KNeighborsClassifier` de `sklearn.neighbors`.
2. Crea una matriz llamada `X` que contenga los valores de las columnas `account_length` y `customer_service_calls`, y una matriz llamada `y` para los valores de la columna `churn`.
3. Instancia un clasificador `KNeighborsClassifier` llamado `knn` con 6 vecinos.
4. Ajusta el clasificador a los datos mediante el método `.fit()`.


In [None]:
# Import KNeighborsClassifier
from sklearn.neighbors import KNeighborsClassifier
# Import other libraries, of needed

# Create arrays for the features and the target variable
y = churn_df["churn"].values
X = churn_df[["account_length", "customer_service_calls"]].values

# Create a KNN classifier with 6 neighbors
knn = KNeighborsClassifier(n_neighbors=6)

# Fit the classifier to the data
knn.fit(X, y)

## **Ejercicio 4 - k-Nearest Neighbors: Predicción**

Ahora que has ajustado un clasificador KNN, puedes utilizarlo para predecir la etiqueta de nuevos puntos de datos. Se han utilizado todos los datos disponibles para el entrenamiento, pero, afortunadamente, hay nuevas observaciones disponibles. Éstas se han precargado para ti como `X_new`.

Usa el modelo `knn`, que creaste y ajustaste a los datos en el último ejercicio para predecir las etiquetas de un conjunto de nuevos puntos de datos:
```Python
X_new = np.array([[30.0, 17.5],
                  [107.0, 24.1],
                  [213.0, 10.9]])
```

### **Instrucciones**

1. Crea `y_pred` prediciendo los valores objetivo de las características no vistas `X_new`.
2. Imprime las etiquetas predichas para el conjunto de predicciones.

In [None]:
import numpy as np

X_new = np.array([[30.0, 17.5],
                  [107.0, 24.1],
                  [213.0, 10.9]])

# Predict the labels for the X_new
y_pred = knn.predict(X_new)

# Print the predictions for X_new
print("Predictions: {}".format(y_pred)) 

## **Ejercicio 5 - División de entrenamiento/prueba + cálculo de la precisión**

Vamos a practicar la división de los datos en los conjuntos de entremamiento y prueba.

Se ha creado matrices que contienen las características como `X` y la variable objetivo como `y`. Las dividirás en conjuntos de entrenamiento y de prueba, ajustarás un clasificador KNN a los datos de entrenamiento y luego calcularás su precisión en los datos de prueba utilizando el método `.score()`.

### **Instrucciones**
1. Importa `train_test_split` de `sklearn.model_selection`.
2. Divide `X` e `y` en conjuntos de entrenamiento y de prueba, estableciendo el tamaño de la prueba al 20% y la semilla del random a 42. Asegúrate de que las proporciones de las etiquetas objetivo reflejan las del conjunto de datos original.
3. Ajusta el modelo `knn` a los datos de entrenamiento.
4. Calcula e imprime la precisión del modelo para los datos de prueba.

In [None]:
# Import the module
from sklearn.model_selection import train_test_split

X = churn_df.drop("churn", axis=1).values
y = churn_df["churn"].values

# Split into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
knn = KNeighborsClassifier(n_neighbors=5)

# Fit the classifier to the training data
knn.fit(X_train, y_train)

# Print the accuracy
print(knn.score(X_test, y_test))

## **Ejercicio 6 - Underfitting and Overfitting**

Interpretar la complejidad del modelo es una buena forma de evaluar el rendimiento cuando se utiliza el aprendizaje supervisado. Tu objetivo es producir un modelo que pueda interpretar la relación entre las características y la variable objetivo, así como generalizar bien cuando se exponga a nuevas observaciones.

Generarás puntuaciones de precisión para los conjuntos de entrenamiento y de prueba utilizando un clasificador KNN con diferentes valores del número de vecinos (`k`).

Los conjuntos de entrenamiento y prueba se crearán a partir del conjunto de datos y se cargarán previamente como `X_train`, `X_test`, `y_train` e `y_test`.

Has de importar el `KNeighborsClassifier` y también `numpy` como `np`.

### **Instrucciones**
0. Realiza las inicializaciones necesarias.
1. Crea `neighbors` como una matriz numpy de valores del 1 hasta el 12, ambos inclusive.
2. Instanciar un clasificador KNN, con el número de vecinos igual al iterador de vecinos.
3. Ajusta el modelo a los datos de entrenamiento.
4. Calcula las puntuaciones de precisión del conjunto de entrenamiento y del conjunto de prueba por separado utilizando el método `.score()`, y asigna los resultados al índice de los diccionarios `train_accuracies` y `test_accuracies`, respectivamente.

In [None]:
# Declare imports
from sklearn.model_selection import train_test_split

# Execute train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Create neighbors
neighbors = np.arange(1, 13)
train_accuracies = {}
test_accuracies = {}

for neighbor in neighbors:
  
	# Set up a KNN Classifier
	knn = KNeighborsClassifier(n_neighbors=neighbor)
  
	# Fit the model
	knn.fit(X_train, y_train)
  
	# Compute accuracy
	train_accuracies[neighbor] = knn.score(X_train, y_train)
	test_accuracies[neighbor] = knn.score(X_test, y_test)
print(neighbors, '\n', train_accuracies, '\n', test_accuracies)

# Para saber el máximo 
print(max(test_accuracies, key=test_accuracies.get))

## **Ejercicio 7 - Visualizar la complejidad del modelo**

Ahora que has calculado la precisión del modelo KNN en los conjuntos de entrenamiento y de prueba utilizando varios valores del número de vecinos, puedes crear una curva de complejidad del modelo para visualizar cómo cambia el rendimiento a medida que el modelo se vuelve menos complejo.

Usa las variables `neighbors`, `train_accuracies` y `test_accuracies` que generaste en el ejercicio anterior y dibuja los resultados para ayudarte a encontrar el número óptimo de vecinos para tu modelo.

### **Instrucciones**
1. Añade un título "KNN: Número variable de vecinos".
2. Crea una gráfica usando el método `.values()` de `train_accuracies` en el eje `y` frente a `neighbors` en el eje `x` y etiquétala como "Precisión del conjunto de entrenamiento".
3. Crea una segunda gráfica usando el método `.values()` de `test_accuracies` en el eje `y` frente al número de vecinos en el eje de `x`, y etiquétala como "Precisión del conjunto de pruebas".
4. Visualiza el gráfico.

In [None]:
# Add required imports
import matplotlib.pyplot as plt

# Add a title
plt.title("KNN: Número variable de vecinos")

# Plot training accuracies
plt.plot(neighbors, train_accuracies.values(), label="Precisión del conjunto de entrenamiento")

# Plot test accuracies
plt.plot(neighbors, test_accuracies.values(), label="Precisión del conjunto de pruebas")

plt.legend()
plt.xlabel("Número de vecinos")
plt.ylabel("Precisión")

# Display the plot
plt.show()