## 1. Introducción al Aprendizaje Automático

### Definición de aprendizaje automático
El aprendizaje automático es una rama de la inteligencia artificial que se enfoca en el desarrollo de algoritmos y técnicas que permiten a las computadoras aprender y hacer predicciones o tomar decisiones basadas en datos. A diferencia de los sistemas tradicionales que siguen reglas predefinidas, los sistemas de aprendizaje automático mejoran su rendimiento a través de la experiencia.

### Importancia y aplicaciones
El aprendizaje automático tiene una amplia gama de aplicaciones en diversas áreas, incluyendo:
- Reconocimiento de voz
- Visión por computadora
- Sistemas de recomendación
- Diagnóstico médico
- Finanzas

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings,

warnings.filterwarnings('ignore')

# Cargar el conjunto de datos de calidad del vino
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, delimiter=';')

# Mostrar las primeras filas del conjunto de datos
data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [None]:
# Descripción del conjunto de datos
data.describe()

In [None]:
# Visualizar la distribución de la calidad del vino
sns.countplot(x='quality', data=data)
plt.title('Distribución de la Calidad del Vino')
plt.show()

In [None]:
# Visualizar las relaciones entre características
sns.pairplot(data, hue='quality')
plt.show()

## 2. Tipos de Aprendizaje Automático

### Aprendizaje Supervisado
En el aprendizaje supervisado, el modelo se entrena utilizando un conjunto de datos etiquetados. Esto significa que cada muestra de datos de entrenamiento incluye las entradas y las salidas esperadas. El objetivo es aprender una función que mapea las entradas a las salidas. Los algoritmos de aprendizaje supervisado se dividen en dos categorías principales:
- **Regresión**: Utilizado para predecir valores continuos. Ejemplos comunes incluyen:
  - Regresión Lineal
  - Regresión Polinómica
  - Regresión Ridge
  - Regresión Lasso
- **Clasificación**: Utilizado para predecir categorías o clases. Ejemplos comunes incluyen:
  - Regresión Logística
  - Máquinas de Soporte Vectorial (SVM)
  - Árboles de Decisión
  - Bosques Aleatorios
  - k-Vecinos más Cercanos (k-NN)
  - Redes Neuronales

### Aprendizaje No Supervisado
En el aprendizaje no supervisado, el modelo se entrena utilizando un conjunto de datos sin etiquetar. El objetivo es encontrar patrones o estructuras ocultas en los datos. Los algoritmos de aprendizaje no supervisado se utilizan principalmente para:
- **Clustering**: Agrupar datos similares. Ejemplos comunes incluyen:
  - k-Means
  - Clustering Jerárquico
  - DBSCAN
- **Reducción de Dimensionalidad**: Reducir el número de características en los datos mientras se preserva la mayor cantidad de información posible. Ejemplos comunes incluyen:
  - Análisis de Componentes Principales (PCA)
  - Análisis Discriminante Lineal (LDA)
  - t-SNE

### Aprendizaje Semi-Supervisado y por Refuerzo
- **Aprendizaje Semi-Supervisado**: Combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos sin etiquetar. Este enfoque es útil cuando etiquetar datos es costoso o requiere mucho tiempo. Los algoritmos semi-supervisados pueden mejorar la precisión del modelo aprovechando la gran cantidad de datos no etiquetados.
- **Aprendizaje por Refuerzo**: El modelo aprende a tomar decisiones secuenciales optimizando una recompensa acumulada. Se utiliza principalmente en problemas donde una acción conduce a un estado y el agente debe aprender a maximizar las recompensas a lo largo del tiempo. Ejemplos comunes incluyen:
  - Algoritmos Q-Learning
  - Algoritmos de Política (Policy Gradient)
  - Redes Neuronales Profundas de Aprendizaje por Refuerzo (Deep Reinforcement Learning)

In [None]:
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

# Aplicar KMeans para clustering
kmeans = KMeans(n_clusters=6)
kmeans.fit(data.iloc[:, :-1])
data['cluster'] = kmeans.labels_

data.head()

In [None]:
# Reducir dimensiones para visualización
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data.iloc[:, :-2])

data_pca.shape

In [None]:
# Visualizar los clusters
plt.scatter(data_pca[:, 0], data_pca[:, 1], c=data['cluster'], cmap='viridis')
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('Clustering KMeans en el conjunto de datos iris')
plt.show()

## 3. Conceptos Básicos

### Modelo
Un modelo en aprendizaje automático es una representación matemática de un proceso basado en datos que se utiliza para hacer predicciones o tomar decisiones. Los modelos pueden ser de diversos tipos, dependiendo del problema a resolver, como regresión, clasificación, clustering, entre otros.

### Algoritmo
Un algoritmo es un conjunto de reglas o instrucciones que un modelo sigue para aprender a partir de los datos. Los algoritmos determinan cómo se ajustan los parámetros del modelo durante el proceso de entrenamiento. Ejemplos de algoritmos incluyen:

- **Regresión Lineal**: Ajusta una línea recta a los datos para predecir valores continuos.
- **Máquinas de Soporte Vectorial (SVM)**: Encuentra el hiperplano que mejor separa las clases en el espacio de características.
- **Redes Neuronales**: Modelos inspirados en el cerebro humano que aprenden a través de capas de neuronas artificiales.
- **Árboles de Decisión**: Modelo basado en reglas de decisión en forma de árbol para clasificar o predecir valores.

### Entrenamiento y Predicción
- **Entrenamiento**: Es el proceso de ajustar el modelo a los datos de entrenamiento. Durante este proceso, el modelo aprende las relaciones entre las características de entrada y las salidas esperadas. El objetivo es minimizar una función de pérdida que mide el error entre las predicciones del modelo y los valores reales.
  
- **Predicción**: Es el uso del modelo entrenado para hacer inferencias sobre nuevos datos no vistos. En esta fase, el modelo aplica el conocimiento adquirido durante el entrenamiento para generar predicciones. Para la regresión, esto podría ser un valor continuo, mientras que para la clasificación, esto sería una clase o categoría.

### Conjunto de Datos y Características
- **Conjunto de Datos**: Es una colección de datos que se utilizan para entrenar y evaluar el modelo. Puede estar compuesto por datos estructurados (como tablas con filas y columnas) o no estructurados (como texto, imágenes y audio). Es fundamental tener un conjunto de datos representativo para asegurar que el modelo generalice bien a nuevos datos.

- **Características (Features)**: Son las variables de entrada que se utilizan para hacer predicciones. Las características pueden ser numéricas (por ejemplo, altura, peso), categóricas (por ejemplo, género, país) o derivadas (por ejemplo, interacciones entre características). La selección y transformación adecuadas de las características son cruciales para el desempeño del modelo.

## 4. Proceso de Aprendizaje Automático

### Carga y Limpieza de Datos
El primer paso en el proceso de aprendizaje automático es cargar los datos y limpiarlos para asegurarse de que estén en un formato adecuado para el análisis. Esto puede incluir la eliminación de valores nulos, la corrección de errores, y la transformación de las características para que sean más adecuadas para el modelo.

### División del Conjunto de Datos en Entrenamiento y Prueba
Dividimos el conjunto de datos en dos partes: uno para entrenar el modelo (conjunto de entrenamiento) y otro para evaluar su desempeño (conjunto de prueba). Esto nos ayuda a verificar que el modelo generaliza bien y no solo memoriza los datos de entrenamiento.

### Selección y Entrenamiento del Modelo
Elegimos un modelo adecuado para el problema que estamos resolviendo y lo entrenamos utilizando los datos de entrenamiento. Durante el entrenamiento, el modelo aprende las relaciones entre las características de entrada y las salidas esperadas.

### Evaluación del Modelo
Evaluamos el desempeño del modelo utilizando los datos de prueba y varias métricas de evaluación, como la exactitud, precisión, recall, F1 Score, entre otras. Esto nos permite entender cómo de bien está funcionando el modelo en datos no vistos.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression

# Dividir el conjunto de datos en características (X) y etiquetas (y)
X = data.drop('quality', axis=1)
y = data['quality']

In [None]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=42)

# ---- Clasificación ----
# Crear y entrenar un modelo de regresión logística multinomial
log_model = LogisticRegression(max_iter=200,
                               multi_class='multinomial', solver='lbfgs')
log_model.fit(X_train, y_train)

# Hacer predicciones de clasificación
y_pred_class = log_model.predict(X_test)

# ---- Regresión ----
# Crear y entrenar un modelo de regresión lineal
reg_model = LinearRegression()
reg_model.fit(X_train, y_train)

# Hacer predicciones de regresión
y_pred_reg = reg_model.predict(X_test)

In [None]:
# Mostrar las predicciones y una muestra de los valores reales para comparación
print("Predicciones de clasificación (muestra):", y_pred_class[:10])
print("Valores reales de clasificación (muestra):", y_test[:10].values)

In [None]:
print("Predicciones de regresión (muestra):", y_pred_reg[:10])
print("Valores reales de regresión (muestra):", y_test[:10].values)

## 5. Métricas de Evaluación

Las métricas de evaluación son fundamentales para medir el desempeño de un modelo de aprendizaje automático. Las métricas presentadas aquí son específicas para problemas de clasificación. Para problemas de regresión, se utilizan métricas diferentes como el error cuadrático medio (MSE) o el coeficiente de determinación ($R^2$).

### Variables Comunes en las Fórmulas
- **Verdaderos Positivos (TP)**: Número de instancias correctamente predichas como positivas.
- **Falsos Positivos (FP)**: Número de instancias incorrectamente predichas como positivas.
- **Verdaderos Negativos (TN)**: Número de instancias correctamente predichas como negativas.
- **Falsos Negativos (FN)**: Número de instancias incorrectamente predichas como negativas.

### Precisión
La precisión es la proporción de verdaderos positivos entre los positivos predichos. Es útil cuando el costo de los falsos positivos es alto.

$$ \text{Precisión} = \frac{\text{Verdaderos Positivos (TP)}}{\text{Verdaderos Positivos (TP)} + \text{Falsos Positivos (FP)}} $$

### Exactitud (Accuracy)
La exactitud es la proporción de predicciones correctas sobre el total de predicciones. Es una métrica global que considera tanto positivos como negativos.

$$ \text{Exactitud} = \frac{\text{Verdaderos Positivos (TP)} + \text{Verdaderos Negativos (TN)}}{\text{Total de Predicciones}} $$

### Sensibilidad (Recall)
La sensibilidad, también conocida como recall, es la proporción de verdaderos positivos entre los positivos reales. Es útil cuando el costo de los falsos negativos es alto.

$$ \text{Sensibilidad} = \frac{\text{Verdaderos Positivos (TP)}}{\text{Verdaderos Positivos (TP)} + \text{Falsos Negativos (FN)}} $$

### Especificidad
La especificidad es la proporción de verdaderos negativos entre los negativos reales. Es útil cuando el costo de los falsos positivos es alto.

$$ \text{Especificidad} = \frac{\text{Verdaderos Negativos (TN)}}{\text{Verdaderos Negativos (TN)} + \text{Falsos Positivos (FP)}} $$

### F1 Score
El F1 Score es la media armónica de la precisión y la sensibilidad. Es una métrica útil cuando se busca un equilibrio entre precisión y sensibilidad.

$$ \text{F1 Score} = 2 \times \frac{\text{Precisión} \times \text{Sensibilidad}}{\text{Precisión} + \text{Sensibilidad}} $$

### Métricas para Regresión
En problemas de regresión, utilizamos diferentes métricas como:

- **Error Cuadrático Medio (MSE)**: Promedio de los cuadrados de los errores o desviaciones, es decir, la diferencia entre el valor predicho y el valor real.

  $$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

- **Coeficiente de Determinación ($R^2$)**: Medida de la proporción de la variación total del resultado que es explicada por el modelo.

  $$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

Donde:
- $y_i$ es el valor real.
- $\hat{y}_i$ es el valor predicho.
- $\bar{y}$ es el valor medio de $y$.
- $n$ es el número de observaciones.

### Interpretación del `classification_report`
El `classification_report` proporciona una evaluación detallada de las métricas de clasificación para cada clase en el conjunto de datos. Las métricas incluyen:

- **Precision**: La proporción de verdaderos positivos sobre todos los casos predichos como positivos.
- **Recall (Sensibilidad)**: La proporción de verdaderos positivos sobre todos los casos realmente positivos.
- **F1-Score**: La media armónica de precisión y recall, útil cuando se busca un equilibrio entre ambos.
- **Support**: El número de ocurrencias de cada clase en el conjunto de datos real.

El `classification_report` también proporciona las métricas agregadas:
- **Accuracy (Exactitud)**: Proporción de predicciones correctas.
- **Macro avg**: Promedio no ponderado de las métricas para cada clase.
- **Weighted avg**: Promedio ponderado de las métricas para cada clase, teniendo en cuenta el support de cada clase.

### Interpretación de la Matriz de Confusión
La matriz de confusión es una herramienta para visualizar el desempeño del modelo de clasificación. Cada fila de la matriz representa las instancias de una clase real, mientras que cada columna representa las instancias de una clase predicha.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, mean_squared_error, r2_score

# Evaluar el modelo de clasificación

# Obtener las métricas de evaluación
print("Evaluación del Modelo de Clasificación:\n")
print(classification_report(y_test, y_pred_class))

In [None]:
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_class))

In [None]:
# Visualizar la matriz de confusión
plt.figure(figsize=(10, 7))
sns.heatmap(confusion_matrix(y_test, y_pred_class), annot=True, fmt="d", cmap="Blues")
plt.xlabel('Predicho')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

In [None]:
# Evaluar el modelo de regresión

# Calcular el Error Cuadrático Medio (MSE)
mse = mean_squared_error(y_test, y_pred_reg)
print(f"Error Cuadrático Medio (MSE): {mse:.2f}")

In [None]:
# Calcular el Coeficiente de Determinación (R²)
r2 = r2_score(y_test, y_pred_reg)
print(f"Coeficiente de Determinación (R²): {r2:.2f}")

In [None]:
# Visualizar los resultados de la regresión
plt.figure(figsize=(10, 7))
plt.scatter(y_test, y_pred_reg, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel('Valores Reales')
plt.ylabel('Valores Predichos')
plt.title('Regresión: Valores Reales vs. Valores Predichos')
plt.show()

## 6. Regularización

### Sobreajuste (Overfitting)
El sobreajuste ocurre cuando un modelo se ajusta demasiado bien a los datos de entrenamiento, capturando el ruido y las fluctuaciones, lo que resulta en un mal desempeño en los datos de prueba. Esto sucede cuando el modelo es demasiado complejo y tiene demasiados parámetros en relación con la cantidad de datos de entrenamiento.

### Subajuste (Underfitting)
El subajuste ocurre cuando un modelo es demasiado simple para capturar las relaciones subyacentes en los datos. Esto sucede cuando el modelo no tiene suficiente capacidad para aprender de los datos de entrenamiento, resultando en un desempeño deficiente tanto en los datos de entrenamiento como en los de prueba.

## 7. Validación Cruzada

### Concepto y Importancia
La validación cruzada es una técnica para evaluar la capacidad de generalización de un modelo dividiendo los datos en múltiples subconjuntos y entrenando/evaluando el modelo múltiples veces. Esto ayuda a garantizar que el modelo no solo funcione bien en un subconjunto específico de datos, sino que también generalice bien a datos no vistos.

### Métodos de Validación Cruzada

#### K-Fold Cross-Validation
En K-Fold Cross-Validation, los datos se dividen en K subconjuntos (o "folds"). El modelo se entrena en K-1 subconjuntos y se evalúa en el subconjunto restante. Este proceso se repite K veces, utilizando un subconjunto diferente para la evaluación en cada iteración. La puntuación final es el promedio de las puntuaciones de las K iteraciones.

#### Leave-One-Out Cross-Validation (LOOCV)
En Leave-One-Out Cross-Validation (LOOCV), cada muestra de datos se utiliza como un subconjunto de prueba, mientras que las muestras restantes se utilizan como el conjunto de entrenamiento. Este proceso se repite tantas veces como muestras haya en el conjunto de datos. Aunque LOOCV puede proporcionar una evaluación detallada del modelo, puede ser computacionalmente costoso para grandes conjuntos de datos.

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report, confusion_matrix

# Crear el modelo de regresión logística multinomial
model = LogisticRegression(max_iter=200, multi_class='multinomial', solver='lbfgs')

# Obtener predicciones utilizando validación cruzada
y_pred_cv = cross_val_predict(model, X, y, cv=50)

# Generar el reporte de clasificación
print("Reporte de Clasificación utilizando Validación Cruzada:\n")
print(classification_report(y, y_pred_cv))

In [None]:
# Generar la matriz de confusión
print("Matriz de Confusión utilizando Validación Cruzada:")
print(confusion_matrix(y, y_pred_cv))

In [None]:
# Visualizar la matriz de confusión
plt.figure(figsize=(10, 7))
sns.heatmap(confusion_matrix(y, y_pred_cv), annot=True, fmt="d", cmap="Blues")
plt.xlabel('Predicho')
plt.ylabel('Real')
plt.title('Matriz de Confusión (Validación Cruzada)')
plt.show()

## Conclusiones

En esta libreta, hemos explorado el proceso completo de aprendizaje automático utilizando el conjunto de datos de calidad del vino. A lo largo de las secciones, hemos cubierto los siguientes puntos clave:

1. **Carga y Exploración de Datos**: Cargamos el conjunto de datos de calidad del vino y exploramos su estructura y distribución. Visualizamos las relaciones entre las características y la distribución de la calidad del vino.

2. **División del Conjunto de Datos**: Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar adecuadamente el desempeño de los modelos.

3. **Selección y Entrenamiento del Modelo**: Entrenamos un modelo de regresión logística multinomial para la clasificación y modelos de regresión Ridge y Lasso para ilustrar la regularización.

4. **Evaluación del Modelo**: Evaluamos los modelos utilizando métricas adecuadas como la precisión, sensibilidad, F1 Score, error cuadrático medio (MSE) y el coeficiente de determinación (R²). Generamos y visualizamos la matriz de confusión para entender mejor el desempeño del modelo de clasificación.

5. **Validación Cruzada**: Implementamos la validación cruzada para obtener una evaluación más robusta del modelo. Utilizamos `cross_val_predict` para generar predicciones mediante validación cruzada y evaluamos las métricas de clasificación correspondientes.

### Reflexión Final

El proceso de aprendizaje automático involucra múltiples etapas, desde la carga y limpieza de datos hasta la evaluación y validación del modelo. Cada etapa es crucial para asegurar que el modelo no solo aprenda de los datos de entrenamiento, sino que también generalice bien a nuevos datos. Las técnicas de regularización y validación cruzada son herramientas esenciales para mejorar y evaluar el desempeño del modelo.

Esta libreta proporciona una guía práctica para implementar estos conceptos utilizando Python y bibliotecas de aprendizaje automático como scikit-learn. Esperamos que esta guía haya sido útil y que puedas aplicar estos conceptos en tus propios proyectos de aprendizaje automático.