## Algoritmos de Machine Learning

Un **algoritmo de Machine Learning** es un conjunto de reglas matemáticas que permiten a un modelo aprender patrones a partir de datos. Se pueden dividir en varias categorías:

### 📌 **Tipos de Algoritmos:**

1. **Aprendizaje Supervisado** (con etiquetas):
   - Regresión Lineal
   - Regresión Logística
   - Árboles de Decisión
   - Máquinas de Soporte Vectorial (SVM)
   - Redes Neuronales

2. **Aprendizaje No Supervisado** (sin etiquetas):
   - Clustering (K-Means, DBSCAN, etc.)
   - Análisis de Componentes Principales (PCA)

3. **Aprendizaje por Refuerzo**
   - Q-Learning
   - Deep Q-Networks (DQN)
   - El aprendizaje por refuerzo (Reinforcement Learning, RL) es un tipo de Machine Learning donde un agente aprende a tomar decisiones mediante prueba y error, recibiendo recompensas o penalizaciones según sus acciones.

## Modelos de Clasificación

Los modelos de **Clasificación** son un tipo de aprendizaje supervisado que asignan una etiqueta a cada entrada. Algunos modelos de clasificación comunes incluyen:

### 🏷 **Modelos de Clasificación Binaria**
- **Regresión Logística** → Predice dos clases (ejemplo: spam o no spam).
- **Árbol de Decisión** → Divide los datos en nodos de decisión.
- **Máquinas de Soporte Vectorial (SVM)** → Encuentra un hiperplano óptimo para separar clases.

### 🏷 **Modelos de Clasificación Multiclase**
- **K-Vecinos Más Cercanos (KNN)** → Clasifica basado en los vecinos más cercanos.
- **Redes Neuronales** → Modelos complejos que aprenden patrones en los datos.

### 📊 **Ejemplo Visual de Clasificación con SVM**
![Clasificación SVM](https://upload.wikimedia.org/wikipedia/commons/thumb/7/72/SVM_margin.png/640px-SVM_margin.png)

## Decision Boundary
- Un Decision Boundary es una línea o margen que separa las clases.
- El algoritmo de clasificación trata de encontrar el límite de decisión que ayude a distinguir entre las clases de manera perfecta o casi perfecta.
- La regresión logística decide un ajuste adecuado al límite de decisión para que podamos predecir a qué clase corresponderá un nuevo dato.

![Aprendizaje Supervisado](https://miro.medium.com/v2/resize:fit:720/format:webp/1*kmMho6PkiVbOXKEYvguMOQ.png)

## Aprendizaje Supervisado

El **Aprendizaje Supervisado** es una técnica de Machine Learning en la que un modelo aprende a partir de ejemplos etiquetados.

### 📌 **Ejemplo de Aprendizaje Supervisado**
- Entrenamos un modelo con imágenes de **gatos** y **perros**.
- Etiquetamos las imágenes como “gato” o “perro”.
- El modelo aprende a predecir la categoría de nuevas imágenes.

![Aprendizaje Supervisado](https://miro.medium.com/v2/resize:fit:720/format:webp/1*3FgpptTWzpd2RLgKbV-HvA.jpeg)

## Fundamentos Matemáticos de la Regresión Logística

La **regresión logística** es un modelo estadístico que se utiliza para predecir una variable de respuesta binaria (0 o 1) a partir de una o más variables independientes \( X \). A diferencia de la regresión lineal, la regresión logística usa la función sigmoide para modelar la probabilidad de pertenencia a una de las clases.

El modelo se expresa como:

$$ P(y=1 | X) = \sigma(\theta^T X) = \frac{1}{1 + e^{-\theta^T X}} $$

Donde:
- \( y \) es la variable dependiente binaria.
- \( X \) es la matriz de características.
- \( theta \) son los parámetros del modelo.
- \( sigma \) es la función sigmoide.

El objetivo es encontrar los valores óptimos de \( theta \) que maximicen la probabilidad de clasificación correcta.

### Función Sigmoide

La **función sigmoide** es utilizada en la regresión logística para modelar la probabilidad de pertenencia a una clase. Convierte cualquier valor real en un valor en el rango \( (0,1) \), lo que lo hace ideal para problemas de clasificación binaria.

Se define como:

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

Donde

$$ z = X \theta $$

En nuestro modelo, la función sigmoide toma como entrada la multiplicación matricial entre las características (x) y los coeficientes (theta):

$$ \sigma(X \theta) = \frac{1}{1 + e^{-X \theta}} $$
![Función Sigmoide](https://miro.medium.com/v2/resize:fit:640/format:webp/1*xTwaKZZsIRek8jzrNWRPzQ.png)



## Función de Costo en Regresión Logística

La función de costo es una función que mide el rendimiento de un modelo de aprendizaje automático para datos determinados.

La función de costo es básicamente el cálculo del error entre los valores predichos y los valores esperados y lo presenta en forma de un único número real.

Mucha gente confunde la función de costo con la función de pérdida.

Bueno, para decirlo en términos simples, la **función de costo** es el promedio del error de n muestras en los datos y la **función de pérdida** es el error de puntos de datos individuales. En otras palabras, la función de pérdida es para un ejemplo de entrenamiento, la función de costo es para todo el conjunto de entrenamiento.

Profundiza: https://medium.com/analytics-vidhya/understanding-logistic-regression-b3c672deac04

Para entrenar el modelo, utilizamos la función de **log-verosimilitud**, que mide qué tan bien los parámetros explican los datos:

$$ \ell(\theta) = \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right] $$

Sin embargo, en la práctica se minimiza la versión negativa de esta función, conocida como **log-loss** o **binary cross-entropy**:

$$ J(\theta) = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right] $$

**Minimizar** esta función equivale a encontrar los parámetros óptimos para el modelo logístico.


### Regularización en Regresión Logística

Para evitar sobreajuste, añadimos un **término de regularización** a la función de costo. El método más común es la **regularización L2 (Ridge)**, que penaliza grandes valores en los coeficientes:

$$ R(\theta) = \frac{\lambda}{2n} \sum_{j=1}^{m} \theta_j^2 $$

Incorporando la regularización en la función de costo:

$$ J(\theta) = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log \sigma(X_i \theta) + (1 - y_i) \log (1 - \sigma(X_i \theta)) \right] + \frac{\lambda}{2n} \sum_{j=1}^{m} \theta_j^2 $$

Donde \( lambda \) es el hiperparámetro que controla la intensidad de la regularización.

Tambien puedes obtener el costo y la regularización aparte y sumarlos (te dejo el código prellenado)

### Actividad. Diagnóstico de afecciones en tejido mamario.
- Realiza las instrucciones propuestas en las celdas markdown

In [None]:
import numpy as np
import pandas as pd
from scipy.optimize import minimize
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# Cargar datos
df = pd.read_csv('data.csv')
df.head(15)


#### Obten los datos de entrada y de salida
- Elimina las columnas innecesarias 'id', 'Unnamed: 32'
- Convierte variable objetivo o dependiente "diagnóstico" a numérico

In [None]:
# Preprocesamiento de datos
df = df.drop(<Llena código faltante>)  # Eliminar columnas irrelevantes
df['diagnosis'] = df['diagnosis'].map(<Llena código faltante>)  # Convertir variable objetivo o dependiente "diagnóstico" a numérico
# Obten X e y
X = df.drop(columns=['diagnosis']).values
y = df['diagnosis'].values

#### Separa los datos en conjuntos X_train, X_test, y_train, y_test para su estudio

In [None]:
# División del conjunto de datos
X_train, X_test, y_train, y_test = <Llena código faltante>

#### Estandariza los datos con StandarScaler
La **estandarización** es un proceso de transformación de datos en el que cada característica del conjunto de datos se ajusta para que tenga **media cero** y **varianza unitaria**. Esto es especialmente útil para algoritmos de aprendizaje automático que utilizan optimización basada en gradientes, como la **Regresión Logística**.

Dado un conjunto de datos con características \( X \), cada valor \( x_i \) se transforma según la siguiente ecuación:

$$
x_{\text{estandarizado}} = \frac{x_i - \mu}{\sigma}
$$

Donde:
- (mu) es la **media** de la característica.
- (sigma) es la **desviación estándar** de la característica.

In [None]:
# Estandarizar los datos
scaler = StandardScaler()
X_train_scaled = scaler.<Llena código faltante>
X_test_scaled = scaler.<Llena código faltante>


#### Define las funciones matemáticas del modelo
- Define la función sigmoide
- Define la función de regularización
- Define la función de costo. Retorna costo + regularización.

In [None]:
# Definir la función sigmoide con entrada X @ theta
def sigmoid(z):
    return <Llena código faltante>

# Definir la función de regularización L2
def regularization(theta, lambda_reg, m):
    return <Llena código faltante>  # Omite theta_0

# Definir la función de costo con regularización
def cost_function_reg(theta, X, y, lambda_reg=0.1):
    m = len(y)
    h = sigmoid(<Llena código faltante, aplica una multiplicación de matrices>)
    epsilon = 1e-5  # Para evitar log(0)
    cost = <Llena código faltante>
    return cost + regularization(theta, lambda_reg, m)


#### Obten los coeficientes de la regresión logistica
- En los datos X de entrenamiento, agrega una columna de unos al principio. 
    - Esto es un requisito de la función minimize y sirve para el término de sesgo en los datos de entrenamiento.
- Crea un vector de ceros 'theta_init' con la dimensión del número total de columnas de X de entrenamiento
- Realiza la optimización con scipy.minimize y obten los coeficientes de la regresión logistica.
    - Utiliza el método de BFGS

In [None]:
# Agregar columna de unos para el término de sesgo en los datos de entrenamiento
X_train_bias_scaled = np.c_[np.ones((X_train_scaled.shape[0], 1)), X_train_scaled]
theta_init = np.zeros(X_train_bias_scaled.shape[1])

# Optimización con scipy
res = <Llena código faltante>
theta_opt_scaled = res.x

print('Coeficientes obtenidos con scipy:', theta_opt_scaled)

### Evalúa la efectividad del modelo
- En los datos X de prueba, agrega una columna de unos al principio. 
    - Esto para que tenga la misma dimensión que theta_opt_scaled y lo pueda procesar.
- Utiliza la función sigmoide y los coeficientes de la regresión logística para obtener las predicciones
- Escala los datos con un umbral de 0.5 y guardalos en un vector  'y_pred_scaled'
-   Esto significa que si son mayores o iguales a 0.5, la salida es 1. Si son menores, la salida es 0.
- Muestra el vector  'y_pred_scaled'

In [None]:
# Evaluar la efectividad del modelo optimizado con scipy en los datos normalizados
X_test_bias_scaled = <Llena código faltante>

# Predicciones en el conjunto de prueba
y_pred_prob_scaled = <Llena código faltante, recuerda usar multiplicación de matrices>
y_pred_scaled = <Llena código faltante>
y_pred_scaled

#### Evalúa el accuracy del modelo. 
##### ¿Qué es el Accuracy?
El **accuracy** (precisión) es una métrica fundamental en Machine Learning que mide el porcentaje de predicciones correctas sobre el total de predicciones realizadas.

Se define como:

$$
\text{Accuracy} = \frac{\text{Número de predicciones correctas}}{\text{Número total de predicciones}}
$$

o en términos de clasificación binaria:

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

Donde:
- **TP (True Positives)**: Casos positivos correctamente clasificados.
- **TN (True Negatives)**: Casos negativos correctamente clasificados.
- **FP (False Positives)**: Casos negativos incorrectamente clasificados como positivos.
- **FN (False Negatives)**: Casos positivos incorrectamente clasificados como negativos.


In [None]:
# Calcular precisión del modelo optimizado con scipy en datos normalizados
accuracy_scipy_scaled = <Llena código faltante>

print('Precisión del modelo con scipy:', accuracy_scipy_scaled)

### Actividad: Implementa la solución en Sklearn y compara los resultados

In [None]:
#### Comprueba tus resultados con la implementación en sklearn. 
# Importar la regresión logística de scikit-learn
<Llena código faltante>

# Crear y entrenar el modelo de regresión logística con scikit-learn
<Llena código faltante>

# Hacer predicciones en el conjunto de prueba
<Llena código faltante>

# Calcular la precisión del modelo con scikit-learn
accuracy_sklearn = <Llena código faltante>

# Mostrar resultados
accuracy_sklearn

### Realiza tu conclusiones.
El accuracy tiene que ser el mismo o casi el mismo en la implementación manual o utilizando la librería de sklearn.

¿Lograste el objetivo?

¿Qué fue lo más dificil para ti en esta actividad?

¿Qué fue lo que más te gustó?

¿Con qué te quedas de esta actividad?

¿En tus propias palabras qué es el accuracy?

¿Podrías decirme cuantos Ciertos positivos tuvo tu modelo?

¿En el caso de los datos de este estudio qué te importa más, los Ciertos postivos, los ciertos falsos, los falsos positivos o los falsos negativos?

¿Para qué te sirve la regularización?

Investiga en internet en qué afecta el sobreajuste a los modelos de clasificación. Describe con pocas palabras ¿Por qué es bueno evitar el sobreajuste?
