## Algoritmos de Machine Learning

Alumno: Fernando Mendoza Velasco
Fecha: 17 de Marzo de 2025

Un **algoritmo de Machine Learning** es un conjunto de reglas matemáticas que permiten a un modelo aprender patrones a partir de datos. Se pueden dividir en varias categorías:

### 📌 **Tipos de Algoritmos:**

1. **Aprendizaje Supervisado** (con etiquetas):
   - Regresión Lineal
   - Regresión Logística
   - Árboles de Decisión
   - Máquinas de Soporte Vectorial (SVM)
   - Redes Neuronales

2. **Aprendizaje No Supervisado** (sin etiquetas):
   - Clustering (K-Means, DBSCAN, etc.)
   - Análisis de Componentes Principales (PCA)

3. **Aprendizaje por Refuerzo**
   - Q-Learning
   - Deep Q-Networks (DQN)
   - El aprendizaje por refuerzo (Reinforcement Learning, RL) es un tipo de Machine Learning donde un agente aprende a tomar decisiones mediante prueba y error, recibiendo recompensas o penalizaciones según sus acciones.

## Modelos de Clasificación

Los modelos de **Clasificación** son un tipo de aprendizaje supervisado que asignan una etiqueta a cada entrada. Algunos modelos de clasificación comunes incluyen:

### 🏷 **Modelos de Clasificación Binaria**
- **Regresión Logística** → Predice dos clases (ejemplo: spam o no spam).
- **Árbol de Decisión** → Divide los datos en nodos de decisión.
- **Máquinas de Soporte Vectorial (SVM)** → Encuentra un hiperplano óptimo para separar clases.

### 🏷 **Modelos de Clasificación Multiclase**
- **K-Vecinos Más Cercanos (KNN)** → Clasifica basado en los vecinos más cercanos.
- **Redes Neuronales** → Modelos complejos que aprenden patrones en los datos.

### 📊 **Ejemplo Visual de Clasificación con SVM**
![Clasificación SVM](https://upload.wikimedia.org/wikipedia/commons/thumb/7/72/SVM_margin.png/640px-SVM_margin.png)

## Decision Boundary
- Un Decision Boundary es una línea o margen que separa las clases.
- El algoritmo de clasificación trata de encontrar el límite de decisión que ayude a distinguir entre las clases de manera perfecta o casi perfecta.
- La regresión logística decide un ajuste adecuado al límite de decisión para que podamos predecir a qué clase corresponderá un nuevo dato.

![Aprendizaje Supervisado](https://miro.medium.com/v2/resize:fit:720/format:webp/1*kmMho6PkiVbOXKEYvguMOQ.png)

## Aprendizaje Supervisado

El **Aprendizaje Supervisado** es una técnica de Machine Learning en la que un modelo aprende a partir de ejemplos etiquetados.

### 📌 **Ejemplo de Aprendizaje Supervisado**
- Entrenamos un modelo con imágenes de **gatos** y **perros**.
- Etiquetamos las imágenes como “gato” o “perro”.
- El modelo aprende a predecir la categoría de nuevas imágenes.

![Aprendizaje Supervisado](https://miro.medium.com/v2/resize:fit:720/format:webp/1*3FgpptTWzpd2RLgKbV-HvA.jpeg)

## Fundamentos Matemáticos de la Regresión Logística

La **regresión logística** es un modelo estadístico que se utiliza para predecir una variable de respuesta binaria (0 o 1) a partir de una o más variables independientes \( X \). A diferencia de la regresión lineal, la regresión logística usa la función sigmoide para modelar la probabilidad de pertenencia a una de las clases.

El modelo se expresa como:

$$ P(y=1 | X) = \sigma(\theta^T X) = \frac{1}{1 + e^{-\theta^T X}} $$

Donde:
- \( y \) es la variable dependiente binaria.
- \( X \) es la matriz de características.
- \( theta \) son los parámetros del modelo.
- \( sigma \) es la función sigmoide.

El objetivo es encontrar los valores óptimos de \( theta \) que maximicen la probabilidad de clasificación correcta.

### Función Sigmoide

La **función sigmoide** es utilizada en la regresión logística para modelar la probabilidad de pertenencia a una clase. Convierte cualquier valor real en un valor en el rango \( (0,1) \), lo que lo hace ideal para problemas de clasificación binaria.

Se define como:

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

Donde

$$ z = X \theta $$

En nuestro modelo, la función sigmoide toma como entrada la multiplicación matricial entre las características (x) y los coeficientes (theta):

$$ \sigma(X \theta) = \frac{1}{1 + e^{-X \theta}} $$
![Función Sigmoide](https://miro.medium.com/v2/resize:fit:640/format:webp/1*xTwaKZZsIRek8jzrNWRPzQ.png)



## Función de Costo en Regresión Logística

La función de costo es una función que mide el rendimiento de un modelo de aprendizaje automático para datos determinados.

La función de costo es básicamente el cálculo del error entre los valores predichos y los valores esperados y lo presenta en forma de un único número real.

Mucha gente confunde la función de costo con la función de pérdida.

Bueno, para decirlo en términos simples, la **función de costo** es el promedio del error de n muestras en los datos y la **función de pérdida** es el error de puntos de datos individuales. En otras palabras, la función de pérdida es para un ejemplo de entrenamiento, la función de costo es para todo el conjunto de entrenamiento.

Profundiza: https://medium.com/analytics-vidhya/understanding-logistic-regression-b3c672deac04

Para entrenar el modelo, utilizamos la función de **log-verosimilitud**, que mide qué tan bien los parámetros explican los datos:

$$ \ell(\theta) = \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right] $$

Sin embargo, en la práctica se minimiza la versión negativa de esta función, conocida como **log-loss** o **binary cross-entropy**:

$$ J(\theta) = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right] $$

**Minimizar** esta función equivale a encontrar los parámetros óptimos para el modelo logístico.


### Regularización en Regresión Logística

Para evitar sobreajuste, añadimos un **término de regularización** a la función de costo. El método más común es la **regularización L2 (Ridge)**, que penaliza grandes valores en los coeficientes:

$$ R(\theta) = \frac{\lambda}{2n} \sum_{j=1}^{m} \theta_j^2 $$

Incorporando la regularización en la función de costo:

$$ J(\theta) = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log \sigma(X_i \theta) + (1 - y_i) \log (1 - \sigma(X_i \theta)) \right] + \frac{\lambda}{2n} \sum_{j=1}^{m} \theta_j^2 $$

Donde \( lambda \) es el hiperparámetro que controla la intensidad de la regularización.

Tambien puedes obtener el costo y la regularización aparte y sumarlos (te dejo el código prellenado)

### Actividad. Diagnóstico de afecciones en tejido mamario.
- Realiza las instrucciones propuestas en las celdas markdown

In [31]:
import numpy as np
import pandas as pd
from scipy.optimize import minimize
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# Cargar datos
df = pd.read_csv('data.csv')
df.head(15)


Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,
5,843786,M,12.45,15.7,82.57,477.1,0.1278,0.17,0.1578,0.08089,...,23.75,103.4,741.6,0.1791,0.5249,0.5355,0.1741,0.3985,0.1244,
6,844359,M,18.25,19.98,119.6,1040.0,0.09463,0.109,0.1127,0.074,...,27.66,153.2,1606.0,0.1442,0.2576,0.3784,0.1932,0.3063,0.08368,
7,84458202,M,13.71,20.83,90.2,577.9,0.1189,0.1645,0.09366,0.05985,...,28.14,110.6,897.0,0.1654,0.3682,0.2678,0.1556,0.3196,0.1151,
8,844981,M,13.0,21.82,87.5,519.8,0.1273,0.1932,0.1859,0.09353,...,30.73,106.2,739.3,0.1703,0.5401,0.539,0.206,0.4378,0.1072,
9,84501001,M,12.46,24.04,83.97,475.9,0.1186,0.2396,0.2273,0.08543,...,40.68,97.65,711.4,0.1853,1.058,1.105,0.221,0.4366,0.2075,


#### Obten los datos de entrada y de salida
- Elimina las columnas innecesarias 'id', 'Unnamed: 32'
- Convierte variable objetivo o dependiente "diagnóstico" a numérico

In [32]:
# Preprocesamiento de datos
df = df.drop(["id", "Unnamed: 32"], axis=1)  # Eliminar columnas irrelevantes
df['diagnosis'] = df['diagnosis'].map({"M": 1, "B": 0})  # Convertir variable objetivo o dependiente "diagnóstico" a numérico
display(df.head())
# Obten X e y
X = df.drop(columns=['diagnosis']).values
y = df['diagnosis'].values

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,1,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,1,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,1,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,1,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


#### Separa los datos en conjuntos X_train, X_test, y_train, y_test para su estudio

In [33]:
# División del conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=8)

#### Estandariza los datos con StandardScaler
La **estandarización** es un proceso de transformación de datos en el que cada característica del conjunto de datos se ajusta para que tenga **media cero** y **varianza unitaria**. Esto es especialmente útil para algoritmos de aprendizaje automático que utilizan optimización basada en gradientes, como la **Regresión Logística**.

Dado un conjunto de datos con características \( X \), cada valor \( x_i \) se transforma según la siguiente ecuación:

$$
x_{\text{estandarizado}} = \frac{x_i - \mu}{\sigma}
$$

Donde:
- (mu) es la **media** de la característica.
- (sigma) es la **desviación estándar** de la característica.

In [34]:
# Estandarizar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train, y_train)
X_test_scaled = scaler.fit_transform(X_test, y_test)


#### Define las funciones matemáticas del modelo
- Define la función sigmoide
- Define la función de regularización
- Define la función de costo. Retorna costo + regularización.

In [35]:
# Definir la función sigmoide con entrada X @ theta
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Definir la función de regularización L2
def regularization(theta, lambda_reg, m):
    return lambda_reg * np.sum(theta[1:m]**2) / (2 * m)

# Definir la función de costo con regularización
def cost_function_reg(theta, X, y, lambda_reg=0.1):
    m = len(y)
    h = sigmoid(X @ np.transpose(theta))
    epsilon = 1e-5  # Para evitar log(0)
    cost = - (np.dot(y, np.log(h + epsilon)) + np.dot((1 - y), np.log(1 - h + epsilon))) / m
    return cost + regularization(theta, lambda_reg, m)


#### Obten los coeficientes de la regresión logistica

- En los datos `X` de entrenamiento, agrega una columna de unos al principio. 
    - Esto es un requisito de la función `minimize` y sirve para el término de sesgo en los datos de entrenamiento.
- Crea un vector de ceros `theta_init` con la dimensión del número total de columnas de `X` de entrenamiento
- Realiza la optimización con `scipy.minimize` y obtén los coeficientes de la regresión logpística.
    - Utiliza el método de BFGS

In [36]:
# Agregar columna de unos para el término de sesgo en los datos de entrenamiento
X_train_bias_scaled = np.c_[np.ones((X_train_scaled.shape[0], 1)), X_train_scaled]
theta_init = np.zeros(X_train_bias_scaled.shape[1])

# Optimización con scipy
res = minimize(cost_function_reg, theta_init, args=(X_train_bias_scaled, y_train), method="BFGS")
theta_opt_scaled = res.x

print('Coeficientes obtenidos con scipy:', theta_opt_scaled)

Coeficientes obtenidos con scipy: [ 0.47296772 -0.59015242  0.54629322 -0.41529137 -0.17320684  0.46002746
 -2.61115961  2.16474894  2.05715302 -0.11661401  0.05214688  2.59411907
 -0.83065273  0.41703908  2.47954181  0.41434456  0.39690339 -1.25615014
  1.19680631 -0.70720624 -2.05733899  2.1633816   1.96894263  1.566969
  2.3961446   0.59680602 -0.8920343   1.30973618  0.91284433  1.25509307
  1.93220161]


### Evalúa la efectividad del modelo
- En los datos X de prueba, agrega una columna de unos al principio. 
    - Esto para que tenga la misma dimensión que theta_opt_scaled y lo pueda procesar.
- Utiliza la función sigmoide y los coeficientes de la regresión logística para obtener las predicciones
- Escala los datos con un umbral de 0.5 y guardalos en un vector  'y_pred_scaled'
-   Esto significa que si son mayores o iguales a 0.5, la salida es 1. Si son menores, la salida es 0.
- Muestra el vector  'y_pred_scaled'

In [37]:
# Evaluar la efectividad del modelo optimizado con scipy en los datos normalizados
X_test_bias_scaled = np.c_[np.ones((X_test_scaled.shape[0], 1)), X_test_scaled]

# Predicciones en el conjunto de prueba
y_pred_prob_scaled = sigmoid(X_test_bias_scaled @ theta_opt_scaled)
y_pred_scaled = [1 if y_pred >= 0.5 else 0 for y_pred in y_pred_prob_scaled ]
y_pred_scaled[:20]

[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1]

#### Evalúa el accuracy del modelo. 
##### ¿Qué es el Accuracy?
El **accuracy** (precisión) es una métrica fundamental en Machine Learning que mide el porcentaje de predicciones correctas sobre el total de predicciones realizadas.

Se define como:

$$
\text{Accuracy} = \frac{\text{Número de predicciones correctas}}{\text{Número total de predicciones}}
$$

o en términos de clasificación binaria:

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

Donde:
- **TP (True Positives)**: Casos positivos correctamente clasificados.
- **TN (True Negatives)**: Casos negativos correctamente clasificados.
- **FP (False Positives)**: Casos negativos incorrectamente clasificados como positivos.
- **FN (False Negatives)**: Casos positivos incorrectamente clasificados como negativos.


In [38]:
# Calcular precisión del modelo optimizado con scipy en datos normalizados
accuracy_scipy_scaled = accuracy_score(y_test, y_pred_scaled)

print('Precisión del modelo con scipy:', accuracy_scipy_scaled)

Precisión del modelo con scipy: 0.9912280701754386


### Actividad: Implementa la solución en Sklearn y compara los resultados

In [39]:
#### Comprueba tus resultados con la implementación en sklearn. 
# Importar la regresión logística de scikit-learn
from sklearn.linear_model import LogisticRegression

# Crear y entrenar el modelo de regresión logística con scikit-learn
sklearn_model = LogisticRegression(penalty="l2", max_iter=10_000)
sklearn_model.fit(X_train_scaled, y_train)

# Hacer predicciones en el conjunto de prueba
# NOTA: se puede usar sklearn_model.predict() para obtener directamente las predicciones con las clases.
# predict_proba predice la probabilidad de cada muestra y produce el mismo resultado al usar un umbral de 0.5.
y_pred_prob_scaled_sklearn = sklearn_model.predict_proba(X_test_scaled)
y_pred_scaled_sklearn = [1 if y_pred >= 0.5 else 0 for _, y_pred in y_pred_prob_scaled_sklearn]

# Calcular la precisión del modelo con scikit-learn
accuracy_sklearn = accuracy_score(y_test, y_pred_scaled_sklearn)

# Mostrar resultados
accuracy_sklearn

0.9824561403508771

### Realiza tu conclusiones.
El accuracy tiene que ser el mismo o casi el mismo en la implementación manual o utilizando la librería de sklearn.

¿Lograste el objetivo?

¿Qué fue lo más dificil para ti en esta actividad?

¿Qué fue lo que más te gustó?

¿Con qué te quedas de esta actividad?

¿En tus propias palabras qué es el accuracy?

¿Podrías decirme cuantos Ciertos positivos tuvo tu modelo?

¿En el caso de los datos de este estudio qué te importa más, los Ciertos postivos, los ciertos falsos, los falsos positivos o los falsos negativos?

¿Para qué te sirve la regularización?

Investiga en internet en qué afecta el sobreajuste a los modelos de clasificación. Describe con pocas palabras ¿Por qué es bueno evitar el sobreajuste?


El modelo implementado manualmente obtuvo casi el mismo puntaje de exactitud que el modelo con sklearn (0.9912 y 0.9825, repsectivamente). Esto es un buen indicador de que la implementación manual es correcta y de que ambos modelos son efectivos para cumplir con la tarea de clasificación asignada. A partir del dataset, los modelos pueden recibir un valores de entrada que no han "visto" previamente, y realizar una predicción de diagnóstico con alta certeza.

La parte más difícil fue la implementación manual de la función de costo. Aunque la función en sí no es excesivamente compleja, es importante conocer sobre numpy para aplicar las operaciones correctas, en el orden correcto. Sin embargo, el código preestructurado ayuda enormemente a lograrlo.

Lo más interesante para mí fue evaluar la exactitud de ambos modelos, porque da una noción sobre sus efectividades y confianza en las predicciones que hacen. Sobretodo, es uno de los pasos más importantes en aplicaciones reales, especialmente en el área médica donde realizar el diagnóstico correcto es muy importante.

Esta actividad me permitió explorar una herramienta básica pero valiosa para ajustar modelos capaces de clasificar datos en dos o más categorías. Además, refuerza sobre otros conceptos importantes, tales como la optimización, el manejo de conjuntos de datos (separación en train y test) y la evaluación de los modelos.

Para la evaluación de los modelos, uno de los conceptos más importantes es el accuracy (exactitud) del modelo. La exactitud es un puntaje que resume el rendimiento del ajuste del modelo a los datos y siempre se busca la forma de maximizar este puntaje. En un modelo de predicción del clima, podría representar qué tan seguido se equivoca el modelo. A nadie le interesa un modelo que pronostica sol cuando en realidad llueve.

In [40]:
true_positive_count = np.sum([1 if y_pred_scaled[i] == 1 and y_test[i] == y_pred_scaled[i] else 0 for i in range(len(y_test))])
f"El modelo tuvo {true_positive_count} predicciones positivas verdaderas ({len(y_test)} predicciones en el conjunto de prueba)"

'El modelo tuvo 45 predicciones positivas verdaderas (114 predicciones en el conjunto de prueba)'

En el contexto médico de diagnósticos de precursores o indicadores de cáncer, las predicciones más importantes son los diagnósticos negativos falsos. Si un paciente verdaderamente está desarrollando cáncer, la detección temprana puede hacer una gran diferencia e incluso salvarle la vida. Si el modelo predice incorrectamente que el paciente no tiene precursores de cáncer, el paciente seguiría como si nada y eventualmente padecería las consecuencias del error.

La regularización es útil durante el preprocesamiento para ajustar características con rangos de valores muy distintos a distribuciones uniformes, usualmente con promedio 0 y desviación estándar 1. Evita que una característica tenga influencia excesiva simplemente por tener valores con mayor magnitud.

Cuando un modelo de clasificación tiene sobreajuste, significa que el ajuste del modelo es demasiado específico para el subconjunto de datos de entrenamiento. Esto provoca que el modelo tenga menos exactitud al realizar predicciones con datos que no fueron usados para el ajuste y que no sea generalizable a cualquier conjunto de datos con diferentes valores. Evitar el sobreajuste asegura que el modelo pueda ser aplicable fuera del entrenamiento y ajuste inicial y, por lo tanto, útil.