![imagenes](logo.png)

# Fundamentos

## Fundamentos de Machine Learning

El **aprendizaje automático** (Machine Learning, ML) puede entenderse como la construcción de programas capaces de mejorar su propio desempeño a medida que acumulan experiencia. En lugar de darle instrucciones precisas a una máquina, la idea es proporcionarle datos y dejar que descubra patrones para resolver una tarea.

Una definición clásica, propuesta por Tom Mitchell en 1997, dice lo siguiente: un programa aprende de la experiencia **E** respecto a una tarea **T** y una medida de desempeño **P**, si su desempeño en la tarea **T**, medido por **P**, mejora con la experiencia **E**.

Por ejemplo, pensemos en un sistema que identifica correos no deseados. La tarea es clasificar mensajes en spam o no spam. La medida de desempeño puede ser la exactitud en las predicciones. La experiencia consiste en exponer al modelo a un conjunto de correos previamente etiquetados. Cuantos más correos analice, mejor debería ser su capacidad de reconocer patrones y tomar decisiones correctas.

## Una mirada a la historia

El concepto de *máquinas que aprenden* no surgió de la nada. En 1950, Alan Turing ya había planteado el famoso **juego de la imitación**, más conocido como test de Turing, para cuestionar si una máquina podía mostrar un comportamiento inteligente. Años después, en 1959, Arthur Samuel programó un juego de damas que se volvía mejor conforme jugaba más partidas: un ejemplo temprano de lo que hoy llamamos aprendizaje supervisado.

Entre los años sesenta y ochenta se exploraron las primeras redes neuronales y el perceptrón, mientras la estadística computacional se volvía más sofisticada. En los noventa aparecieron métodos como las máquinas de soporte vectorial (SVM) y los árboles de decisión, que permitieron resolver problemas con eficiencia incluso cuando los datos eran escasos.

El renacimiento del *deep learning* llegó en 2012, cuando la red **AlexNet** arrasó en la competencia ImageNet, revolucionando el campo de la visión por computadora. Desde 2015 hasta hoy, el aprendizaje automático se ha vuelto parte de nuestra vida cotidiana: desde los sistemas de traducción automática hasta los motores de recomendación y los asistentes de voz, pasando por la consolidación de pipelines reproducibles para el trabajo científico y empresarial.

El ML a veces parece abstracto, pero se aclara con ejemplos familiares. Imagina a un niño preparándose para un examen. Estudia con guías (que equivalen a los datos de entrenamiento), recibe retroalimentación sobre sus errores (la función de pérdida) y ajusta sus respuestas (el proceso de optimización). Si el niño se limita a memorizar las preguntas sin comprender, puede que le vaya muy bien en el examen, pero le irá mal en la vida real; esto es exactamente lo que ocurre cuando un modelo se sobreajusta.

Otra comparación útil es la de entrenar a un perro. Cada vez que responde bien a una instrucción, recibe un premio. En ML, los parámetros del modelo se ajustan siguiendo un principio similar: reforzamos aquello que produce buenos resultados sobre los datos.

## Los grandes tipos de aprendizaje

Existen varias formas de enseñar a una máquina:

* En el **aprendizaje supervisado** contamos con ejemplos acompañados de su etiqueta correcta. Es el caso de la clasificación (asignar una categoría discreta, como spam o no spam) o la regresión (predecir un valor numérico, como el precio de una casa).

* En el **aprendizaje no supervisado** no tenemos etiquetas. Aquí la meta es descubrir estructuras ocultas: agrupar elementos similares, reducir la dimensionalidad o encontrar patrones latentes.

* También existe el **aprendizaje por refuerzo**, donde un agente interactúa con un entorno y aprende a través de recompensas y penalizaciones. En este diplomado solo lo mencionaremos, pues nos centraremos en los dos primeros enfoques.

## Herramientas que usaremos

Para llevar estas ideas a la práctica trabajaremos con **NumPy** para operaciones con arreglos, **Pandas** para manipulación de datos en forma tabular, **Matplotlib** para generar gráficas, y **scikit-learn**, la biblioteca estándar en Python para construir y evaluar modelos de Machine Learning. Con esta caja de herramientas podremos armar flujos de trabajo claros, replicables y listos para compartir

In [None]:
# Carga de librerías base para todo el diplomado
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.cluster import KMeans

np.random.seed(42)
print("Versiones -> numpy:", np.__version__, "| pandas:", pd.__version__)

### Un conjunto de datos pequeño para jugar: Iris

El clásico dataset **Iris** (Fisher, 1936) contiene 150 flores de 3 especies con 4 mediciones. Lo convertiremos a un `DataFrame` para explorarlo.

In [None]:
data = pd.read_csv("iris_dataset.csv")
data

In [None]:
print(data.info())
display(data.describe().T)

### Visualización rápida
Una dispersión simple ayuda a intuir separaciones entre clases. No te preocupes por perfección estética todavía; la idea es mirar patrones.

In [None]:
plt.figure()
for sp, subdf in data.groupby('Class'):
    plt.scatter(subdf['SepalLength'], subdf['PetalLength'], label=sp, alpha=0.8)
plt.xlabel('Sepal length (cm)')
plt.ylabel('Petal length (cm)')
plt.legend()
plt.title('Iris: vista rápida')
plt.show()

## Flujo típico de trabajo en ML

### 1. Definir problema y métrica

Un proyecto de aprendizaje automático empieza por **enunciar con precisión el problema y la métrica de éxito**. No es lo mismo predecir si un correo es *spam* que estimar el precio de una casa; tampoco es lo mismo optimizar *accuracy* que *recall* o *ROC-AUC*.  

**Niño.** Es como decirle al niño qué examen tendrá y cómo se le calificará. ¿Será importante la exactitud, la claridad del razonamiento o la rapidez? Sin esa claridad, el niño podría estudiar mal o enfocarse en lo equivocado.

**Rocky.** Antes de enfrentar a Drago en Moscú, Rocky define su objetivo: aguantar la pegada descomunal y ganar ya sea por puntos o nocaut en rounds largos. La métrica condiciona el plan: resistencia total y potencia sostenida.

<center>
  <img src="im001.jpg" width="400" height="300">
</center>

---

### 2. Preparar los datos

Con el objetivo claro, pasamos a **preparar los datos**. Aquí se limpia y documenta todo: manejo de faltantes, codificación de variables, detección de atípicos y partición honesta en entrenamiento, validación y prueba. Este paso se vuelve sólido cuando se *encapsula en pipelines reproducibles*, de modo que las transformaciones sean coherentes en todo momento.  

**Niño.** El niño recibe su **cuestionario de práctica**. Se asegura de que las preguntas estén completas, legibles y ordenadas, para que la práctica refleje lo que verá en el examen. Si estudia con ejercicios mal planteados, llegará confundido.

**Rocky.** En *Rocky IV*, Rocky entrena en Siberia levantando troncos, corriendo en la nieve y cargando carretas, mientras Drago tiene máquinas de última generación. La preparación importa: si Rocky entrenara mal, ni su corazón ni su resistencia le alcanzarían en el ring.  La “data” del entrenamiento debe asemejarse a la pelea real (entorno duro, fatiga, golpes sostenidos).

<center>
  <img src="im002.jpg" width="400" height="300">
</center>


---

### 3. Entrenar una línea base

Antes de sofisticarnos, conviene entrenar una **línea base**. Un modelo simple —o incluso un clasificador *dummy*— nos da un piso creíble para comparar. Si un modelo complejo apenas mejora esa base, el problema suele estar en los datos o en la formulación, no en la arquitectura.  

**Niño.** Antes de obsesionarse con técnicas avanzadas, el niño hace el examen de práctica “como pueda”. Ese resultado inicial es su **piso mínimo**: si con más estudio no mejora, no es falta de inteligencia, sino de materiales o de estrategia.

**Rocky.** Rocky comienza entrenando con una rutina sencilla. Esa primera marca —el tiempo que tarda corriendo en la nieve, lo cansado que termina— le sirve de base para medir si su preparación está funcionando.

<center>
  <img src="im003.png" width="400" height="300">
</center>


---

### 4. Validar y ajustar

Luego viene **validar y ajustar**. Usamos validación cruzada y búsqueda de hiperparámetros para exprimir el modelo sin memorizar el conjunto de validación. Aquí es crucial vigilar la *fuga de datos*: todas las transformaciones (imputaciones, escalados, selección de variables) deben ajustarse solo con entrenamiento y aplicarse después al resto.  

**Niño.** El niño repite distintos **simulacros de examen** con variantes del cuestionario, probando técnicas de estudio diferentes. Así no se aprende de memoria un solo set de preguntas, sino que desarrolla estrategias que le sirven frente a cualquier variante.

**Rocky.** Rocky prueba combinaciones: guardia, ritmo, entradas y salidas. Ajusta según contextos; cuando un plan no generaliza, lo corrige antes de la “pelea real”.

---

### 5. Evaluar en el conjunto de prueba

El **conjunto de prueba** se deja intacto hasta el final. Es la fotografía más cercana a cómo rendirá el sistema con datos nuevos. Se evalúa una sola vez para estimar el desempeño fuera de muestra.  

**Niño.** El examen real en la escuela. El niño ya no puede hacer trampa ni recibir retroalimentación: esa calificación refleja lo que realmente aprendió.

**Rocky.** Rocky vs Drago en Moscú es la prueba definitiva: todo lo entrenado se valida en el ring sin segundas oportunidades.

<center>
  <img src="im004.jpg" width="400" height="300">
</center>

---

### 6. Despliegue y monitoreo

Finalmente, **despliegue y monitoreo**. Se versiona el modelo y el *pipeline*, se guarda el artefacto (y su *environment*), y se instrumentan tableros para vigilar *drift* de datos, rendimiento por segmentos y tasas de error. El mantenimiento es parte del producto: los datos cambian, y el modelo debe adaptarse con *retraining* controlado.  

**Niño.** La vida después de la escuela. El niño ya no está en un salón con exámenes controlados, sino en el mundo real, donde surgen problemas nuevos y debe seguir aprendiendo y adaptándose. Si no repasa ni actualiza sus conocimientos, lo que aprendió se vuelve obsoleto.

**Rocky.**  Despliegue como entrenador y figura pública: los rivales cambian, la prensa y los promotores alteran el “entorno de datos”. La pelea callejera contra Tommy es otra “prueba” fuera del entorno controlado: si la estrategia sirve, debe funcionar también en condiciones adversas y ruidosas.

<center>
  <img src="im005.jpg" width="400" height="300">
</center>
