# SPRINT 12: ML: MODELOS SUPERVISADOS III. OTROS MODELOS Y REPASO

## K-NEAREST NEIGHBOURS (KNN) - Clasificaci√≥n y Regresi√≥n

KNN es un algoritmo de aprendizaje supervisado basado en la proximidad entre vectores. No requiere entrenamiento tradicional: simplemente almacena los datos y compara distancias al hacer predicciones.

üß† Fundamento
- Clasificaci√≥n: Asigna una clase en base a la moda (mayor√≠a) de los vecinos m√°s cercanos.

- Regresi√≥n: Predice un valor promedio de los vecinos m√°s cercanos.

üîÅ Pasos para aplicar KNN (clasificaci√≥n o regresi√≥n)

In [None]:
# 1. Cargar y preparar datos

import pandas as pd
from sklearn.model_selection import train_test_split

# 2. Escalar variables (muy importante en KNN)
# KNN es muy sensible a la escala, as√≠ que es necesario normalizar 
# o estandarizar.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 3. Importar e instanciar el modelo

from sklearn.neighbors import KNeighborsClassifier  # o KNeighborsRegressor
knn = KNeighborsClassifier(n_neighbors=K)  # elegir K seg√∫n an√°lisis

# 4. Entrenar el modelo (aunque KNN "entrena" simplemente almacenando dataset)

knn.fit(X_train, y_train)

# 5. Realizar predicciones

y_pred = knn.predict(X_test)

# 6. Evaluar el modelo
# Clasificaci√≥n: accuracy, matriz de confusi√≥n, F1...

from sklearn.metrics import accuracy_score, confusion_matrix

# Regresi√≥n: MAE, RMSE, R2

from sklearn.metrics import mean_squared_error

‚öôÔ∏è Selecci√≥n del valor √≥ptimo de K
- No hay un m√©todo exacto. Lo m√°s habitual es probar varios valores (ej: de 1 a 20) y elegir el que maximice el rendimiento.

- Valores peque√±os ‚Üí muy sensibles al ruido.

- Valores grandes ‚Üí modelos m√°s estables pero menos precisos en clases minoritarias.

Ejemplo de b√∫squeda de K √≥ptimo:

In [None]:
for k in range(1, 21):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    print(f"K={k} ‚Üí Accuracy: {knn.score(X_test, y_test)}")

üìé Notas clave
- KNN es lento con muchos datos, porque calcula distancias con todos los puntos.

- Puede usarse tanto para problemas de clasificaci√≥n como de regresi√≥n.

- Requiere preprocesamiento cuidadoso (escalado de datos).

## üìå Regresi√≥n Polin√≥mica (Polynomial Regression)

Cuando la relaci√≥n entre variables no es lineal, una regresi√≥n lineal no es suficiente. La regresi√≥n polin√≥mica permite capturar relaciones no lineales mediante la transformaci√≥n de las variables originales en nuevas variables elevadas a potencias.

üß† Fundamento
Consiste en ampliar el espacio de variables incluyendo:

Potencias de las features originales: 
ùë•
,
ùë•
2
,
ùë•
3
,
‚Ä¶
x,x 
2
 ,x 
3
 ,‚Ä¶

Combinaciones entre variables (si hay m√°s de una feature)

Aunque el modelo sigue siendo lineal en los coeficientes, el comportamiento se vuelve no lineal respecto a las variables.

üîÅ Pasos para aplicar regresi√≥n polin√≥mica

In [None]:
# 1. Preparar los datos
from sklearn.model_selection import train_test_split
X = df[["feature"]].values
y = df["target"].values

# 2. Transformar las variables con PolynomialFeatures

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=d)  # d es el grado del polinomio
X_poly = poly.fit_transform(X)

# 3. Entrenar el modelo de regresi√≥n lineal

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_poly, y)

# 4. Predecir nuevos valores
#Recordar: hay que transformar las features antes de predecir

X_test_poly = poly.transform(X_test)
y_pred = model.predict(X_test_poly)

‚ö†Ô∏è Sobreajuste (Overfitting)
Grados altos capturan muy bien el patr√≥n del entrenamiento, pero generalizan mal.

Es recomendable:

- Usar validaci√≥n cruzada para elegir el grado.

- Visualizar el error en training vs test.

- No pasar de grado 3-4 sin justificaci√≥n s√≥lida.

## üìå Support Vector Machine (SVM)

SVM es un modelo supervisado de clasificaci√≥n (tambi√©n puede usarse en regresi√≥n). Su objetivo es encontrar el hiperplano que mejor separa las clases maximizando el margen entre los puntos de distintas clases.

üß† Fundamento
- Busca el separador lineal con mayor margen entre las clases.

- Los puntos m√°s cercanos al hiperplano se llaman vectores de soporte, y determinan el modelo.

- Si los datos no son separables linealmente, se recurre a kernels para transformar el espacio.

üîÅ Pasos para aplicar un modelo SVM (clasificaci√≥n)

In [None]:
# 1. Preparar los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 2. Escalado obligatorio
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 3. Instanciar y entrenar el modelo
from sklearn.svm import SVC
model = SVC(kernel='linear', C=1)  # 'linear', 'poly', 'rbf'
model.fit(X_train, y_train)

# 4. Predecir y evaluar
y_pred = model.predict(X_test)
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

üîÄ Par√°metros importantes
- kernel: tipo de transformaci√≥n (ver m√°s abajo).

- C: penalizaci√≥n por errores (cuanto mayor, menos margen permite ‚Üí modelo m√°s estricto).

- gamma: en kernels RBF, controla cu√°nto influye un solo punto (bajo = amplio, alto = localizado).

üß™ Kernels: separaci√≥n no lineal

Cuando los datos no son linealmente separables, se usan kernels que transforman el espacio:
| Kernel   | Descripci√≥n                              |
| -------- | ---------------------------------------- |
| `linear` | Hiperplano lineal                        |
| `poly`   | Polin√≥mico (grado definido con `degree`) |
| `rbf`    | Radial (transforma a dimensi√≥n infinita) |


In [None]:
SVC(kernel='poly', degree=3)
SVC(kernel='rbf', gamma=0.1)

## üìâ SVM en regresi√≥n (SVR)

Tambi√©n puede usarse para regresi√≥n, con SVR:

In [None]:
from sklearn.svm import SVR
svr = SVR(kernel='rbf')
svr.fit(X_train, y_train)
y_pred = svr.predict(X_test)

‚ö†Ô∏è Consideraciones clave
- Muy sensible al escalado de los datos. Siempre escalar antes.

- Sensibilidad a outliers: puede alterar el margen y los vectores de soporte.

- No es recomendable para datasets grandes, ya que el entrenamiento puede ser costoso.

- Hiperpar√°metro C controla el trade-off entre margen amplio y clasificaci√≥n perfecta.

‚úÖ Gu√≠a paso a paso para un modelo supervisado con KNN


In [None]:
# 1. Carga de datos
df = pd.read_csv("ruta_al_csv", sep=";")
df.head()
df.info()

# 2. An√°lisis del target
bt.pinta_distribucion_categoricas(df, [target], mostrar_valores=True, relativa=True)

#üîπ Si est√° desbalanceado, ap√∫ntalo. Esto afectar√° al rendimiento de modelos 
# y puede requerir:
# Usar m√©tricas robustas (recall, balanced accuracy)
# Hacer balanceo (SMOTE, undersampling...) en casos graves

# 3. Limpieza de columnas no √∫tiles (irrelevantes o con muchos nulos)
df.drop("columna_con_nulos", axis=1, inplace=True)

# 4. Divisi√≥n Train/Test
train_set, test_set = train_test_split(df, test_size=0.2, random_state=42)

# 5. An√°lisis de variables num√©ricas
features_num = ["var1", "var2"]
train_set[features_num].describe()
train_set[features_num].hist()

#üî∏ Revisa:
# Rango entre variables ‚Üí escalado necesario para KNN
# Distribuci√≥n sesgada ‚Üí aplica log si hay mucha asimetr√≠a

# 6. An√°lisis de variables categ√≥ricas
features_cat = ["col_categorica"]
bt.pinta_distribucion_categoricas(train_set, features_cat, mostrar_valores=True, relativa=True)

#‚úîÔ∏è Si es binaria, puedes codificarla como 0 y 1
#‚úîÔ∏è Si tiene m√°s de dos categor√≠as, necesitar√°s one-hot encoding (para otros modelos)

#7. Preprocesamiento de features

# Categ√≥rica ‚Üí binaria
train_set["col"] = train_set["col"].apply(lambda x: 1 if x == "positive" else 0)
test_set["col"] = test_set["col"].apply(lambda x: 1 if x == "positive" else 0)

# Num√©ricas ‚Üí escalado
scaler = MinMaxScaler()
train_set[features_num] = scaler.fit_transform(train_set[features_num])
test_set[features_num] = scaler.transform(test_set[features_num])

# 8. Separar X e y y entrenar KNN
X_train = train_set[features_cat + features_num]
y_train = train_set[target]
X_test = test_set[features_cat + features_num]
y_test = test_set[target]

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# 9. Evaluaci√≥n inicial
print(classification_report(y_train, knn.predict(X_train)))
print(classification_report(y_test, knn.predict(X_test)))

# 10. Optimizar K manualmente
metricas = []
for k in range(1, 21):
    model = KNeighborsClassifier(n_neighbors=k)
    score = cross_val_score(model, X_train, y_train, cv=5, scoring="balanced_accuracy").mean()
    metricas.append(score)

best_k = np.argmax(metricas) + 1

#‚úîÔ∏è Usa balanced_accuracy si el dataset est√° desbalanceado
#‚úîÔ∏è Entrena y eval√∫a el modelo final con el mejor k

# 11. B√∫squeda de hiperpar√°metros con GridSearch
param_grid = {
    "n_neighbors": range(1, 20),
    "weights": ["uniform", "distance"]
}

grid = GridSearchCV(knn, param_grid, cv=5, scoring="balanced_accuracy")
grid.fit(X_train, y_train)

print(grid.best_params_)
print(grid.best_score_)
print(classification_report(y_test, grid.best_estimator_.predict(X_test)))

# ‚úîÔ∏è weights="distance" puede mejorar si hay ruido o vecinos poco representativos




## ‚öñÔ∏è Equilibrado de Clases (Class Imbalance)
üìå ¬øQu√© es un dataset desbalanceado?
Un dataset est√° desbalanceado cuando las clases del target no est√°n representadas de forma proporcional, es decir, una clase aparece con mucha m√°s frecuencia que otra.
Ejemplo t√≠pico: 90% clase 'no', 10% clase 'yes'.

‚ùó¬øPor qu√© es un problema?
Los modelos pueden aprender a predecir siempre la clase mayoritaria y tener una alta accuracy pero bajo recall o F1-score para la clase minoritaria.

üí° Consejo inicial:
Antes de aplicar t√©cnicas, entiende bien el objetivo de negocio:

- ¬øInteresa maximizar el recall de la clase minoritaria?

- ¬øO reducir los falsos positivos?

- ¬øQu√© cuesta y qu√© se gana con un TP, FP, FN, TN?

### üß™ Estrategias para abordar el desequilibrio

‚úÖ 0. No hacer nada (modelo base)
Evaluar sin modificar el dataset:

In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

M√©tricas clave:

- Precisi√≥n / recall de la clase minoritaria

- Matriz de confusi√≥n: ConfusionMatrixDisplay.from_predictions(...)

üîÅ 1. Over-sampling (sobremuestreo)

üß¨ SMOTE (Synthetic Minority Over-sampling Technique)

Crea nuevas observaciones sint√©ticas de la clase minoritaria usando KNN.

In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

Pros: mejora el recall sin perder datos
Contras: riesgo de overfitting si se abusa

üì¶ Otras alternativas de oversampling:

- RandomOverSampler() (repite observaciones)

- ADASYN() (parecido a SMOTE, pero adaptativo)

üîª 2. Under-sampling (bajomuestreo)
Reduce el n√∫mero de observaciones de la clase mayoritaria.

In [None]:
from sklearn.utils import resample

may = X_train[y_train == "no"]
min_ = X_train[y_train == "yes"]

may_down = resample(may, replace=False, n_samples=len(min_), random_state=42)

X_train_bal = pd.concat([may_down, min_])
y_train_bal = pd.concat([y_train.loc[may_down.index], y_train.loc[min_.index]])

Pros: r√°pido y simple
Contras: pierde datos valiosos ‚Üí riesgo de subentrenamiento

‚öñÔ∏è 3. Ajuste de pesos (class_weight)

Aplica un peso mayor a la clase minoritaria en la funci√≥n de p√©rdida del modelo. Recomendado si no quieres tocar el dataset.

In [None]:
model = LogisticRegression(class_weight='balanced')

‚úîÔ∏è Muchos modelos de sklearn lo soportan (DecisionTree, SVM, RandomForest, etc.)

üìä Comparativa de resultados
| T√©cnica            | Precisi√≥n (YES) | Recall (YES) | Comentario                                         |
| ------------------ | --------------- | ------------ | -------------------------------------------------- |
| **Sin equilibrar** | 0.64            | 0.36         | Alta precisi√≥n clase NO, muy bajo recall clase YES |
| **SMOTE**          | 0.51            | 0.61         | Mejora de recall, algo de precisi√≥n                |
| **Under-sampling** | 0.39            | 0.85         | Mucho recall, baja precisi√≥n (dispara a todo)      |
| **class\_weight**  | 0.39            | 0.85         | Similar a under-sampling, pero sin eliminar datos  |

### üß† Consejos finales para el equilibrio de clases

‚ö†Ô∏è No hay una soluci√≥n universal ‚Üí prueba varias y eval√∫a

üìâ Siempre eval√∫a con m√©tricas por clase: precisi√≥n, recall, F1

üìä Usa validaci√≥n cruzada para testear robustez

üéØ Ajusta el umbral de decisi√≥n (predict_proba) si no quieres reequilibrar el dataset

-------------

# üß† An√°lisis de Errores

Analizar los errores es esencial para mejorar un modelo y adaptarlo a las prioridades reales del negocio. No basta con obtener un buen accuracy global: es necesario entender qu√© est√° fallando, c√≥mo y por qu√©.

## ‚ö†Ô∏è Importancia del An√°lisis de Errores
- Identifica clases con bajo rendimiento (recall, precisi√≥n...).

- Detecta patrones sistem√°ticos de error.

- Prioriza mejoras seg√∫n el impacto del fallo (no todas las clases pesan igual).

- Te gu√≠a hacia una mejor interpretaci√≥n del modelo y ajustes m√°s efectivos.

## üîç An√°lisis de errores en Clasificaci√≥n
‚úÖ Proceso paso a paso



In [None]:
# 1. Entrena un modelo de clasificaci√≥n

# 2. Eval√∫a con m√©tricas por clase

from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

# 3. Inspecciona la matriz de confusi√≥n normalizada (recall por fila)

from sklearn.metrics import ConfusionMatrixDisplay
ConfusionMatrixDisplay.from_predictions(y_true, y_pred, normalize='true')

## üß≠ C√≥mo interpretar la matriz
- Lectura por filas (con normalize="true"):
Cada fila representa una clase real ‚Üí el valor muestra a qu√© clase fue clasificada.

- Las diagonales altas indican buen recall.

- Las desviaciones fuera de la diagonal indican confusiones sistem√°ticas.

üí° Ejemplo de an√°lisis cualitativo

- Si clase 2 se clasifica mal y casi siempre como clase 4 o 5 ‚Üí hay un sesgo ascendente.

- Si una clase con poco soporte tiene bajo recall, puedes:

    -Reentrenar un modelo espec√≠fico para esa clase.

    - Balancear las clases (oversampling).

    - Aplicar un modelo de segundo nivel ("modelo cascada").


## üìà Sugerencias para mejorar tras el an√°lisis
1. Ingenier√≠a de variables
Nuevas variables o transformar las existentes (escalado, codificaci√≥n ordinal...).

2. Modelos especializados
Para clases con errores sistem√°ticos o de alto impacto ‚Üí crear modelos dedicados.

3. Reentrenar con class_weight
Penalizar m√°s los errores en las clases minoritarias.

4. Evaluar impacto real
Discutir con negocio: ¬øcu√°l es el coste real de predecir mal cada clase?

## üìâ An√°lisis de Errores en Regresi√≥n
Cuando trabajamos con modelos de regresi√≥n, no podemos usar una matriz de confusi√≥n como en clasificaci√≥n, pero s√≠ podemos analizar los errores individuales (residuos), su distribuci√≥n y su relaci√≥n con las predicciones. Esto nos ayuda a identificar sesgos o zonas problem√°ticas.

‚öôÔ∏è Preparaci√≥n del problema de regresi√≥n

Se cambia el target a una variable num√©rica continua. En el ejemplo con el dataset diamonds:

In [None]:
target_regresion = "price"
features_cat_reg = ["color", "clarity", "cut"]
features_num_reg = [...]  # num√©ricas sin incluir "price"

Se aplica StandardScaler a las num√©ricas y luego se invierte el escalado del target para que vuelva a su escala real:

In [None]:
train_set["price"] = scaler.inverse_transform(train_set[features_num])[..., price_idx]

### üß™ M√©tricas de evaluaci√≥n en regresi√≥n
| M√©trica                                  | Interpretaci√≥n                                                        |
| ---------------------------------------- | --------------------------------------------------------------------- |
| `MAE` (Error absoluto medio)             | Cu√°nto se equivoca el modelo de media (sin penalizar grandes errores) |
| `MAPE` (Error porcentual medio)          | Cu√°nto se equivoca el modelo en proporci√≥n al valor real              |
| `RMSE` (Ra√≠z del error cuadr√°tico medio) | Penaliza m√°s los errores grandes                                      |


### üìä Visualizaciones esenciales
1. Gr√°fico de reales vs predichos

Permite detectar si el modelo funciona peor en ciertos rangos del target (por ejemplo, en precios altos):

In [None]:
plot_predictions_vs_actual(y_real, y_pred)

Idealmente, los puntos deben estar alineados con la l√≠nea roja y = x.

2. Distribuci√≥n de residuos

Ayuda a ver si los errores tienen una distribuci√≥n sim√©trica o sesgada:

In [None]:
residuos = y_test - y_pred
sns.histplot(residuos, kde=True)

Una distribuci√≥n normal de residuos suele indicar un modelo razonablemente ajustado.

3. Residuos vs Predicciones

Permite identificar zonas del rango de predicci√≥n donde el modelo sesga (por ejemplo, subestimando sistem√°ticamente):

In [None]:
plt.scatter(y_pred, residuos)

Un buen modelo deber√≠a mostrar los residuos dispersos alrededor del 0 sin patrones claros.

### üß† ¬øQu√© hacer con la informaci√≥n del an√°lisis?

En el ejemplo de diamonds, se observa que:

El modelo funciona mejor en precios bajos.

Para precios > 7500, hay mayor error y dispersi√≥n.

El modelo parece sesgar m√°s en la "cola larga" de la distribuci√≥n.

Esto puede indicar que:

El modelo necesita mayor capacidad para manejar precios altos.

Puede ser √∫til hacer un modelo espec√≠fico para ese segmento.

Otra opci√≥n es binnear el target y convertirlo en clasificaci√≥n.

### üí° Sugerencias de mejora

1. Ingenier√≠a de caracter√≠sticas

Transformar o crear nuevas features que ayuden al modelo.

2. Modelos alternativos

RandomForest, GradientBoosting, XGBoost...

3. Ajuste de hiperpar√°metros

Profundidad, n√∫mero de √°rboles, learning rate...

4. Tratamiento de outliers

Revisar los valores extremos que distorsionan la predicci√≥n.

5. Segmentaci√≥n del modelo

Crear un modelo exclusivo para valores altos o usar ensemble de modelos.