# ü§ñ Machine Learning Algorithms Summary

Este notebook resume los principales algoritmos de *machine learning supervisado*, tanto para clasificaci√≥n como para regresi√≥n, aunque nos centraremos m√°s en clasificaci√≥n.

Usaremos el dataset del Titanic como ejemplo pr√°ctico para comparar:

‚úÖ C√≥mo funcionan  
‚úÖ Cu√°ndo usarlos  
‚úÖ Sus ventajas y desventajas  
‚úÖ Qu√© hiperpar√°metros son importantes  
‚úÖ Qu√© tan bien predicen si alguien sobrevivi√≥



## Preparaci√≥n del dataset

In [None]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar y preparar el dataset
df = sns.load_dataset('titanic')

# Preprocesamiento similar al notebook anterior
df = df.drop(columns=['deck', 'embark_town', 'alive'])
df['age'] = df['age'].fillna(df['age'].median())
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])
df['sex'] = df['sex'].map({'male': 0, 'female': 1})
df = pd.get_dummies(df, columns=['embarked'], drop_first=True)

# Crear nuevas variables
df['family_size'] = df['sibsp'] + df['parch'] + 1
df['is_alone'] = (df['family_size'] == 1).astype(int)

# Escalar
scaler = StandardScaler()
df[['age', 'fare']] = scaler.fit_transform(df[['age', 'fare']])

# Selecci√≥n de variables
features = ['pclass', 'sex', 'age', 'fare', 'family_size', 'is_alone', 'embarked_Q', 'embarked_S']
X = df[features]
y = df['survived']

# Divisi√≥n de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Modelos de clasificaci√≥n

Vamos a probar:
- Logistic Regression
- K-Nearest Neighbors (KNN)
- Decision Trees
- Random Forest
- Support Vector Machines (SVM)
- Gradient Boosting (opcional)

**A. Logistic Regression**

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Calcula una combinaci√≥n lineal de las variables para estimar la probabilidad de una clase (por ejemplo, sobrevivir = 1). La regresi√≥n log√≠stica te dice cu√°nto aumenta o disminuye la probabilidad de que ocurra algo al cambiar una variable.

**¬øCu√°ndo usarla?**  
- Cuando las variables tienen relaci√≥n lineal con la probabilidad de clase.
- Es r√°pida, interpretable y sirve de baseline.

‚ö†Ô∏è **Limitaciones**: No modela relaciones no lineales.

Coeficientes importantes: Las que tengan coeficientes (model.coef_) m√°s alejados de 0. Por ejemplo, sex, pclass, fare.


**B. K-Nearest Neighbors (KNN)**

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Mide la "distancia" entre puntos para clasificarlos (por ejemplo, si tus 5 vecinos m√°s cercanos sobrevivieron, t√∫ tambi√©n probablemente). No es interpretable directamente, pero funciona bien cuando los grupos est√°n claramente separados en el espacio.

**¬øCu√°ndo usarlo?**  
- Cuando no hay mucha data y el espacio de caracter√≠sticas tiene significado geom√©trico.
- No necesita entrenamiento (lazy learner), solo compara con vecinos.

‚ö†Ô∏è **Limitaciones**: Sensible a escala y a ruido, lento con grandes datasets.

Hiperpar√°metro: `n_neighbors`, `metric`. No hay pesos directos, pero las que afecten m√°s la distancia son las que m√°s influyen. Por eso se deben escalar los datos.


**C. √Årboles de decisi√≥n**

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=4, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Dividen el dataset en ramas seg√∫n condiciones en las variables. Son muy explicativos: puedes ver qu√© reglas tom√≥ el √°rbol para llegar a una predicci√≥n.

**¬øCu√°ndo usarlo?**  
- Si quieres interpretabilidad y reglas claras.
- Puede capturar relaciones no lineales f√°cilmente.

‚ö†Ô∏è **Limitaciones**: Overfitting si no se poda (`max_depth`, `min_samples_leaf`)

Variables importantes: Las que m√°s se usan para dividir los datos y reducir incertidumbre (model.feature_importances_).


**D. Random Forest**

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Combina el resultado de varios √°rboles de decisi√≥n para obtener una soluci√≥n.

**¬øCu√°ndo usarlo?**  
- Cuando quieres precisi√≥n y evitar overfitting.
- Muy bueno para variables mixtas (num√©ricas + categ√≥ricas).

‚ö†Ô∏è **Limitaciones**: Menos interpretable, m√°s pesado.

Hiperpar√°metros: `n_estimators`, `max_depth`


**E. SVM (Support Vector Machine)**

In [None]:
from sklearn.svm import SVC

model = SVC(kernel='rbf', C=1, gamma='scale')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Encuentra un hiperplano (una frontera) que separa clases lo mejor posible. M√°s complejo de interpretar, pero √∫til para datos donde las clases no se separan f√°cilmente.

**¬øCu√°ndo usarla?**  
- Muy buena en datasets con muchas dimensiones y m√°rgenes claros.
- Potente con pocas observaciones y datos escalados.

‚ö†Ô∏è **Limitaciones**: Costosa en grandes datasets, menos interpretable.

Hiperpar√°metros: `C`, `kernel`, `gamma`. Es necesario definir las variables que determinan la posici√≥n del margen del hp.

**F. Gradient Boosting**

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

model = GradientBoostingClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

Crea √°rboles secuenciales, donde cada nuevo √°rbol corrige errores del anterior.Es potente y flexible, pero no tan f√°cil de explicar sin herramientas espec√≠ficas.

**¬øCu√°ndo usarlo?**  
- Cuando quieres el mejor rendimiento posible (competencias Kaggle).
- Captura relaciones complejas, robusto a ruido.

‚ö†Ô∏è **Limitaciones**: Requiere tuning de muchos hiperpar√°metros, m√°s lento de entrenar.

Variables importantes: De nuevo `.feature_importances_`. Tambi√©n puedes usar t√©cnicas como SHAP para explicabilidad m√°s profunda.

## Comparativa de resultados

In [None]:
from sklearn.metrics import accuracy_score

models = {
    'Logistic Regression': LogisticRegression(),
    'KNN': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'Gradient Boosting': GradientBoostingClassifier()
}

for name, model in models.items():
    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    acc = accuracy_score(y_test, pred)
    print(f"{name}: {acc:.3f}")

## Conclusiones

| Modelo               | Pros                           | Contras                          |
|----------------------|--------------------------------|----------------------------------|
| Logistic Regression  | Simple, interpretable          | No capta no-linealidad          |
| KNN                  | F√°cil, no entrena              | Lento, sensible a escala         |
| √Årbol de decisi√≥n    | Interpretables, no-linealidad  | Overfitting sin poda             |
| Random Forest        | Robusto, preciso                | Menos interpretable              |
| SVM                  | Preciso en alta dimensi√≥n       | Lento, menos interpretable       |
| Gradient Boosting    | Muy preciso                     | M√°s costoso, tuning complejo     |

El mejor modelo depende del problema, pero entender c√≥mo funciona cada uno es el primer paso hacia una buena soluci√≥n. üéØ


##¬†(ANEXO) GLM: Generalized Linear Models
Los GLM (Modelos Lineales Generalizados) son una generalizaci√≥n de la regresi√≥n lineal/log√≠stica que permiten otros tipos de distribuci√≥n de error y funciones de enlace.

In [None]:
import statsmodels.api as sm

X_glm = sm.add_constant(X_train)  # se agrega constante (intercepto)
glm_model = sm.GLM(y_train, X_glm, family=sm.families.Binomial())
glm_results = glm_model.fit()

print(glm_results.summary())

El resumen contiene:
* Una tabla detallada con los coeficientes de cada variable
* Valores p para evaluar la significancia estad√≠stica
* Odds ratio interpretables
* R^2 pseudo para calidad del ajuste


**¬øCu√°ndo usarla?**  
- Cuando necesitas interpretabilidad estad√≠stica fuerte
- Cuando el proyecto es m√°s cient√≠fico o acad√©mico
- Cuando quieres probar hip√≥tesis sobre variables espec√≠ficas

> Otros tipos de familias son: Poisson (para contar eventos (ej. n√∫mero de compras)) o Gamma (para valores positivos continuos (costes, tiempos))