# üö¢ EPA Titanic ‚Äî LinearSVC V1 (M√°quina de Vectores de Soporte Lineal)

En este notebook probaremos **LinearSVC** (SVM lineal con el optimizador **liblinear/LinearSVC** de scikit-learn).

## üîé ¬øQu√© es LinearSVC y en qu√© se diferencia?
- **LinearSVC** aprende un **clasificador lineal de m√°ximo margen** usando la **p√©rdida hinge** (o squared hinge) con regularizaci√≥n **L2** (tambi√©n soporta L1 con `dual=False`).  
- A diferencia de `SVC(kernel="linear")`, que usa el solver de SMO y puede escalar peor con muchas features, **LinearSVC** est√° optimizado para problemas lineales y con muchas columnas (como tras **OneHotEncoder**).  
- A diferencia de `SGDClassifier(loss="hinge")`, que entrena por **descenso de gradiente estoc√°stico**, **LinearSVC** usa un optimizador determinista (coordinate descent/LibLinear), lo que suele dar **soluciones m√°s estables** (menos varianza) a costa de ser algo m√°s lento.

## üéØ Objetivo
1. Reutilizar **Feature Engineering** y **preprocesamiento** (imputaci√≥n, escalado, OneHot).  
2. Entrenar un pipeline con **LinearSVC** y validar con **5-fold estratificado**.  
3. Hacer **GridSearch** de hiperpar√°metros (`C`, `penalty`, `loss`, `dual`) para mejorar desempe√±o.  
4. Generar `submission.csv` y registrar el resultado.


In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/titanic/train.csv
/kaggle/input/titanic/test.csv
/kaggle/input/titanic/gender_submission.csv


# üì• Celda 2 ‚Äî Carga de datos
Leemos `train.csv` y `test.csv` desde `/kaggle/input/titanic/`, verificamos dimensiones y mostramos una vista previa.


In [2]:
import pandas as pd  # manejo de DataFrames (tablas)

# Leemos los datos oficiales del entorno de competici√≥n
train_df = pd.read_csv("/kaggle/input/titanic/train.csv")  # incluye Survived
test_df  = pd.read_csv("/kaggle/input/titanic/test.csv")   # sin Survived

# Mostramos formas esperadas (sanity check)
print("Shape train:", train_df.shape)  # esperado ~ (891, 12)
print("Shape test :", test_df.shape)   # esperado ~ (418, 11)

# Vista r√°pida de columnas y tipos
train_df.head()  # primeras 5 filas


Shape train: (891, 12)
Shape test : (418, 11)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# üîé Celda 3 ‚Äî Exploraci√≥n inicial (EDA breve)
En esta celda:  
- Listamos las columnas del dataset de entrenamiento.  
- Revisamos valores faltantes en `train.csv` y `test.csv` (conteo y porcentaje).  
- Analizamos la distribuci√≥n de la variable objetivo `Survived` para entender el balance de clases.


In [3]:
import numpy as np  # librer√≠a de utilidades num√©ricas

# --- Listado de columnas ---
print("Columnas en train:", train_df.columns.tolist())

# --- Faltantes en TRAIN ---
na_train = train_df.isna().sum()                          # cuenta valores nulos
na_train_pct = (na_train / len(train_df)).round(3)        # porcentaje de nulos
faltantes_train = pd.DataFrame({"nulos": na_train, "porcentaje": na_train_pct})
print("\nFaltantes en train (conteo y %):")
print(faltantes_train.sort_values("nulos", ascending=False))

# --- Faltantes en TEST ---
na_test = test_df.isna().sum()
na_test_pct = (na_test / len(test_df)).round(3)
faltantes_test = pd.DataFrame({"nulos": na_test, "porcentaje": na_test_pct})
print("\nFaltantes en test (conteo y %):")
print(faltantes_test.sort_values("nulos", ascending=False))

# --- Distribuci√≥n de Survived ---
y_counts = train_df["Survived"].value_counts().sort_index()
y_ratio = train_df["Survived"].value_counts(normalize=True).round(4)

print("\nDistribuci√≥n de Survived (conteo):")
print(y_counts)
print("\nDistribuci√≥n de Survived (proporci√≥n):")
print(y_ratio)


Columnas en train: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

Faltantes en train (conteo y %):
             nulos  porcentaje
Cabin          687       0.771
Age            177       0.199
Embarked         2       0.002
PassengerId      0       0.000
Survived         0       0.000
Pclass           0       0.000
Name             0       0.000
Sex              0       0.000
SibSp            0       0.000
Parch            0       0.000
Ticket           0       0.000
Fare             0       0.000

Faltantes en test (conteo y %):
             nulos  porcentaje
Cabin          327       0.782
Age             86       0.206
Fare             1       0.002
PassengerId      0       0.000
Pclass           0       0.000
Name             0       0.000
Sex              0       0.000
SibSp            0       0.000
Parch            0       0.000
Ticket           0       0.000
Embarked         0       0.000

Distribuci√≥n de Surv

# üß± Celda 4 ‚Äî Definici√≥n de variables base y objetivo
En esta celda:  
- Seleccionamos las columnas **num√©ricas** y **categ√≥ricas** originales como punto de partida.  
- Construimos la matriz de features `X` (entrenamiento) y `X_test` (predicci√≥n).  
- Definimos la variable objetivo `y` (`Survived`).  
- Guardamos `PassengerId` del test para usarlo al crear el `submission.csv`.


In [6]:
# --- Definici√≥n de columnas base ---
# Variables num√©ricas originales
base_num_features = ["Age", "SibSp", "Parch", "Fare", "Pclass"]

# Variables categ√≥ricas originales
base_cat_features = ["Sex", "Embarked"]

# --- Construcci√≥n de X (features de entrenamiento) ---
X = train_df[base_num_features + base_cat_features].copy()

# --- Variable objetivo ---
y = train_df["Survived"].astype(int)  # aseguramos tipo entero (0/1)

# --- Construcci√≥n de X_test (features de predicci√≥n) ---
X_test = test_df[base_num_features + base_cat_features].copy()

# --- Guardamos PassengerId (para el submission) ---
test_passenger_id = test_df["PassengerId"].copy()

# Vista previa de X
X.head()


Unnamed: 0,Age,SibSp,Parch,Fare,Pclass,Sex,Embarked
0,22.0,1,0,7.25,3,male,S
1,38.0,1,0,71.2833,1,female,C
2,26.0,0,0,7.925,3,female,S
3,35.0,1,0,53.1,1,female,S
4,35.0,0,0,8.05,3,male,S


# üß™ Celda 5 ‚Äî Ingenier√≠a de atributos
En esta celda crearemos nuevas variables derivadas de las originales para enriquecer el modelo:

- **FamilySize** = SibSp + Parch + 1  
- **IsAlone** = 1 si FamilySize == 1, en caso contrario 0  
- **Title** = extra√≠do de la columna Name (agrupando t√≠tulos raros en "Other")  
- **CabinKnown** = 1 si Cabin no es NaN, 0 en caso contrario  
- **FarePerPerson** = Fare dividido por FamilySize  
- **TicketGroupSize** = n√∫mero de pasajeros que comparten el mismo Ticket  

Estas transformaciones se implementar√°n en una funci√≥n y se integrar√°n en el pipeline con `FunctionTransformer`.


In [7]:
from sklearn.preprocessing import FunctionTransformer  # para aplicar funciones personalizadas en un Pipeline

# Definimos la funci√≥n de ingenier√≠a de atributos
def add_features(df):
    df = df.copy()

    # --- FamilySize e IsAlone ---
    df["FamilySize"] = df["SibSp"].fillna(0) + df["Parch"].fillna(0) + 1
    df["IsAlone"] = (df["FamilySize"] == 1).astype(int)

    # --- Title (extra√≠do de Name) ---
    if "Name" in df.columns:
        titles = df["Name"].str.extract(r",\s*([^\.]+)\.")[0]
        titles = titles.replace({"Mlle": "Miss", "Ms": "Miss", "Mme": "Mrs"})
        titles = titles.where(titles.isin(["Mr","Mrs","Miss","Master"]), "Other")
        df["Title"] = titles.fillna("Other")
    else:
        df["Title"] = "Other"

    # --- CabinKnown ---
    if "Cabin" in df.columns:
        df["CabinKnown"] = (~df["Cabin"].isna()).astype(int)
    else:
        df["CabinKnown"] = 0

    # --- FarePerPerson ---
    df["FarePerPerson"] = df["Fare"].fillna(df["Fare"].median()) / df["FamilySize"].replace(0, 1)

    # --- TicketGroupSize ---
    if "Ticket" in df.columns:
        counts = df["Ticket"].map(df["Ticket"].value_counts())
        df["TicketGroupSize"] = counts.fillna(1).astype(int)
    else:
        df["TicketGroupSize"] = 1

    return df

# Creamos el transformador para usar dentro del pipeline
feature_engineering = FunctionTransformer(add_features, validate=False)

# A√±adimos columnas auxiliares necesarias a X y X_test (Name, Ticket, Cabin)
for col in ["Name", "Ticket", "Cabin"]:
    if col not in X.columns and col in train_df.columns:
        X[col] = train_df[col]
    if col not in X_test.columns and col in test_df.columns:
        X_test[col] = test_df[col]

print("‚úÖ Ingenier√≠a de atributos lista (FunctionTransformer definido y columnas auxiliares a√±adidas).")


‚úÖ Ingenier√≠a de atributos lista (FunctionTransformer definido y columnas auxiliares a√±adidas).


# üßΩ Celda 6 ‚Äî Preprocesamiento (imputaci√≥n, escalado y One-Hot)
Vamos a preparar un `ColumnTransformer` que:
- Imputa **num√©ricas** con **mediana** y luego **escala** (SVM/LinearSVC es sensible a magnitudes).
- Imputa **categ√≥ricas** con **moda** y aplica **One-Hot** (incluye `Title` creado en la Celda 5).

> Nota: Solo listamos las **features finales** que entran al modelo.  
> Las columnas auxiliares (`Name`, `Ticket`, `Cabin`) no se usan directamente, solo sirven para crear features.


In [8]:
# Importamos utilidades para construir el preprocesamiento por tipo de columna
from sklearn.compose import ColumnTransformer            # aplicar distintos transformadores por columna
from sklearn.pipeline import Pipeline                    # encadenar pasos (FE -> pre -> modelo)
from sklearn.impute import SimpleImputer                 # imputaci√≥n de faltantes
from sklearn.preprocessing import StandardScaler, OneHotEncoder  # escalado y one-hot

# Definimos las columnas que EXISTIR√ÅN DESPU√âS del Feature Engineering (Celda 5)
num_features = [                                         # variables num√©ricas finales
    "Age", "SibSp", "Parch", "Fare", "Pclass",           # num√©ricas originales
    "FamilySize", "IsAlone", "FarePerPerson",            # creadas
    "TicketGroupSize", "CabinKnown"                      # creadas (CabinKnown es binaria, la tratamos como num√©rica)
]
cat_features = [                                         # variables categ√≥ricas finales
    "Sex", "Embarked", "Title"                           # Title proviene de la Celda 5
]

# Pipeline para num√©ricas: imputar con mediana y escalar (muy importante para LinearSVC)
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),       # rellena NaN en num√©ricas con la mediana
    ("scaler", StandardScaler())                         # estandariza (media 0, desv√≠o 1)
])

# Pipeline para categ√≥ricas: imputar con moda y codificar con One-Hot
categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),             # rellena NaN en categ√≥ricas con la moda
    ("onehot", OneHotEncoder(handle_unknown="ignore",                 # crea dummies; ignora categor√≠as no vistas
                             sparse_output=False))                    # salida densa (dataset es peque√±o)
])

# Componemos el ColumnTransformer, aplicando cada pipeline a sus columnas
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, num_features),      # aplica pipeline num√©rico a num_features
        ("cat", categorical_transformer, cat_features)   # aplica pipeline categ√≥rico a cat_features
    ],
    remainder="drop"                                     # descarta columnas no listadas (Name/Ticket/Cabin)
)

# Mensajes de verificaci√≥n
print("‚úÖ Preprocesamiento definido para LinearSVC.")
print("Num features:", num_features)
print("Cat features:", cat_features)


‚úÖ Preprocesamiento definido para LinearSVC.
Num features: ['Age', 'SibSp', 'Parch', 'Fare', 'Pclass', 'FamilySize', 'IsAlone', 'FarePerPerson', 'TicketGroupSize', 'CabinKnown']
Cat features: ['Sex', 'Embarked', 'Title']


# ü§ñ Celda 7 ‚Äî Pipeline (FE ‚Üí Preprocesamiento ‚Üí LinearSVC) + Validaci√≥n Cruzada
Encadenamos la **Ingenier√≠a de Features**, el **preprocesamiento** y el modelo **LinearSVC** en un `Pipeline`.
Evaluamos con **5-fold Stratified CV** usando *accuracy* (m√©trica oficial de la competici√≥n).

> Notas de configuraci√≥n:
> - `LinearSVC` usa la p√©rdida **squared_hinge** por defecto (SVM lineal).
> - Con **m√°s muestras que features** (nuestro caso tras OneHot), suele ser m√°s eficiente `dual=False`.
> - El modelo es sensible a la escala ‚Üí ya estandarizamos en el preprocesamiento.


In [9]:
# Importamos el modelo y utilidades de evaluaci√≥n
from sklearn.svm import LinearSVC                          # SVM lineal (optimizaci√≥n determinista)
from sklearn.model_selection import StratifiedKFold, cross_val_score  # CV estratificada y evaluaci√≥n
from sklearn.pipeline import Pipeline                      # para encadenar pasos
import numpy as np                                         # utilidades num√©ricas

# Definimos un LinearSVC "baseline" robusto
linsvc = LinearSVC(
    penalty="l2",        # regularizaci√≥n L2 (est√°ndar y estable)
    loss="squared_hinge",# p√©rdida por defecto en LinearSVC
    C=1.0,               # fuerza de regularizaci√≥n (m√°s alto = menos regularizaci√≥n)
    dual=False,          # con n_samples > n_features suele ser m√°s eficiente desactivar dual
    tol=1e-4,            # tolerancia de parada
    max_iter=5000        # iteraciones m√°ximas (evita warnings de convergencia)
    # class_weight="balanced"  # <- opcional para compensar leve desbalance 0/1
)

# Construimos el pipeline completo: FE -> Preprocesamiento -> Modelo
pipe_linsvc = Pipeline(steps=[
    ("fe", feature_engineering),  # Celda 5: genera FamilySize, Title, etc.
    ("pre", preprocessor),        # Celda 6: imputaci√≥n + escalado + OneHot
    ("linsvc", linsvc)            # clasificador LinearSVC
])

# Definimos el esquema de validaci√≥n cruzada estratificada
cv = StratifiedKFold(
    n_splits=5,       # 5 folds
    shuffle=True,     # barajamos antes de partir
    random_state=42   # reproducibilidad en el split
)

# Ejecutamos cross-validation con accuracy
cv_scores = cross_val_score(
    estimator=pipe_linsvc,  # pipeline completo
    X=X,                    # features base (FE se aplica dentro del pipeline)
    y=y,                    # objetivo (Survived)
    cv=cv,                  # esquema de validaci√≥n
    scoring="accuracy",     # m√©trica oficial de la competencia
    n_jobs=-1               # usa todos los n√∫cleos disponibles
)

# Mostramos resultados por fold y resumen
print("Accuracy por fold:", np.round(cv_scores, 4))                 # accuracies individuales
print("Accuracy promedio (CV):", cv_scores.mean().round(4),         # promedio de CV
      "| Desv. std:", cv_scores.std().round(4))                     # dispersi√≥n entre folds


Accuracy por fold: [0.8268 0.8146 0.8258 0.8371 0.8427]
Accuracy promedio (CV): 0.8294 | Desv. std: 0.0097


# üì§ Celda 8 ‚Äî Entrenamiento final y creaci√≥n de `submission.csv`
Entrenamos el **pipeline completo con LinearSVC** en **todo `train`** y generamos el archivo
`submission.csv` (formato Kaggle: `PassengerId`, `Survived`, 418 filas).


In [10]:
# 1) Entrenamos el pipeline completo (FE ‚Üí Preprocesamiento ‚Üí LinearSVC) con TODO el train
pipe_linsvc.fit(X, y)  # ajusta usando todas las filas de entrenamiento

# 2) Obtenemos predicciones binarias (0/1) sobre el set de test
test_preds = pipe_linsvc.predict(X_test)  # LinearSVC no tiene predict_proba; trabajamos con clases
test_preds = test_preds.astype(int)       # nos aseguramos de que la salida sea entera

# 3) Construimos el DataFrame en el formato requerido por Kaggle
submission = pd.DataFrame({
    "PassengerId": test_passenger_id,  # IDs originales del conjunto de test
    "Survived": test_preds             # predicciones del modelo
})

# 4) Chequeos defensivos de formato (muy √∫til para evitar errores de subida)
assert submission.shape[0] == 418, "El submission debe tener exactamente 418 filas."
assert list(submission.columns) == ["PassengerId", "Survived"], "Columnas deben ser PassengerId y Survived."

# 5) Guardamos el CSV en disco (Kaggle lo detecta para la pesta√±a 'Submit Predictions')
submission.to_csv("submission.csv", index=False)  # guarda sin √≠ndice

# 6) Mensajes de confirmaci√≥n y vista previa
print("‚úÖ Archivo 'submission.csv' creado con", submission.shape[0], "filas.")
print(submission.head())  # primeras 5 filas para inspecci√≥n r√°pida
print("\nConteo predicciones:", submission["Survived"].value_counts().to_dict())  # distribuci√≥n 0/1


‚úÖ Archivo 'submission.csv' creado con 418 filas.
   PassengerId  Survived
0          892         0
1          893         1
2          894         0
3          895         0
4          896         1

Conteo predicciones: {0: 253, 1: 165}


# üèÜ Celda 9 ‚Äî Registro del resultado

- **Score Kaggle:** 0.77272  
- **Notebook:** EPA_TITANIC_LINSVC_V1.ipynb  
- **Modelo:** LinearSVC (m√°quina de vectores de soporte lineal)  
- **Hiperpar√°metros:**  
  - penalty = "l2"  
  - loss = "squared_hinge"  
  - C = 1.0  
  - dual = False  
  - max_iter = 5000  
- **Resultados:**  
  - CV promedio: 0.8294 (std 0.0097)  
  - Kaggle score: 0.77272 (empatado con LogReg V1, ligeramente peor que SGD V1)  
- **Notas:**  
  - El modelo fue muy estable en CV, pero en Kaggle no super√≥ a SGD.  
  - Pr√≥ximos pasos: probar ensambles de √°rboles (Random Forest, Gradient Boosting) para buscar un salto mayor.  
