# PRUEBAS


Probando los diferentes conceptos que voy aprendiendo durante la competición sobre ML o DS

In [1]:
import pandas as pd

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---


# 1 | Exploración de Datos (EDA)

Primera etapa. Este cuadernillo irá abordando las diferentes etapas y en el orden en el que se deberían realizar.

In [2]:
train = pd.read_csv("train.csv")

In [3]:
train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [4]:
train.shape
# Mirando las dimensiones del DataFrame, al cual hemos llamado "train". Tiene 891 filas x 12 columnas

(891, 12)

In [5]:
train.columns
#Asi mostramos el nombre de las 12 columnas

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### Razonamiento:

Podemos decir que en el dataframe "train" habrá columnas de relativa importancia para la predicción, y otras no. Opinión personal es que *Name*, *Ticket*, *Cabin* y *Embarked* no son de demasiada utilidad.

In [6]:
# Vemos los primeros 5 registros del dataframe. Para los 5 ultimos , usado anteriormente, sería .tail()
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Los modelos no entienden valores de TEXTO (inicialmente)

Ejemplos: 

    *Name*, *Sex*, *Ticket*, *Cabin*, *Embarked*

Habrá que ***transformarlos*** o ***descartarlos***


El 80% del trabajo en ML real es identificar los ***3 grandes problemas clásicos***:

-Valores nulos

-Variables categóricas (ejemplo *Sex*:***Male|Female**)

-Texto Libre

In [7]:
train.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

## ¿Cuál es el objetivo de esta etapa ?

La **Exploración de Datos (EDA)** no es para entrenar modelos.  
Es para **no cometer errores tontos después**.

 El objetivo es:

> **Entender qué tipo de datos tenemos y si tienen sentido**

Nada más. Nada menos.



---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---



---

# 2 | Resumen estadístico</h1>


## ¿Por qué mirar la “distribución” de los números?

Cuando digo *distribución*, no pienses en fórmulas.  
Piensa en responder preguntas simples como:

- ¿Los valores son pequeños o grandes?
- ¿Hay cosas absurdas?
- ¿Hay valores que faltan?
- ¿Todo está en el rango esperado?

---

## Ejemplo fuera del Titanic

Imagina que tienes una columna **Edad**:

- Edad mínima = `-5`
- Edad máxima = `300`

Aunque no sepas estadística, sabes que algo esta mal.


EDA sirve para detectar eso **antes de entrenar nada**.

---

## Ejemplos concretos en Titanic

### Age
Queremos saber:
- ¿Hay edades negativas?
- ¿Hay gente de 200 años?
- ¿Faltan edades?

---

### Fare (precio)
Queremos ver:
- ¿Hay tickets gratis?
- ¿Hay precios extremadamente altos?
- ¿La mayoría pagó poco o mucho?

---

### SibSp y Parch
Queremos ver:
- ¿Viaja la gente sola?
- ¿Con familias grandes?
- ¿Hay valores rarísimos?

---

## ¿Qué pasa si NO hacemos esta etapa?

Sin EDA:
- El modelo se confunde
- Aprende cosas incorrectas
- Tus resultados empeoran
- Y no sabes por qué 





---


---

In [8]:
train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


***Observaciones*** :

-Podemos ver que la edad minima es 0.42. Aunque este dato en principio parezca que esta mal, había bebes a bordo. El dato es correcto.

-*Age* tiene muchos valores faltantes. De 891 pasajeros tenemos el valor *Age* de 714.



# 3 | Limpieza de datos (Data Cleaning)


### Objetivo de esta etapa

La limpieza de datos tiene como objetivo **preparar el dataset para que un modelo de Machine Learning pueda trabajar con él** sin errores y sin aprender patrones incorrectos.

Un modelo no puede:
- trabajar con valores faltantes (`NaN`)
- interpretar texto directamente
- manejar datos incoherentes o absurdos

Antes de entrenar cualquier modelo, es obligatorio resolver estos problemas.

---

### Qué se hace en esta etapa

Durante la limpieza de datos se toman decisiones como:

- Identificar qué columnas tienen valores faltantes
- Decidir cómo tratar esos valores:
  - eliminarlos
  - rellenarlos con algún valor razonable
- Decidir qué columnas se usarán y cuáles no
- Transformar variables categóricas en valores numéricos
- Asegurarse de que los datos tengan sentido lógico

---

### Por qué esta etapa es importante

Si no se limpia el dataset:

- el modelo puede fallar al entrenar
- el modelo puede aprender relaciones falsas
- los resultados pueden ser engañosos
- no se sabe si un mal resultado es culpa del modelo o de los datos

La limpieza de datos no mejora el modelo directamente,  
pero **evita errores graves y resultados incorrectos**.

---

### Idea clave

Un buen modelo con datos malos funciona mal.  
Un modelo sencillo con datos limpios suele funcionar mejor.

Por eso, la limpieza de datos es una de las etapas más importantes del proceso de Machine Learning.


In [9]:
#Vamos a proceder a contar valores faltantes por columna:

train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

***train.isnull()*** crea una tabla igual que train, pero con *True* si el valor falta, y *False* si el valor existe.


***.sum()*** suma los *True*

# Tomamos la decisión de:


- Cabin -> a tomar por cleta la biciculo
- Age -> rellenar con el valor representativo de la mediana.
- Embarked -> rellenar los 2 faltantes con el valor mas frecuente

In [10]:
# Fuera Cabin
train = train.drop(columns=["Cabin"])

In [11]:
# Comprobamos
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


In [12]:
# Vamos a hacer refill a Age con su mediana
medianaAge=train["Age"].median()

# Comprobamos
medianaAge

# Rellenamos los NaN
train["Age"]=train["Age"].fillna(medianaAge)

#Comprobamos
train["Age"].isnull().sum()



np.int64(0)

In [13]:
# Vamos a rellenar Embarked con su valor mas frecuente

# Buscar valor mas frecuente
train["Embarked"].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [14]:
# El valor mas frecuente es S, que significa que el puerto de embarque es Southampthon

# Pues rellenamos
train["Embarked"]=train["Embarked"].fillna("S")

# Comprobamos
train["Embarked"].isnull().sum()

np.int64(0)

In [15]:
# COmprobamos todo el DataFrame. Vemos que esta limpio
train.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---

# 4 | Preparación del modelo



### Objetivo de esta etapa

El objetivo de esta etapa es **transformar el dataset limpio en un conjunto de datos que un modelo de Machine Learning pueda usar**.

Un modelo de Machine Learning:
- no entiende texto directamente
- no necesita identificadores únicos
- necesita variables numéricas relevantes

Por eso, no todas las columnas del dataset deben usarse para entrenar el modelo.

---

### Qué se hace en esta etapa

En esta etapa se toman decisiones como:

- Definir claramente la variable objetivo (target)
- Elegir qué columnas se usarán como variables predictoras (features)
- Eliminar columnas que no aportan información al modelo
- Transformar variables categóricas en valores numéricos
- Separar datos de entrenamiento y validación si es necesario

---

### Por qué esta etapa es importante

Si se usan columnas incorrectas:
- el modelo puede aprender patrones irrelevantes
- el modelo puede sobreajustar
- el rendimiento puede empeorar

Preparar bien los datos suele ser más importante que elegir un modelo complejo.

---

### Idea clave

No todo lo que está en el dataset debe ir al modelo.

Elegir bien las variables es una parte fundamental del proceso de Machine Learning.


In [16]:
# PassengerId la dejamos fuera de las features, por ser solo un número identificador

In [17]:
# Por ser demasiado complejas, también no usaremos de momento Name ni Ticket

## NOTA: el TARGET *nunca* se usa como Feature

In [18]:
# Como ejemplo de elección de Features, aqui cogeremos Sex , Age y Pclass, siendo Sex la feature mas importante en este estudio.

In [19]:
# Creación de un dataset SOLO con estas columnas: Survived(TARGET), Sex, PClass, Age
X=train[["Sex","Pclass","Age"]]
y=train["Survived"]

***X***→ contiene la información que el modelo verá

***y*** → contiene las respuestas correctas


***Es la estructura clásica en ML.***

In [20]:
# Si intentamos entrenar el modelo ahora , fallará, porque "Sex" es texto"

# Convertiremos la variable categórica "Sex" en un int64. La idea es if value == "male": value = 0 | if value == "female": value = 1

# map recorre la columna valor por valor y aplica un diccionario de cambios
train["Sex_num"]=train["Sex"].map({
    "male":0,
    "female":1
})



In [21]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Sex_num
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,0


In [22]:
# Volvemos a construir X con la columna actualizada. (Sex_num: 0 for male, 1 for female)
X=train[["Sex_num","Pclass","Age"]]
y=train["Survived"]

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---

# 5 | Entrenamiento del Modelo



### Objetivo de esta etapa

El objetivo de esta etapa es entrenar un **primer modelo sencillo**(BASELINE), no para obtener el mejor resultado posible, sino para:

- comprobar que todo el flujo funciona de principio a fin
- establecer una referencia inicial (baseline)
- entender cómo un modelo aprende a partir de los datos

Este primer modelo sirve como punto de comparación para mejoras posteriores.

---

### Qué modelo usamos y por qué

Se utiliza **Regresión Logística** porque:

- es simple y rápida
- funciona bien en problemas de clasificación binaria
- es fácil de interpretar
- suele dar buenos resultados como modelo base

No se elige por ser el modelo más avanzado, sino por ser una buena herramienta de aprendizaje.

---

### Qué datos recibe el modelo

El modelo se entrena con:

- Variables predictoras (features):  
  `Sex_num`, `Pclass`, `Age`

- Variable objetivo (target):  
  `Survived`

Todas las variables usadas por el modelo son numéricas y no contienen valores faltantes.

---

### Cómo interpretar el resultado inicial

El valor de precisión (accuracy) obtenido en esta etapa:

- se calcula sobre los mismos datos usados para entrenar
- no representa el rendimiento real del modelo
- suele ser optimista

Aun así, es útil para verificar que el modelo está aprendiendo patrones razonables.

---

### Idea clave

Este modelo no busca ser perfecto.

Busca ser:
- correcto
- simple
- una base sólida para mejorar en las siguientes etapas


In [23]:
X.head()

Unnamed: 0,Sex_num,Pclass,Age
0,0,3,22.0
1,1,1,38.0
2,1,3,26.0
3,1,1,35.0
4,0,3,35.0


In [24]:
y

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

In [25]:
from sklearn.linear_model import LogisticRegression


In [26]:
# Creamos y entrenamos modelo
model = LogisticRegression(max_iter=1000, verbose=1)
model.fit(X,y)


0,1,2
,"penalty  penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Specify the norm of the penalty: - `None`: no penalty is added; - `'l2'`: add a L2 penalty term and it is the default choice; - `'l1'`: add a L1 penalty term; - `'elasticnet'`: both L1 and L2 penalty terms are added. .. warning::  Some penalties may not work with some solvers. See the parameter  `solver` below, to know the compatibility between the penalty and  solver. .. versionadded:: 0.19  l1 penalty with SAGA solver (allowing 'multinomial' + L1) .. deprecated:: 1.8  `penalty` was deprecated in version 1.8 and will be removed in 1.10.  Use `l1_ratio` instead. `l1_ratio=0` for `penalty='l2'`, `l1_ratio=1` for  `penalty='l1'` and `l1_ratio` set to any float between 0 and 1 for  `'penalty='elasticnet'`.",'deprecated'
,"C  C: float, default=1.0 Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization. `C=np.inf` results in unpenalized logistic regression. For a visual example on the effect of tuning the `C` parameter with an L1 penalty, see: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.",1.0
,"l1_ratio  l1_ratio: float, default=0.0 The Elastic-Net mixing parameter, with `0 <= l1_ratio <= 1`. Setting `l1_ratio=1` gives a pure L1-penalty, setting `l1_ratio=0` a pure L2-penalty. Any value between 0 and 1 gives an Elastic-Net penalty of the form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning::  Certain values of `l1_ratio`, i.e. some penalties, may not work with some  solvers. See the parameter `solver` below, to know the compatibility between  the penalty and solver. .. versionchanged:: 1.8  Default value changed from None to 0.0. .. deprecated:: 1.8  `None` is deprecated and will be removed in version 1.10. Always use  `l1_ratio` to specify the penalty type.",0.0
,"dual  dual: bool, default=False Dual (constrained) or primal (regularized, see also :ref:`this equation `) formulation. Dual formulation is only implemented for l2 penalty with liblinear solver. Prefer `dual=False` when n_samples > n_features.",False
,"tol  tol: float, default=1e-4 Tolerance for stopping criteria.",0.0001
,"fit_intercept  fit_intercept: bool, default=True Specifies if a constant (a.k.a. bias or intercept) should be added to the decision function.",True
,"intercept_scaling  intercept_scaling: float, default=1 Useful only when the solver `liblinear` is used and `self.fit_intercept` is set to `True`. In this case, `x` becomes `[x, self.intercept_scaling]`, i.e. a ""synthetic"" feature with constant value equal to `intercept_scaling` is appended to the instance vector. The intercept becomes ``intercept_scaling * synthetic_feature_weight``. .. note::  The synthetic feature weight is subject to L1 or L2  regularization as all other features.  To lessen the effect of regularization on synthetic feature weight  (and therefore on the intercept) `intercept_scaling` has to be increased.",1
,"class_weight  class_weight: dict or 'balanced', default=None Weights associated with classes in the form ``{class_label: weight}``. If not given, all classes are supposed to have weight one. The ""balanced"" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as ``n_samples / (n_classes * np.bincount(y))``. Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified. .. versionadded:: 0.17  *class_weight='balanced'*",
,"random_state  random_state: int, RandomState instance, default=None Used when ``solver`` == 'sag', 'saga' or 'liblinear' to shuffle the data. See :term:`Glossary ` for details.",
,"solver  solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithm to use in the optimization problem. Default is 'lbfgs'. To choose a solver, you might want to consider the following aspects: - 'lbfgs' is a good default solver because it works reasonably well for a wide  class of problems. - For :term:`multiclass` problems (`n_classes >= 3`), all solvers except  'liblinear' minimize the full multinomial loss, 'liblinear' will raise an  error. - 'newton-cholesky' is a good choice for  `n_samples` >> `n_features * n_classes`, especially with one-hot encoded  categorical features with rare categories. Be aware that the memory usage  of this solver has a quadratic dependency on `n_features * n_classes`  because it explicitly computes the full Hessian matrix. - For small datasets, 'liblinear' is a good choice, whereas 'sag'  and 'saga' are faster for large ones; - 'liblinear' can only handle binary classification by default. To apply a  one-versus-rest scheme for the multiclass setting one can wrap it with the  :class:`~sklearn.multiclass.OneVsRestClassifier`. .. warning::  The choice of the algorithm depends on the penalty chosen (`l1_ratio=0`  for L2-penalty, `l1_ratio=1` for L1-penalty and `0 < l1_ratio < 1` for  Elastic-Net) and on (multinomial) multiclass support:  ================= ======================== ======================  solver l1_ratio multinomial multiclass  ================= ======================== ======================  'lbfgs' l1_ratio=0 yes  'liblinear' l1_ratio=1 or l1_ratio=0 no  'newton-cg' l1_ratio=0 yes  'newton-cholesky' l1_ratio=0 yes  'sag' l1_ratio=0 yes  'saga' 0<=l1_ratio<=1 yes  ================= ======================== ====================== .. note::  'sag' and 'saga' fast convergence is only guaranteed on features  with approximately the same scale. You can preprocess the data with  a scaler from :mod:`sklearn.preprocessing`. .. seealso::  Refer to the :ref:`User Guide ` for more  information regarding :class:`LogisticRegression` and more specifically the  :ref:`Table `  summarizing solver/penalty supports. .. versionadded:: 0.17  Stochastic Average Gradient (SAG) descent solver. Multinomial support in  version 0.18. .. versionadded:: 0.19  SAGA solver. .. versionchanged:: 0.22  The default solver changed from 'liblinear' to 'lbfgs' in 0.22. .. versionadded:: 1.2  newton-cholesky solver. Multinomial support in version 1.6.",'lbfgs'


In [27]:
# Ver el rendimiento
score=model.score(X,y)
score

0.7878787878787878

***Cómo interpretar el resultado***

Si ves algo alrededor de:

> 0.70 – 0.78 → muy bien para un baseline

> menor a 0.65 → algo raro pasa

> mayor a 0.85 → probablemente overfitting o fuga de información



---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---

# 6 | Predecir test.csv y crear la submission



### Objetivo de esta etapa

El objetivo de esta etapa es utilizar el modelo ya entrenado para:

- preparar el dataset de test (`test.csv`)
- generar predicciones de supervivencia
- crear el archivo de submission que Kaggle espera

En esta etapa **no se entrena ningún modelo nuevo**.  
Solo se aplican transformaciones y se predice.

---

### Regla fundamental

El conjunto de test debe recibir **exactamente las mismas transformaciones** que el conjunto de entrenamiento.

Esto incluye:
- eliminación de columnas
- tratamiento de valores faltantes
- creación de variables nuevas
- selección de features

Cualquier diferencia entre train y test provoca errores o predicciones incorrectas.

---

### Diferencia clave entre train y test

- `train.csv` contiene la variable objetivo `Survived`
- `test.csv` **no** contiene `Survived`

El objetivo del modelo es precisamente predecir esa columna para los pasajeros del test.

---

### Transformaciones aplicadas

Las transformaciones que deben replicarse en `test.csv` son:

1. Eliminar la columna `Cabin`
2. Rellenar valores faltantes de `Age` con la misma mediana usada en entrenamiento
3. Rellenar valores faltantes de `Embarked` con el valor más frecuente
4. Convertir la variable categórica `Sex` en una variable numérica (`Sex_num`)
5. Seleccionar como features:
   - `Sex_num`
   - `Pclass`
   - `Age`

---

### Uso de PassengerId

La columna `PassengerId`:
- no se usa para entrenar el modelo
- se conserva para asociar cada predicción a su pasajero
- es obligatoria para construir el archivo de submission

---

### Idea clave

En Kaggle, predecir bien no depende solo del modelo.

Depende de aplicar **el mismo proceso de datos** en entrenamiento y en predicción.


In [28]:
# Manos a la obra pues..
test=pd.read_csv("test.csv")

# Eliminamos Cabin
test=test.drop(columns=["Cabin"])



In [30]:
# Rellenando valores faltantes
test["Age"]=test["Age"].fillna(medianaAge)

In [31]:
# Embarked...
test["Embarked"]=test["Embarked"].fillna("S")

In [32]:
# Encoding de Sex
test["Sex_num"] = test["Sex"].map({
    "male": 0,
    "female": 1
})


In [33]:
# Crear X_test con solo las features que usa el modelo
X_test=test[["Sex_num","Pclass","Age"]]

In [34]:
# Comprobamos que no hay NaN
X_test.isnull().sum()

Sex_num    0
Pclass     0
Age        0
dtype: int64

## Generamos predicciones..

In [37]:
predictions=model.predict(X_test)

In [38]:
predictions[:10]

array([0, 0, 0, 0, 1, 0, 1, 0, 1, 0])

In [40]:
# Un poco Creepy... muere, muere, muere muere, vive, muere...

## Creamos el archivo de submission para Kaggle

Kaggle espera exactamente dos columnas: PassengerId y Survived

In [42]:
# Pues se crea..
submission=pd.DataFrame({
    "PassengerId":test["PassengerId"],
    "Survived":predictions
})

In [43]:
# Y se comprueba
submission.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1


In [54]:
# Comprobamos que solo tiene dos columnas, sin index, tal como kaggle nos advierte en las instrucciones
submission.shape

(418, 2)

In [51]:
# Guardamos el archivo
submission.to_csv("submission2.csv",index=False)

In [53]:
submission.columns

Index(['PassengerId', 'Survived'], dtype='object')

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---

# Mejorando el Baseline

La idea de mejora es la siguiente. De todos es sabido que en el naufrágio, primero entraron en los botes los NIÑOS y las mujeres.

*Age* como número continuo mete mucho ruido, pero "ser niño" sí importa.

Asi que en vez de usar *Age* tal cual, vamos a crear una nueva feature binaria


In [55]:
# IsChild = 1 if Age < 14
# IsChild = 0 en caso contrario

Esto reduce ruido, captura mejor la regla histórica

In [56]:
train["IsChild"]=(train["Age"] < 14).astype(int)

In [57]:
train[["Age","IsChild"]].head(10)

Unnamed: 0,Age,IsChild
0,22.0,0
1,38.0,0
2,26.0,0
3,35.0,0
4,35.0,0
5,28.0,0
6,54.0,0
7,2.0,1
8,27.0,0
9,14.0,0


In [59]:
# Actualizamos X
X=train[["Sex_num","Pclass","IsChild"]]
y=train["Survived"]

In [61]:
# Reentrenamos el modelo
model=LogisticRegression(max_iter=1000)
model.fit(X,y)
model.score(X,y)

0.7901234567901234

Parece que mejoro bastante el score!

In [62]:
# Aplicamos lo mismo a test
test["IsChild"]=(test["Age"]<14).astype(int)
X_test=test[["Sex_num","Pclass","IsChild"]]

In [65]:
# Creamos la nueva submission para Kaggle
predictions=model.predict(X_test)

submission=pd.DataFrame({
    "PassengerId":test["PassengerId"],
    "Survived":predictions
})

submission.to_csv("submission_child.csv",index=False)

In [66]:
# Comprobamos el nuevo submission_child
submission

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


### 0.77033 nos da Kaggle, subimos un poco!

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---

# Intentando mejorar el anterior usando un RegressionTree, otra forma de modelo



### Idea general

Tiene sentido probar un árbol de decisión en este punto porque el problema del Titanic se basa en **reglas claras y condicionales**, más que en relaciones lineales suaves.

Un árbol de decisión aprende precisamente ese tipo de reglas.

---

### Cómo “piensa” un árbol de decisión

Un árbol de decisión aprende haciendo preguntas del tipo:

- ¿Es mujer?
- ¿Viaja en primera clase?
- ¿Es niño?

Y toma decisiones basadas en combinaciones de respuestas.

Este tipo de razonamiento se parece mucho a cómo se tomaron las decisiones reales durante el desastre del Titanic.

---

### Comparación con la regresión logística

**Regresión logística:**
- combina todas las variables a la vez
- aprende relaciones lineales
- no captura bien interacciones complejas
- funciona muy bien como baseline

**Árbol de decisión:**
- aprende reglas explícitas
- captura interacciones automáticamente
- funciona especialmente bien con variables binarias
- es más interpretable a nivel de reglas

---

### Por qué ahora es un buen momento para probarlo

En este punto del proyecto:
- se han creado variables binarias con significado claro (`Sex_num`, `IsChild`)
- se usan pocas features con señal fuerte
- el dataset es pequeño

Estas condiciones son ideales para un árbol de decisión simple.

---

### Riesgo principal

Los árboles de decisión pueden sobreajustar fácilmente.

Un árbol demasiado profundo:
- memoriza los datos de entrenamiento
- obtiene buenos resultados en train
- pero rinde mal en test

Por eso es importante limitar su complejidad.

---

### Estrategia a seguir

Probar un árbol de decisión:
- simple
- con profundidad limitada
- sin tuning avanzado

El objetivo no es garantizar una mejora, sino comprobar si este tipo de modelo se adapta mejor a la estructura del problema.

---

### Idea clave

No se prueba un árbol porque sea “más potente”,  
sino porque su forma de aprender encaja mejor con las reglas del problema.


In [69]:
# Importamos el modelo
from sklearn.tree import DecisionTreeClassifier

In [71]:
# Creamos y entrenamos el arbol. Limitamos la profundidad para evitar overfiftting
tree=DecisionTreeClassifier(
    max_depth=3,
    random_state=42
)

tree.fit(X,y)


0,1,2
,"criterion  criterion: {""gini"", ""entropy"", ""log_loss""}, default=""gini"" The function to measure the quality of a split. Supported criteria are ""gini"" for the Gini impurity and ""log_loss"" and ""entropy"" both for the Shannon information gain, see :ref:`tree_mathematical_formulation`.",'gini'
,"splitter  splitter: {""best"", ""random""}, default=""best"" The strategy used to choose the split at each node. Supported strategies are ""best"" to choose the best split and ""random"" to choose the best random split.",'best'
,"max_depth  max_depth: int, default=None The maximum depth of the tree. If None, then nodes are expanded until all leaves are pure or until all leaves contain less than min_samples_split samples.",3
,"min_samples_split  min_samples_split: int or float, default=2 The minimum number of samples required to split an internal node: - If int, then consider `min_samples_split` as the minimum number. - If float, then `min_samples_split` is a fraction and  `ceil(min_samples_split * n_samples)` are the minimum  number of samples for each split. .. versionchanged:: 0.18  Added float values for fractions.",2
,"min_samples_leaf  min_samples_leaf: int or float, default=1 The minimum number of samples required to be at a leaf node. A split point at any depth will only be considered if it leaves at least ``min_samples_leaf`` training samples in each of the left and right branches. This may have the effect of smoothing the model, especially in regression. - If int, then consider `min_samples_leaf` as the minimum number. - If float, then `min_samples_leaf` is a fraction and  `ceil(min_samples_leaf * n_samples)` are the minimum  number of samples for each node. .. versionchanged:: 0.18  Added float values for fractions.",1
,"min_weight_fraction_leaf  min_weight_fraction_leaf: float, default=0.0 The minimum weighted fraction of the sum total of weights (of all the input samples) required to be at a leaf node. Samples have equal weight when sample_weight is not provided.",0.0
,"max_features  max_features: int, float or {""sqrt"", ""log2""}, default=None The number of features to consider when looking for the best split: - If int, then consider `max_features` features at each split. - If float, then `max_features` is a fraction and  `max(1, int(max_features * n_features_in_))` features are considered at  each split. - If ""sqrt"", then `max_features=sqrt(n_features)`. - If ""log2"", then `max_features=log2(n_features)`. - If None, then `max_features=n_features`. .. note::  The search for a split does not stop until at least one  valid partition of the node samples is found, even if it requires to  effectively inspect more than ``max_features`` features.",
,"random_state  random_state: int, RandomState instance or None, default=None Controls the randomness of the estimator. The features are always randomly permuted at each split, even if ``splitter`` is set to ``""best""``. When ``max_features < n_features``, the algorithm will select ``max_features`` at random at each split before finding the best split among them. But the best found split may vary across different runs, even if ``max_features=n_features``. That is the case, if the improvement of the criterion is identical for several splits and one split has to be selected at random. To obtain a deterministic behaviour during fitting, ``random_state`` has to be fixed to an integer. See :term:`Glossary ` for details.",42
,"max_leaf_nodes  max_leaf_nodes: int, default=None Grow a tree with ``max_leaf_nodes`` in best-first fashion. Best nodes are defined as relative reduction in impurity. If None then unlimited number of leaf nodes.",
,"min_impurity_decrease  min_impurity_decrease: float, default=0.0 A node will be split if this split induces a decrease of the impurity greater than or equal to this value. The weighted impurity decrease equation is the following::  N_t / N * (impurity - N_t_R / N_t * right_impurity  - N_t_L / N_t * left_impurity) where ``N`` is the total number of samples, ``N_t`` is the number of samples at the current node, ``N_t_L`` is the number of samples in the left child, and ``N_t_R`` is the number of samples in the right child. ``N``, ``N_t``, ``N_t_R`` and ``N_t_L`` all refer to the weighted sum, if ``sample_weight`` is passed. .. versionadded:: 0.19",0.0


In [72]:
# Comprobamos el Score
tree.score(X,y)

0.8002244668911336

In [74]:
# Suena bien, pero no nos fiamos demasiado.

In [75]:
# Predicciones sobre el arbol
predictions_tree=tree.predict(X_test)

In [77]:
# Creamos la nueva submission
submission_tree=pd.DataFrame({
    "PassengerId":test["PassengerId"],
    "Survived":predictions_tree
})

submission_tree.to_csv("submission_tree.csv",index=False)

## 0.78468, algo mejoró

---

<p align="center">
  <img src="separador.png" alt="Separador" width=1000"/>
</p>

---