<div align="right">
  <img src="https://drive.google.com/uc?export=view&id=1J8JpP65HsHXdpJvhb_sMwn3yROyU832m" height="80" width="200" style="float: right;">
</div>
<h1><b>Data Science and Machine Learning</b></h1>
<h2><b>Clase 16</b>: Análisis Exploratorio de Datos (parte 3)</h2>
<h3><b>Docente</b>: <a href="https://www.linkedin.com/in/danielablanco/">Daniela Blanco</a>

# Contenido

- [1. Etapas en Machine Learning](#etapas)
- [2. Análisis Exploratorio de Datos](#eda)

# Parte 1

- [3. Conociendo el dataset](#info)
- [4. Eliminación de duplicados](#duplicados)
- [5. Selección de atributos relevantes](#atributos)
- [6. Análisis univariante](#univariante)
- [7. Análisis multivariante](#multivariante)

# Parte 2

- [8. Valores atípicos](#atipicos)
- [9. Valores faltanes](#nulos)
- [10. Ingeniería de atributos](#ingenieria)
  - [10. 1. Escalado](#escalado)
  - [10. 2. Codificación](#encoding)

# Parte 3

- [11. Selección de características](#seleccion)

<br>

- [12. Links de interés](#links)


In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from google.colab import drive

# modelado
from sklearn.model_selection import train_test_split

# escalado
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# encoding
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

# selecicon
from sklearn.feature_selection import f_classif, SelectKBest

# Parte 1

## 1. Etapas en Machine Learning <a name="etapas"></a>

<img src="https://drive.google.com/uc?export=view&id=1syOzOeMPk3NN-X6xy7LaS-6XpSBtRFl1" height="143" width="994" style="float: center;">

El flujo ideal de Machine Learning debe contener las siguientes fases:

**1. Definición del problema**: Se identifica una necesidad que se trata de solucionar utilizando Machine Learning.

**2. Obtención de datos**: Identificar y acceder a las fuentes de datos relevantes.Recopilar los datos necesarios para el proyecto. Organizar y almacenar los datos de manera adecuada.

**3. Preparación de datos**: se deben conocer los datos con los que se trabajará y prepararlos para ser consumidos por los modelos. Esta etapa es una de la que mayor porcentaje de tiempo del proyecto consumirá. Incluye diversas tareas:
  - análisis descriptivo (medídas estadísticas, distribuciones, etc.),
  - análisis exploratorio (EDA, univariado, multivariado),
  - limpieza de datos (valores faltantes, duplicados, valores atípicos, inconsistencias),
  - transformaciones de datos (escalado, codificar ciertas carácterísticas),
  - selección de características (ver relevantes),
  - división de datos para entrenamiento y prueba.

**4. Modelado**: se eligen diversos algoritmos para experimentar y sus hiperparámetros. Entrenamiento y evaluación de modelos.

**5. Optimización de hiperparámetros**: Ajustar los hiperparámetros para mejorar el rendimiento. Evaluación de nuevos modelos.

**6. Evaluación de modelos**: elección del mejor modelo.

**7. Despliegue**: implementación del modelo en un entorno productivo.


## 2. Análisis Exploratorio de Datos <a name="eda"></a>

El análisis exploratorio de datos (EDA, Exploratory data analysis) es el enfoque de partida y fundamental de cualquier análisis de datos.

Tiene como objetivo comprender las características principales de un conjunto de datos antes de realizar análisis más avanzados o modelados posteriores.

<img src="https://drive.google.com/uc?export=view&id=1xfDWJV3DpTFf8ZeM_Cwa-zF3ePqmTdhg" height="329" width="593" style="float: center;">

El EDA incluye:

- Análisis descriptivo: se centra en describir las características principales de un conjunto de datos mediante estadísticas descriptivas, como la media, la mediana, el rango, etcétera. Su objetivo principal es proporcionar una descripción clara y resumida de los datos.

- Visualización de datos: Usando gráficos como histogramas, box plots, scatter plots y muchos otros para visualizar la distribución de los datos, las relaciones entre las variables y cualquier anomalía o particularidad en los datos.

- Identificación de anomalías: detectando y, a veces, tratando valores atípicos o datos faltantes que podrían afectar posteriores análisis.

- Formulación de hipótesis: A partir de la exploración, los analistas pueden comenzar a formular hipótesis que luego se testearán en un análisis más detallado o en el modelado.

## 3. Conociendo el dataset <a name="info"></a>

Vamos a trabajar con el dataset de [titanic](https://www.kaggle.com/competitions/titanic/data)

| Variable |                 Definition                 |                       Key                      |
|:--------:|:------------------------------------------:|:----------------------------------------------:|
| survival | Supervivencia                                   | 0 = No, 1 = Yes                                |
| pclass   | Clase del boleto                               | 1 = 1st, 2 = 2nd, 3 = 3rd                      |
| sex      | Sexo                                        |                                                |
| Age      | Edad en años                               |                                                |
| sibsp    | Número de hermanos/cónyuges a bordo del Titanic |                                                |
| parch    | Número de padres/hijos a bordo del Titanic |                                                |
| ticket   | Ticket number                              |                                                |
| fare     | Tarifa                             |                                                |
| cabin    | Cabina number                               |                                                |
| embarked | Puerto de embarque                        | C = Cherbourg, Q = Queenstown, S = Southampton |

En este caso, queremos analizar qué personas sobrevivieron o no en el naufragio del Titanic.

In [None]:
# conexion drive
drive.mount('/content/drive')

In [8]:
archivo = '/content/drive/MyDrive/4Geeks/cursadas/ds_pt_8/data/titanic_kaggle.csv'

df = pd.read_csv(archivo)

In [9]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Conocer las dimensiones y tipologías de datos del objeto con el que estamos trabajando es vital

In [10]:
# Obtener las dimensiones
df.shape

(1309, 12)

In [11]:
# Obtener información sobre tipos de datos y valores no nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 122.8+ KB


- Existen un total de 1309 filas (en este caso, personas) y 12 columnas, de entre las que encontramos el objetivo o clase a predecir, `Survived`.

- La variable `Cabin` solo tiene 295 instancias con valores, por lo que contendría más de 1000 valores nulos.

- La variable `Age` también cuenta con valores nulos, pero en un número mucho más reducido que el anterior.

- El resto de variables cuentan siempre todos los valores.

- Los datos cuentan con 7 características numéricas y 5 características categóricas.

## 4. Eliminación de duplicados <a name="duplicados"></a>

La evaluación de valores duplicados es una parte esencial del Análisis Exploratorio de Datos.

Esta evaluación implica identificar y manejar registros duplicados en los datos.

Los valores duplicados pueden sesgar el análisis y afectar negativamente el rendimiento del modelo de ML.

**¿Qué es un valor duplicado?**

Un valor duplicado en un DataFrame es un registro (fila) que tiene exactamente los mismos valores en todas las columnas que otro registro.

Pero dependiendo del caso de uso podemos considerar un duplicado cuando coincide en solo una selección de atributos.

En algunos casos, ciertos duplicados pueden ser importantes. Debemos decidir cuáles mantener basándose en reglas específicas del negocio o el contexto del problema.

**¿Por qué es importante manejar los duplicados?**

- Redundancia: Los duplicados no aportan información nueva y pueden hacer que los algoritmos de ML aprendan patrones redundantes.

- Sesgo: Los duplicados pueden sesgar los resultados del modelo, haciendo que ciertas observaciones tengan más peso que otras.

- Costo computacional: Incrementan el tamaño del conjunto de datos innecesariamente, aumentando el costo de almacenamiento y procesamiento.

**Pandas**

- Usamos el método duplicated() para detectar duplicados en un DataFrame y
 sum() para contar el número de duplicados.

```
duplicados = df.duplicated()
num_duplicados = duplicados.sum()
```
- Para seleccionar duplicados:

```
df_duplicados = df[duplicados]
```

- Usar el método drop_duplicates() para eliminar filas duplicadas. Se puede indicar el conjunto de atributos a considerar.

```
df_sin_duplicados = df.drop_duplicates()
```

En el ejemplo Titanic:

Tenemos que tener en cuenta que una instancia puede estar repetida independientemente del identificador que pueda tener, así que en este caso nos interesa eliminar del análisis la variable `PassengerId`, ya que podría estar mal generada.

In [12]:
# control de duplicados
df.duplicated().sum()

np.int64(0)

In [13]:
# sin considerar el id
df.drop("PassengerId", axis = 1).duplicated().sum()

np.int64(0)

En este caso, no encontramos ningún valor duplicado. En el caso de que lo hubiésemos encontrado, el siguiente paso sería aplicar la función de `drop_duplicates()`.

## 5. Selección de atributos relevantes <a name="atributos"></a>

Lo que trataremos de hacer es una eliminación controlada de aquellas variables que podemos estar seguros de que el algoritmo no va a utilizar en el proceso predictivo.

En el ejemplo estas son PassengerId, Name, Ticket y Cabin.

- PassengerId, Name y Ticket: por ser algo individual que no va a poder generalizar.

- Cabin por tener un porcentaje alto de nulos.


In [14]:
df.drop(["PassengerId", "Name", "Ticket", "Cabin"], axis = 1, inplace = True)

df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


## 6. Análisis univariante <a name="univariante"></a>

Esto es, el análisis columna a columna del DataFrame.

Debemos distinguir si una variable es categórica o numérica para utilizar gráficos acordes al tipo.

In [None]:
df.info()

#### Análisis sobre variables categóricas

Una **variable categórica** es un tipo de variable que puede tomar uno de un número limitado de categorías. Estos grupos son a menudo nominales (por ejemplo, el color de un coche: rojo, azul, negro, etc, pero ninguno de estos colores es inherentemente "mayor" o "mejor" que los demás) pero pueden también representarse mediante números finitos.

Una forma de representar este tipo de variables es con un gráfico de barras.

En el ejemplo las variables categóricas son `Survived`, `Sex`, `Pclass`, `Embarked`, `SibSp` y `Parch`:

In [None]:
# 0 = No, 1 = Yes
df.Survived.value_counts()

In [None]:
df.Sex.value_counts()

In [None]:
# Ticket class	1 = 1st, 2 = 2nd, 3 = 3rd
df.Pclass.value_counts()

In [None]:
# Port of Embarkation	C = Cherbourg, Q = Queenstown, S = Southampton
df.Embarked.value_counts()

In [None]:
# of siblings / spouses aboard the Titanic
# Número de hermanos / cónyuges a bordo del Titanic
df.SibSp .value_counts()

In [None]:
# of parents / children aboard the Titanic
# Número de padres / hijos a bordo del Titanic
df.Parch.value_counts()

In [None]:
fig, axis = plt.subplots(2, 3, figsize = (10, 6))

sns.countplot(ax = axis[0, 0], data = df, x = "Survived", palette='pastel', hue= "Survived", legend=False)
sns.countplot(ax = axis[0, 1], data = df, x = "Sex", palette='pastel', hue= "Sex", legend=False)
sns.countplot(ax = axis[0, 2], data = df, x = "Pclass", palette='pastel', hue= "Pclass", legend=False)
sns.countplot(ax = axis[1, 0], data = df, x = "Embarked", palette='pastel', hue= "Embarked", legend=False)
sns.countplot(ax = axis[1, 1], data = df, x = "SibSp", palette='pastel', hue= "SibSp", legend=False)
sns.countplot(ax = axis[1, 2], data = df, x = "Parch", palette='pastel', hue= "Parch", legend=False)

# Ajustar el layout
plt.tight_layout()

# Mostrar el plot
plt.show()

Con la representación de cada variable podemos determinar que:

- **Survived**: El número de personas que no sobrevivieron superan en más de 300 a los que sí lo hicieron.
- **Sex**: En el Titanic había casi el doble de hombres que de mujeres.
- **Pclass**: La suma de los pasajeros que viajaban en primera y segunda clase era casi idéntica a las que viajaban en tercera.
- **Embarked**: La mayoría de los pasajeros del Titanic embarcaron en la estación de Southampton (`S`).
- **SibSp**: Más de 800 pasajeros viajaron solos. Los restantes, con su pareja o alguien más de su familia.
- **Parch**: Casi todos los pasajeros viajaron sin padres o hijos. Una pequeña parte sí lo hizo.

#### Análisis sobre variables numéricas

Es un tipo de variable que puede tomar valores numéricos (enteros, fracciones, decimales, negativos, etc.) en un rango infinito.

Una variable categórica numérica puede ser también una variable numérica.

Normalmente se representan utilizando un histograma y diagramas de caja.

Un histograma es una representación gráfica de la distribución de un conjunto de datos. Al observar un histograma, podemos entender si los datos están sesgados hacia un extremo, si son simétricos, si tienen muchos valores atípicos, etcétera.

Se utiliza además para comprender la frecuencia de los datos.  

In [None]:
df.info()

En el ejemplo las numéricas son `Fare` y `Age`.

In [None]:
fig, axis = plt.subplots(2, 2, figsize = (10, 6), gridspec_kw={'height_ratios': [6, 1]})

# Crear una figura múltiple con histogramas y diagramas de caja
sns.histplot(ax = axis[0, 0], data = df, x = "Fare").set(xlabel = None)
sns.boxplot(ax = axis[1, 0], data = df, x = "Fare")

sns.histplot(ax = axis[0, 1], data = df, x = "Age").set(xlabel = None, ylabel = None)
sns.boxplot(ax = axis[1, 1], data = df, x = "Age")

# Ajustar el layout
plt.tight_layout()

# Mostrar el plot
plt.show()

La combinación de los dos gráficos anteriores nos permite conocer la distribución y sus características estadísticas.

Podemos ver que ambas variables tienen valores atípicos que están lejos de la distribución estándar y que sus distribuciones son ligeramente asimétricas pero cercanas a una distribución normal.

La primera totalmente sesgada hacia la izquierda, donde la media es inferior a la moda y la otra con menor tendencia.

## 7. Análisis multivariante <a name="multivariante"></a>

Tras analizar las características una a una, es momento de analizarlas en relación con la predictora y con ellas mismas, para sacar conclusiones más claras acerca de sus relaciones y poder tomar decisiones sobre su procesamiento.

Así, si quisiéramos eliminar una variable debido a una alta cantidad de valores nulos o ciertos outliers, es necesario antes aplicar este proceso para asegurar que la eliminación no son críticos para la supervivencia de un pasajero.

Por ejemplo, la variable `Cabin` tiene muchos valores nulos, y tendríamos que asegurar que no hay relación entre ella y la supervivencia antes de eliminarla, ya que quizá pudiera ser muy significativa e importante para el modelo y su presencia podría decantar la predicción.

#### Análisis numérico-numérico

Cuando las dos variables que se comparan tienen datos numéricos.

Para comparar dos columnas numéricas se utilizan diagramas de dispersión y análisis de correlaciones.

##### Survived - (Fare, Age)

Utilizaremos la variable `Survived` para comenzar con el análisis bivariante porque al tratarse de una variable categórica, pero codificada en números, puede considerarse como numérica también.

In [None]:
fig, axis = plt.subplots(2, 2, figsize = (10, 6))

# Crear un diagrama de dispersión múltiple
sns.regplot(ax = axis[0, 0], data = df, x = "Fare", y = "Survived")
sns.heatmap(df[["Survived", "Fare"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 0], cbar = False)

sns.regplot(ax = axis[0, 1], data = df, x = "Age", y = "Survived").set(ylabel=None)
sns.heatmap(df[["Survived", "Age"]].corr(), annot = True, fmt = ".2f", ax = axis[1, 1])

# Ajustar el layout
plt.tight_layout()

# Mostrar el plot
plt.show()

In [None]:
plt.show()

fig, axis = plt.subplots(1, 2, figsize = (8, 5))

sns.violinplot(ax = axis[0], x='Survived', y='Fare', data=df)
sns.violinplot(ax = axis[1], x='Survived', y='Age', data=df)

# Ajustar el layout
plt.tight_layout()

# Mostrar el plot
plt.show()

La forma del "violin" muestra la distribución de la variable. La anchura del violin en cualquier punto indica la densidad de los datos en esa región. Si el violin es más ancho en una parte específica, significa que hay más datos en esa región. Por el contrario, si el violin es más estrecho, significa que hay menos datos.

Las partes superior e inferior del violin representan los valores máximo y mínimo de los datos, respectivamente

In [None]:
plt.figure(figsize=(8, 5))

sns.boxplot(x='Survived', y='Fare', data=df)

plt.title('Boxplot de Fare por Survived')
plt.xlabel('Survived')
plt.ylabel('Fare')
plt.show()

No existe una relación clara entre el precio del billete (`Fare`) y la supervivencia del pasajero.

Algunos pasajeros con un importe bajo de billete tuvieron menos probabilidad de supervivencia frente a los que adquirieron un billete con un precio mayor.

Existe una relación lineal negativa, más débil que la anterior, entre la edad (`Age`) y la variable objetivo. Esto tiene sentido considerando que los niños eran uno de los grupos que tenían preferencia en usar los botes para sobrevivir.

En resumen, a pesar de existir cierta relación con estas características frente a la predictora, la significancia no es muy elevada, no siendo factores decisivos sobre si un pasajero sobrevivía o no.

##### Fare - Age

A continuación también podemos relacionar ambas variables para determinar su grado de afinidad o correlación:

In [None]:
fig, axis = plt.subplots(2, 1, figsize = (5, 7))

# Crear un diagrama de dispersión múltiple
sns.regplot(ax = axis[0], data = df, x = "Age", y = "Fare")
sns.heatmap(df[["Fare", "Age"]].corr(), annot = True, fmt = ".2f", ax = axis[1])

# Ajustar el layout
plt.tight_layout()

# Mostrar el plot
plt.show()

Se puede determinar que no existe una relación muy fuerte entre ambas variables y que la edad no impacta sobre que el precio del billete sea mayor o no.

#### Análisis categórico-categórico

Cuando las dos variables que se comparan tienen datos categóricos.

Para comparar dos columnas categóricas se utilizan gráficos de barras.

##### Survived - (Sex, Pclass, Embarked, SibSp, Parch)

Primero analizamos la clase frente a las características categóricas, una a una.

El count plot muestra el conteo de supervivientes y no supervivientes en cada categoría de la variable categórica.

In [None]:
fig, axis = plt.subplots(2, 3, figsize = (10, 5))

sns.countplot(ax = axis[0, 0], data = df, x = "Sex", hue = "Survived")
sns.countplot(ax = axis[0, 1], data = df, x = "Pclass", hue = "Survived").set(ylabel = None)
sns.countplot(ax = axis[0, 2], data = df, x = "Embarked", hue = "Survived").set(ylabel = None)
sns.countplot(ax = axis[1, 0], data = df, x = "SibSp", hue = "Survived")
sns.countplot(ax = axis[1, 1], data = df, x = "Parch", hue = "Survived").set(ylabel = None)

plt.tight_layout()
fig.delaxes(axis[1, 2])

plt.show()

Este gráfico muestra la frecuencia de las categorías en la variable categórica y cómo se distribuyen entre los pasajeros que sobrevivieron y los que no sobrevivieron.

In [None]:
fig, axis = plt.subplots(2, 3, figsize = (10, 5))

sns.barplot(ax = axis[0, 0], data = df, x = "Sex", y = "Survived")
sns.barplot(ax = axis[0, 1], data = df, x = "Pclass", y = "Survived").set(ylabel = None)
sns.barplot(ax = axis[0, 2], data = df, x = "Embarked", y = "Survived").set(ylabel = None)
sns.barplot(ax = axis[1, 0], data = df, x = "SibSp", y = "Survived")
sns.barplot(ax = axis[1, 1], data = df, x = "Parch", y = "Survived").set(ylabel = None)

plt.tight_layout()
fig.delaxes(axis[1, 2])

plt.show()

Este gráfico muestra la proporción de supervivientes y no supervivientes apilados en cada categoría. Es útil para ver la composición relativa de supervivencia dentro de cada categoría.

In [None]:
fig, axis = plt.subplots(2, 3, figsize = (10, 6))

crosstab_sex = pd.crosstab(df['Sex'], df['Survived'])
crosstab_sex.div(crosstab_sex.sum(1).astype(float), axis=0)
crosstab_sex.plot(kind='bar', stacked=True, ax = axis[0, 0])

crosstab_pclas = pd.crosstab(df['Pclass'], df['Survived'])
crosstab_pclas.div(crosstab_pclas.sum(1).astype(float), axis=0)
crosstab_pclas.plot(kind='bar', stacked=True, ax = axis[0, 1])

crosstab_emb = pd.crosstab(df['Embarked'], df['Survived'])
crosstab_emb.div(crosstab_emb.sum(1).astype(float), axis=0)
crosstab_emb.plot(kind='bar', stacked=True, ax = axis[0, 2])

crosstab_SibSp = pd.crosstab(df['SibSp'], df['Survived'])
crosstab_SibSp.div(crosstab_SibSp.sum(1).astype(float), axis=0)
crosstab_SibSp.plot(kind='bar', stacked=True, ax = axis[1, 0])

crosstab_Parch = pd.crosstab(df['Parch'], df['Survived'])
crosstab_Parch.div(crosstab_Parch.sum(1).astype(float), axis=0)
crosstab_Parch.plot(kind='bar', stacked=True, ax = axis[1, 1])

plt.tight_layout()
fig.delaxes(axis[1, 2])

plt.show()

Del análisis anterior podemos obtener las siguientes conclusiones:

- Con mayor proporción sobrevivieron las mujeres frente a los hombres. Esto es así porque en los planes de evacuación tenían prioridad las mujeres frente a los hombres.

- Las personas que viajaron solas tuvieron más problemas para sobrevivir frente a las que viajaron acompañadas.

- Aquellos que viajaron en una mejor clase en el Titanic tuvieron una mayor probabilidad de supervivencia.

##### Combinaciones de la clase con varias predictoras

El análisis multivariante también permite combinar la clase con varias predictoras al mismo tiempo para enriquecer el análisis.

Este tipo de operaciones deben ser subjetivas y deben combinar características relacionadas entre sí.

Por ejemplo, no tendría sentido hacer un análisis entre la clase, el sexo del pasajero y la estación en la que accedió al Titanic.

Sin embargo, la clase y el sexo del pasajero frente a su supervivencia podría ser un análisis digno de estudio, entre otras casuísticas que se presentan a continuación.

En un barplot para variables binarias en Y como Survived: muestra la proporción de casos donde la variable es 1 (por ejemplo, la proporción de supervivientes). Esto se calcula como la media de los valores de la variable binaria para cada grupo.

Para variables numéricas el eje Y muestra la media de la variable numérica para cada grupo en el eje X.

In [None]:
fig, axis = plt.subplots(figsize = (10, 5), ncols = 2)

# Calcular la proporción de supervivencia por clase y sexo
sns.barplot(ax = axis[0], data = df, x = "Sex", y = "Survived", hue = "Pclass")
# Calcular la proporción de supervivencia por puerto y sexo
sns.barplot(ax = axis[1], data = df, x = "Embarked", y = "Survived", hue = "Pclass").set(ylabel = None)

plt.tight_layout()

plt.show()

De esos análisis se observa que, independientemente del puerto de embarque, las mujeres tuvieron más posibilidades de supervivencia en todas las clases.

Además, de media, las personas que viajaron en clases más altas sobrevivieron más que aquellos que no lo hicieron.

##### Análisis de correlaciones

El objetivo del análisis de correlaciónes con datos categóricos-categóricos es descubrir patrones y dependencias entre variables, lo que ayuda a entender cómo interactúan dentro de un conjunto de datos.

Este análisis tiene como objetivo determinar si y cómo las categorías de una variable están relacionadas con las categorías de otra.

In [15]:
df["Sex_n"] = pd.factorize(df["Sex"])[0]
df["Embarked_n"] = pd.factorize(df["Embarked"])[0]

In [16]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n
0,0,3,male,22.0,1,0,7.25,S,0,0
1,1,1,female,38.0,1,0,71.2833,C,1,1
2,1,3,female,26.0,0,0,7.925,S,1,0
3,1,1,female,35.0,1,0,53.1,S,1,0
4,0,3,male,35.0,0,0,8.05,S,0,0


In [None]:
fig, axis = plt.subplots(figsize = (5, 5))

sns.heatmap(df[["Sex_n", "Pclass", "Embarked_n", "SibSp", "Parch", "Survived"]].corr(), annot = True, fmt = ".2f")

plt.tight_layout()

plt.show()

El análisis de correlaciones refleja una fuerte relación directa entre el sexo (`Sex`) del pasajero y su supervivencia, como hemos visto en apartados anteriores.

Además, se aprecia una relación entre el número de acompañantes de los pasajeros (variables `SibSp` y `Parch`).

El resto de las correlaciones son débiles y no son tan significativas como para contemplarlas en el análisis.

#### Análisis numérico-categórico (completo)

Para ello, simplemente hemos de calcular las correlaciones entre las variables, ya que es el mayor indicativo sobre las relaciones.

Otro elemento que nos puede ser de mucha ayuda es obtener las relaciones dos a dos entre todos los datos del dataset.

In [None]:
fig, axis = plt.subplots(figsize = (6, 6))

sns.heatmap(df[["Age", "Fare", "Sex_n", "Pclass", "Embarked_n", "SibSp", "Parch", "Survived"]].corr(), annot = True, fmt = ".2f")

plt.tight_layout()

plt.show()

Existe una relación entre la tipología de clase (`Pclass`) y la edad del pasajero (`Age`) negativa (los que viajaban en primera clase eran personas con alta edad) y entre la clase y la tarifa pagada (`Fare`), algo que tiene mucho sentido.

El resto de correlaciones se mantienen con respecto a lo visto anteriormente.

In [None]:
fig, axis = plt.subplots(figsize = (10, 6), ncols = 2)

sns.regplot(ax = axis[0], data = df, x = "Age", y = "Pclass")
sns.regplot(ax = axis[1], data = df, x = "Fare", y = "Pclass").set(ylabel = None, ylim = (0.9, 3.1))

plt.tight_layout()

plt.show()

In [None]:
fig, axis = plt.subplots(figsize = (10, 6), ncols = 2)

sns.scatterplot(ax = axis[0], data=df, x='Pclass', y='Age', hue='Pclass', palette='viridis', alpha=0.7)
sns.scatterplot(ax = axis[1], data=df, x='Pclass', y='Fare', hue='Pclass', palette='viridis', alpha=0.7)

plt.show()

En el primer gráfico vemos que cuando la edad avanza, la presencia de billetes de primera clase se hace más notoria, y conforme la edad decrece, los billetes de tercera clase se hacen más presentes, reforzando la relación negativa entre las variables observadas.

El segundo gráfico también refuerza lo observado, ya que los billetes de mejor clase deben ser más caros.

In [None]:
# relaciones todos con todos
sns.pairplot(data = df)

# Parte 2

## 8. Valores atípicos <a name="atipicos"></a>

Un valor atípico (outlier) es un punto de datos que se desvía significativamente de los demás.

Es un valor que es notablemente diferente de lo que sería de esperar dada la tendencia general de los datos.

Estos outliers pueden ser causados por errores en la recolección de datos, variaciones naturales en los datos, o pueden ser indicativos de algo significativo, como una anomalía o evento extraordinario.

Para lidiar con ellos hay muchas técnicas, y puedes encontrar más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/how-to-deal-with-outliers.es.md), pero que se resume en los siguientes puntos:

- **Mantenerlos**. podría ser una política que en ciertos casos tuviera sentido.
- **Eliminarlos**. aquellas instancias que cuenten con características atípicas se eliminan del conjunto de datos. Sin embargo, si hay muchos valores atípicos, esta estrategia puede causar que se pierda gran parte de la información disponible.
- **Reemplazarlos**. Si no queremos eliminar instancias completas por la presencia de outliers en una de sus características, podemos reemplazarlos tomándolos en cuenta como valores faltantes y reutilizando la política.

El análisis descriptivo es una poderosa herramienta para caracterizar el conjunto de datos:

In [17]:
df.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_n,Embarked_n
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,1309.0,1309.0
mean,0.377387,2.294882,29.881138,0.498854,0.385027,33.295479,0.355997,0.392666
std,0.484918,0.837836,14.413493,1.041658,0.86556,51.758668,0.478997,0.655586
min,0.0,1.0,0.17,0.0,0.0,0.0,0.0,-1.0
25%,0.0,2.0,21.0,0.0,0.0,7.8958,0.0,0.0
50%,0.0,3.0,28.0,0.0,0.0,14.4542,0.0,0.0
75%,1.0,3.0,39.0,1.0,0.0,31.275,1.0,1.0
max,1.0,3.0,80.0,8.0,9.0,512.3292,1.0,2.0


Por ejemplo, todo parece normal salvo para la columna Fare que tiene una media de 32,20 pero su percentil del 50% es 14 y su valor máximo es 512. Podríamos decir que 512 parece ser un valor atípico, pero podría ser un error de transcripción. También es posible que el billete más caro tuviera ese precio. Sería útil investigar un poco y confirmar o desmentir esa información.

Dibujar los diagramas de cajas de las variables también nos da una información muy poderosa sobre los valores atípicos que se salen de las regiones de confianza:

In [None]:
fig, axis = plt.subplots(3, 3, figsize = (10, 8))

sns.boxplot(ax = axis[0, 0], data = df, y = "Survived")
sns.boxplot(ax = axis[0, 1], data = df, y = "Pclass")
sns.boxplot(ax = axis[0, 2], data = df, y = "Age")
sns.boxplot(ax = axis[1, 0], data = df, y = "SibSp")
sns.boxplot(ax = axis[1, 1], data = df, y = "Parch")
sns.boxplot(ax = axis[1, 2], data = df, y = "Fare")
sns.boxplot(ax = axis[2, 0], data = df, y = "Sex_n")
sns.boxplot(ax = axis[2, 1], data = df, y = "Embarked_n")

fig.delaxes(axis[2, 2])
plt.tight_layout()

plt.show()

Podemos determinar fácilmente que las variables afectadas por outliers son `Age`, `SibSp`, `Parch` and `Fare`.

El billete de 512 dólares no es muy común.

**¿Los eliminamos?**

Si queremos eliminarlos se deben calcular los límites para tomar un outlier:

In [18]:
# Calcular el primer cuartil (Q1) y el tercer cuartil (Q3)
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

# Definir los límites inferior y superior
lower_limit = Q1 - 1.5 * IQR
upper_limit = Q3 + 1.5 * IQR

print(f"Los límites superior e inferior para la búsqueda de outliers son {round(upper_limit, 2)} y {round(lower_limit, 2)}, con un rango intercuartílico de {round(IQR, 2)}")

Los límites superior e inferior para la búsqueda de outliers son 66.34 y -27.17, con un rango intercuartílico de 23.38


Deberíamos eliminar los registros de los pasajeros cuyo importe de billete supere los 66.34 dólares.

Sin embargo descartaríamos muchos valores. Podemos buscar outliears extremos:

In [19]:
# Definir los límites inferior y superior
lower_limit = Q1 - 3 * IQR
upper_limit = Q3 + 3 * IQR

print(f"Los límites superior e inferior para la búsqueda de outliers son {round(upper_limit, 2)} y {round(lower_limit, 2)}, con un rango intercuartílico de {round(IQR, 2)}")

Los límites superior e inferior para la búsqueda de outliers son 101.41 y -62.24, con un rango intercuartílico de 23.38


Los valores más extremos están por encima de 102. Veamos cuántos valores representan ese valor:

In [20]:
tickets_altos = df[df["Fare"] >= 101.41]

tickets_altos

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n
27,0,1,male,19.0,3,2,263.0000,S,0,0
31,1,1,female,,1,0,146.5208,C,1,1
88,1,1,female,23.0,3,2,263.0000,S,1,0
118,0,1,male,24.0,0,1,247.5208,C,0,1
195,1,1,female,58.0,0,0,146.5208,C,1,1
...,...,...,...,...,...,...,...,...,...,...
1262,1,1,female,31.0,0,0,134.5000,C,1,1
1266,1,1,female,45.0,0,0,262.3750,C,1,1
1291,1,1,female,30.0,0,0,164.8667,S,1,0
1298,0,1,male,50.0,1,1,211.5000,C,0,1


In [21]:
tickets_altos.Survived.value_counts()

Unnamed: 0_level_0,count
Survived,Unnamed: 1_level_1
1,58
0,26


Siguen siendo bastantes. Además vemos que muchos de ellos sobrevivieron, quizá sí que hay un impacto real sobre el precio de billete tan elevado y la supervivencia final.

Por lo tanto, sumado al análisis univariante anterior, existe una implicación entre el precio del billete y el resultado final de supervivencia, por lo que decidimos que mantenemos los valores atípicos.

## 9. Valores faltanes <a name="nulos"></a>

Un valor faltante (missing value) es no tener valor asignado en la observación de una variable específica.

Pueden surgir por muchas razones. Por ejemplo, podría haber un error en la recopilación de datos, alguien podría haberse negado a responder una pregunta en una encuesta, o simplemente podría ser que cierta información no esté disponible o no sea aplicable.

Para lidiar con ellos hay muchas técnicas, y puedes encontrar más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/how-to-deal-with-missing-values.es.ipynb), pero que se resume en los siguientes puntos:

- **Eliminarlos**. Similar al caso anterior de los outliers. Recomendable solo si el porcentaje es bajo.

- **Imputación**: Para rellenar los valores faltantes en una variable numérica, normalmente el procedimiento es utilizar los valores estadísticos de la muestra.

Cuando la columna es categórica, normalmente se suelen rellenar con el valor más frecuente.

También se puede recurrir a imputaciones obteniendo relaciones con otras variables.



La función isnull() es una poderosa herramienta para obtener esta información:

In [22]:
df.isnull().sum().sort_values(ascending=False)

Unnamed: 0,0
Age,263
Embarked,2
Fare,1
Survived,0
Pclass,0
Sex,0
Parch,0
SibSp,0
Sex_n,0
Embarked_n,0


In [23]:
# en porcentaje
df.isnull().sum().sort_values(ascending=False) / len(df)

Unnamed: 0,0
Age,0.200917
Embarked,0.001528
Fare,0.000764
Survived,0.0
Pclass,0.0
Sex,0.0
Parch,0.0
SibSp,0.0
Sex_n,0.0
Embarked_n,0.0


Para la variable `Embarked` y `Fare` se decide eliminar dado que es un porcentaje bajo.

Para `Age` vamos a utilizar imputación numérica a través de la función `fillna()`.

In [24]:
# Calcular la mediana de 'age' agrupando por 'Sex' y 'Pclass'
median_ages = df.groupby(['Sex', 'Pclass'])['Age'].median().reset_index()
median_ages = median_ages.rename(columns={'Age': 'median_age'})

median_ages

Unnamed: 0,Sex,Pclass,median_age
0,female,1,36.0
1,female,2,28.0
2,female,3,22.0
3,male,1,42.0
4,male,2,29.5
5,male,3,25.0


In [25]:
# Fusionar las medianas calculadas con el dataset original
df = pd.merge(df, median_ages, on=['Sex', 'Pclass'], how='left')

df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n,median_age
0,0,3,male,22.0,1,0,7.25,S,0,0,25.0
1,1,1,female,38.0,1,0,71.2833,C,1,1,36.0
2,1,3,female,26.0,0,0,7.925,S,1,0,22.0
3,1,1,female,35.0,1,0,53.1,S,1,0,36.0
4,0,3,male,35.0,0,0,8.05,S,0,0,25.0


In [26]:
# Rellenar los valores nulos en 'age' con las medianas calculadas
df['Age'].fillna(df['median_age'], inplace = True)

# Eliminar la columna auxiliar 'median_age'
df = df.drop(columns=['median_age'])

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['median_age'], inplace = True)


In [27]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n
0,0,3,male,22.0,1,0,7.25,S,0,0
1,1,1,female,38.0,1,0,71.2833,C,1,1
2,1,3,female,26.0,0,0,7.925,S,1,0
3,1,1,female,35.0,1,0,53.1,S,1,0
4,0,3,male,35.0,0,0,8.05,S,0,0


In [28]:
df.isnull().sum()

Unnamed: 0,0
Survived,0
Pclass,0
Sex,0
Age,0
SibSp,0
Parch,0
Fare,1
Embarked,2
Sex_n,0
Embarked_n,0


In [29]:
# Eliminar registros con valores nulos
df.dropna(subset=['Embarked'], inplace = True)
df.dropna(subset=['Fare'], inplace = True)

In [30]:
df.isnull().sum()

Unnamed: 0,0
Survived,0
Pclass,0
Sex,0
Age,0
SibSp,0
Parch,0
Fare,0
Embarked,0
Sex_n,0
Embarked_n,0


Vemos cómo los valores han sido imputados correctamente y ya no existen faltantes.

## 10. Ingeniería de atributos <a name="ingenieria"></a>

La **ingeniería de características** (*feature engineering*) es el proceso de utilizar el conocimiento del dominio de datos para crear y transformar características o variables que hacen que los algoritmos de Machine Learning funcionen de manera más eficiente.

La ingeniería de características puede llevar mucho tiempo porque incluye una serie de procesos, como:

- Rellenar valores faltantes dentro de una variable.
- Crear o extraer nuevas características de las disponibles en tu conjunto de datos.
- Codificación de variables categóricas en números (encoding).
- Transformación de variables.

Más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/feature-engineering.es.ipynb).

Otro uso típico en esta ingeniería es la de la obtención de nuevas características mediante la "fusión" de dos o más ya existentes.

Por ejemplo, en este caso de uso, el del análisis del Titanic, hay dos variables que representan los acompañantes de un pasajero.

Por un lado, `SibSp` contabiliza el número de hermanos que acompañaban al pasajero (incluyendo a su cónyuge, si aplica) y, por otro, `Parch` contabiliza el número de acompañantes que eran padres e hijos.

Uniendo estas dos variables y sumándolas podemos obtener una tercera, que nos informa sobre los acompañantes de un pasajero determinado, sin distinción entre los vínculos que pudieran tener.

In [31]:
df["FamMembers"] = df["SibSp"] + df["Parch"]

df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n,FamMembers
0,0,3,male,22.0,1,0,7.25,S,0,0,1
1,1,1,female,38.0,1,0,71.2833,C,1,1,1
2,1,3,female,26.0,0,0,7.925,S,1,0,0
3,1,1,female,35.0,1,0,53.1,S,1,0,1
4,0,3,male,35.0,0,0,8.05,S,0,0,0


Para llevar a cabo los precesos de escalado y codificación hay dos métodos o "enfoques".

**1. Realizar cambios antes de hacer el split de datos.**

En este enfoque, primero escalas/codificas todo el dataset y luego lo divides en conjuntos de entrenamiento y prueba.

Ventaja: Garantiza que los datos de entrenamiento y prueba están procesados de la misma manera, ya que se utilizan los mismos parámetros de escalado (media y desviación estándar o min y max) o sistema de codificación de todo el dataset.

Desventaja: Introduce información del conjunto de prueba en el conjunto de entrenamiento porque los parámetros de se calculan usando todo el dataset. Esto puede llevar a una sobreestimación del rendimiento del modelo, ya que el modelo ha "visto" indirectamente la distribución de los datos de prueba.

**2. Realizar cambios después de hacer el split de datos.**

En este enfoque, primero divides el dataset en conjuntos de entrenamiento y prueba, y luego procesas cada conjunto por separado usando los parámetros calculados del conjunto de entrenamiento.

Ventaja: Refleja mejor el escenario del mundo real donde el modelo no tiene acceso a los datos de prueba durante el entrenamiento. Esto asegura una evaluación justa del modelo en el conjunto de prueba.

Desventaja: Puede haber ligeras diferencias en el procesamiento entre los conjuntos de entrenamiento y prueba, ya que los parámetros se basan solo en el conjunto de entrenamiento. Sin embargo, esto generalmente no es un problema si el conjunto de datos es lo suficientemente grande y representativo.

### 10. 1. Escalado <a name="escalado"></a>

El escalado de valores es un paso crucial en el preprocesamiento de datos para muchos algoritmos de Machine Learning.

Es útil cuando se trabaja con un conjunto de datos que contiene características continuas que están en diferentes escalas, y estás usando un modelo que opera en algún tipo de espacio lineal (como lineal regresión o K-vecinos más cercanos).

Es una técnica que cambia el rango de los valores de los datos para que puedan ser comparables entre sí.

El escalado normalmente implica la normalización, que es el proceso de cambiar los valores para que tengan una media de 0 y una desviación estándar de 1.

Otra técnica común es el escalado mínimo-máximo, que transforma los datos para que todos los valores estén entre 0 y 1.

Sólo se deben escalar las variables predictoras, nunca la objetivo.

Más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/feature-scaling.es.ipynb).

In [32]:
# Dividimos el conjunto de datos en muestras de train y test
X = df.drop("Survived", axis = 1)
y = df["Survived"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

X_train.head()

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n,FamMembers
991,1,female,43.0,1,0,55.4417,C,1,1,1
10,3,female,4.0,1,1,16.7,S,1,0,2
148,2,male,36.5,0,2,26.0,S,0,0,2
347,3,female,22.0,1,0,16.1,S,1,0,1
412,1,female,33.0,1,0,90.0,Q,1,2,1


A continuación detallaremos cómo podemos aplicar varias formas de escalado, pero recordemos que depende mucho del modelo que vayamos a querer entrenar y se aplica solo una.

In [33]:
# "Pclass", "Sex_n", "Embarked_n" las considero categoricas
num_variables = ["Age", "Fare", "FamMembers"]

In [34]:
# instancio el escalador
scaler = StandardScaler()

# entreno el escalador con los datos de entrenamiento
scaler.fit(X_train[num_variables])

# aplico el escalador en amhos
X_train_num_scal = scaler.transform(X_train[num_variables])
X_train_num_scal = pd.DataFrame(X_train_num_scal, index = X_train.index, columns = num_variables)

X_test_num_scal = scaler.transform(X_test[num_variables])
X_test_num_scal = pd.DataFrame(X_test_num_scal, index = X_test.index, columns = num_variables)

X_train_num_scal.head()

Unnamed: 0,Age,Fare,FamMembers
991,1.035594,0.423016,0.086395
10,-1.92299,-0.30856,0.730656
148,0.542496,-0.132944,0.730656
347,-0.55749,-0.31989,0.086395
412,0.276982,1.075596,0.086395


In [None]:
# instancio el escalador
scaler = MinMaxScaler()

# entreno el escalador con los datos de entrenamiento
scaler.fit(X_train[num_variables])

# aplico el escalador en amhos
X_train_num_mm = scaler.transform(X_train[num_variables])
X_train_num_mm = pd.DataFrame(X_train_num_mm, index = X_train.index, columns = num_variables)

X_test_num_mm = scaler.transform(X_test[num_variables])
X_test_num_mm = pd.DataFrame(X_test_num_mm, index = X_test.index, columns = num_variables)

X_train_num_mm.head()

### 10. 2. Codificación <a name="encoding"></a>

Las variables categóricas, que contienen valores discretos y no numéricos, deben transformarse en una forma que los algoritmos de ML puedan entender.

Existen varias técnicas de codificación, cada una con sus ventajas y desventajas, dependiendo del tipo de datos y del modelo utilizado.

Más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/feature-encoding-for-categorical-variables.es.ipynb).

In [None]:
cat_variables = ["Sex", "Embarked"]

**1. Label Encoding**

Asigna un valor entero único a cada categoría.

Adecuado para variables categóricas ordinales donde el orden tiene importancia.

In [35]:
X_train_cat_le = X_train.copy()
X_test_cat_le = X_test.copy()

# instancio el encoder
label_encoder_sex = LabelEncoder()
label_encoder_embarked = LabelEncoder()

# entreno el encoder con los datos de entrenamiento
label_encoder_sex.fit(X_train['Sex'])
label_encoder_embarked.fit(X_train['Embarked'])

# aplico el encoder en amhos
X_train_cat_le['Sex_le'] = label_encoder_sex.transform(X_train['Sex'])
X_train_cat_le['Embarked_le'] = label_encoder_embarked.transform(X_train['Embarked'])

X_test_cat_le['Sex_le'] = label_encoder_sex.transform(X_test['Sex'])
X_test_cat_le['Embarked_le'] = label_encoder_embarked.transform(X_test['Embarked'])

X_train_cat_le.head(20)

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n,FamMembers,Sex_le,Embarked_le
991,1,female,43.0,1,0,55.4417,C,1,1,1,0,0
10,3,female,4.0,1,1,16.7,S,1,0,2,0,2
148,2,male,36.5,0,2,26.0,S,0,0,2,1,2
347,3,female,22.0,1,0,16.1,S,1,0,1,0,2
412,1,female,33.0,1,0,90.0,Q,1,2,1,0,1


In [37]:
X_train_cat_le.head(50)

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_n,Embarked_n,FamMembers,Sex_le,Embarked_le
991,1,female,43.0,1,0,55.4417,C,1,1,1,0,0
10,3,female,4.0,1,1,16.7,S,1,0,2,0,2
148,2,male,36.5,0,2,26.0,S,0,0,2,1,2
347,3,female,22.0,1,0,16.1,S,1,0,1,0,2
412,1,female,33.0,1,0,90.0,Q,1,2,1,0,1
821,3,male,27.0,0,0,8.6625,S,0,0,0,1,2
349,3,male,42.0,0,0,8.6625,S,0,0,0,1,2
359,3,female,22.0,0,0,7.8792,Q,1,2,0,0,1
1020,3,male,24.0,0,0,8.05,S,0,0,0,1,2
378,3,male,20.0,0,0,4.0125,C,0,1,0,1,0


**2. One-Hot Encoding**

Asigna un valor entero único a cada categoría.

Crea una columna binaria (0 o 1) para cada categoría.

Adecuado para variables categóricas nominales donde no hay un orden implícito.

Cuando hay muchas categorias no es conveniente.

In [None]:
# instancio el encoder
onehot_encoder = OneHotEncoder(sparse=False)

# entreno el encoder con los datos de entrenamiento
onehot_encoder.fit(X_train[cat_variables])

# aplico el encoder en amhos
X_train_cat_ohe = onehot_encoder.transform(X_train[cat_variables])
X_train_cat_ohe = pd.DataFrame(X_train_cat_ohe, index = X_train.index, columns=onehot_encoder.get_feature_names_out(cat_variables))

X_test_cat_ohe = onehot_encoder.transform(X_test[cat_variables])
X_test_cat_ohe = pd.DataFrame(X_test_cat_ohe, index = X_test.index, columns=onehot_encoder.get_feature_names_out(cat_variables))

X_train_cat_ohe.head()

**3. Ordinal Encoding**

Similar a Label Encoding, pero permite especificar el orden de las categorías.

Adecuado para variables categóricas ordinales.

In [38]:
# Datos de ejemplo
data = {'Tamaño': ['Pequeño', 'Mediano', 'Grande', 'Mediano', 'Pequeño']}
df = pd.DataFrame(data)

# Definir el orden de las categorías
ordinal_encoder = OrdinalEncoder(categories=[['Pequeño', 'Mediano', 'Grande']])

df['Tamaño_Ordinal'] = ordinal_encoder.fit_transform(df[['Tamaño']])

print(df)

    Tamaño  Tamaño_Ordinal
0  Pequeño             0.0
1  Mediano             1.0
2   Grande             2.0
3  Mediano             1.0
4  Pequeño             0.0


# Parte 3

## 11. Selección de características <a name="seleccion"></a>

No todas las características en un conjunto de datos contribuyen por igual a la capacidad predictiva de un modelo. Algunas pueden ser redundantes, irrelevantes o incluso perjudiciales para la precisión del modelo.

La selección de características (feature selection) es un proceso que implica seleccionar las características (variables) más relevantes de nuestro conjunto de datos para usarlas en la construcción de un modelo de Machine Learning, desechando el resto.

El objetivo principal de la selección de características es mejorar el rendimiento del modelo al:

- Reducir el sobreajuste (overfitting) al eliminar características irrelevantes.

- Mejorar la precisión y la interpretabilidad del modelo al centrarse en las características más relevantes.

Además, existen diversas técnicas para la selección de características. Más información [aquí](https://github.com/4GeeksAcademy/machine-learning-content/blob/master/05-data/feature-selection.es.md).

La selección de características se debe realizar solo en el conjunto de datos de entrenamiento y no en la totalidad.

Si la llevásemos a cabo en todo el conjunto, podríamos introducir un sesgo que se conoce como contaminación de datos (data leakage), que ocurre cuando la información del conjunto de prueba se utiliza para tomar decisiones durante el entrenamiento, lo que puede llevar a una estimación demasiado optimista del rendimiento del modelo.

**¿Cuándo es innecesaria la selección de características?**

Algunos casos en los que la selección de características no es necesaria:

- Hay pocas características.

- Todas las características contienen señales útiles e importantes.

- No hay colinealidad entre las características (no están relacionadas).

- Los recursos informáticos pueden manejar el procesamiento de todas las características.

- Explicar a fondo el modelo a una audiencia no técnica no es fundamental.

**¿Cuáles son los tres tipos de métodos de selección de características?**

**Métodos de filtrado**: la selección de características se realiza independientemente del algoritmo de aprendizaje, antes de realizar cualquier modelado. Evalúan las características utilizando estadísticas como correlación, prueba estadística (como chi-cuadrado), o información mutua para clasificarlas según su relevancia. Un ejemplo es encontrar la correlación entre cada característica y el objetivo y descartar aquellas que no alcanzan un umbral. No tan eficaz como otros métodos. Ej: SelectKBest.

**Métodos de envoltorio (wrapper)**: entrena modelos en subconjuntos de características y usa el subconjunto que resulte en el mejor rendimiento. Las ventajas son que considera cada característica en el contexto de las otras características, pero puede ser computacionalmente costoso. Ej: Forward Selection.

**Métodos incorporados (Embedded)**: los algoritmos de aprendizaje tienen una selección de características incorporada. Por ejemplo: regularización L1 en regresión lineal.

La librería sklearn contiene gran parte de las mejores alternativas para llevarla a cabo. Una de las herramientas que más se utilizan para realizar procesos de selección de características rápidos y con buenos resultados es SelectKBest.

Esta función selecciona las k mejores características de nuestro conjunto de datos basándose en una función de un test estadístico.

Este test estadístico normalmente es un ANOVA o un Chi-Cuadrado:

In [39]:
# unificamos el dataset preprocesado hasta el momento
X_train_num_scal.head()

Unnamed: 0,Age,Fare,FamMembers
991,1.035594,0.423016,0.086395
10,-1.92299,-0.30856,0.730656
148,0.542496,-0.132944,0.730656
347,-0.55749,-0.31989,0.086395
412,0.276982,1.075596,0.086395


In [40]:
X_train_cat_ohe.head()

NameError: name 'X_train_cat_ohe' is not defined

In [None]:
X_train_final = pd.concat([X_train_num_scal, X_train_cat_ohe], axis=1)
X_test_final = pd.concat([X_test_num_scal, X_test_cat_ohe], axis=1)

X_train_final.head()

In [None]:
# Con un valor de k = 5 decimos implícitamente que queremos eliminar 2 características del conjunto de datos
selection_model = SelectKBest(score_func = f_classif, k = 5)

# entreno la seleecion
selection_model.fit(X_train_final, y_train)

ix = selection_model.get_support()
X_train_sel = pd.DataFrame(selection_model.transform(X_train_final), columns = X_train_final.columns.values[ix])
X_test_sel = pd.DataFrame(selection_model.transform(X_test_final), columns = X_test_final.columns.values[ix])

X_train_sel.head()

En este caso, utilizando la selección de características de Chi cuadrado, las características más importantes son Fare,	Sex_female,	Sex_male,	Embarked_C	y Embarked_S.

In [None]:
# Obtener las características seleccionadas
selected_features = X_train_final.columns[selection_model.get_support()]

selected_features

## 12. Links de interés <a name="links"></a>

####EDA

- [Understand Your Problem and Get Better Results Using Exploratory Data Analysis](https://machinelearningmastery.com/understand-problem-get-better-results-using-exploratory-data-analysis/)
- [Rapid-Fire EDA Process Using Python for ML Implementation](https://www.analyticsvidhya.com/blog/2021/04/rapid-fire-eda-process-using-python-for-ml-implementation/)
- [Python for Data Analysis](https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662)

####Valores faltantes
- [Handling Missing Values in Data Science](https://medium.com/@ramazanolmeez/handling-missing-values-in-data-science-machine-learning-projects-strategies-and-practice-42d7376ca94a)
- [Imputation of missing values](https://scikit-learn.org/stable/modules/impute.html)

####Outliers

- [A Brief Overview of Outlier Detection Techniques](https://towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques-1e0b2c19e561)
- [Overview of outlier detection methods](https://scikit-learn.org/stable/modules/outlier_detection.html)

####Escalado

- [Normalization vs Standardization Explained](https://towardsdatascience.com/normalization-vs-standardization-explained-209e84d0f81e)
- [Preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html)

####Encoder

- [Categorical encoding using Label-Encoding and One-Hot-Encoder](https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd)
- [Sklearn](https://scikit-learn.org/stable/api/sklearn.preprocessing.html)

####Seleccion de features

- [Feature Selection Techniques in Machine Learning with Python](https://towardsdatascience.com/feature-selection-techniques-in-machine-learning-with-python-f24e7da3f36e)
- [Feature selection Sklearn](https://scikit-learn.org/stable/modules/feature_selection.html)