![image-2.png](attachment:image-2.png)

# **1. Entendimiento de la actividad**
---

## **1.1. Objetivos**

- *Realizar un análisis exploratorio de datos al dataset* **`attacks.csv`**.
- *Utilizar el dataset para predecir la variable objetivo `Survived` (0 = no sobrevivió, 1 = sobrevivió)*.
  - `Qué tipo de persona tiene la probabilidad más alta de sobrevivir.`
- *Entrenar y evaluar 4 algoritmos: Regresión Logística, KNN, Árbol de Decisión, Random Forest*

---

---
### **Actividad**
Usar un dataset de ataques de tiburones limpio y numérico para entrenar 4 modelos de clasificación distintos y compararlos.  


# **2. Entendimiento de los datos**
---

## **2.0. Conjunto de datos**

Este dataset contiene información sobre algunos pasajeros del Titanic, con el objetivo de predecir si una persona sobrevivió o no.

| Columna       | Descripción                                                                 |
|---------------|-----------------------------------------------------------------------------|
| PassengerId   | Identificador del pasajero                                                  |
| <span style="color:blue">**Survived**</span>      | <span style="color:blue">Variable objetivo</span> (<span style="color:red">0 = No sobrevivió</span>, <span style="color:green">1 = Sobrevivió</span>)                       |
| Pclass        | Clase del pasajero (1 = Primera, 2 = Segunda, 3 = Tercera)                  |
| Name          | Nombre del pasajero                                                         |
| Sex           | Género                                                                      |
| Age           | Edad                                                                        |
| SibSp         | Número de hermanos/esposos a bordo                                          |
| Parch         | Número de padres/hijos a bordo                                              |
| Ticket        | Número de ticket                                                            |
| Fare          | Tarifa pagada                                                               |
| Cabin         | Número de cabina (muchos valores faltantes)                                 |
| Embarked      | Puerto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton)         |


## **2.1. Importar Paquetes**

Realizamos la importación de las librerías que se utilizaran en el presente informe.

In [75]:
# ====================================
# Importación de librerías necesarias
# ====================================

# Librerías estándar de Python
import os

# Librerías de análisis numérico y manejo de datos
import numpy as np
import pandas as pd

# Librerías de visualización
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno  # Para visualizar valores faltantes

# Librerías de Machine Learning
import sklearn
# from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

In [76]:
# Mostrar gráficos dentro del notebook
%matplotlib inline

# Mejor calidad en pantallas
%config InlineBackend.figure_format = 'retina'

# Tema de Seaborn (fondos, rejilla, colores)
sns.set_theme(
    context="notebook",   # Tamaños adaptados a Jupyter ("paper", "talk", "poster")
    style="whitegrid",    # Fondo con rejilla clara
    palette="deep",       # Paleta de colores
    font_scale=1.1        # Escala de fuentes (ajustar si se ve muy grande o muy pequeño)
)

# Ajustes globales de Matplotlib
plt.rcParams["figure.figsize"] = (10, 6)   # Tamaño de las figuras
plt.rcParams["axes.titlesize"] = 14        # Tamaño de los títulos
plt.rcParams["axes.labelsize"] = 12        # Tamaño de las etiquetas
plt.rcParams["legend.fontsize"] = 11       # Tamaño de la leyenda
plt.rcParams["xtick.labelsize"] = 11       # Tamaño ticks eje X
plt.rcParams["ytick.labelsize"] = 11       # Tamaño ticks eje Y

In [77]:
# Versión de Python y las demás librerías.
print('\nEsta actividad se realizó con las siguientes versiones:\n')
!python --version
print('NumPy', np.__version__)
print('Pandas', pd.__version__)
print('Missingno', msno.__version__)
print('Matplotlib', plt.matplotlib.__version__)
print('Seaborn', sns.__version__)
print('Scikit-learn', sklearn.__version__)


Esta actividad se realizó con las siguientes versiones:

Python 3.10.12
NumPy 2.2.6
Pandas 2.3.2
Missingno 0.5.2
Matplotlib 3.10.6
Seaborn 0.13.2
Scikit-learn 1.7.2


In [78]:
# Directorio Actual
print("Directorio actual:", os.getcwd())

Directorio actual: /home/neo/PROJECTS/IronHack_Esp_Big_Data/15_dia/exercises


## **2.2. Funciones Implementadas**

In [79]:
def load_data(filename: str) -> pd.DataFrame | None:
    """
    Carga un archivo CSV en un DataFrame de pandas desde '../resources/docs',
    manejando errores y codificaciones comunes.
    """
    try:
        base_dir = os.getcwd()
        file_path = os.path.join(base_dir, "..", "resources", "docs", filename)

        if not os.path.exists(file_path):
            raise FileNotFoundError(f"El archivo {file_path} no existe.")

        # Intentar cargar con UTF-8 primero, si falla usar latin-1
        try:
            data = pd.read_csv(file_path, encoding='utf-8')
        except UnicodeDecodeError:
            data = pd.read_csv(file_path, encoding='latin-1')

        print(f">>> El archivo '{filename}' se cargó correctamente. Filas: {data.shape[0]}, Columnas: {data.shape[1]}")
        return data

    except FileNotFoundError as e:
        print(e)
    except pd.errors.ParserError as e:
        print(f"Error de formato: {e}")
    except Exception as e:
        print(f"Ocurrió un error inesperado: {e}")

    return None

In [80]:
def missing_values(df: pd.DataFrame) -> pd.DataFrame:
    """
    Carga un DataFrame de pandas y genera informe de datos perdidos.
    """
    n_cases = df.shape[0]
    summary = pd.DataFrame({
        'variable': df.columns,
        'n_cases': n_cases,
        'n_missing': df.isna().sum().values,
        'pct_missing': (df.isna().sum().values / n_cases * 100)
    })
    return (summary
            .sort_values(by = 'n_missing'
                         ,ascending = False)
            )

In [81]:
def plot_missing_data(df: pd.DataFrame, figsize_bar=(12,5), figsize_matrix=(12,5)):
    """
    Genera gráficos de valores faltantes de un DataFrame usando Missingno:
    - Bar chart
    - Matrix
    """
    
    # Gráfico de barras
    plt.figure(figsize=figsize_bar)
    msno.bar(df)
    plt.show()
    
    # Gráfico de matriz
    plt.figure(figsize=figsize_matrix)
    msno.matrix(df)
    plt.show()

In [82]:
def plot_explorer_data(df: pd.DataFrame, column=None, rotate=0, figsize_bar=(12,5), figsize_matrix=(12,5)):
    """
    Genera gráficos univariados de un DataFrame:
    - Boxplot de variables numéricas para detectar outliers.
    - Boxplot de una columna específica.
    
    Parámetros:
    - df: DataFrame
    - column: nombre de la columna a graficar
    - rotate: 1 -> graficar todas las variables numéricas, 0 -> graficar solo 'column'
    - figsize_bar / figsize_matrix: tamaño de la figura
    """
    
    if rotate == 1:
        plt.figure(figsize=figsize_matrix)
        sns.boxplot(data=df.select_dtypes(include=["number"]))
        plt.xticks(rotation=90)
        plt.title("Boxplot de variables numéricas para detectar outliers")
        plt.show()
    else:
        plt.figure(figsize=figsize_bar)
        sns.boxplot(x=df[column])
        plt.title(f"Boxplot de {column}")
        plt.xlabel(f"{column}")
        plt.show()

## **2.3. Importación de datos**

In [83]:
# 1.1 Cargar el archivo
df = load_data("attacks.csv")

if df is not None:
    print("DataFrame: {df} OK...")

>>> El archivo 'attacks.csv' se cargó correctamente. Filas: 25723, Columnas: 24
DataFrame: {df} OK...


## **2.4. Análisis Exploración de Datos [EDA]**

1. Tener clara la pregunta que queremos responder
2. Tener una idea general de nuestro dataset
3. Definir los tipos de datos que tenemos
4. Elegir el tipo de estadística descriptiva
5. Visualizar los datos
6. Analizar las posibles interacciones entre las variables del dataset
7. Extraer algunas conclusiones de todo este análisis.

In [84]:
# Tamaño del DataFrame
print("1.Filas:   ", df.shape[0])
print("2.Columnas:", df.shape[1])

1.Filas:    25723
2.Columnas: 24


In [85]:
# Descripción del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25723 entries, 0 to 25722
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Case Number             8702 non-null   object 
 1   Date                    6302 non-null   object 
 2   Year                    6300 non-null   float64
 3   Type                    6298 non-null   object 
 4   Country                 6252 non-null   object 
 5   Area                    5847 non-null   object 
 6   Location                5762 non-null   object 
 7   Activity                5758 non-null   object 
 8   Name                    6092 non-null   object 
 9   Sex                     5737 non-null   object 
 10  Age                     3471 non-null   object 
 11  Injury                  6274 non-null   object 
 12  Fatal (Y/N)             5763 non-null   object 
 13  Time                    2948 non-null   object 
 14  Species                 3464 non-null 

In [86]:
# Visialización de los 5 primeros registros del dataset
df.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2018.06.25,25-Jun-2018,2018.0,Boating,USA,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,F,...,White shark,"R. Collier, GSAF",2018.06.25-Wolfe.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.25,2018.06.25,6303.0,,
1,2018.06.18,18-Jun-2018,2018.0,Unprovoked,USA,Georgia,"St. Simon Island, Glynn County",Standing,Adyson McNeely,F,...,,"K.McMurray, TrackingSharks.com",2018.06.18-McNeely.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.18,2018.06.18,6302.0,,
2,2018.06.09,09-Jun-2018,2018.0,Invalid,USA,Hawaii,"Habush, Oahu",Surfing,John Denges,M,...,,"K.McMurray, TrackingSharks.com",2018.06.09-Denges.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.09,2018.06.09,6301.0,,
3,2018.06.08,08-Jun-2018,2018.0,Unprovoked,AUSTRALIA,New South Wales,Arrawarra Headland,Surfing,male,M,...,2 m shark,"B. Myatt, GSAF",2018.06.08-Arrawarra.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.08,2018.06.08,6300.0,,
4,2018.06.04,04-Jun-2018,2018.0,Provoked,MEXICO,Colima,La Ticla,Free diving,Gustavo Ramos,M,...,"Tiger shark, 3m",A .Kipper,2018.06.04-Ramos.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.04,2018.06.04,6299.0,,


In [87]:
# Vista general
df.describe(include = "all")

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
count,8702.0,6302.0,6300.0,6298,6252,5847,5762,5758,6092,5737,...,3464,6285,6302,6301,6302,6302,6302,6309.0,1,2
unique,6287.0,5433.0,,8,212,825,4108,1532,5230,6,...,1549,4969,6291,6290,6285,6285,6286,,1,2
top,0.0,1957.0,,Unprovoked,USA,Florida,"New Smyrna Beach, Volusia County",Surfing,male,M,...,White shark,"C. Moore, GSAF",1929.03.04.a-b.Roads-Aldridge.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2014.08.02,1962.06.11.b,,stopped here,Teramo
freq,2400.0,11.0,,4595,2229,1037,163,971,550,5094,...,163,105,2,2,4,2,2,,1,1
mean,,,1927.272381,,,,,,,,...,,,,,,,,3155.999683,,
std,,,281.116308,,,,,,,,...,,,,,,,,1821.396206,,
min,,,0.0,,,,,,,,...,,,,,,,,2.0,,
25%,,,1942.0,,,,,,,,...,,,,,,,,1579.0,,
50%,,,1977.0,,,,,,,,...,,,,,,,,3156.0,,
75%,,,2005.0,,,,,,,,...,,,,,,,,4733.0,,


In [88]:
# Valores perdidos
missing_values(df)

Unnamed: 0,variable,n_cases,n_missing,pct_missing
22,Unnamed: 22,25723,25722,99.996112
23,Unnamed: 23,25723,25721,99.992225
13,Time,25723,22775,88.539439
14,Species,25723,22259,86.533453
10,Age,25723,22252,86.50624
9,Sex,25723,19986,77.697003
7,Activity,25723,19965,77.615364
6,Location,25723,19961,77.599813
12,Fatal (Y/N),25723,19960,77.595926
5,Area,25723,19876,77.26937


In [89]:
# Para acceder mas rapidamente a los nombres de las columnas
df.columns

Index(['Case Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time',
       'Species ', 'Investigator or Source', 'pdf', 'href formula', 'href',
       'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22',
       'Unnamed: 23'],
      dtype='object')

In [90]:
# Seleccionamos todos los valores distincto del dataset
df.nunique()

Case Number               6287
Date                      5433
Year                       249
Type                         8
Country                    212
Area                       825
Location                  4108
Activity                  1532
Name                      5230
Sex                          6
Age                        157
Injury                    3737
Fatal (Y/N)                  8
Time                       366
Species                   1549
Investigator or Source    4969
pdf                       6291
href formula              6290
href                      6285
Case Number.1             6285
Case Number.2             6286
original order            6308
Unnamed: 22                  1
Unnamed: 23                  2
dtype: int64

In [91]:
# Columnas numéricas
num_cols = df.select_dtypes(include=["int64", "float64"]).columns
print("Numéricas:", num_cols)

# Columnas categóricas / objeto
cat_cols = df.select_dtypes(include=["object"]).columns
print("Categóricas:", cat_cols)

Numéricas: Index(['Year', 'original order'], dtype='object')
Categóricas: Index(['Case Number', 'Date', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time',
       'Species ', 'Investigator or Source', 'pdf', 'href formula', 'href',
       'Case Number.1', 'Case Number.2', 'Unnamed: 22', 'Unnamed: 23'],
      dtype='object')


**Características cuantitativas** ( *Numérica* ): Year, original order. <br>
**Características cualitativas** ( *Categórica* ): Case Number, Date, Type, Country, Area, Location, Activity, Name, Sex, Age, Injury, Fatal (Y/N), Time, Species, Investigator or Source, pdf, href formula, href, Case Number.1, Case Number.2, Unnamed: 22, Unnamed: 23.

In [92]:
df = df.rename(columns={'Case Number' : 'Case_Number'
                        ,'Sex ' : 'Sex'
                        ,'Fatal (Y/N)': 'Fatal'
                        ,'Species ': 'Species'
                        ,'Investigator or Source': 'Investigator_Source'
                        ,'href formula':'href_formula'
                        ,'Case Number.1':'Case_Number.1'
                        ,'Case Number.2':'Case_Number.2'
                        ,'original order': 'original_order'
                        ,'Unnamed: 22': 'Unnamed_22'
                        ,'Unnamed: 23': 'Unnamed_23'})

In [93]:
# Para acceder mas rapidamente a los nombres de las columnas
df.columns

Index(['Case_Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal', 'Time', 'Species',
       'Investigator_Source', 'pdf', 'href_formula', 'href', 'Case_Number.1',
       'Case_Number.2', 'original_order', 'Unnamed_22', 'Unnamed_23'],
      dtype='object')

In [94]:
# Sobrevivientes
df['Fatal'].value_counts()

# print((342 / 891) * 100)

Fatal
N          4293
Y          1388
UNKNOWN      71
 N            7
M             1
2017          1
N             1
y             1
Name: count, dtype: int64

In [95]:
df.columns

Index(['Case_Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal', 'Time', 'Species',
       'Investigator_Source', 'pdf', 'href_formula', 'href', 'Case_Number.1',
       'Case_Number.2', 'original_order', 'Unnamed_22', 'Unnamed_23'],
      dtype='object')

In [None]:
# Genero y clase influyen en supervivencia
'''
(
    df.groupby("Country")
    .agg({"Fatal": ["min"
                       ,"max"
                       ,"mean"
                       ,"count"]
        })
)'''

TypeError: agg function failed [how->min,dtype->object]

In [None]:
# Hermanos/esposos (SibSp), 
# número de padres/hijos (Parch) y Genero (Sex)
# influyen en supervivencia

(
    df.groupby(["SibSp", "Parch", "Sex"])
    .agg(
        PassengerCount=("Survived", "count"),  # número de pasajeros
        SurvivedCount=("Survived", "sum"),     # número de sobrevivientes
        SurvivalRate=("Survived", "mean")      # tasa de supervivencia
        )
)

In [None]:
# Agrupación por la columna categorica "Embarked" agregando la clase minimo y maximo.
(
    df.groupby('Embarked')
    .agg({'Pclass' : [min, max]})
)

In [None]:
# Cantidad de ocurrencias por la variable categorica "Sex"
df.groupby('Sex').agg({'Age' : [min, max]})

## **2.5. Descripciones Generales**

El dataset Titanic presenta un problema de clasificación. Se busca predecir la supervivencia de una persona basada en características como la clase del pasajero (**`Pclass`**), su género (**`Sex`**), su edad (**`Age`**), el número de hermanos y pareja a bordo, (**`SibSp`**), el número de padres e hijos a bordo (**`Parch`**), entre otras.

Para mantener las cosas sencillas eliminaremos la variable **`Cabin`** ya que presenta muchos datos faltantes y luego eliminaremos los registros que contentan valores faltantes en algunas de las columnas restantes. También eliminaremos la variable **`PassengerId`** ya que es un identificador y no una variable propia de dataset.

In [None]:
# Vista general
df.describe(include = "all")

In [None]:
# Validar duplicados
print("Antes:", df.shape)

df.drop_duplicates()
df.duplicated().sum()

print("Después:", df.shape)

In [None]:
# Columnas numéricas
num_cols = df.select_dtypes(include=["int64", "float64"]).columns
print("Numéricas:", num_cols)

# Columnas categóricas / objeto
cat_cols = df.select_dtypes(include=["object"]).columns
print("Categóricas:", cat_cols)

In [None]:
fig, ax = plt.subplots(nrows=7, ncols=1, figsize=(8,30))
fig.subplots_adjust(hspace=0.5)

for i, col in enumerate(num_cols):
    sns.boxplot(x=col, data=df, ax=ax[i])
    ax[i].set_title(col)

## **2.6. Limpieza**

En este proceso de limpieza haremos uso de diferentes herramientas de Pandas que nos permitirán abordar las situaciones que más comúnmente encontraremos en un set de datos tabular, como son:

- El manejo de datos faltantes (que como lo acabamos de ver están presentes en nuestro set de datos)
- La eliminación de columnas irrelevantes (es decir, columnas que no contienen información relacionada con el problema que queremos resolver)
- El manejo de registros (filas) repetidos
- El manejo de valores extremos (u «outliers») para el caso de las variables (columnas) numéricas
- La limpieza de errores tipográficos que puedan existir en las variables categóricas

Y al final de este proceso de limpieza deberíamos tener un set de datos íntegro, listo para la fase de Análisis Exploratorio.

### **2.6.1 Detección y manejo de datos faltantes**

En esencia existen dos técnicas para realizar este manejo de datos faltantes: la `eliminación` (que consiste en simplemente borrar las filas que tengan datos incompletos) o la `imputación` (que consiste en estimar el dato faltante con base en la información conocida).

In [None]:
# UDF Graficos de Valores faltantes
plot_missing_data(df)

### **2.6.1.2 Imputación**

**Este proyecto no cuenta con Imputación**

### **2.6.2 Eliminación de columnas irrelevantes**

En esta fase de limpieza eliminaremos aquellas columnas que no aportan información relevante para el análisis que queremos realizar.

In [None]:
for col in cat_cols:
  print(f'Columna {col}: {df[col].nunique()} datos diferentes')

In [None]:
df.columns

In [None]:
df.head()

In [None]:
# Bck
df_bck = df

# La eliminación de columnas irrelevantes
df_clean = df.drop(['Case_Number', 'Name', 'pdf', 'Investigator_Source', 'href_formula', 'href', 'Case_Number.1', 'Case_Number.2', 'original_order', 'Unnamed_22', 'Unnamed_23', 'Time'], axis=1)

In [None]:
plot_missing_data(df_clean)

### **2.6.3 Eliminación de Datos**

In [None]:
print("Antes:  ", df.shape)

# CheckPoint
df_full = df

# Eliminamos los ejemplos con valores faltantes.
df_clean = df_clean.dropna(subset=["Date"])

print("Después:", df_clean.shape)

In [None]:
plot_missing_data(df_clean)

In [None]:
df_clean[df_clean["Type"].isna()]

### **2.6.3 Detección y manejo de valores extremos**

In [None]:
# Columnas numéricas
num_cols = df_clean.select_dtypes(include=["int64", "float64"]).columns
print("Numéricas:", num_cols)

# Columnas categóricas / objeto
cat_cols = df_clean.select_dtypes(include=["object"]).columns
print("Categóricas:", cat_cols)

In [None]:
fig, ax = plt.subplots(nrows=7, ncols=1, figsize=(8,30))
fig.subplots_adjust(hspace=0.5)

for i, col in enumerate(num_cols):
    sns.boxplot(x=col, data=df_clean, ax=ax[i])
    ax[i].set_title(col)

In [None]:
#df_clean = df_clean[df_clean['SibSp']>3]

### **2.6.4 Corrección de errores tipográficos o equivalencias en Categóricas**

In [None]:
for col in cat_cols:
    print(df_clean[col].value_counts())
    print('-'*20)

### **2.6.5 Adiccion de columnas calculadas**

In [None]:
# Casting
df_clean["Sex"] = df_clean["Sex"].map({"male": 0, "female": 1})

# IsAlone
df_clean["IsAlone"] = ((df_clean["SibSp"] + df_clean["Parch"]) == 0).astype(int)

Para convertir el *DataFrame* de Titanic en el formato **`X, y`** podemos hacer lo siguiente:

In [None]:
X = df_clean.drop(['Survived'], axis=1) # El conjunto de datos sin la variable objetivo 'Survived'.
y = df_clean['Survived']  # La columna de la variable objetivo 'Survived'.

print(X.shape)
print(y.shape)

Podemos ver que el conjunto de datos resultante tiene $712$ ejemplos con $9$ características.  

No incluimos **`Survived`** en **`X`** porque es la etiqueta que buscamos predecir. Incluirla sería un error conocido como **filtración de etiquetas**, que ocurre cuando se incluyen características durante el entrenamiento que proporcionan información de la etiqueta (o la misma etiqueta), que podría no estar disponible durante el tiempo de predicción. Imagínese entrenar un modelo para predecir la etiqueta, pero necesitarla como dato de entrada.

Aunque *Scikit-learn* acepta objetos convertibles a arreglos de *NumPy* como *DataFrames* y listas. Nos adelantaremos y convertiremos **`X`** y **`y`** en arreglos de NumPy.

In [None]:
print(type(X))
print(type(y))

Primero veamos como convertir un objeto de *Pandas* a un arreglo de *NumPy*, esto se logra con el atributo **`values`** de un *DataFrame* o una *Serie*.

In [None]:
# .values retorna un arreglo de NumPy.
y = y.values

Separaremos **`X`** en dos arreglos de *NumPy*. Guardaremos las variables numéricas en **`X_numeric`** y las variables categóricas en **`X_categoric`**.

Las variables numéricas del conjunto de datos son: **`Age`**, **`SibSp`**, **`Parch`**, y **`Fare`**.

In [None]:
numeric = ['Age', 'SibSp', 'Parch', 'Fare']

# .values retorna un arreglo de NumPy.
X_numeric = X[numeric].values

print(X_numeric.shape)
print(type(X_numeric))

Veamos algunos ejemplos:

In [None]:
for i in range(5):
  print(f'Ejemplo {i}:')
  print('Variables:', X_numeric[i])
  print('Etiqueta:', y[i])
  print()

Cómo podemos ver, son todas variables numéricas.


Las variables categóricas del conjunto de datos son: **`Pclass`**, **`Name`**, **`Sex`**, **`Ticket`** y **`Embarked`**. 

> Si bien **`Pclass`** está almacenada como un tipo numérico, representa una variable categórica ordinal.

Primero veamos cuántos valores únicos tiene cada una:

In [None]:
categoric = ['Pclass', 'Sex', 'Embarked']

for var in categoric:
  print(f'Valores posibles de {var}: \t{X[var].nunique()}')

No tendremos en cuenta **`Name`** y **`Ticket`** para el siguiente ejemplo por su gran cantidad de valores posibles. En este caso usaremos solamente las variables **`Pclass`**, **`Sex`** y **`Embarked`**.

In [None]:
# .values retorna un arreglo de numpy
X_categoric = X[['Pclass', 'Sex', 'Embarked']].values                                                                                                                                

print(X_categoric.shape)
print(type(X_categoric))

Veamos algunos ejemplos:

In [None]:
ids = [0, 1, 15, 20]

for i in ids:
  print(f'Ejemplo {i}:')
  print('Variables:', X_categoric[i])
  print('Etiqueta:', y[i])
  print()

* Los valores $1$, $2$ y $3$ corresponden a la clase de viaje del pasajero de la variable **`Pclass`**.
* Los valores **`male`** y **`female`** corresponden a la variable **`Sex`** (género de la persona).
* Los valores **`S`**, **`C`** y **`Q`** corresponden a la variable **`Embarked`**. Estos indican el puerto de embarque que utilizó la persona, donde **`C = Cherbourg`**, **`Q = Queenstown`** y **`S = Southampton`**.

## **2.7. Visualizaciones Generales**

# **3. Preprocesamiento**
---

*Scikit-learn* expone el paquete **`preprocessing`** el cual contiene una serie de transformaciones para variables numéricas tanto como categóricas. 

La importancia del preprocesamiento radica en que puede potencialmente mejorar (o empeorar) el desempeño de los algoritmos de aprendizaje computacional. En el caso de variables categóricas para el caso de *Scikit-learn* no pueden ser usadas sin aplicar un preprocesamiento.

Las transformaciones de *Scikit-learn* son fáciles de usar. Estas implementan la interfaz **`Transformer`**, la cual expone los 3 siguientes métodos:

- **`fit(X)`**: *(del español ajustar)* permite aprender un conjunto de parámetros de **`X`** que son necesarios para aplicar la transformación (e.g la media, el mínimo o el máximo, el número de características, etc).

- **`transform(X)`**: *(del español transformar)* aplica el preprocesamiento a **`X`** y retorna **`X`** transformado.

- **`fit_transform(X)`**:*(del español ajustar y transformar)* aplica **`fit`** a **`X`** y retorna **`X`** transformado. Es utilizado como un atajo de una línea.

Algunas transformaciones no pueden usar **`transform`** sin haber usado **`fit`** previamente. De igual manera algunas transformaciones no necesitan parámetros y **`fit`** no tiene ningún efecto secundario.


En esta ocasión nosotros solo utilizaremos **`fit_transform`** para realizar el preprocesamiento.

## **3.1. Variables numéricas**
---

En esta ocasión introduciremos métodos de preprocesamiento numéricos bastante sencillos:

- **`StandardScaler`**
- **`MinMaxScaler`**

### **3.1.1. `StandardScaler`**
---

Veamos primero **`StandardScaler`**:

Este permite aplicar la transformación:

$$X^{\prime} = \frac{X - \mu}{\sigma}$$

Donde:
- $\mu\,$: Media aritmética de los datos.
- $\sigma\,$: Desviación estándar de los datos.

La transformación produce un nuevo conjunto de datos centrado en $0$ y con una desviación estándar de $1$.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()  # Declaramos el Transformer "StandardScaler"
X_numeric_standarized = scaler.fit_transform(X_numeric) # Transformamos la matriz "X_numeric"

Aunque **`X_numeric`** tiene varias características numéricas, la transformación se aplica a cada una de las columnas de manera independiente.

Veamos algunos ejemplos:

In [None]:
for i in range(3):
  print('Ejemplo:', i)
  print('Original: ', X_numeric[i])
  print('Estandarizado: ', X_numeric_standarized[i])
  print()

### **3.1.2. `MinMaxScaler`**
---

**`MinMaxScaler`** permite escalar los datos a un rango específico, es decir, si una característica se encuentra en el rango **`[min(X), max(X)]`** y el argumento **`feature_range = (0, 1)`**, entonces cada valor será escalado de tal manera que esté en el rango **`[0, 1]`**.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))  # Declaramos el Transformer "MinMaxScaler"
X_numeric_minmax = scaler.fit_transform(X_numeric) # Transformamos la matriz "X_numeric"

Al igual que **`StandardScaler`**, **`MinMaxScaler`** aplica su transformación a cada columna de manera independiente.

Veamos algunos ejemplos:

In [None]:
for i in range(3):
  print('Ejemplo:', i)
  print('Original: ', X_numeric[i])
  print('MinMax: ', X_numeric_minmax[i])
  print()

In [None]:
# Valores mínimo y máximo de todo el dataset.
X_numeric_minmax.min(), X_numeric_minmax.max()

Como vemos, todos los valores están entre $0$ y $1$.

**`StandardScaler`** y **`MinMaxScaler`** realizan transformaciones similares y el desempeño de cada una es dependediente del conjunto de datos.

En nuestro ejemplo usaremos **`X_numeric_minmax`** para entrenar nuestros modelos.

## **3.2. Variables categóricas**
---

Típicamente, los modelos de aprendizaje computacional no aceptan como entrada variables categóricas las cuales pueden estar representadas con cadenas de texto. Antes de ser empleadas necesitan ser preprocesadas en valores numéricos.

En esta ocasión veremos un método muy popular conocido como *One Hot Encoding*.

Emplearemos *One Hot Encoding* sobre la variable **`Embarked`**.

*One Hot Encoding* codifica una variable con $n$ valores posibles enumerados como $1, 2, ..., n$ en un vector de tamaño $n$; donde la $i$-ésima posición del vector está asociada con el $i$-ésimo valor posible.

Asumiendo que un ejemplo tiene el $j$-ésimo valor posible de la variable original, se procesa de la siguiente manera:

- Se asigna 1 en la posición $j$.
- Se asigna 0 al resto.

La variable **`Embarked`** tiene los siguientes valores únicos: **`S, C, Q`**.

Lo verificamos con el método **`unique`** de *NumPy*.

In [None]:
# Obtenemos los valores únicos de un arreglo de NumPy con el método "unique".
print(np.unique(X_categoric[:,2]))

Por lo tanto, al aplicar *One Hot Encoding* a los siguientes datos:

|Embarked|
|:--:|
|C|
|Q|
|S|

Se transformarían de la siguiente manera:

|C|Q|S|
|--|--|--|
|**1**|0|0|
|0|**1**|0|
|0|0|**1**|

In [None]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(sparse_output=False)     # Declaramos el Transformer "OneHotEncoder".
X_categoric_onehot = enc.fit_transform(X_categoric) # Usamos "fit_transform" para obtener la matriz transformada.
print(X_categoric_onehot.shape)
print(type(X_categoric_onehot))
print(X_categoric_onehot)

Cómo podemos ver, la variable **`Sex`** con $2$ valores únicos, la variable **`Pclass`** con $3$ valores únicos y la variable **`Embarked`** con $3$ valores únicos fueron transformadas en $8$ variables distintas en total.

Veamos algunos ejemplos:

In [None]:
ids = [0, 1, 15, 20]
for i in ids:
  print('Ejemplo:', i)
  print('Original: ', X_categoric[i])
  print('One Hot: ', X_categoric_onehot[i])
  print()

Antes de continuar al entrenamiento de modelos de aprendizaje computacional, usando *NumPy* juntaremos las variables numéricas preprocesadas y las variables categóricas preprocesadas en el arreglo **`X_full`**. Para esto usaremos la función **`np.concatenate`** para concatenar **`X_numeric_minmax`** y **`X_categoric_onehot`** a través del axis $1$ (columnas).

In [None]:
X_full = np.concatenate((X_numeric_minmax, X_categoric_onehot),
                        axis=1) # Concatenamos por el eje vertical (columnas)
print(X_full.shape)

# **4. Entrenamiento de modelos** 
---

En esta sección entrenaremos dos modelos de regresión logística. 
- Uno utilizando solo las variables numéricas preprocesadas. 
- Otro usando las variables numéricas y categóricas, ambas preprocesadas. 

Generalmente los algoritmos de aprendizaje computacional son entrenados en una partición de **entrenamiento** (***train***) y probados en una partición de datos de **prueba** (***test***). 

- Los datos de **entrenamiento** son aquellos datos de los cuales el algoritmo aprende.
- Los datos de **prueba** son aquellos que se usan para estimar el desempeño del algoritmo en datos desconocidos por el modelo. 

Las particiones **NO** deben compartir datos. Con ayuda de *scikit-learn* podemos crear particiones de entrenamiento y prueba para hacer esto fácilmente.

## **4.1. Partición de entrenamiento y prueba**
---

*Scikit-learn* permite realizar una partición de entrenamiento y prueba fácilmente con la función **`train_test_split`** del paquete **`model_selection`**.

**`train_test_split(X, y)`** retorna una tupla **`X_train, X_test, y_train, y_test`** donde **`X_train, X_test`** son la partición entrenamiento - prueba de **`X`** y **`y_train, y_test`** son la partición de entrenamiento y prueba de **`y`**.

Tenga en cuenta que usted le puede poner cualquier nombre a las variables que retorna train_test_split, lo anterior es solo una convención.

Usando el parámetro **`test_size`** podemos indicar, con un número entre 0 y 1, el porcentaje de datos que deseamos usar para la partición de prueba.

Un ejemplo básico de uso, con $30\%$ de los datos para pruebas y $70\%$ para entrenamiento sería el siguiente:

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
```

En nuestro caso le indicamos a **`train_test_split`** que utilice el $30\%$ de los datos como datos de prueba y la utilizamos con **`X_numeric_minmax`** y **`X_full`**.

A continuación importamos **`train_test_split`** del submódulo **`sklearn.model_selection`**.

In [None]:
# Submódulo de selección de modelos y partición de datos.
from sklearn.model_selection import train_test_split

# Lo usamos sobre **`X_numeric_minmax`**:
X_train_num, X_test_num, y_train_num, y_test_num = train_test_split(X_numeric_minmax, 
                                                                    y, 
                                                                    test_size=0.2, 
                                                                    random_state=42)

In [None]:
# Y lo usamos sobre **`X_full`**:
X_train_full, X_test_full, y_train_full, y_test_full = train_test_split(X_full, 
                                                                        y,
                                                                        test_size=0.2, 
                                                                        random_state=42)

**`train_test_split`** realiza la partición de manera aleatoria. Para especificar la semilla aleatoria se puede utilizar el parámetro **`random_state`**.

En este caso como tenemos dos versiones de **`X`** (**`X_numeric_minmax`** y **`X_full`**) y hemos utilizado la misma semilla aleatoria en ambos llamados de la función para asegurarnos que los ejemplos, aún con diferentes características, sean consistentes sobre cada partición.

Podemos verificar que efectivamente se respetó el ordenamiento:

In [None]:
print(all(y_train_num == y_train_full))
print(all(y_test_num == y_test_full))

Para simplificar las cosas asignamos las variables **`y_train`** y **`y_test`**:

In [None]:
y_train = y_train_num
y_test = y_test_num

## **4.2. Entrenamiento**
---

Debido a que el conjunto de datos *Titanic* plantea un problema de clasificación (supervivencia), usaremos un modelo de clasificación lineal llamado regresión logística. 

Los modelos de clasificación buscan discernir el grupo al que pertenece un ejemplo (i.e., predecir su etiqueta).

Un modelo de clasificación recibe un conjunto de variables **`x`** (características) y produce una salida **`y`** (etiqueta) la cual es la predicción del modelo. 

La salida de un modelo de clasificación suele estar codificada como un número. El numero está asociado a la clase (que el modelo predice) que pertenece el ejemplo.

Utilizaremos el modelo generado por la función **`LogisticRegression`** del paquete **`linear_model`** de *Scikit-learn*.

En *scikit-learn* los modelos suelen implementar la interfaz **`Estimator`** y **`Predictor`**. 

Por ahora nos interesa saber que:

- Los **`Estimator`** implementan **`fit(X, y)`**.
- Los **`Predictor`** implementan **`predict(X)`**.

Los modelos deben ser *ajustados* antes de ser utilizados para realizar cualquier predicción.

En *scikit-learn* entrenar un modelo de aprendizaje computacional es tan sencillo como importarlo, crear una instancia y utilizar **`fit`**.

> **Nota:** Para nuestro ejemplo, en el entrenamiento utilizaremos cada versión de **`X_train`** (**`X_train_num`** y **`X_train_full`**) con el objetivo de entrenar dos modelos distintos.

## **4.3. Clasificador de variables numéricas**
---

Primero entrenaremos una regresión logística utilizando únicamente las variables numéricas.

Importamos el paquete **`linear_model`** que incluye la clase **`LogisticRegression`**.

In [None]:
# Submódulo de modelos lineales.
from sklearn import linear_model

Creamos una instancia de **`LogisticRegression`** y la guardamos en la variable **`clf_numeric`**.

In [None]:
clf_numeric = linear_model.LogisticRegression()

**`clf_numeric`** no ha sido entrenado, para esto usamos el método **`fit`** con:
 - **`X_train_num`**: matriz con las características numéricas de la partición de entrenamiento. 
 - **`y_train`**: vector con las etiquetas de la partición de entrenamiento.

In [None]:
clf_numeric.fit(X_train_num, y_train)

## **4.4. Clasificador de variables numéricas y categóricas**
---

Para entrenar un segundo modelo con todas las variables numéricas y categóricas (preprocesadas) realizamos los siguientes pasos:

Creamos una instancia y la guardamos en **`clf_full`**:

In [None]:
# Variables numéricas y categóricas.
clf_full = linear_model.LogisticRegression()

Utilizamos **`fit`** pero esta vez con **`X_train_full`**, la matriz con las características tanto numéricas como categóricas de la partición de entrenamiento. 

In [None]:
clf_full.fit(X_train_full, y_train)

# **5. Evaluación** 
---

- Calcularemos la exactitud y el error de cada clasificador entrenado en la partición de entrenamiento y prueba.
  - La exactitud se define como:
  $$\text{exactitud} = \frac{\text{Número de ejemplos correctamente clasificados}}{\text{Número total de ejemplos}}$$
  - y el error se define como:
  $$\text{error} = 1.0\, - \text{exactitud}$$
En *scikit-learn* la **exactitud** se puede calcular mediante la función **`accuracy_score`** del paquete **`metrics`**.

> **Nota**: Se profundizará en distintas métricas de rendimiento en las unidades siguientes.

A continuación, importamos **`accuracy_score`**.

In [None]:
from sklearn.metrics import accuracy_score

## **5.1. Clasificador variables numéricas**
---

Primero veamos algunas predicciones del modelo sobre la partición de prueba, para esto debemos usar el método **`predict`**:

In [None]:
# El método predict se debería utilizar sobre un clasificador entrenado previamente.

y_pred = clf_numeric.predict(X_test_num) # Retorna un arreglo con la predicción de la variable objetivo por cada ejemplo.

for i in range(10):
  print(f'Predicho: {y_pred[i]}, Etiqueta: {y_test[i]}\n')  

Como podemos ver, el modelo solo se equivoca en $2$ de los primeros $5$ ejemplos. Note que **`predict`** acepta una matriz, un error común es tratar de usar **`predict`** con vectores.

Para calcular la exactitud sobre toda la partición de prueba utilizamos **`accuracy_score`**:

> **`accuracy_score`** recibe como primer parámetro las etiquetas reales y como segundo parámetro las etiquetas predichas.

In [None]:
# Obtenemos la predicción del clasificador usando variables numéricas.
y_pred = clf_numeric.predict(X_test_num)

# Calculamos la exactitud de la predicción.
acc = accuracy_score(y_test, y_pred)

print(f'Exactitud en prueba {acc}')
print(f'Error en prueba: {1.0 - acc}')

Veamos las métricas sobre la partición de entrenamiento:

In [None]:
# Obtenemos la predicción del clasificador usando tanto variables numéricas como categóricas.
y_pred = clf_numeric.predict(X_train_num)

# Calculamos la exactitud de la predicción.
acc = accuracy_score(y_train, y_pred)

print(f'Exactitud en entrenamiento {acc}')
print(f'Error en entrenamiento: {1.0 - acc}')

Como podemos ver, el error de entrenamiento es menor que el error de prueba.

## **5.2. Clasificador variables numéricas y categóricas**
---

Veamos las métricas sobre la partición de entrenamiento:

In [None]:
y_pred = clf_full.predict(X_train_full)
acc = accuracy_score(y_train, y_pred)

print(f'Exactitud en entrenamiento {acc}')
print(f'Error en entrenamiento: {1.0 - acc}')

Veamos las métricas sobre la partición de prueba:

In [None]:
y_pred = clf_full.predict(X_test_full)
acc = accuracy_score(y_test, y_pred)

print(f'Exactitud en prueba {acc}')
print(f'Error en prueba: {1.0 - acc}')

## **Probar el modelo**

In [None]:
mis_datos = pd.DataFrame({
    "Pclass": [2],
    "Sex": [0],
    "Age": [33],
    "SibSp": [1],
    "Parch": [1],
    "Fare": [30],
    "IsAlone": [0]
})

In [None]:
# Predecir si sobreviven o no
predicciones = clf_full.predict(mis_datos)

# Mostrar resultados
for i, pred in enumerate(predicciones):
    print(f"Pasajero {i+1}: {'Sobrevivirá' if pred==1 else 'No sobrevivirá'}")


Cómo podemos ver incluir las variables categóricas mejora el desempeño del mismo algoritmo substancialmente. 

En *Titanic* un indicador de supervivencia muy importante es el género, una proporción mucho más grande de mujeres que de hombres sobrevivieron a la tragedia. Esto puede ser utilizado para interpretar la mejora de desempeño del modelo.

## **Recursos adicionales**
---

Los siguientes enlaces corresponden a sitios en donde encontrará información muy útil para profundizar en el conocimiento de las funcionalidades de la librería *Scikit-learn*:

- [*Scikit-learn - Datasets*](https://scikit-learn.org/stable/datasets.html)
- [*Scikit-learn - Preprocessing*](https://scikit-learn.org/stable/modules/preprocessing.html)
- [*Scikit-learn - Linear models*](https://scikit-learn.org/stable/modules/linear_model.html)

# **Créditos**
---

* **Docente:** Xisca 
* **Equipo:**
  - [Alejandro Gerena](https://github.com/hagr27)

**IronHack. Madrid-España** - *Especialista Big Data*