In [1]:
# Librerías base

from pathlib import Path
import pandas as pd

In [2]:
url_datos = "https://www.openml.org/data/get_csv/16826755/phpMYEkMl"

datos_titanic = pd.read_csv(url_datos, low_memory=False)

datos_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pclass     1309 non-null   int64 
 1   survived   1309 non-null   int64 
 2   name       1309 non-null   object
 3   sex        1309 non-null   object
 4   age        1309 non-null   object
 5   sibsp      1309 non-null   int64 
 6   parch      1309 non-null   int64 
 7   ticket     1309 non-null   object
 8   fare       1309 non-null   object
 9   cabin      1309 non-null   object
 10  embarked   1309 non-null   object
 11  boat       1309 non-null   object
 12  body       1309 non-null   object
 13  home.dest  1309 non-null   object
dtypes: int64(4), object(10)
memory usage: 143.3+ KB


Las siguientes variables se relacionan con la variable "survived":

* `boat`: El número del bote salvavidas (si sobrevivieron)
* `body`: El número del cuerpo (si no sobrevivieron y el cuerpo fue recuperado)

**Tener presente** un concepto fundamental que se conoce como ***data leakage***, el cual significa que algunas columnas podrían traer consigo la variable que vamos a predecir. Por ejemplo: si conocemos el número del bote salvavidas, esto implica que el pasajero sobrevivió, por lo tanto, la variable "survived" ya se conocería de manera implícita.

In [3]:
columnas_a_usar = [
    "pclass",
    "survived",
    "name",
    "sex",
    "age",
    "sibsp",
    "parch",
    "ticket",
    "fare",
    "cabin",
    "embarked",
    "home.dest",
]

In [4]:
# Para tenerlos en formato csv
datos_titanic_final = pd.read_csv(url_datos, usecols=columnas_a_usar, low_memory=False)

# Verificamos que se hayan cargado las columnas que queríamos
datos_titanic_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pclass     1309 non-null   int64 
 1   survived   1309 non-null   int64 
 2   name       1309 non-null   object
 3   sex        1309 non-null   object
 4   age        1309 non-null   object
 5   sibsp      1309 non-null   int64 
 6   parch      1309 non-null   int64 
 7   ticket     1309 non-null   object
 8   fare       1309 non-null   object
 9   cabin      1309 non-null   object
 10  embarked   1309 non-null   object
 11  home.dest  1309 non-null   object
dtypes: int64(4), object(8)
memory usage: 122.8+ KB


In [5]:
# Obtener la ruta del notebook actual
ruta_datos_crudos = Path.cwd().resolve().parent / "datos"

ruta_archivo = ruta_datos_crudos / "01_datos_crudos_titanic.parquet"

# Crear directorio si no existe
ruta_datos_crudos.mkdir(parents=True, exist_ok=True)

# Guardar el DataFrame en el archivo parquet
datos_titanic_final.to_parquet(ruta_archivo, index=False)