# Exploración de archivos CSV

En esta actividad se busca aprender a importar datos desde archivos CSV, comprender su estructura y aplicar buenas prácticas para la carga de datos tabulares en Python con pandas.

# Desarrollo

Para empezar, se importa la librería pandas y el módulo os de Python.

In [1]:
import os
import pandas as pd

El archivo a cargar es el clásico conjunto de datos del titanic (disponible [aquí](https://www.kaggle.com/datasets/brendan45774/test-file?resource=download)), almacenado en la carpeta "Datos".

In [2]:
directorio_titanic = os.path.join(".", "Datos", "titanic.csv")
dtype = {
    "PassengerId": "UInt16",
    "Pclass": "UInt8",
    "Name": "string",
    "Sex": "category",
    "SibSp": "UInt8",
    "Parch": "UInt8",
    "Age": "Float32",
    "Ticket": "string",
    "Fare": "Float32",
    "Cabin": "category",
    "Embarked": "category"
}
titanic = pd.read_csv(directorio_titanic, dtype=dtype)

A continuación, se examinan las primeras 5 filas del Dataframe, así como su estructura general.

In [3]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [4]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  418 non-null    UInt16  
 1   Survived     418 non-null    int64   
 2   Pclass       418 non-null    UInt8   
 3   Name         418 non-null    string  
 4   Sex          418 non-null    category
 5   Age          332 non-null    Float32 
 6   SibSp        418 non-null    UInt8   
 7   Parch        418 non-null    UInt8   
 8   Ticket       418 non-null    string  
 9   Fare         417 non-null    Float32 
 10  Cabin        91 non-null     category
 11  Embarked     418 non-null    category
dtypes: Float32(2), UInt16(1), UInt8(3), category(3), int64(1), string(2)
memory usage: 21.8 KB


Cambiaremos el nombre de algunas columnas para hacer el Dataframe más legible.

In [5]:
titanic = titanic.rename(columns={"PassengerId": "Id", "Pclass": "Class"})

In [6]:
titanic.head()

Unnamed: 0,Id,Survived,Class,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


Veamos ahora cuantos valores faltantes hay en cada columna.

In [7]:
titanic.isnull().sum()

Id            0
Survived      0
Class         0
Name          0
Sex           0
Age          86
SibSp         0
Parch         0
Ticket        0
Fare          1
Cabin       327
Embarked      0
dtype: int64

Vemos que las columnas "Age", "Fare" y "Cabin" tienen datos faltantes. Se procede a imputar estas columnas, las columnas numéricas con la media y las categóricas con la moda.

In [8]:
titanic = titanic.fillna({
    "Age": titanic["Age"].mean(),
    "Fare": titanic["Fare"].mean(),
    "Cabin": titanic["Cabin"].mode()[0]
})

In [9]:
titanic.isnull().sum()

Id          0
Survived    0
Class       0
Name        0
Sex         0
Age         0
SibSp       0
Parch       0
Ticket      0
Fare        0
Cabin       0
Embarked    0
dtype: int64

Finalmente, se exporta el Dataframe a un nuevo archivo CSV.

In [10]:
directorio_nuevo = os.path.join(".", "Datos", "titanic_nuevo.csv")
titanic.to_csv(directorio_nuevo)