# Análisis de caso | Data Wrangling con Pandas

Para esta actividad asumiremos el rol de analista de datos de una empresa de tecnología financiera, la cual trabaja con datos de múltiples fuentes que suelen estar desorganizados, tener valores nulos y registros duplicados, lo que afecta la precisión de los informes financieros. Por lo tanto, el equipo ha decidido implementar Data Wrangling con Pandas para limpiar, transformar y optimizar los datos antes de analizarlos. Nuestro trabajo será diseñar una solución utilizando Pandas para asegurar la calidad y estructura de los datos.

Las tareas a ejecutar incluyen:
- Detercción y eliminación de valores nulos y duplicados.
- Transformación de datos categóricos y numéricos para su correcta interpretación.
- Uso de funciones de agregación y mapeo para estructurar los datos.
- Reorganizar y optimizar los DataFrames mediante ordenamiento y filtrado.

En particular, se deben realizar las siguientes tareas:
1. Carga y exploración de datos:
    - Importar un dataset en formato CSV en un DataFrame.
    - Inspeccionar los datos con .head(), .info() y .describe().
    - Identificar valores nulos y duplicados.
2. Limpieza y transformación de datos:
    - Imputar valores nulos utilizando estrategias adecuadas.
    - Eliminar registros duplicados.
    - convertir columnas categóricas en variables numéricas si es necesario.
3. Optimización y estructuración de datos:
    - Aplicar funciones de groupby y agregación.
    - Filtrar los datos para obtener un subconjunto de interés.
    - Renombrar y reorganizar columnas para mejorar la interpretación.
4. Exportación de datos:
    - Guardar el DataFrame procesado en un archivo CSV sin incluir el índice.
    - Exportar los datos limpios a Excel para su visualización y reporte.

# Desarrollo

En primer lugar, importamos las librerías necesarias.

In [1]:
import os
import pandas as pd

A continuación, importaremos los datos que usaremos para esta sesión. Para ello, disponemos de una carpeta llamada "Datos" en la cual se ha almacenado el archivo "titanic.csv", un conjunto de datos de práctica con datos sobre pasajeros del famoso titanic (puede encontrar el archivo original [aquí](https://www.kaggle.com/datasets/brendan45774/test-file?resource=download)).

In [2]:
directorio_datos = os.path.join(".", "Datos")

titanic = titanic = pd.read_csv(
    os.path.join(directorio_datos, "titanic.csv"),
    dtype={
        "PassengerId": "UInt16",
        "Pclass": "UInt8",
        "Name": "string",
        "Sex": "category",
        "SibSp": "UInt8",
        "Parch": "UInt8",
        "Age": "Float32",
        "Ticket": "string",
        "Fare": "Float32",
        "Cabin": "category",
        "Embarked": "category"
    }
)

A continuación, inspeccionaremos los datos.

In [3]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [4]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  418 non-null    UInt16  
 1   Survived     418 non-null    int64   
 2   Pclass       418 non-null    UInt8   
 3   Name         418 non-null    string  
 4   Sex          418 non-null    category
 5   Age          332 non-null    Float32 
 6   SibSp        418 non-null    UInt8   
 7   Parch        418 non-null    UInt8   
 8   Ticket       418 non-null    string  
 9   Fare         417 non-null    Float32 
 10  Cabin        91 non-null     category
 11  Embarked     418 non-null    category
dtypes: Float32(2), UInt16(1), UInt8(3), category(3), int64(1), string(2)
memory usage: 21.8 KB


In [5]:
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,0.363636,2.26555,30.272591,0.447368,0.392344,35.627186
std,120.810458,0.481622,0.841838,14.18121,0.89676,0.981429,55.907581
min,892.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,0.0,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,0.0,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,1.0,3.0,39.0,1.0,0.0,31.5
max,1309.0,1.0,3.0,76.0,8.0,9.0,512.329224


Finalmente, veremos si este dataset presenta valores nulos o duplicados. Estos últimos podemos identificarlos a través de la columna "PassengerId", la cual guarda el ID de cada pasajero del titanic.

In [6]:
titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [7]:
titanic.groupby("PassengerId").agg({"PassengerId": "count"}).max()

PassengerId    1
dtype: Int64

Por lo visto anteriormente, el DataFrame no posee valores duplicados, pero si posee varios valores nulos. En particular, la columna "Cabin" contiene una gran cantidad de ellos.

In [8]:
titanic.isnull().mean()

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.205742
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.002392
Cabin          0.782297
Embarked       0.000000
dtype: float64

Casi un 80% de los datos de la columna "Cabin" tiene datos perdidos. Dado que esta no es una columna relevante, podemos eliminarla sin problemas.

In [9]:
titanic = titanic.drop(columns="Cabin")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,S


Para el caso de las columnas "Age" y "Fare", imputaremos sus valores perdidos. Dado que estas son columnas numéricas, las imputaremos por su promedio.

In [10]:
titanic = titanic.fillna({"Age": titanic["Age"].mean(), "Fare": titanic["Fare"].mean()})
titanic.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Dado que el DataFrame no tiene valores duplicados, no es necesario realizar el paso de eliminarlos. Sin embargo, si los hubiera habido, hubiera sido necesario usar el método drop_duplicates() de la siguiente forma.

In [11]:
titanic.drop_duplicates("PassengerId");

Por último, notar que tampoco es necesaria la conversión de tipos de datos, pues estos se definieron al momento de importar los datos, en la función read_csv (se inspeccionó el dataset de antemano para conocer los tipos de datos).

Para continuar, notar que algunas columnas no son necesarias para realizar análisis, o aportan información no relacionada con el objetivo de análisis. Este es el caso de las columnas "PassengerId", "Name" y "Ticket", así que las eliminaremos del dataset.

In [12]:
titanic = titanic.drop(columns=["PassengerId", "Name", "Ticket"])
titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,34.5,0,0,7.8292,Q
1,1,3,female,47.0,1,0,7.0,S
2,0,2,male,62.0,0,0,9.6875,Q
3,0,3,male,27.0,0,0,8.6625,S
4,1,3,female,22.0,1,1,12.2875,S


A continuación, renombraremos algunas columnas para mejorar la legibilidad de los datos.

In [13]:
titanic = titanic.rename(columns={"SibSp": "NSiblings"})
titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,NSiblings,Parch,Fare,Embarked
0,0,3,male,34.5,0,0,7.8292,Q
1,1,3,female,47.0,1,0,7.0,S
2,0,2,male,62.0,0,0,9.6875,Q
3,0,3,male,27.0,0,0,8.6625,S
4,1,3,female,22.0,1,1,12.2875,S


Finalmente, realizaremos una operación groupby para resumir los datos y obtener información relevante de estos.

In [14]:
titanic_agrupado = titanic.groupby("Survived").agg({
    "Pclass": ["min", "mean", "max"],
    "Age": "mean",
    "NSiblings": ["min", "mean", "max"],
    "Parch": "mean",
    "Fare": "mean",
})
titanic_agrupado.head()

Unnamed: 0_level_0,Pclass,Pclass,Pclass,Age,NSiblings,NSiblings,NSiblings,Parch,Fare
Unnamed: 0_level_1,min,mean,max,mean,min,mean,max,mean,mean
Survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
0,1,2.334586,3,30.272699,0,0.379699,8,0.274436,27.558325
1,1,2.144737,3,30.2724,0,0.565789,8,0.598684,49.7477


Finalizamos la actividad exportando los datos limpios al formato solicitado.

In [15]:
titanic.to_csv(os.path.join(directorio_datos, "titanic_limpio.csv"), index=False)
titanic.to_excel(os.path.join(directorio_datos, "titanic_limpio.xlsx"), index=False)