<h2>Análisis de caso Data Wrangling</h2>

In [3]:
import pandas as pd
#1. CARGA Y EXPLORACIÓN DE DATOS
#Importar datos desde un archivo CSV a dataframe
df_data = pd.read_csv("datos_caso_da_wrangling.csv")

df_data.head(17)        # Mostrar filas

Unnamed: 0,edad,ingreso,genero,sexo,region
0,25.0,500000.0,Femenino,F,Metropolitana
1,40.0,800000.0,Masculino,M,Valparaíso
2,60.0,,,F,Metropolitana
3,,450000.0,Femenino,F,Biobío
4,35.0,600000.0,Masculino,M,Coquimbo
5,50.0,900000.0,Femenino,F,Valparaíso
6,45.0,750000.0,Masculino,M,Metropolitana
7,29.0,480000.0,Femenino,F,Biobío
8,70.0,300000.0,Femenino,F,Coquimbo
9,55.0,,Masculino,M,Metropolitana


In [4]:
df_data.info()        # Tipos de datos y nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   edad     14 non-null     float64
 1   ingreso  14 non-null     float64
 2   genero   14 non-null     object 
 3   sexo     17 non-null     object 
 4   region   17 non-null     object 
dtypes: float64(2), object(3)
memory usage: 812.0+ bytes


In [5]:
df_data.describe()    # Estadísticas numéricas

Unnamed: 0,edad,ingreso
count,14.0,14.0
mean,43.428571,604285.714286
std,13.9544,177188.048117
min,25.0,300000.0
25%,33.5,485000.0
50%,40.5,560000.0
75%,53.75,787500.0
max,70.0,900000.0


In [6]:
#Identifica valores nulos por columna
df_data.isnull().sum() 

edad       3
ingreso    3
genero     3
sexo       0
region     0
dtype: int64

In [7]:
#Identifica duplicados
df_data.duplicated().sum() # cuenta los duplicados

np.int64(4)

In [8]:
#Identifica las filas donde se encuentran los duplicados
df_data[df_data.duplicated()]

Unnamed: 0,edad,ingreso,genero,sexo,region
13,25.0,500000.0,Femenino,F,Metropolitana
14,60.0,,,F,Metropolitana
15,40.0,800000.0,Masculino,M,Valparaíso
16,,450000.0,Femenino,F,Biobío


In [9]:
#2. Limpieza y transformación de datos
#Imputa valores nulos utilizando estrategias adecuadas (media,mediana o moda)
#Rellenar valores nulos en 'edad' con la mediana (hipotético) y en 'ingreso' con la media
df_data["edad"] = df_data["edad"].fillna(df_data["edad"].median())
df_data["ingreso"] = df_data["ingreso"].fillna(df_data["ingreso"].mean())
df_data["genero"] = df_data["genero"].fillna(df_data["genero"].mode()[0])
df_data.isnull().sum()  # Verificar que no haya nulos

edad       0
ingreso    0
genero     0
sexo       0
region     0
dtype: int64

In [10]:
df_data.head(17) #Imprimo nuevamente el dataframe para verificar los cambios


Unnamed: 0,edad,ingreso,genero,sexo,region
0,25.0,500000.0,Femenino,F,Metropolitana
1,40.0,800000.0,Masculino,M,Valparaíso
2,60.0,604285.714286,Femenino,F,Metropolitana
3,40.5,450000.0,Femenino,F,Biobío
4,35.0,600000.0,Masculino,M,Coquimbo
5,50.0,900000.0,Femenino,F,Valparaíso
6,45.0,750000.0,Masculino,M,Metropolitana
7,29.0,480000.0,Femenino,F,Biobío
8,70.0,300000.0,Femenino,F,Coquimbo
9,55.0,604285.714286,Masculino,M,Metropolitana


In [11]:
#Elimina registros duplicados
df_data = df_data.drop_duplicates()
df_data.duplicated().sum()  # Verificar que no haya duplicados

np.int64(0)

In [12]:
#Convierte columnas categóricas en variables numéricas si es necesario
#En este caso convertimos la columna 'genero' a valores numéricos (Masculino:0, Femenino:1)
df_data["genero"] = df_data["genero"].map({"Masculino": 0, "Femenino": 1})
df_data.head(17)  # Verificar la conversión

Unnamed: 0,edad,ingreso,genero,sexo,region
0,25.0,500000.0,1,F,Metropolitana
1,40.0,800000.0,0,M,Valparaíso
2,60.0,604285.714286,1,F,Metropolitana
3,40.5,450000.0,1,F,Biobío
4,35.0,600000.0,0,M,Coquimbo
5,50.0,900000.0,1,F,Valparaíso
6,45.0,750000.0,0,M,Metropolitana
7,29.0,480000.0,1,F,Biobío
8,70.0,300000.0,1,F,Coquimbo
9,55.0,604285.714286,0,M,Metropolitana


In [13]:
#3. Optimización y estructuración de datos
#Aplica funciones de groupby y agregación
#Agrupo por 'sexo' y calculo el ingreso promedio y la edad mediana
df_data_grouped = df_data.groupby("sexo").agg({"ingreso": "mean", "edad": "median"}).reset_index()
df_data_grouped  # Verificar resultados del groupby

Unnamed: 0,sexo,ingreso,edad
0,F,545535.714286,40.5
1,M,710857.142857,41.0


In [14]:
#Filtra los datos para obtener subconjuntos de interés
df_mayores = df_data[df_data["edad"] >= 60]
df_mayores

Unnamed: 0,edad,ingreso,genero,sexo,region
2,60.0,604285.714286,1,F,Metropolitana
8,70.0,300000.0,1,F,Coquimbo


In [15]:
#Filtro mayores a 30 años y con ingreso mayor a 500000
df_filtrado = df_data[(df_data["edad"] >= 30) & (df_data["ingreso"] > 500000)]

df_filtrado


Unnamed: 0,edad,ingreso,genero,sexo,region
1,40.0,800000.0,0,M,Valparaíso
2,60.0,604285.714286,1,F,Metropolitana
4,35.0,600000.0,0,M,Coquimbo
5,50.0,900000.0,1,F,Valparaíso
6,45.0,750000.0,0,M,Metropolitana
9,55.0,604285.714286,0,M,Metropolitana
10,40.5,520000.0,1,F,Valparaíso
11,33.0,610000.0,1,F,Biobío
12,41.0,800000.0,0,M,Metropolitana


In [16]:
#Renombra y reorganiza columnas para mejorar la interpretación
#Elimino columna de sexo por no ser de interes en este momento, luego renombro columnas
df_data = df_data.drop(columns=["sexo"])    
df_data = df_data.rename(columns={
    "edad": "Edad_persona",
    "ingreso": "Ingreso_mensual",
    "genero": "Genero_persona (Masculino:0, Femenino:1)",
    "region": "Region_residencia"

})
df_data

Unnamed: 0,Edad_persona,Ingreso_mensual,"Genero_persona (Masculino:0, Femenino:1)",Region_residencia
0,25.0,500000.0,1,Metropolitana
1,40.0,800000.0,0,Valparaíso
2,60.0,604285.714286,1,Metropolitana
3,40.5,450000.0,1,Biobío
4,35.0,600000.0,0,Coquimbo
5,50.0,900000.0,1,Valparaíso
6,45.0,750000.0,0,Metropolitana
7,29.0,480000.0,1,Biobío
8,70.0,300000.0,1,Coquimbo
9,55.0,604285.714286,0,Metropolitana


In [17]:
#Finalmente reorganizo para dejar primero género, luego edad, ingreso y región
df_data = df_data[[
    "Genero_persona (Masculino:0, Femenino:1)",
    "Edad_persona",
    "Ingreso_mensual",
    "Region_residencia"
]]  

df_data

Unnamed: 0,"Genero_persona (Masculino:0, Femenino:1)",Edad_persona,Ingreso_mensual,Region_residencia
0,1,25.0,500000.0,Metropolitana
1,0,40.0,800000.0,Valparaíso
2,1,60.0,604285.714286,Metropolitana
3,1,40.5,450000.0,Biobío
4,0,35.0,600000.0,Coquimbo
5,1,50.0,900000.0,Valparaíso
6,0,45.0,750000.0,Metropolitana
7,1,29.0,480000.0,Biobío
8,1,70.0,300000.0,Coquimbo
9,0,55.0,604285.714286,Metropolitana


In [18]:
#4. Exportación de datos
#Exporta el dataframe limpio a un nuevo archivo CSV
df_data.to_csv("datos_wrangling_limpios.csv", index=False, encoding="utf-8-sig")

#Exporta el dataframe limpio a un archivo Excel
df_data.to_excel("datos_wrangling_limpios.xlsx", index=False)