# Unidad 6: Python para el análisis de datos (Continuación)


In [1]:
path = 'datos/cambio_genero_provincia_genero_edad_mayo_2024.csv'

In [2]:
import pandas as pd

df = pd.read_csv(path)
print(df.head())

   provincia_id provincia_nombre genero edad_actual_grandes_grupos  cantidad
0             6     Buenos Aires      F                     0 a 17        91
1             6     Buenos Aires      F                    18 a 29       928
2             6     Buenos Aires      F                    30 a 39       816
3             6     Buenos Aires      F                   40 y mas      1240
4             6     Buenos Aires      M                     0 a 17       380


In [3]:
# Nueva columna: si la cantidad es mayor a 500, marcar como "Alto"
df['nivel'] = df['cantidad'].apply(lambda x: 'Alto' if x > 500 else 'Bajo')

In [4]:
df.groupby(['genero', 'edad_actual_grandes_grupos'])['cantidad'].sum().reset_index()

Unnamed: 0,genero,edad_actual_grandes_grupos,cantidad
0,F,0 a 17,209
1,F,18 a 29,2706
2,F,30 a 39,2997
3,F,40 y mas,3818
4,M,0 a 17,818
5,M,18 a 29,4474
6,M,30 a 39,1526
7,M,40 y mas,563
8,X,0 a 17,120
9,X,18 a 29,900


In [6]:
pivot = df.pivot_table(
    values='cantidad',
    index='edad_actual_grandes_grupos',
    columns='genero',
    aggfunc='sum',
    fill_value=0
)

pivot

genero,F,M,X
edad_actual_grandes_grupos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0 a 17,209,818,120
18 a 29,2706,4474,900
30 a 39,2997,1526,446
40 y mas,3818,563,226


## Manejo de valores nulos y duplicados

In [7]:
df.loc[2, 'cantidad'] = None  # ahora hay un NaN

In [9]:
df.isna()


Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad,nivel
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
279,False,False,False,False,False,False
280,False,False,False,False,False,False
281,False,False,False,False,False,False
282,False,False,False,False,False,False


In [11]:
df['cantidad'].isna().sum()

1

In [12]:
df['cantidad'].fillna(0, inplace=True)

In [13]:
df.drop_duplicates(inplace=True)


In [14]:
import numpy as np

df['etiqueta'] = np.where(df['cantidad'] > 500, 'Grande', 'Pequeño')

In [15]:
df.to_csv("salida.csv", index=False)
df.to_excel("salida.xlsx", index=False)

In [16]:
import glob

# Busca todos los CSV que empiecen con "datos_"
archivos = glob.glob("datos/datos_*.csv")

# Leerlos y unirlos
df_todos = pd.concat([pd.read_csv(archivo) for archivo in archivos], ignore_index=True)

# Mostrar resultado
print(df_todos)


   provincia_id provincia_nombre genero edad_actual_grandes_grupos  cantidad
0             6     Buenos Aires      F                    18 a 29       200
1             6     Buenos Aires      M                    18 a 29       180
2             6     Buenos Aires      F                    30 a 39       250
3             6     Buenos Aires      M                    30 a 39       300
4             6     Buenos Aires      F                     0 a 17       100
5             6     Buenos Aires      M                     0 a 17       150
