In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Cargamos el DataFrame
# Ingresos totales [100,10000] y edad [16,75]
df = pd.read_csv('../data/processed/df.csv')

# Datasets filtrado por sexo
df_m = df[df['sexo'] == 'varon']    #424
df_f = df[df['sexo'] == 'mujer']    #299

df_m.to_csv('../data/processed/df_m.csv', index=False)
df_f.to_csv('../data/processed/df_f.csv', index=False)

print(f'Mujeres: {df_f.shape[0]} \nVarones: {df_m.shape[0]}')


In [None]:
sns.set(style="whitegrid",
        color_codes=True,
        context="notebook",
        rc={"grid.linewidth":0.25,"grid.color":"grey","grid.linestyle":"-"},
        font_scale=1,
        palette="husl")

plt.style.use('dark_background')
plt.rcParams['figure.figsize'] = (12,10)

In [None]:
# Histplot: Distribución de edades por sexo
fig, ax = plt.subplots(2,figsize=(15,10))

sns.histplot(data=df,x="edad",hue="sexo",ax=ax[0],
             kde=True,bins=20,
             legend=True,multiple="stack",edgecolor='black',
             palette={'varon':'#196F3D','mujer':'#D4AC0D'})
ax[0].set_title('Distribución de edades por sexo')
ax[0].set_xlabel('Edad')
ax[0].set_ylabel('Frecuencia')

sns.histplot(data=df,x="ingreso_total",hue="sexo",ax=ax[1],
             kde=True,bins=20,
             legend=True,multiple="stack",edgecolor='black',
             palette={'varon':'#196F3D','mujer':'#D4AC0D'})
ax[1].set_title('Distribución de ingreso total por sexo')
ax[1].set_xlabel('Ingreso total')
ax[1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

In [None]:
# violinplot: Distribucion de ingreso total por mes y sexo
fig, ax = plt.subplots(figsize=(15,10))
sns.violinplot(data=df,x="mes",y="ingreso_total",hue="sexo",
               split=True,inner="quartile",ax=ax,
               palette={'varon':'#196F3D','mujer':'#D4AC0D'})
ax.set_title('Distribución de ingreso total por mes y sexo')
ax.set_xlabel('Mes')
y_ticks = np.arange(df['ingreso_total'].min(), df['ingreso_total'].max(), step=500)
plt.yticks(y_ticks)
ax.set_ylabel('Ingreso total')
plt.show()

