In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
sns.set_theme(style="whitegrid",
        color_codes=True,
        context="notebook",
        rc={"grid.linewidth":0.25,"grid.color":"grey","grid.linestyle":"-"},
        font_scale=1,
        palette="husl")

plt.style.use('dark_background')
plt.rcParams['figure.figsize'] = (12,6)


In [None]:
df_pob = pd.read_csv('../data/processed/dataset.csv') # "Poblacion"
df_sam = pd.read_csv('../data/processed/subdataset.csv') # "Muestra"

In [None]:
# Histplot: Distribución de edades por gender
fig, ax = plt.subplots(2,figsize=(15,10))

sns.histplot(data=df_pob,x="years",hue="gender",ax=ax[0],
             kde=True,bins=64,
             legend=True,multiple="layer",edgecolor='black',
             palette={'m':'#2ECC71','f':'#7D3C98'})
ax[0].set_title('Distribución de edades por genero')
ax[0].set_xlabel('Edad')
ax[0].set_ylabel('Frecuencia')

sns.histplot(data=df_pob,x="total",hue="gender",ax=ax[1],
             kde=True,bins=64,
             legend=True,multiple="layer",edgecolor='black',
             palette={'m':'#2ECC71','f':'#7D3C98'})
ax[1].set_title('Distribución de ingreso total por genero')
ax[1].set_xlabel('Ingreso total')
ax[1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(12,6))
sns.violinplot(data=df_pob, x="month", y="total", hue="gender",
               order=['JAN','FEB','MAR','APR','MAY','JUN','JUL','OCT','NOV'],
               split=True, inner="quart", ax=ax,
               palette={'m':'#2ECC71','f':'#7D3C98'})
ax.set_title('Distribución de ingreso total por mes y genero')
ax.set_xlabel('Mes')
ax.set_ylim([100, 5000])  # Estableciendo los límites del eje y
ax.set_ylabel('total')
y_ticks = np.arange(100, 5000, step=500)
plt.yticks(y_ticks)
plt.show()

In [None]:

### MUESTRA REPRESENTATIVA ### 

fig, ax = plt.subplots(2,figsize=(15,10))

sns.histplot(data=df_sam,x="years",hue="gender",ax=ax[0],
             kde=True,bins=64,
             legend=True,multiple="layer",edgecolor='black',
             palette={'m':'#2ECC71','f':'#7D3C98'})
ax[0].set_title('Distribución de edades por genero')
ax[0].set_xlabel('Edad')
ax[0].set_ylabel('Frecuencia')

sns.histplot(data=df_sam,x="total",hue="gender",ax=ax[1],
             kde=True,bins=64,
             legend=True,multiple="layer",edgecolor='black',
             palette={'m':'#2ECC71','f':'#7D3C98'})
ax[1].set_title('Distribución de ingreso total por genero')
ax[1].set_xlabel('Ingreso total')
ax[1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

In [None]:
### MAS GRAFICOS ### GENERO Y EDAD EN MAIN_SOURCE