In [1]:
import os, time
import numpy as np
import pandas as pd
import matplotlib as mpl
import seaborn as sbn

censo17_first_row = pd.read_csv(os.path.join('..', 'Data', 'dirty data', 'censo', '2017', 'csv-personas-censo-2017',
                                             'Microdato_Censo2017-Personas.csv'),
                                encoding='utf-8', nrows=1, sep=';')

all_columns = ('REGION', 'PROVINCIA', 'COMUNA', 'DC', 'AREA', 'ZC_LOC', 'ID_ZONA_LOC', 'NVIV',
               'NHOGAR', 'PERSONAN', 'P07', 'P08', 'P09', 'P10', 'P10COMUNA', 'P10PAIS', 'P11',
               'P11COMUNA', 'P11PAIS', 'P12', 'P12COMUNA', 'P12PAIS', 'P12A_LLEGADA', 'P12A_TRAMO',
               'P13', 'P14', 'P15', 'P15A', 'P16', 'P16A', 'P16A_OTRO', 'P17', 'P18', 'P19', 'P20',
               'P21M', 'P21A', 'P10PAIS_GRUPO', 'P11PAIS_GRUPO', 'P12PAIS_GRUPO', 'ESCOLARIDAD',
               'P16A_GRUPO', 'REGION_15R', 'PROVINCIA_15R', 'COMUNA_15R', 'P10COMUNA_15R',
               'P11COMUNA_15R', 'P12COMUNA_15R')

usecols = ('REGION', 'PROVINCIA', 'COMUNA', 'AREA', 'ZC_LOC', 'ID_ZONA_LOC', 'PERSONAN', 'P08',
           'P09', 'P10COMUNA', 'P10PAIS', 'P11COMUNA', 'P11PAIS', 'P13', 'P14', 'P15', 'P15A', 'P19',
           'P20','ESCOLARIDAD')

# Limpiar por etiquetas

column_names = {
    'PERSONAN': 'número de persona', 'P08': 'sexo', 'P09': 'edad',
    'P10COMUNA': 'residencia habitual, comuna', 'P10PAIS': 'residencia habitual, pais',
    'P11COMUNA': 'residencia hace 5 años, comuna', 'P11PAIS': 'residencia hace 5 años, pais',
    'P13': 'asiste actualmente a educacion formal', 'P14': 'curso o año mas alto aprobado',
    'P15': 'nivel de curso mas alto aprobado', 'P15A': 'completo el curso',
    'P19': 'total hijos nacidos vivos', 'P20': 'total hijos actualmente vivos',
    'ESCOLARIDAD': 'anos en el curso'}

censo_raw = pd.read_csv(os.path.join('..', 'Data', 'dirty data', 'censo', '2017', 'csv-personas-censo-2017',
                                     'Microdato_Censo2017-Personas.csv'),
                                encoding='utf-8', sep=';', usecols=usecols)

censo_raw.rename(columns=column_names, inplace=True)

print(censo_raw.isna().any().sum())
print(censo_raw.isna().any(axis=1).sum())
# No hay NaN en todo el dataset

censo_raw.to_csv(os.path.join('..', 'Data', 'clean data', 'censo', '2017', 'microdato2017.csv'), index=False)

0
0


In [3]:
censo_2024_educacion = pd.read_excel(os.path.join('..', 'Data', 'dirty data', 'censo', '2024', 'P7_Educacion.xlsx'), sheet_name=6, skiprows=3,
                                    usecols=['Código región', 'Código provincia', 'Código comuna', 'Grupos de edad',
                                             'Años de escolaridad promedio']).iloc[:-2]

In [4]:
print(censo_2024_educacion.isna().any().sum())
print(censo_2024_educacion.isna().any(axis=1).sum())
# No hay NaN en todo el dataset

print(censo_2024_educacion['Grupos de edad'].unique())
censo_2024_educacion = censo_2024_educacion[censo_2024_educacion['Grupos de edad'] != 'Total Comuna'][1:]

censo_2024_educacion['edad_min'] = censo_2024_educacion['Grupos de edad'].str[:2].astype(int)
censo_2024_educacion['edad_max'] = np.where(
    censo_2024_educacion['Grupos de edad'].str.contains('más', case=False),
    np.nan,
    censo_2024_educacion['Grupos de edad'].str.extract(r'\d+\s*a\s*(\d+)')[0].astype(float)
)
censo_2024_educacion = censo_2024_educacion.drop('Grupos de edad', axis=1)

0
0
['Total País' '0 a 4' '5 a 9' '10 a 14' '15 a 19' '20 a 24' '25 a 29'
 '30 a 34' '35 a 39' '40 a 44' '45 a 49' '50 a 54' '55 a 59' '60 a 64'
 '65 a 69' '70 a 74' '75 a 79' '80 a 84' '85 o más' 'Total Comuna']


In [5]:
censo_2024_educacion.to_csv(os.path.join('..', 'Data', 'clean data', 'censo', '2024', 'censo_2024_educacion.csv'), index=False)

In [6]:
censo_2024_poblacion = pd.read_excel(os.path.join('..', 'Data', 'dirty data', 'censo', '2024',
                                                  'D1_Poblacion-censada-por-sexo-y-edad-en-grupos-quinquenales.xlsx'),
                                     sheet_name=4, skiprows=3,
                                     usecols=['Código región', 'Código provincia', 'Código comuna', 'Grupos de edad',
                                             'Población censada', 'Hombres', 'Mujeres']).iloc[:-3]

In [7]:
print(censo_2024_educacion.isna().any().sum())
print(censo_2024_educacion.isna().any(axis=1).sum())
# No hay NaN en todo el dataset

print(censo_2024_poblacion['Grupos de edad'].unique())
censo_2024_poblacion = censo_2024_poblacion[censo_2024_poblacion['Grupos de edad'] != 'Total Comuna'][1:]

censo_2024_poblacion['edad_min'] = censo_2024_poblacion['Grupos de edad'].str[:2].astype(int)
censo_2024_poblacion['edad_max'] = np.where(
    censo_2024_poblacion['Grupos de edad'].str.contains('más', case=False),
    np.nan,
    censo_2024_poblacion['Grupos de edad'].str.extract(r'\d+\s*a\s*(\d+)')[0].astype(float)
)
censo_2024_poblacion = censo_2024_poblacion.drop('Grupos de edad', axis=1)

1
347
['Total País' '0 a 4' '5 a 9' '10 a 14' '15 a 19' '20 a 24' '25 a 29'
 '30 a 34' '35 a 39' '40 a 44' '45 a 49' '50 a 54' '55 a 59' '60 a 64'
 '65 a 69' '70 a 74' '75 a 79' '80 a 84' '85 o más' 'Total Comuna']


In [8]:
censo_2024_poblacion.to_csv(os.path.join('..', 'Data', 'clean data', 'censo', '2024', 'censo_2024_poblacion.csv'), index=False)

In [9]:
censo_2024_fecundidad = pd.read_excel(os.path.join('..', 'Data', 'dirty data', 'censo', '2024',
                                                  'D6_Fecundidad.xlsx'),
                                     sheet_name=4, skiprows=3,
                                     usecols=['Código región', 'Código provincia', 'Código comuna',
                                              'Total de mujeres de 15 años o más', 'Mujeres con hijos o hijas',
                                              'Mujeres sin hijos o hijas', 'Mujeres con fecundidad ignorada']).iloc[:-2]

In [10]:
censo_2024_fecundidad.to_csv(os.path.join('..', 'Data', 'clean data', 'censo', '2024', 'censo_2024_fecundidad.csv'), index=False)