In [None]:
### ANALISIS DE DATOS ###
import pandas as pd 
import requests

# Fuente: INEI - EPEN 2023 - LIMA METROPOLITANA

# urls de los datasets
urls = [
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Ene-Feb-Mar23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Feb-Mar-Abr23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Mar-Abr-May23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Abr-May-Jun23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20May-Jun-Jul23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Jun-Jul-Ago23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Jul-Ago-Set23_Muestra.csv',
    'https://www.datosabiertos.gob.pe/sites/default/files/Trim%20Ago-Set-Oct23_Muestra.csv'
]

# rutas para las descargas
filepaths = [
    '../data/raw/sub-dataset_1.csv',
    '../data/raw/sub-dataset_2.csv',
    '../data/raw/sub-dataset_3.csv',
    '../data/raw/sub-dataset_4.csv',
    '../data/raw/sub-dataset_5.csv',
    '../data/raw/sub-dataset_6.csv',
    '../data/raw/sub-dataset_7.csv',
    '../data/raw/sub-dataset_8.csv'
]

# Descargar los archivos
for url, filepath in zip(urls, filepaths): 

    # Descargar el archivo
    response = requests.get(url)

    # Guardar el archivo
    with open(filepath, 'wb') as file:
            
        # Escribir el archivo               
        file.write(response.content)


In [None]:
# nombres de los datasets
dataset_names = ['sub-dataset_1', 'sub-dataset_2', 'sub-dataset_3', 'sub-dataset_4', 'sub-dataset_5', 'sub-dataset_6', 'sub-dataset_7', 'sub-dataset_8']

# Interpretacion de valores
var_values = {
    'MES': {1:'enero',2:'febrero',3:'marzo',4:'abril',5:'mayo',6:'junio',7:'julio',8:'agosto',9:'septiembre',10:'octubre',11:'noviembre'},
    'C207': {1:'varon',2:'mujer'},
    'C208': [], # Edad, Variable numerica (debe guardarse el valor)
    'C310': {1:'empleador',2:'independiente',3:'empleado',4:'ayudante_familia',5:'ayudante_familia',6:'hogar',7:'practicante',8:'otro'}, # Rol
    'C311': {1:'militar',2:'admin_pub',3:'emp_pub',4:'service',5:'emp_priv',6:'otro'}, # Sector
    'C317': {1:'<=20',2:'21-50',3:'51-100',4:'101-500',5:'>=501'}, # Tamaño de empresa
    'C335': {1:'True',2:'False'}, # Buscando trabajo
    'C357_I': {1:'empleador',2:'agencia',3:'bolsa_pub',4:'bolsa_priv',5:'parientes',6:'anuncios',7:'cv_enviado',8:'publicar',9:'clientes',10:'otros'}, # Detalle de busqueda de trabajo
    'C358': [], # Semanas buscando trabajo, Variable numerica (debe guardarse el valor)
    'C366': {1:'otro',2:'otro',3:'otro',4:'otro',5:'otro',6:'secundaria',7:'basica_especial',8:'tecnica_trunca',9:'tecnica',10:'uni_trunca',11:'uni_completa',12:'maestria',13:'otro'}, # Nivel educativo
    'C377': {1:'quechua',2:'aymara',3:'amazonico',4:'otro',5:'afroperuano',6:'blanco',7:'mestizo',8:'otro',9:'otro'}, # Etnicidad
    'INGTOTP': [], # Ingreso principal, Variable numerica (debe guardarse el valor)
    'INGTOT': [], # Ingreso total, Variable numerica (debe guardarse el valor)
}

# Renombrado de variables
var_labels = {
    'MES': 'mes',                   
    'C207': 'sexo',                 
    'C208': 'edad',                 
    'C310': 'rol',                  
    'C311': 'sector',               
    'C317': 'tamano_empresa',       
    'C335': 'buscando_trabajo',     
    'C357_I': 'detalle_busqueda',   
    'C358': 'semanas_busqueda',     
    'C366': 'nivel_educativo',      
    'C377': 'etnicidad',            
    'INGTOTP': 'ingreso_principal', 
    'INGTOT': 'ingreso_total',      
}

In [None]:
# Concatenando datasets
df = pd.DataFrame()

for dataset_name in dataset_names:
    temp_df = pd.read_csv(f'../data/raw/{dataset_name}.csv')
    df = pd.concat([df, temp_df])

# Contando filas duplicadas del dataframe concatenado
duplicated = df.duplicated().sum()

# Eliminando filas duplicadas
df = df.drop_duplicates()

# Filtrando variables de interes
df = df[list(var_labels.keys())]

# Guardando el dataset antes de reemplazar variables y valores
df.to_csv('../data/pre-processed/pre_dataframe.csv', index=False)

# Reemplazando valores de variables
for var, values in var_values.items():
    if values:
        df[var] = df[var].map(values)

# Renombrando las columnas
df.rename(columns=var_labels, inplace=True)

# Guardando el dataset
df.to_csv('../data/pre-processed/dataframe.csv', index=False)