In [1]:
import pandas as pd
import zipfile
import os
import re
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sqlalchemy import create_engine
from sqlalchemy import inspect

## 1. Lectura de archivos Emicron 2021

In [2]:
data_path = r"D:\Datos\dane\emicron2021"
# Unzip the files
#for x in os.listdir(data_path):
#    with zipfile.ZipFile(os.path.join(data_path,x),'r') as zip_ref:
#        zip_ref.extractall(os.path.join(data_path,re.sub('.zip',"",x)))

In [3]:
df_id = pd.read_csv(os.path.join(data_path,"Modulo de identificacion.csv"),header = 0, sep = ";")
df_ub = pd.read_csv(os.path.join(data_path,"Modulo de sitio o ubicacion.csv"),header = 0, sep = ";")
df_carac = pd.read_csv(os.path.join(data_path,"Modulo de caracteristicas del micronegocio.csv"),header = 0, sep = ";")
df_emp = pd.read_csv(os.path.join(data_path,"Modulo de emprendimiento.csv"),header = 0, sep = ";")
df_po_pro = pd.read_csv(os.path.join(data_path,"Modulo de personal ocupado (propietario).csv"),header = 0, sep = ";")
df_po = pd.read_csv(os.path.join(data_path,"Modulo de personal ocupado.csv"),header = 0, sep = ";")
df_cga = pd.read_csv(os.path.join(data_path,"Modulo de costos, gastos y activos.csv"),header = 0, sep = ";")
df_ventas = pd.read_csv(os.path.join(data_path,"Modulo de ventas o ingresos.csv"),header = 0, sep = ";")

In [4]:
print(df_id.shape)
print(len(df_id['DIRECTORIO'].unique()))
print(len(df_id['SECUENCIA_P'].unique()))
print(len(df_id['SECUENCIA_ENCUESTA'].unique()))

(77156, 20)
66085
5
20


In [5]:
df_id['id'] = df_id['DIRECTORIO'].astype(str) + df_id['SECUENCIA_P'].astype(str) + df_id['SECUENCIA_ENCUESTA'].astype(str)

In [6]:
df_id.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,SECUENCIA_ENCUESTA,COD_DEPTO,AREA,CLASE_TE,P35,P241,MES_REF,P3031,...,P3032_2,P3032_3,P3033,P3034,P3035,P3000,GRUPOS4,GRUPOS12,F_EXP,id
0,5299787,1,1,68,68.0,1,1,27,ENERO,2,...,,,2,11,2,2,4,8,65.643425,529978711
1,5299791,1,1,68,68.0,1,2,54,ENERO,2,...,,,2,60,2,2,3,5,65.643425,529979111
2,5299798,1,1,54,54.0,1,2,49,ENERO,2,...,,,2,96,2,2,3,5,36.606637,529979811
3,5299801,1,1,68,68.0,1,1,35,ENERO,2,...,,,2,180,2,2,4,10,55.687148,529980111
4,5299801,1,2,68,68.0,1,2,34,ENERO,2,...,,,2,24,2,2,2,3,55.687148,529980112


### 1.1 Unificación módulos
La encuesta de micronegocios del ANDA, se integra de diferentes archivos que contienen información relacionada con cada uno de los módulos de los que se compone la operación. Los módulos que contienen información similar a la del instrumento que se aplicará al operativo de barrido del CENU (a establecimientos) y que serán útiles para la construcción de variables semejantes son:  
1. Identificación.  
2. Ubicación.  
3. Características del micronegocio.  
4. Emprendimiento.  
5. Personal ocupado (propietario y empleados).  
6. Costos, gastos y activos.
7. Ventas o ingresos.

In [7]:
df_id['id'] = df_id['DIRECTORIO'].astype(str) + df_id['SECUENCIA_P'].astype(str) + df_id['SECUENCIA_ENCUESTA'].astype(str)

df_ub['id'] = df_ub['DIRECTORIO'].astype(str) + df_ub['SECUENCIA_P'].astype(str) + df_ub['SECUENCIA_ENCUESTA'].astype(str)
df_ub.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

df_carac['id'] = df_carac['DIRECTORIO'].astype(str) + df_carac['SECUENCIA_P'].astype(str) + df_carac['SECUENCIA_ENCUESTA'].astype(str)
df_carac.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

df_emp['id'] = df_emp['DIRECTORIO'].astype(str) + df_emp['SECUENCIA_P'].astype(str) + df_emp['SECUENCIA_ENCUESTA'].astype(str)
df_emp.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

df_po_pro['id'] = df_po_pro['DIRECTORIO'].astype(str) + df_po_pro['SECUENCIA_P'].astype(str) + df_po_pro['SECUENCIA_ENCUESTA'].astype(str)
df_po_pro.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

df_cga['id'] = df_cga['DIRECTORIO'].astype(str) + df_cga['SECUENCIA_P'].astype(str) + df_cga['SECUENCIA_ENCUESTA'].astype(str)
df_cga.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

df_ventas['id'] = df_ventas['DIRECTORIO'].astype(str) + df_ventas['SECUENCIA_P'].astype(str) + df_ventas['SECUENCIA_ENCUESTA'].astype(str)
df_ventas.drop(['DIRECTORIO','SECUENCIA_P','SECUENCIA_ENCUESTA'], axis = 1, inplace = True)

In [8]:
emicron_21 = pd.merge(df_id, df_ub, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE_y"]).value_counts(), "\n") # Son exactamente iguales
print("Valores idénticos de la var COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO_y"]).value_counts(), "\n") 
print("Valores idénticos de la var AREA",(emicron_21["AREA_x"] == emicron_21["AREA_y"]).value_counts(), "\n") 
print("Valores idénticos de la var F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP_y"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE_y', 'COD_DEPTO_y','AREA_y', 'F_EXP_y'], axis = 1, inplace = True)

(77156, 33)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031', 'P3032_1',
       'P3032_2', 'P3032_3', 'P3033', 'P3034', 'P3035', 'P3000', 'GRUPOS4',
       'GRUPOS12', 'F_EXP_x', 'id', 'P3053', 'P3095', 'P3096', 'P3097',
       'P3098', 'P3054', 'P3055', 'P469', 'CLASE_TE_y', 'COD_DEPTO_y',
       'AREA_y', 'F_EXP_y'],
      dtype='object')
Valores idénticos de la var CLASE__TE True    77156
Name: count, dtype: int64 

Valores idénticos de la var COD_DEPTO True    77156
Name: count, dtype: int64 

Valores idénticos de la var AREA True     57798
False    19358
Name: count, dtype: int64 

Valores idénticos de la var F_EXP_x True    77156
Name: count, dtype: int64


In [9]:
emicron_21 = pd.merge(emicron_21, df_carac, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var. CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE"]).value_counts(), "\n") 
print("Valores idénticos de la var. COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO"]).value_counts(), "\n") 
print("Valores idénticos de la var. AREA",(emicron_21["AREA_x"] == emicron_21["AREA"]).value_counts(), "\n") 
print("Valores idénticos de la var. F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE', 'COD_DEPTO','AREA', 'F_EXP'], axis = 1, inplace = True)

(77156, 45)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031', 'P3032_1',
       'P3032_2', 'P3032_3', 'P3033', 'P3034', 'P3035', 'P3000', 'GRUPOS4',
       'GRUPOS12', 'F_EXP_x', 'id', 'P3053', 'P3095', 'P3096', 'P3097',
       'P3098', 'P3054', 'P3055', 'P469', 'P1633', 'P986', 'P640', 'P4000',
       'P1055', 'P1056', 'P661', 'P1057', 'P4004', 'P2991', 'P2992', 'P2993',
       'CLASE_TE', 'COD_DEPTO', 'AREA', 'F_EXP'],
      dtype='object')
Valores idénticos de la var. CLASE__TE True    77156
Name: count, dtype: int64 

Valores idénticos de la var. COD_DEPTO True    77156
Name: count, dtype: int64 

Valores idénticos de la var. AREA True     57798
False    19358
Name: count, dtype: int64 

Valores idénticos de la var. F_EXP_x True    77156
Name: count, dtype: int64


In [10]:
emicron_21 = pd.merge(emicron_21, df_emp, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var. CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE"]).value_counts(), "\n") 
print("Valores idénticos de la var. COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO"]).value_counts(), "\n") 
print("Valores idénticos de la var. AREA",(emicron_21["AREA_x"] == emicron_21["AREA"]).value_counts(), "\n") 
print("Valores idénticos de la var. F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE', 'COD_DEPTO','AREA', 'F_EXP'], axis = 1, inplace = True)

(77156, 49)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031', 'P3032_1',
       'P3032_2', 'P3032_3', 'P3033', 'P3034', 'P3035', 'P3000', 'GRUPOS4',
       'GRUPOS12', 'F_EXP_x', 'id', 'P3053', 'P3095', 'P3096', 'P3097',
       'P3098', 'P3054', 'P3055', 'P469', 'P1633', 'P986', 'P640', 'P4000',
       'P1055', 'P1056', 'P661', 'P1057', 'P4004', 'P2991', 'P2992', 'P2993',
       'P3050', 'P3051', 'P639', 'P3052', 'CLASE_TE', 'COD_DEPTO', 'AREA',
       'F_EXP'],
      dtype='object')
Valores idénticos de la var. CLASE__TE True    77156
Name: count, dtype: int64 

Valores idénticos de la var. COD_DEPTO True    77156
Name: count, dtype: int64 

Valores idénticos de la var. AREA True     57798
False    19358
Name: count, dtype: int64 

Valores idénticos de la var. F_EXP_x True    77156
Name: count, dtype: int64


In [11]:
emicron_21 = pd.merge(emicron_21, df_po_pro, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var. CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE"]).value_counts(), "\n") 
print("Valores idénticos de la var. COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO"]).value_counts(), "\n") 
print("Valores idénticos de la var. AREA",(emicron_21["AREA_x"] == emicron_21["AREA"]).value_counts(), "\n") 
print("Valores idénticos de la var. F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE', 'COD_DEPTO','AREA', 'F_EXP'], axis = 1, inplace = True)

(77156, 57)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031', 'P3032_1',
       'P3032_2', 'P3032_3', 'P3033', 'P3034', 'P3035', 'P3000', 'GRUPOS4',
       'GRUPOS12', 'F_EXP_x', 'id', 'P3053', 'P3095', 'P3096', 'P3097',
       'P3098', 'P3054', 'P3055', 'P469', 'P1633', 'P986', 'P640', 'P4000',
       'P1055', 'P1056', 'P661', 'P1057', 'P4004', 'P2991', 'P2992', 'P2993',
       'P3050', 'P3051', 'P639', 'P3052', 'P3088', 'P3089', 'P3090', 'P2989',
       'P3091', 'SUELDOS', 'PRESTACIONES', 'REMUNERACION_TOTAL', 'CLASE_TE',
       'COD_DEPTO', 'AREA', 'F_EXP'],
      dtype='object')
Valores idénticos de la var. CLASE__TE True    77156
Name: count, dtype: int64 

Valores idénticos de la var. COD_DEPTO True    77156
Name: count, dtype: int64 

Valores idénticos de la var. AREA True     57798
False    19358
Name: count, dtype: int64 

Valores idénticos de la var. F_EXP_x True    77156
Name: count, dty

In [12]:
emicron_21 = pd.merge(emicron_21, df_cga, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var. CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE"]).value_counts(), "\n") 
print("Valores idénticos de la var. COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO"]).value_counts(), "\n") 
print("Valores idénticos de la var. AREA",(emicron_21["AREA_x"] == emicron_21["AREA"]).value_counts(), "\n") 
print("Valores idénticos de la var. F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE', 'COD_DEPTO','AREA', 'F_EXP'], axis = 1, inplace = True)

(77156, 97)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031', 'P3032_1',
       'P3032_2', 'P3032_3', 'P3033', 'P3034', 'P3035', 'P3000', 'GRUPOS4',
       'GRUPOS12', 'F_EXP_x', 'id', 'P3053', 'P3095', 'P3096', 'P3097',
       'P3098', 'P3054', 'P3055', 'P469', 'P1633', 'P986', 'P640', 'P4000',
       'P1055', 'P1056', 'P661', 'P1057', 'P4004', 'P2991', 'P2992', 'P2993',
       'P3050', 'P3051', 'P639', 'P3052', 'P3088', 'P3089', 'P3090', 'P2989',
       'P3091', 'SUELDOS', 'PRESTACIONES', 'REMUNERACION_TOTAL', 'P3056_A',
       'P3056_B', 'P3056_C', 'P3056_D', 'P3056_E', 'P3057_A', 'P3057_B',
       'P3057_C', 'P3057_D', 'P3057_E', 'P3017_A', 'P3017_B', 'P3017_C',
       'P3017_D', 'P3017_E', 'P3017_F', 'P3017_G', 'P3017_H', 'P3017_K',
       'P3017_I', 'P3017_J', 'P3017_L', 'P3018_1', 'P3018_2', 'P3018_3',
       'P3018_4', 'P3018_5', 'P3018_6', 'P3018_7', 'P3018_A', 'P3018_B',
       'P3018_C',

In [13]:
emicron_21 = pd.merge(emicron_21, df_ventas, on = "id")

print(emicron_21.shape)
print(emicron_21.columns)
print("Valores idénticos de la var. CLASE__TE",(emicron_21["CLASE_TE_x"] == emicron_21["CLASE_TE"]).value_counts(), "\n") 
print("Valores idénticos de la var. COD_DEPTO",(emicron_21["COD_DEPTO_x"] == emicron_21["COD_DEPTO"]).value_counts(), "\n") 
print("Valores idénticos de la var. AREA",(emicron_21["AREA_x"] == emicron_21["AREA"]).value_counts(), "\n") 
print("Valores idénticos de la var. F_EXP_x",(emicron_21["F_EXP_x"] == emicron_21["F_EXP"]).value_counts())
# Los valores que no coinciden de AREA obdece a la existencia de NAN
emicron_21.drop(['CLASE_TE', 'COD_DEPTO','AREA', 'F_EXP'], axis = 1, inplace = True)

(77156, 162)
Index(['DIRECTORIO', 'SECUENCIA_P', 'SECUENCIA_ENCUESTA', 'COD_DEPTO_x',
       'AREA_x', 'CLASE_TE_x', 'P35', 'P241', 'MES_REF', 'P3031',
       ...
       'P3072', 'VENTAS_MES_ANTERIOR', 'VENTAS_MES_ANIO_ANTERIOR',
       'VENTAS_ANIO_ANTERIOR', 'VALOR_AGREGADO', 'INGRESO_MIXTO', 'CLASE_TE',
       'COD_DEPTO', 'AREA', 'F_EXP'],
      dtype='object', length=162)
Valores idénticos de la var. CLASE__TE True    77156
Name: count, dtype: int64 

Valores idénticos de la var. COD_DEPTO True    77156
Name: count, dtype: int64 

Valores idénticos de la var. AREA True     57798
False    19358
Name: count, dtype: int64 

Valores idénticos de la var. F_EXP_x True    77156
Name: count, dtype: int64


In [14]:
emicron_21 = emicron_21.rename(columns={'COD_DEPTO_x': 'COD_DEPTO'})
emicron_21 = emicron_21.rename(columns={'AREA_x': 'AREA'})
emicron_21 = emicron_21.rename(columns={'CLASE_TE_x': 'CLASE_TE'})
emicron_21 = emicron_21.rename(columns={'F_EXP_x': 'F_EXP'})

In [15]:
emicron_21.head()
emicron_21[['id', 'DIRECTORIO']].head()

Unnamed: 0,id,DIRECTORIO
0,529978711,5299787
1,529979111,5299791
2,529979811,5299798
3,529980111,5299801
4,529980112,5299801


## 2. Filtrado de la base de datos
Se procederá a filtrar la base de datos con base en unos elementos particulares:  
1. Actividades económicas que cubre emicron y que no serán tenidas en cuenta en CENU.  
2. Ubicación del micronegocio. Ya que se entrenará un modelo para puestos fijos y micronegocios en vivienda, y otro para puestos móviles.   
3. Sólo serán informativos aquellos micronegocios que hayan operado durante el mes anterior a la aplicación de la encuesta a partir de valores en ventas del mes pasado que sean diferentes de cero.  
4. Algunas variables, cuyas observaciones presenten valores nulos y no sea informativos para el modelo.

### 2.1 Actividades económicas que deberán exluirse
El CENU no contemplará actividades relacionadas con 1: Agricultura, 2: Minería.

In [16]:
pd.crosstab(emicron_21['GRUPOS12'],emicron_21['GRUPOS4'])

GRUPOS4,1,2,3,4,5
GRUPOS12,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,8178,0,0,0,0
2,258,0,0,0,0
3,0,8272,0,0,0
4,0,0,0,5386,0
5,0,0,23701,0,0
6,0,0,0,7783,0
7,0,0,0,8778,0
8,0,0,0,697,0
9,0,0,0,3900,0
10,0,0,0,954,0


In [17]:
emicron_21 = emicron_21[~(emicron_21['GRUPOS12'].isin([1,2,13]))]

In [18]:
pd.crosstab(emicron_21['GRUPOS12'],emicron_21['GRUPOS4'])

GRUPOS4,2,3,4
GRUPOS12,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,8272,0,0
4,0,0,5386
5,0,23701,0
6,0,0,7783
7,0,0,8778
8,0,0,697
9,0,0,3900
10,0,0,954
11,0,0,623
12,0,0,8624


### 2.1 Ubicación del micronegocio
Para el entrenamiento del modelo específico para el cuestionario básico a establecimientos se utilizará la ubicación de micronegocios en 1: Vivienda, 2: Local (puestos fijos), por lo tanto sólo estas categorías se mantendrán. De igual manera, el CENU, sólo recolectará información de actividades económicas visibles, por lo tanto se filtrará por este tipo de micronegocios.

In [19]:
#emicron_21 = emicron_21[(emicron_21['P3053'].isin([1,2]))]
emicron_21 = emicron_21[(emicron_21['P3053'].isin([4]))]

In [22]:
emicron_21['P3053'].head()

5     4
7     4
17    4
24    4
38    4
Name: P3053, dtype: int64

In [23]:
emicron_21 = emicron_21[(emicron_21['P469'] == 1)]

### 2.2 Ventas del mes anterior
Eliminar las filas cuyas ventas del año pasado son missing y cero

In [24]:
# Valores nulos ventas
print("Valores nulos ventas: ", emicron_21["VENTAS_MES_ANTERIOR"].isna().sum())

# Valores cero ventas
print("Ventas en cero: ", (emicron_21["VENTAS_MES_ANTERIOR"]==0).sum())

# Eliminar los registros con venta cero
emicron_21 = emicron_21[~(emicron_21["VENTAS_MES_ANTERIOR"] == 0)]

Valores nulos ventas:  0
Ventas en cero:  148


In [25]:
emicron_21.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,SECUENCIA_ENCUESTA,COD_DEPTO,AREA,CLASE_TE,P35,P241,MES_REF,P3031,...,P4030,P4031,P4032,P4038,P3072,VENTAS_MES_ANTERIOR,VENTAS_MES_ANIO_ANTERIOR,VENTAS_ANIO_ANTERIOR,VALOR_AGREGADO,INGRESO_MIXTO
44,5299964,1,1,73,73.0,1,2,35,ENERO,1,...,0.0,,,,180000,400000,,800000.0,116000,116000
84,5300063,1,1,63,63.0,1,1,61,ENERO,2,...,0.0,,,,300000,870000,870000.0,7830000.0,300000,300000
100,5300113,1,2,76,76.0,1,2,49,ENERO,2,...,0.0,,,,700000,650000,800000.0,6000000.0,300000,300000
126,5300195,1,1,50,50.0,1,2,38,ENERO,1,...,0.0,,,,300000,700000,750000.0,7800000.0,274000,274000
198,5300448,1,1,5,5.0,1,2,47,ENERO,2,...,0.0,,,,50000,700000,,5498833.0,450000,450000


In [26]:
emicron_21.dtypes

DIRECTORIO                    int64
SECUENCIA_P                   int64
SECUENCIA_ENCUESTA            int64
COD_DEPTO                     int64
AREA                        float64
                             ...   
VENTAS_MES_ANTERIOR           int64
VENTAS_MES_ANIO_ANTERIOR    float64
VENTAS_ANIO_ANTERIOR        float64
VALOR_AGREGADO                int64
INGRESO_MIXTO                 int64
Length: 158, dtype: object

In [27]:
# pasando el nombre de las columnas a minúsculas
emicron_21 = emicron_21.rename(columns = lambda x: x.lower())

## Conectando la base de datos

In [28]:
# Creando la conexión con el gestor - guardando las variables de conexión
host = "localhost"
database = "bd_emicron"
user = "postgres"
port = 5433
password = "postgres2021"

In [29]:
## Guardando las variables de conexión en una sola variable
connection_string = f"postgresql://{user}:{password}@{host}:{port}/{database}"
connection_string

'postgresql://postgres:postgres2021@localhost:5433/bd_emicron'

In [30]:
## Creando la conexión con la función create_engine
engine = create_engine(connection_string)

In [31]:
## Inspeccionando las tablas en el esquema público para garantizar que la conexión fue exitosa
insp = inspect(engine)
insp.get_table_names()

[]

In [32]:
# Almacenando los datos en una BD en Postgres
emicron_21.to_sql('emicron_21', engine, schema = 'schema_emicron2021', if_exists = 'append', index = False)

24

In [33]:
# Almacenando la tabla en formato excel
emicron_21.to_excel('emicron_21_final_ambulantes.xlsx', index = False)

## Filtrando EMICRON2022 para vendedores de calle

In [None]:
emicron22 = pd.read_csv('emicron_22.csv')
emicron22.head(5)

In [24]:
emicron22 = emicron22.rename(columns = lambda x: x.lower())

In [25]:
# Verificando que el Directorio sea el identificador único
emicron22['directorio'].unique

<bound method Series.unique of 0        2120013
1        2120018
2        2120022
3        2120023
4        2120024
          ...   
84748    7277027
84749    7277028
84750    7277029
84751    7277065
84752    7277068
Name: directorio, Length: 84753, dtype: int64>

In [33]:
emicron22[emicron22['p3053'] == 4]

Unnamed: 0,directorio,secuencia_p,secuencia_encuesta,cod_depto,area,clase_te,p35,p241,mes_ref,p3031,...,p3014,p1573_1,p1573_2,p1573_3,p1573_4,p1573_5,p1573_6,p1574,p1771,ola
5,2120026,1,2,8,,1,1,22,ENERO,2,...,2.0,,,,,,,1.0,,2022
8,2120053,1,2,8,,1,1,61,ENERO,2,...,2.0,,,,,,,1.0,,2022
57,2120177,1,1,8,,2,1,51,ENERO,1,...,2.0,,,,,,,1.0,,2022
72,2120201,1,2,8,,2,2,21,ENERO,2,...,2.0,,,,,,,1.0,,2022
76,2120206,1,2,8,,2,2,66,ENERO,2,...,2.0,,,,,,,1.0,,2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
84715,7276851,1,3,88,88.0,1,2,32,DICIEMBRE,1,...,1.0,1.0,,,,,,,6.0,2022
84725,7276890,1,1,20,,1,1,63,DICIEMBRE,2,...,,,,,,,,,,2022
84728,7276906,1,1,54,54.0,1,2,42,DICIEMBRE,2,...,2.0,,,,,,,1.0,,2022
84737,7276964,1,2,20,20.0,1,2,43,DICIEMBRE,2,...,1.0,1.0,,,,1.0,,,6.0,2022


In [35]:
# Verificando el tamaño de la base emicron filtrado para vendedores ambulantes
emicron22_ambulantes = emicron22[emicron22['p3053'] == 4]

(9510, 194)

In [36]:
# Convirtiendo eldirectorio como index
emicron22_ambulantes.set_index('directorio', inplace = True)

In [37]:
# Exportando la base
emicron22_ambulantes.to_excel('emicron22_ambulantes.xlsx', index = True)