## Emprendimiento migración - CCB
Versión inicial: 07-03-2023 \
versión final: 09-05-2023 \
Elaborado por Ivan Gabriel Corredor Castillo

Subdirección de Estudios Estratégicos

ivangcorredorc@gmail.com

![flujo del programa](ccb_2023.png)

In [1]:
import pandas as pd
import numpy as np

In [2]:
coding: "latin-1"

### Cargar y procesar CCB: 2019, 2020, 2021

In [5]:
#rutas
p1= "G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/3_Clean/CCB_DIC2019.dta"
p2= "G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/3_Clean/CCB_DIC2020.dta"
p3= "G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/3_Clean/CCB_DIC2021.dta"

### Obtener base de empresas creadas

In [6]:
#Lista con nombres de variables
var = ["num_matricula", "vigencia", "fec_matricula", "año_matricula", "fec_vigencia",
                   "fec_cancelacion","año_cancelacion","tipo_disolucion","fec_disolucion", "fec_renova",
                   "ano_renova", "nombre", "tipo_persona", "direccion_comercial", 
                   "id_municipio_comercial", "cantidad_establecimientos",
                   "organizacion_juridica", "rep_legal", "tipo_id_replegal", "estado_matricula",
                   "resultado_periodo", "utilidad_perdida_operacional",
                   "activo_total", "pasivo_total", "patrimonio_neto", "tamano_activos", "tamano_ingresos",
                   "numero_empleados","importador_exportador", "ciiu_1", "sectores_pib","sectores_14",
                   "macro_sec",  "codloc", "localidad", "codupz", "nomupz", "longitude","latitude"]

In [1]:
## Cargar bases, ejecutar procedimiento
paths = [p1, p2, p3]
per = [2019, 2020, 2021]

for i, j, k in zip(paths, range(19,22), per):
    exec('CCB_{}= pd.read_stata(i)'.format(j))
    exec('msk = CCB_{}["año_matricula"]== k'.format(j))
    exec('CCB_{}cr = CCB_{}[msk==True]'.format(j,j))
    exec('del CCB_{}'.format(j))
    exec('CCB_{}cr.reset_index(drop =True, inplace = True)'.format(j))
## reemplazar nombres de columnas en las bases de 2019 y 2020
for l in range(19,21):
    names_19_20 = {'nro_matricula':'num_matricula'} 
    exec('CCB_{}cr = CCB_{}cr.rename(columns= names_19_20)'.format(l,l))
#seleccionar variables 
for j in range(19,22):
    exec('CCB_{}cr = CCB_{}cr[var]'.format(j,j))

In [None]:
## listar bases creadas
frames_cr = [CCB_19cr, CCB_20cr, CCB_21cr] 
#concatenar
creadas_19_21 = pd.concat(frames_cr, axis = 0, join = 'outer', sort = False)
# crear variable tipo_empresa
creadas_19_21.insert(39, "tipo empresa", "creadas")
# borrar objetos de cache
del CCB_19cr, CCB_20cr, CCB_21cr, frames_cr

In [None]:
# exportar base intermedia
creadas_19_21.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/creadas_19_21.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

In [None]:
# borrar de la caché la base creadas_19_21 para mejorar rendimiento
del creadas_19_21

### Obtener base de empresas canceladas

In [None]:
## Cargar bases, ejecutar procedimiento
paths = [p1, p2, p3]
per = [2019, 2020, 2021]

for i, j, k in zip(paths, range(19,22), per):
    exec('CCB_{}= pd.read_stata(i)'.format(j))
    exec('msk = CCB_{}["año_cancelacion"]== k'.format(j))
    exec('CCB_{}can = CCB_{}[msk==True]'.format(j,j))
    exec('del CCB_{}'.format(j))
    exec('CCB_{}can.reset_index(drop =True, inplace = True)'.format(j))
## reemplazar nombres de columnas en las bases de 2019 y 2020
for l in range(19,21):
    names_19_20 = {'nro_matricula':'num_matricula'} 
    exec('CCB_{}can = CCB_{}can.rename(columns= names_19_20)'.format(l,l))
#seleccionar variables 
for j in range(19,22):
    exec('CCB_{}can = CCB_{}can[var]'.format(j,j))

In [None]:
## listar bases creadas
frames_can = [CCB_19can, CCB_20can, CCB_21can] 
#concatenar
cance_19_21 = pd.concat(frames_can, axis = 0, join = 'outer', sort = False)
# crear variable tipo_empresa
cance_19_21.insert(39, "tipo empresa", "canceladas")
# borrar objetos de cache
del CCB_19can, CCB_20can, CCB_21can, frames_can

In [None]:
# exportar base intermedia
cance_19_21.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cance_19_21.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

In [None]:
# borrar de la caché la base cance_19_21 para mejorar rendimiento
del cance_19_21

### Obtener base de empresas renovadas

In [None]:
## Cargar bases, ejecutar procedimiento 
paths = [p1, p2, p3]
per = [2019, 2020, 2021]

for i, j, k in zip(paths, range(19,22), per):
    exec('CCB_{}= pd.read_stata(i)'.format(j))
    exec('msk = CCB_{}["ano_renova"]== k'.format(j))
    exec('CCB_{}re = CCB_{}[msk==True]'.format(j,j))
    exec('del CCB_{}'.format(j))
    exec('CCB_{}re.reset_index(drop =True, inplace = True)'.format(j))
## reemplazar nombres de columnas en las bases de 2019 y 2020
for l in range(19,21):
    names_19_20 = {'nro_matricula':'num_matricula'} 
    exec('CCB_{}re = CCB_{}re.rename(columns= names_19_20)'.format(l,l))
#seleccionar variables 
for j in range(19,22):
    exec('CCB_{}re = CCB_{}re[var]'.format(j,j))

In [None]:
## listar bases creadas
frames_re = [CCB_19re, CCB_20re, CCB_21re] 
#concatenar
renov_19_21 = pd.concat(frames_re, axis = 0, join = 'outer', sort = False)
# crear variable tipo_empresa
renov_19_21.insert(39, "tipo empresa", "renovadas")
# borrar objetos de cache
del CCB_19re, CCB_20re, CCB_21re, frames_re

In [None]:
# exportar base intermedia
renov_19_21.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/renov_19_21.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

In [None]:
# testeo de datos
renov_19_21[renov_19_21['estado_matricula']=="MA"]["ano_renova"].value_counts()

In [None]:
# borrar de la caché la base cance_19_21 para mejorar rendimiento
del renov_19_21
#Tiempo de ejecución de incio hasta este punto  8:50 (min:seg)

### Cargar bases creadas, canceladas y renovadas
Se deben volver a cargar las bases, debido a que el procesamiento va eliminandolas de la caché para mayor eficiencia. 

In [None]:
#rutas de las bases creadas, canceladas y renovadas 
cre = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/creadas_19_21.csv"
can = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cance_19_21.csv"
rev = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/renov_19_21.csv"

In [None]:
#Cargar las bases procesadas previamente
paths2 = [cre, can, rev]
l1 = ["cr", "can", "re"]

for i, j in zip(paths2, l1):
    exec('CCB_{}= pd.read_csv(i, sep = ";", low_memory=False, decimal= ",")'.format(j))
    
# listar bases
framesp = [CCB_cr, CCB_can,CCB_re]
#concatenar
cr_can_re_19_21 = pd.concat(framesp, axis = 0, join = 'outer', sort = False)
#vaciar caché
del CCB_cr, CCB_can,CCB_re

In [None]:
# testeo de datos
cr_can_re_19_21["tipo empresa"].value_counts()

In [None]:
#colocar nombres de variables en minuscula antes de exportar
cr_can_re_19_21.columns = cr_can_re_19_21.columns.str.lower()

In [None]:
#exportar a cvs para incluir la variable sexo con el script correspondiente.
cr_can_re_19_21.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cr_can_re_19_21.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

In [None]:
# se elimina objeto por eficiencia
del cr_can_re_19_21

Se procesa la base cr_can_re_19_21 con el script: ccb_var_Sexo_actualizado_2023 que se corre desde este ambiente, arrojando la base cr_can_re_19_21_sexo, la cual se carga para apendizarla a la base de 2022.

In [None]:
%run ccb_var_Sexo_actualizado_2023.ipynb #ejecución 30 min

### Cargar y procesar CCB: 2022

In [None]:
p4= "G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/1_Raw/MA_DEC2022.csv"
p5= "G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/1_Raw/MC_DEC2022.csv"

In [None]:
#listar nombre de variables para homogenizar
names_22 = {"nro_matricula":"num_matricula", "ano_cancelacion": "año_cancelacion", 
         "ano_creacion":"año_matricula", "loccodigo":"codloc", "locnombre":"localidad",
         "cod_upz":"codupz", "nom_upz":"nomupz"}

In [None]:
### listar variables a seleccionar
var2 = ["num_matricula", "vigencia", "fec_matricula", "año_matricula", "fec_vigencia",
                   "fec_cancelacion","año_cancelacion","tipo_disolucion","fec_disolucion", "fec_renova",
                   "ano_renova", "nombre", "tipo_persona", "direccion_comercial", 
                   "id_municipio_comercial", "cantidad_establecimientos",
                   "organizacion_juridica", "rep_legal", "tipo_id_replegal", "estado_matricula",
                   "resultado_periodo", "utilidad_perdida_operacional",
                   "activo_total", "pasivo_total", "patrimonio_neto", "tamano_activos", "tamano_ingresos",
                   "numero_empleados","importador_exportador", "ciiu_1", "codloc", "localidad", "codupz", "nomupz", "longitude","latitude", "sexo"]

In [None]:
# cargar ma y mc a corte de diciembre de 2022
paths3 = [p4, p5]
l2 = ["MA", "MC"]
for i, j in zip(paths3, l2):
    exec('CCB_22{}= pd.read_csv(i, sep = ";", low_memory=False, decimal= ",")'.format(j))
    #esandarizar variables,
    exec('CCB_22{}.columns = CCB_22{}.columns.str.lower()'.format(j,j)) 
    exec('CCB_22{} = CCB_22{}.rename(columns= names_22)'.format(j,j))
    #subset
    exec('CCB_22{}a = CCB_22{}[var2]'.format(j,j))
    #eliminación de objetos primarios
    exec('del CCB_22{}'.format(j))

In [None]:
#concatenar
frames_22 = [CCB_22MAa, CCB_22MCa]
CCB_22 = pd.concat(frames_22)

##### Crear variables faltantes

In [None]:
CCB_22["div_ciiu"] = np.trunc(CCB_22["ciiu_1"]/100)
CCB_22["div_ciiu"] = CCB_22["div_ciiu"].astype("Int8", errors='ignore')
CCB_22["div_ciiu"] = pd.Series(CCB_22["div_ciiu"], dtype = "int").replace(np.nan, -1)

In [None]:
def sec_pib(df):
    if df["div_ciiu"] >=1 and df["div_ciiu"]<=3:
        x = "A"
    elif df["div_ciiu"]>=5 and df["div_ciiu"]<=9:
        x = "B"
    elif df["div_ciiu"]>=10 and df["div_ciiu"]<=12:
        x = "C01"
    elif df["div_ciiu"]>=13 and df["div_ciiu"]<=15:
        x = "C02"
    elif df["div_ciiu"]>=16 and df["div_ciiu"]<=18:
        x = "C03"
    elif df["div_ciiu"]>=19 and df["div_ciiu"]<=23:
        x = "C04"
    elif ((df["div_ciiu"]>=24 and df["div_ciiu"]<=30) or (df["div_ciiu"]==33)):
        x = "C05"
    elif df["div_ciiu"]>=31 and df["div_ciiu"]<=32:
        x = "C06"
    elif df["div_ciiu"]==35:
        x = "D"
    elif df["div_ciiu"]>=36 and df["div_ciiu"]<=39:
        x = "E"
    elif df["div_ciiu"]==41:
        x = "F01"
    elif df["div_ciiu"]==42:
        x = "F02"
    elif df["div_ciiu"]==43:
        x = "F03"
    elif df["div_ciiu"]>=44 and df["div_ciiu"]<=47:
        x = "G"
    elif df["div_ciiu"]>=49 and df["div_ciiu"]<=53:
        x = "H"
    elif df["div_ciiu"]>=55 and df["div_ciiu"]<=56:
        x = "I"
    elif df["div_ciiu"]>=58 and df["div_ciiu"]<=63:
        x = "J"
    elif df["div_ciiu"]>=64 and df["div_ciiu"]<=66:
        x = "K"
    elif df["div_ciiu"]==68:
        x = "L"
    elif df["div_ciiu"]>=69 and df["div_ciiu"]<=82:
        x = "M&N"
    elif df["div_ciiu"]==84:
        x = "O"
    elif df["div_ciiu"]==85:
        x = "P"
    elif df["div_ciiu"]>=86 and df["div_ciiu"]<=88:
        x = "Q"
    elif df["div_ciiu"]>=90 and df["div_ciiu"]<=96:
        x = "R&S"
    elif df["div_ciiu"]==97:
        x = "T"
    else:
        x = np.nan
    return(x)

In [None]:
CCB_22["sectores_pib"] = CCB_22.apply(sec_pib, axis=1)

In [None]:
def sec_14(df):
    if df["sectores_pib"] in ("A", "B"):
        x = "A&B"
    elif df["sectores_pib"]=="C01":
        x = "C01"
    elif df["sectores_pib"]=="C02":
        x = "C02"
    elif df["sectores_pib"] in ("C03", "C04", "C05", "C06"):
        x = "C07"
    elif df["sectores_pib"] in ("D","E"):
            x = "D&E"
    elif df["sectores_pib"] in ("F01","F02","F03"):
            x = "F"
    elif df["sectores_pib"]=="G":
        x = "G"
    elif df["sectores_pib"]=="H":
        x = "H"
    elif df["sectores_pib"]=="I":
        x = "I"
    elif df["sectores_pib"]=="J":
        x = "J"
    elif df["sectores_pib"]=="K":
        x = "K"
    elif df["sectores_pib"]=="L":
        x = "L"
    elif df["sectores_pib"]=="M&N":
        x = "M&N"
    elif df["sectores_pib"] in ("O","P","Q"):
            x = "O&P&Q"
    elif df["sectores_pib"]=="R&S":
        x = "R&S"
    elif df["sectores_pib"]=="T":
        x = "T"
    else:
        x = np.nan
    return(x)

In [None]:
CCB_22["sectores_14"] = CCB_22.apply(sec_14, axis=1)

In [None]:
def sec_macro(df):
    if df["sectores_14"]=="A&B":
        x = "Agricultura" 
    elif df["sectores_14"] in ("C01", "C02", "C07"):
            x = "Industria"
    elif df["sectores_14"]=="F":
        x = "Construcción"
    elif df["sectores_14"] in ("G", "H", "I"):
            x = "Comercio"
    elif df["sectores_14"] in ("D&E", "J", "K", "L", "M&N", "O&P&Q", "R&S", "T"):
            x = "Servicios"
    else:
        x = np.nan
    return(x)

In [None]:
CCB_22["macro_sec"] = CCB_22.apply(sec_macro, axis=1)

In [None]:
#borrar div_ciuu
CCB_22.drop(columns ="div_ciiu", inplace =True)

In [None]:
#pasar categorías de masuclino a hombre y de femenino a mujer
CCB_22["sexo"] = CCB_22["sexo"].replace("Femenino","Mujer", regex=True)
# pasar categorías de masuclino a hombre
CCB_22["sexo"] = CCB_22["sexo"].replace("Masculino","Hombre", regex=True)

In [None]:
#test
CCB_22[CCB_22['estado_matricula']=="MA"]["ano_renova"].value_counts()

In [None]:
#exportar base CCB_22
CCB_22.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/CCB_DIC_22.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

#### Obtener bases creadas, canceladas y renovadas 2022

In [None]:
#filtar creadas, canceladas, renovadas y almacenar en un objeto cada filtro
fec = ["año_matricula", "año_cancelacion", "ano_renova"]
per3 = [2022, 2022, 2022]
l1 = ["cr", "can", "re"]
tipo = ["creadas", "canceladas", "renovadas"]
for i, j, k, l in zip(fec, per3, l1, tipo):
    msk = CCB_22[i]==j
    exec('CCB_22{} = CCB_22[msk==True]'.format(k))
    exec('CCB_22{}.reset_index(drop =True, inplace = True)'.format(k))
    exec('CCB_22{}.insert(40,"tipo empresa",l)'.format(k))

In [None]:
#concatenar
frames_22 = [CCB_22cr, CCB_22can , CCB_22re]
cr_can_re_22 = pd.concat(frames_22)

In [None]:
#exportar base cr_can_re_22
cr_can_re_22.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cr_can_re_22.csv",
             sep = ';', index = False, date_format= "yyyy-mm-dd", decimal = ",")

In [None]:
del cr_can_re_22

#### Concatenar bases 
cr_can_re_19_21_sexo (luego de incorporar variable sexo) y cr_can_re_22. Resultado: 
cr_can_re_19_22

In [None]:
#ruta base cr_can_re_19_21
p6 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cr_can_re_19_21_sexo.csv"
p7 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/cr_can_re_22.csv"

In [None]:
#cargar base cr_can_re_19_21
cr_can_re_19_21 = pd.read_csv(p6, sep = ";", low_memory=False, decimal= ",")
cr_can_re_22 = pd.read_csv(p7, sep = ";", low_memory=False, decimal= ",")

In [None]:
##concatenar
frames_19_22 = [cr_can_re_19_21, cr_can_re_22]
cr_can_re_19_22 = pd.concat(frames_19_22)

In [None]:
# test
cr_can_re_19_22["tipo empresa"].value_counts()

### Procesamiento final (anual - flujo)

In [None]:
# creación de variables Año, nacionalidad, ROA y ROE
# función para Año
def anio(df):
    if df["tipo empresa"]== "creadas":
        x = df["año_matricula"]
    elif df["tipo empresa"]== "canceladas":
        x = df["año_cancelacion"]
    elif df["tipo empresa"]== "renovadas":
        x = df["ano_renova"]
    else:
        x = np.nan
    return(x)
# función para nacionalidad
def nal(df):
    if ((df["tipo_id_replegal"] == "C.E.") or (df["tipo_id_replegal"] == "D.EXT.") or 
        (df["tipo_id_replegal"] =="D.EXT.PJ") or (df["tipo_id_replegal"] == "P.P.") or 
        (df["tipo_id_replegal"] =="P.VISA")):
        y = "Extranjera"
    elif (df["tipo_id_replegal"]== "C.C.") or  (df["tipo_id_replegal"]== "N.I.T."):
        y = "Nacional"
    else:
        y = "Otras"
    return(y)

In [None]:
# creación de variable Año
cr_can_re_19_22["año"] = cr_can_re_19_22.apply(anio, axis = 1)

# eliminar espacios en blanco a izquierda y derecha
cr_can_re_19_22["tipo_id_replegal"] = cr_can_re_19_22["tipo_id_replegal"].str.strip()

In [None]:
# creación de variable nacionalidad
cr_can_re_19_22["nacionalidad"] = cr_can_re_19_22.apply(nal, axis = 1)

In [None]:
#reemplazar outlier
cr_can_re_19_22["utilidad_perdida_operacional"] = cr_can_re_19_22["utilidad_perdida_operacional"].replace(3487803200000000.0, 34878032)

In [None]:
# creación de variable ROA y ROE
cr_can_re_19_22["ROA"] = cr_can_re_19_22["utilidad_perdida_operacional"] / cr_can_re_19_22["activo_total"]
cr_can_re_19_22["ROE"] = cr_can_re_19_22["resultado_periodo"] / cr_can_re_19_22["patrimonio_neto"]

In [None]:
# homogenizar categorias
# homogenizar categorias
cr_can_re_19_22["tamano_ingresos"] = cr_can_re_19_22["tamano_ingresos"].replace(["2. Peque?a", "2. PequeÃ±a"], "2. Pequeña")
cr_can_re_19_22["tamano_activos"] = cr_can_re_19_22["tamano_activos"].replace(["2. Peque?a", "2. PequeÃ±a"], "2. Pequeña")

In [None]:
## formatos de variables fecha
# Convert "date_col" to datetime format
var_f = ['fec_matricula', 'fec_cancelacion', 'fec_renova','fec_vigencia', 'fec_disolucion'] 
var_a = ['año', 'año_matricula', 'año_cancelacion', 'ano_renova']

In [None]:
#identifica valores concretos por columnas
#select columns where any of the date columns have any specific value
mask = cr_can_re_19_22[var_f].apply(lambda x: any('.' in str(i) for i in x), axis=0)
mask

In [None]:
#eliminar el punto para convertir a formato fecha para las variables seleccionadas
varp= ["fec_cancelacion","fec_renova", "fec_vigencia", "fec_disolucion"]  
for i in varp:
    cr_can_re_19_22[i] = cr_can_re_19_22[i].str.split(".", n=1).str[0]
    cr_can_re_19_22[i] = cr_can_re_19_22[i].str.split(" ", n=1).str[0]

In [None]:
#dar formato fecha a variables de tiempo
for i, j in zip(var_f, var_a):
    #var año-mes-día, formato datetime
    cr_can_re_19_22[i] = pd.to_datetime(cr_can_re_19_22[i], errors='coerce')
    cr_can_re_19_22[i] = cr_can_re_19_22[i].dt.strftime("%Y-%m-%d")
    #var año
    cr_can_re_19_22[j] = pd.to_datetime(cr_can_re_19_22[j], format="%Y")
    cr_can_re_19_22[j] = cr_can_re_19_22[j].dt.strftime("%Y")

In [None]:
cr_can_re_19_22["año"].value_counts() #"fec_cancelacion","fec_renova", "fec_vigencia", "fec_disolucion"
#'año_matricula', 'año_cancelacion', 'ano_renova'

In [None]:
varp_str = ['tamano_activos', 'macro_sec']
for i in varp_str:
    cr_can_re_19_22[i] = cr_can_re_19_22[i].replace('.', np.nan)

In [41]:
va = ["1. Vigente", "2. Hasta un año sin renovar", "3. Hasta dos años sin renovar",
      "4. Hasta tres años sin renovar", "5. Hasta cuatro años sin renovar",
     "6. Cinco años o más sin renovar"]
vn = ["Vigente", "1 año", "2 años", "3 años", "4 años", "5 años o más"]
for i, j in zip(va, vn):
    cr_can_re_19_22["vigencia"] = cr_can_re_19_22["vigencia"].replace(i, j)

In [43]:
#exportar
cr_can_re_19_22.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/3_Clean/cr_can_re_19_22.csv",
                           sep = ';', index = False, decimal = ",")

In [None]:
del cr_can_re_19_22

### Base corte stock

In [None]:
#Lista con nombres de variables
var_c = ["num_matricula", "vigencia", "fec_matricula", "año_matricula", "fec_vigencia",
                   "fec_cancelacion","año_cancelacion","tipo_disolucion","fec_disolucion", "fec_renova",
                   "ano_renova", "nombre", "tipo_persona", "direccion_comercial", 
                   "id_municipio_comercial", "cantidad_establecimientos",
                   "organizacion_juridica", "rep_legal", "tipo_id_replegal", "estado_matricula",
                   "resultado_periodo", "utilidad_perdida_operacional",
                   "activo_total", "pasivo_total", "patrimonio_neto", "tamano_activos", "tamano_ingresos",
                   "numero_empleados","importador_exportador", "ciiu_1", "sectores_pib","sectores_14",
                   "macro_sec",  "codloc", "localidad", "codupz", "nomupz", "longitude","latitude", "corte"]

In [None]:
##cargar cortes a DIC 2019,2020,2021 procesarlos con flag de corte y appendizarlos para crear variable sexo
#consume 13 de ram
paths = [p1, p2, p3]
per = [2019, 2020, 2021]

for i, j, k in zip(paths, range(19,22), per):
    exec('CCB_{}= pd.read_stata(i)'.format(j))
    exec('CCB_{}.insert(40, "corte", k)'.format(j))
## reemplazar nombres de columnas en las bases de 2019 y 2020
for l in range(19,21):
    names_19_20 = {'nro_matricula':'num_matricula'} 
    exec('CCB_{} = CCB_{}.rename(columns= names_19_20)'.format(l,l))
#seleccionar variables 
for j in range(19,22):
    exec('CCB_{} = CCB_{}[var_c]'.format(j,j))

In [None]:
## listar bases creadas
frames = [CCB_19, CCB_20, CCB_21] 
#concatenar
ccb_19_21 = pd.concat(frames, axis = 0, join = 'outer', sort = False)
#borrar caché
del CCB_19, CCB_20, CCB_21
#encabezados en minúscula
ccb_19_21.columns = ccb_19_21.columns.str.lower()

In [None]:
ccb_19_21["corte"].value_counts()

In [None]:
#exportar
ccb_19_21.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/ccb_19_21.csv",
                           sep = ';', index = False, decimal = ",")

In [None]:
del ccb_19_21

In [None]:
##Correr Script de variable sexo para base ccb_19_21
%run ccb_var_sexo_actualizado_2023_ccb_19_21.ipynb # tiempo ejecución 51 min: 8.5 Ram, 843.465 kb

### cargue bases corte 19_21 y 2022

In [None]:
### cargue de corte 19_21 y 2022 (procesados) 
p8 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/ccb_19_21.csv"
p9 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/2_Temp/CCB_DIC_22.csv"
ccb_19_21 = pd.read_csv(p8, sep = ";", low_memory=False, decimal= ",")
CCB_DIC_22 = pd.read_csv(p9, sep = ";", low_memory=False, decimal= ",")

In [None]:
# crear variable corte 2022 
CCB_DIC_22["corte"] = 2022
### concatenar ccb_19_21 y CCB_DIC_22
## listar bases creadas
cortes_19_22 = [ccb_19_21, CCB_DIC_22] 
#concatenar
ccb_19_22 = pd.concat(cortes_19_22, axis = 0, join = 'outer', sort = False)
del ccb_19_21, CCB_DIC_22

In [None]:
#test
ccb_19_22["corte"].value_counts()

#### Procesamiento final (Corte - Stock)

In [None]:
# creación de variables nacionalidad, ROA y ROE
# función para nacionalidad
def nal(df):
    if ((df["tipo_id_replegal"] == "C.E.") or (df["tipo_id_replegal"] == "D.EXT.") or 
        (df["tipo_id_replegal"] =="D.EXT.PJ") or (df["tipo_id_replegal"] == "P.P.") or 
        (df["tipo_id_replegal"] =="P.VISA")):
        y = "Extranjera"
    elif (df["tipo_id_replegal"]== "C.C.") or  (df["tipo_id_replegal"]== "N.I.T."):
        y = "Nacional"
    else:
        y = "Otras"
    return(y)

In [None]:
# eliminar espacios en blanco a izquierda y derecha
ccb_19_22["tipo_id_replegal"] = ccb_19_22["tipo_id_replegal"].str.strip()

In [None]:
# creación de variable nacionalidad
ccb_19_22["nacionalidad"] = ccb_19_22.apply(nal, axis = 1)

In [None]:
#reemplazar outlier
ccb_19_22["utilidad_perdida_operacional"] = ccb_19_22["utilidad_perdida_operacional"].replace(3487803200000000.0, 34878032)

In [None]:
# creación de variable ROA y ROE
ccb_19_22["ROA"] = ccb_19_22["utilidad_perdida_operacional"] / ccb_19_22["activo_total"]
ccb_19_22["ROE"] = ccb_19_22["resultado_periodo"] / ccb_19_22["patrimonio_neto"]

In [None]:
# homogenizar categorias
ccb_19_22["tamano_ingresos"] = ccb_19_22["tamano_ingresos"].replace(["2. Peque?a", "2. PequeÃ±a"], "2. Pequeña")
ccb_19_22["tamano_activos"] = ccb_19_22["tamano_activos"].replace(["2. Peque?a", "2. PequeÃ±a"], "2. Pequeña")

In [None]:
## formatos de variables fecha
# Convert "date_col" to datetime format
var_f = ['fec_matricula', 'fec_cancelacion', 'fec_renova','fec_vigencia', 'fec_disolucion'] 
var_a = ['corte', 'año_matricula', 'año_cancelacion', 'ano_renova']

In [None]:
#identifica valores concretos por columnas
#Filter for rows where any of the date columns have iqual or more that one specific value or 
#mask = ccb_19_22[var_f].apply(lambda x: '.' in x.values.astype(str), axis=1)
# Print the rows where the mask is True
#print(ccb_19_22[mask])
mask = ccb_19_22[var_f].apply(lambda x: any('.' in str(i) for i in x), axis=0)
mask

In [None]:
#eliminar el punto para convertir a formato fecha para las variables seleccionadas
varp= ["fec_cancelacion","fec_renova", "fec_vigencia", "fec_disolucion"]  
for i in varp:
    ccb_19_22[i] = ccb_19_22[i].str.split(".", n=1).str[0]

In [None]:
#eliminar la cadena después del espacio para las variables seleccionadas
varp= ["fec_cancelacion","fec_renova", "fec_vigencia", "fec_disolucion"]  
for i in varp:
    ccb_19_22[i] = ccb_19_22[i].str.split(" ", n=1).str[0]

In [None]:
#dar formato fecha a variables de tiempo
for i, j in zip(var_f, var_a):
    #var año-mes-día, formato datetime
    ccb_19_22[i] = pd.to_datetime(ccb_19_22[i], errors='coerce')
    ccb_19_22[i] = ccb_19_22[i].dt.strftime("%Y-%m-%d")
    #var año
    ccb_19_22[j] = pd.to_datetime(ccb_19_22[j], format="%Y")
    ccb_19_22[j] = ccb_19_22[j].dt.strftime("%Y")

In [None]:
#ccb_19_22.drop(columns ="corte22", inplace =True)

In [None]:
varp_str = ['tamano_activos', 'macro_sec']
for i in varp_str:
    ccb_19_22[i] = ccb_19_22[i].replace('.', np.nan)

In [None]:
ccb_19_22["corte"].value_counts()

In [None]:
va = ["1. Vigente", "2. Hasta un año sin renovar", "3. Hasta dos años sin renovar",
      "4. Hasta tres años sin renovar", "5. Hasta cuatro años sin renovar",
     "6. Cinco años o más sin renovar"]
vn = ["Vigente", "1 año", "2 años", "3 años", "4 años", "5 años o más"]
for i, j in zip(va, vn):
    ccb_19_22["vigencia"] = ccb_19_22["vigencia"].replace(i, j)

In [38]:
#exportar
ccb_19_22.to_csv("G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/3_Clean/ccb_19_22.csv",
                           sep = ';', index = False, decimal = ",")

In [None]:
del ccb_19_22

#### Resultados corte - stock

In [3]:
pd.options.display.float_format = '{:.0f}'.format 

In [3]:
p10 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/3_Clean/ccb_19_22.csv"
ccb_19_22 = pd.read_csv(p10, sep = ";", low_memory=False, decimal= ",")

In [6]:
ccb_19_22.columns

Index(['num_matricula', 'vigencia', 'fec_matricula', 'año_matricula',
       'fec_vigencia', 'fec_cancelacion', 'año_cancelacion', 'tipo_disolucion',
       'fec_disolucion', 'fec_renova', 'ano_renova', 'nombre', 'tipo_persona',
       'direccion_comercial', 'id_municipio_comercial',
       'cantidad_establecimientos', 'organizacion_juridica', 'rep_legal',
       'tipo_id_replegal', 'estado_matricula', 'resultado_periodo',
       'utilidad_perdida_operacional', 'activo_total', 'pasivo_total',
       'patrimonio_neto', 'tamano_activos', 'tamano_ingresos',
       'numero_empleados', 'importador_exportador', 'ciiu_1', 'sectores_pib',
       'sectores_14', 'macro_sec', 'codloc', 'localidad', 'codupz', 'nomupz',
       'longitude', 'latitude', 'corte', 'sexo', 'nacionalidad', 'ROA', 'ROE'],
      dtype='object')

In [7]:
ccb_19_22["vigencia"].value_counts()

Vigente         1713250
5 años o más     648307
1 año            424838
2 años           325683
3 años           296543
4 años           202026
Name: vigencia, dtype: int64

In [8]:
# obj 2
# datos Gráfica 1. Distribución de empresas jurídicas vigentes en Bogotá, 2019-2022
# No. de empresas activas, que reovaron en 2019-2022 por nacionaliad/Total empresas activas que reovaron en 2019-2022
g2 = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
               (ccb_19_22['vigencia']== "Vigente")].pivot_table(
    values= 'num_matricula', index= 'corte', columns= 'nacionalidad',
    aggfunc=np.size, margins = True)
g2 = g2.iloc[:,[1,0,2,3]].reset_index()
g2.columns.name = None
g2

Unnamed: 0,corte,Nacional,Extranjera,Otras,All
0,2019,182728,9043,356,192127
1,2020,171652,8231,292,180175
2,2021,179766,8679,299,188744
3,2022,186809,8925,293,196027
4,All,720955,34878,1240,757073


In [9]:
# obj 3
# datos gráfica 2. Empresas de personas jurídicas en Bogotá según vigencia del registro mercantil, 2021
g3 = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
               (ccb_19_22['corte']== 2021)].pivot_table(
    values= 'num_matricula', index= 'vigencia', columns= 'nacionalidad',
    aggfunc=np.size, margins = True)
g3 = g3.iloc[:,[1,0,2,3]].reset_index()
g3.columns.name = None
g3

Unnamed: 0,vigencia,Nacional,Extranjera,Otras,All
0,1 año,26925,1053,37,28015
1,2 años,25512,1340,59,26911
2,3 años,15605,1022,17,16644
3,4 años,14095,855,21,14971
4,5 años o más,10972,725,26,11723
5,Vigente,179766,8679,299,188744
6,All,272875,13674,459,287008


In [10]:
# obj 4
# Gráfica 4. Distribución de las empresas activas y renovadas de personas jurídicas por tamaño y nacionalidad en Bogotá, 2019, 2020, 2021
g4 = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
              (ccb_19_22['vigencia']== "Vigente")].pivot_table(
    values= 'num_matricula', index= ['corte', 'tamano_activos'], columns= ['nacionalidad'],
    aggfunc=np.size, margins = True)
g4 = g4.iloc[:,[1,0,2,3]].reset_index()
g4.columns.name = None
g4

Unnamed: 0,corte,tamano_activos,Nacional,Extranjera,Otras,All
0,2019,1. Microempresa,136686,5616,205,142507
1,2019,2. Pequeña,33682,1968,94,35744
2,2019,3. Mediana,9371,884,36,10291
3,2019,4. Grande,2984,575,21,3580
4,2020,1. Microempresa,125813,4737,147,130697
5,2020,2. Pequeña,33353,1958,96,35407
6,2020,3. Mediana,9442,933,28,10403
7,2020,4. Grande,3043,603,21,3667
8,2021,1. Microempresa,132579,5078,154,137811
9,2021,2. Pequeña,34431,2031,96,36558


In [11]:
# obj 5
#Gráfica 3.5 Empresas activas y renovadas de personas jurídicas por sexo y nacionalidad, en Bogotá 2021.
g5 = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
               (ccb_19_22['vigencia']== "Vigente")].pivot_table(
    values= 'num_matricula', index= ['corte', 'nacionalidad'], columns= ['sexo'],
    aggfunc=np.size, margins = True)
g5 = g5.iloc[:,[0,2,1,3]].reset_index()
g5.columns.name = None
g5

Unnamed: 0,corte,nacionalidad,Hombre,Mujer,Indeterminado,All
0,2019,Extranjera,6692,1298,1053,9043
1,2019,Nacional,119189,55690,7849,182728
2,2019,Otras,46,44,266,356
3,2020,Extranjera,6149,1139,943,8231
4,2020,Nacional,111758,52491,7403,171652
5,2020,Otras,32,39,221,292
6,2021,Extranjera,6397,1212,1070,8679
7,2021,Nacional,116167,55731,7868,179766
8,2021,Otras,33,42,224,299
9,2022,Extranjera,6559,1254,1112,8925


In [12]:
# datos adicionales, siguen el consecutivo del último elemento (no se incluye en el excel exportado)
# Empresas de personas jurídicas en Bogotá según vigencia del registro mercantil, 2022
g26 = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
               (ccb_19_22['corte']== 2022)].pivot_table(
    values= 'num_matricula', index= 'vigencia', columns= 'nacionalidad',
    aggfunc=np.size, margins = True)
g26 = g26.iloc[:,[1,0,2,3]].reset_index()
g26.columns.name = None
g26

Unnamed: 0,vigencia,Nacional,Extranjera,Otras,All
0,1 año,26495,1200,41,27736
1,2 años,17977,762,25,18764
2,3 años,21844,1209,47,23100
3,4 años,14325,964,14,15303
4,5 años o más,24141,1550,44,25735
5,Vigente,186809,8925,293,196027
6,All,291591,14610,464,306665


In [13]:
# ccb_19_22[(ccb_19_22['estado_matricula']=="MC") & 
#                (ccb_19_22['corte'].isin([2022])) & 
#                (ccb_19_22['año_cancelacion'].isin([2022]))].pivot_table(
#     values= 'num_matricula', index= 'corte',
#     aggfunc=np.size, margins = False)

#### Resultados anual - flujo 

In [14]:
### cargar base
p7 = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/3_Clean/cr_can_re_19_22.csv"
cr_can_re_19_22 = pd.read_csv(p7, sep = ";", low_memory=False, decimal= ",")

In [15]:
cr_can_re_19_22['tamano_activos'].value_counts()

1. Microempresa    1943873
2. Pequeña          164439
3. Mediana           46167
4. Grande            15734
Name: tamano_activos, dtype: int64

In [16]:
cr_can_re_19_22.columns

Index(['num_matricula', 'vigencia', 'fec_matricula', 'año_matricula',
       'fec_vigencia', 'fec_cancelacion', 'año_cancelacion', 'tipo_disolucion',
       'fec_disolucion', 'fec_renova', 'ano_renova', 'nombre', 'tipo_persona',
       'direccion_comercial', 'id_municipio_comercial',
       'cantidad_establecimientos', 'organizacion_juridica', 'rep_legal',
       'tipo_id_replegal', 'estado_matricula', 'resultado_periodo',
       'utilidad_perdida_operacional', 'activo_total', 'pasivo_total',
       'patrimonio_neto', 'tamano_activos', 'tamano_ingresos',
       'numero_empleados', 'importador_exportador', 'ciiu_1', 'sectores_pib',
       'sectores_14', 'macro_sec', 'codloc', 'localidad', 'codupz', 'nomupz',
       'longitude', 'latitude', 'tipo empresa', 'sexo', 'año', 'nacionalidad',
       'ROA', 'ROE'],
      dtype='object')

In [17]:
pd.options.display.float_format = '{:.0f}'.format 

In [18]:
# obj 6
# Gráfica 6 y tabla 1 Empresas creadas y canceladas por nacionalidad en Bogotá, 2021 
#creadas
g6cr = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
               (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad'],
    aggfunc=np.size, margins = True)

# caneladas
g6ca = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MC") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
               (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad'],
    aggfunc=np.size, margins = True)
#creación neta
g6cr_n = g6cr-g6ca
g6cr_n
#reidnexar
g6cr = g6cr.reset_index()
g6ca = g6ca.reset_index()
g6cr_n = g6cr_n.reset_index()
g6cr.columns.name = None
g6ca.columns.name = None
g6cr_n.columns.name = None
# #etiquetar salida
g6cr.insert(loc=0, column="empresas", value="Creadas")
g6ca.insert(loc=0, column="empresas", value="Canceladas")
g6cr_n.insert(loc=0, column="empresas", value="Creación Neta")

#concatenar
g6 = pd.concat([g6cr, g6ca, g6cr_n], axis = 0)
g6

Unnamed: 0,empresas,año,nacionalidad,num_matricula
0,Creadas,2019,Extranjera,1440
1,Creadas,2019,Nacional,24852
2,Creadas,2019,Otras,20
3,Creadas,2020,Extranjera,1017
4,Creadas,2020,Nacional,21378
5,Creadas,2020,Otras,17
6,Creadas,2021,Extranjera,1299
7,Creadas,2021,Nacional,23029
8,Creadas,2021,Otras,12
9,Creadas,2022,Extranjera,1402


In [19]:
# obj. 7.
# Tabla 2 Empresas creadas y canceladas por nacionalidad en Bogotá, 2021 
#creadas
g7cr = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
               (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"])) &
                (cr_can_re_19_22['nacionalidad'].isin(["Nacional", "Extranjera"])) &
                (cr_can_re_19_22['sexo'].isin(["Hombre", "Mujer"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'sexo'],
    aggfunc=np.size, margins = False)
# caneladas
g7ca = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MC") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
               (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"])) &
                (cr_can_re_19_22['nacionalidad'].isin(["Nacional", "Extranjera"])) &
                (cr_can_re_19_22['sexo'].isin(["Hombre", "Mujer"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'sexo'],
    aggfunc=np.size, margins = False)
#creación neta
g7cr_n = g7cr-g7ca
#etiquetar salida
et = ["Creadas", "Canceladas", "Creación Neta"]
for i, j in zip([g7cr, g7ca, g7cr_n], et):
    i.insert(loc=0, column="empresas", value=j)
##organizar tabla
g7cr = g7cr.reset_index().set_index(['año','nacionalidad', 'sexo',"empresas"]).unstack(level=[0,1,2])
g7ca = g7ca.reset_index().set_index(['año','nacionalidad', 'sexo',"empresas"]).unstack(level=[0,1,2])
g7cr_n = g7cr_n.reset_index().set_index(['año','nacionalidad', 'sexo',"empresas"]).unstack(level=[0,1,2])
#concatenar
g7 = pd.concat([g7cr, g7ca, g7cr_n], axis = 0)
#borar nivel de indice de columna
g7.columns = g7.columns.droplevel(0)
#organizar la salida
g7 = g7.loc[:,[(2019,   'Nacional',  'Mujer'), (2019, 'Nacional',  'Hombre'),
          (2019, 'Extranjera',  'Mujer'), (2019, 'Extranjera',  'Hombre'),
         (2020,   'Nacional',  'Mujer'), (2020, 'Nacional',  'Hombre'),
          (2020, 'Extranjera',  'Mujer'), (2020, 'Extranjera',  'Hombre'),
         (2021,   'Nacional',  'Mujer'), (2021, 'Nacional',  'Hombre'),
          (2021, 'Extranjera',  'Mujer'), (2021, 'Extranjera',  'Hombre'),
         (2022,   'Nacional',  'Mujer'), (2022, 'Nacional',  'Hombre'),
          (2022, 'Extranjera',  'Mujer'), (2022, 'Extranjera',  'Hombre')]]
g7

año,2019,2019,2019,2019,2020,2020,2020,2020,2021,2021,2021,2021,2022,2022,2022,2022
nacionalidad,Nacional,Nacional,Extranjera,Extranjera,Nacional,Nacional,Extranjera,Extranjera,Nacional,Nacional,Extranjera,Extranjera,Nacional,Nacional,Extranjera,Extranjera
sexo,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre,Mujer,Hombre
empresas,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
Creadas,8243,15528,228,1044,6950,13406,148,721,7755,14156,188,924,7701,13923,213,985
Canceladas,1522,2678,27,170,1525,2541,57,194,2066,3136,65,237,2031,3132,57,237
Creación Neta,6721,12850,201,874,5425,10865,91,527,5689,11020,123,687,5670,10791,156,748


In [20]:
#obj 8. 
#Gráfica 3.9 Empresas creadas más renovadas (vigentes) de personas jurídicas por sector y nacionalidad en Bogotá, 2019-2022.
g8 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['nacionalidad'].isin(["Nacional", "Extranjera"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'macro_sec'],
    aggfunc=np.size, margins = False)
#organizar tabla
g8 = g8.reset_index().set_index(['año','nacionalidad','macro_sec']).unstack(level=[0,1])
#borar nivel de indice de columna
g8.columns = g8.columns.droplevel(0)
g8 = g8.loc[:,[(2019,'Nacional'), (2019, 'Extranjera'), 
         (2020,'Nacional'), (2020, 'Extranjera'),
         (2021,'Nacional'), (2021, 'Extranjera'),
         (2022,'Nacional'), (2022, 'Extranjera')]]
g8

año,2019,2019,2020,2020,2021,2021,2022,2022
nacionalidad,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera
macro_sec,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Agricultura,4731,434,4387,374,4534,376,4731,362
Comercio,47102,2951,44916,2616,47454,2690,49407,2728
Construcción,19001,511,16967,460,18134,492,18447,485
Industria,21339,604,19862,552,20883,594,21612,589
Servicios,90535,4542,85501,4227,88746,4526,92595,4759


In [21]:
# obj 9
#Gráfica 3.10 Empresas por sector y nacionalidad en Bogotá, 2021
g9cr = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"])) &
                (cr_can_re_19_22['nacionalidad'].isin(["Nacional", "Extranjera"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'macro_sec'],
    aggfunc=np.size, margins = False)
# caneladas
g9ca = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MC") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
               (cr_can_re_19_22['tipo empresa'].isin(["creadas", "canceladas"])) &
                (cr_can_re_19_22['nacionalidad'].isin(["Nacional", "Extranjera"]))].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad',  'macro_sec'],
    aggfunc=np.size, margins = False)
#creación neta
g9cr_n = g9cr-g9ca
#etiquetar salida
et = ["Creadas", "Canceladas", "Creación Neta"]
for i, j in zip([g9cr, g9ca, g9cr_n], et):
    i.insert(loc=0, column="empresas", value=j)
# ##organizar tabla
g9cr = g9cr.reset_index().set_index(['año','nacionalidad', 'macro_sec',"empresas"]).unstack(level=[0,3,1])
g9ca = g9ca.reset_index().set_index(['año','nacionalidad', 'macro_sec',"empresas"]).unstack(level=[0,3,1])
g9cr_n = g9cr_n.reset_index().set_index(['año','nacionalidad','macro_sec',"empresas"]).unstack(level=[0,3,1])
#concatenar
g9 = pd.concat([g9cr, g9ca, g9cr_n], axis = 0)
#borar nivel de indice de columna
g9.columns = g9.columns.droplevel(0)
g9

año,2019,2019,2019,2019,2019,2019,2020,2020,2020,2020,...,2021,2021,2021,2021,2022,2022,2022,2022,2022,2022
empresas,Canceladas,Canceladas,Creación Neta,Creación Neta,Creadas,Creadas,Canceladas,Canceladas,Creación Neta,Creación Neta,...,Creación Neta,Creación Neta,Creadas,Creadas,Canceladas,Canceladas,Creación Neta,Creación Neta,Creadas,Creadas
nacionalidad,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,...,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional,Extranjera,Nacional
macro_sec,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
Agricultura,,,,,51.0,609.0,,,,,...,,,25.0,470.0,,,,,28.0,487.0
Comercio,,,,,477.0,6737.0,,,,,...,,,372.0,7053.0,,,,,419.0,6646.0
Construcción,,,,,79.0,2472.0,,,,,...,,,78.0,2214.0,,,,,64.0,2074.0
Industria,,,,,106.0,2676.0,,,,,...,,,101.0,2521.0,,,,,104.0,2499.0
Servicios,,,,,727.0,12356.0,,,,,...,,,723.0,10770.0,,,,,786.0,10993.0
Agricultura,8.0,121.0,,,,,13.0,117.0,,,...,,,,,28.0,152.0,,,,
Comercio,81.0,1410.0,,,,,121.0,1366.0,,,...,,,,,94.0,1588.0,,,,
Construcción,14.0,338.0,,,,,16.0,276.0,,,...,,,,,17.0,435.0,,,,
Industria,19.0,531.0,,,,,19.0,421.0,,,...,,,,,26.0,589.0,,,,
Servicios,99.0,2006.0,,,,,136.0,2088.0,,,...,,,,,171.0,2689.0,,,,


In [22]:
# obj 10
# ##Tabla 3.3 Empleos por tamaño de empresa vigente y creadas y nacionalidad en Bogotá, 2019-2022
pd.options.display.float_format = '{:.1f}'.format 
g10 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) & #(cr_can_re_19_22['año_matricula']!= cr_can_re_19_22['año'])
                #eliminar credas y dejar solo renovadas
                      (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'numero_empleados', index= ['año','nacionalidad', 'tamano_activos'],
    aggfunc=np.sum, margins = False)
g10 = g10.reset_index().set_index(['año','nacionalidad', 'tamano_activos']).unstack(level=[1])
g10 = g10.loc[:,[('numero_empleados','Nacional'),
        ('numero_empleados', 'Extranjera'),
        ('numero_empleados', 'Otras')]]
g10.columns = g10.columns.droplevel(0)
g10["ext/nal*100"] = (g10["Extranjera"]/g10["Nacional"])*100
# cantidad empresas vigentes (creadas, renovadas) por tamaño
g10b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'tamano_activos'],
    aggfunc=np.size, margins = False)
g10b = g10b.reset_index().set_index(['año','nacionalidad', 'tamano_activos']).unstack(level=[1])
g10b = g10b.loc[:,[('num_matricula','Nacional'),
        ('num_matricula', 'Extranjera'),
        ('num_matricula', 'Otras')]]
g10b.columns = g10b.columns.droplevel(0)

g10c = g10.iloc[:,:3]/ g10b
g10c["Dif_Nal-Ext"] = g10c["Nacional"]-g10c["Extranjera"]
g10 = pd.concat([g10,g10c],axis=1)
g10

Unnamed: 0_level_0,nacionalidad,Nacional,Extranjera,Otras,ext/nal*100,Nacional,Extranjera,Otras,Dif_Nal-Ext
año,tamano_activos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2019,1. Microempresa,229559.0,8323.0,208.0,3.6,1.7,1.5,1.0,0.2
2019,2. Pequeña,370202.0,17570.0,655.0,4.7,11.0,8.9,7.0,2.1
2019,3. Mediana,477137.0,35645.0,3564.0,7.5,50.9,40.3,99.0,10.6
2019,4. Grande,938071.0,189232.0,7353.0,20.2,314.4,329.1,350.1,-14.7
2020,1. Microempresa,292427.0,7671.0,208.0,2.6,2.3,1.6,1.4,0.7
2020,2. Pequeña,541866.0,17482.0,1210.0,3.2,16.2,8.9,12.6,7.3
2020,3. Mediana,510777.0,37174.0,4003.0,7.3,54.1,39.8,143.0,14.3
2020,4. Grande,1007146.0,254610.0,7223.0,25.3,331.0,422.2,344.0,-91.3
2021,1. Microempresa,1604303.0,8552.0,201.0,0.5,12.1,1.7,1.3,10.4
2021,2. Pequeña,559379.0,18492.0,868.0,3.3,16.2,9.1,9.0,7.1


In [23]:
# datos adicionales, siguen el consecutivo del último elemento (no se incluye en el excel exportado)
# ##Tabla 3.3 Empleos en empresas vigentes creadas por nacionalidad en Bogotá, 2019-2022
pd.options.display.float_format = '{:.1f}'.format 
g28 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["creadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'numero_empleados', index= ['año','nacionalidad'],
    aggfunc=np.sum, margins = False)
g28 = g28.reset_index().set_index(['año','nacionalidad']).unstack(level=[1])
g28 = g28.loc[:,[('numero_empleados','Nacional'),
        ('numero_empleados', 'Extranjera'),
        ('numero_empleados', 'Otras')]]
g28.columns = g28.columns.droplevel(0)
g28["ext/nal*100"] = (g28["Extranjera"]/g28["Nacional"])*100
# cantidad empresas vigentes (creadas, renovadas) por tamaño
g28b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["creadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad'],
    aggfunc=np.size, margins = False)
g28b = g28b.reset_index().set_index(['año','nacionalidad']).unstack(level=[1])
g28b = g28b.loc[:,[('num_matricula','Nacional'),
        ('num_matricula', 'Extranjera'),
        ('num_matricula', 'Otras')]]
g28b.columns = g28b.columns.droplevel(0)

g28c = g28.iloc[:,:3]/ g28b
g28c["Dif_Nal-Ext"] = g28c["Nacional"]-g28c["Extranjera"]
g28 = pd.concat([g28,g28c],axis=1)
g28

nacionalidad,Nacional,Extranjera,Otras,ext/nal*100,Nacional,Extranjera,Otras,Dif_Nal-Ext
año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019,41516.0,2589.0,11.0,6.2,1.7,1.8,0.6,-0.1
2020,48661.0,1654.0,19.0,3.4,2.3,1.6,1.1,0.7
2021,40648.0,1473.0,27.0,3.6,1.8,1.1,2.2,0.6
2022,36029.0,1583.0,973.0,4.4,1.6,1.1,29.5,0.5


In [24]:
# obj 11
# ##Tabla 3.4 Empleos por sector de empresa vigente y creadas y nacionalidad en Bogotá, 2019-2022
g11 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'numero_empleados', index= ['año','nacionalidad', 'macro_sec'],
    aggfunc=np.sum, margins = False)
g11 = g11.reset_index().set_index(['año','nacionalidad', 'macro_sec']).unstack(level=[1])
g11 = g11.loc[:,[('numero_empleados','Nacional'),
        ('numero_empleados', 'Extranjera'),
        ('numero_empleados', 'Otras')]]
g11.columns = g11.columns.droplevel(0)
g11["ext/nal*100"] = (g11["Extranjera"]/g11["Nacional"])*100
# cantidad empresas vigentes (creadas, renovadas) por sector
g11b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'num_matricula', index= ['año','nacionalidad', 'macro_sec'],
    aggfunc=np.size, margins = False)
g11b = g11b.reset_index().set_index(['año','nacionalidad', 'macro_sec']).unstack(level=[1])
g11b = g11b.loc[:,[('num_matricula','Nacional'),
        ('num_matricula', 'Extranjera'),
        ('num_matricula', 'Otras')]]
g11b.columns = g11b.columns.droplevel(0)

g11c = g11.iloc[:,:3]/ g11b
g11c["Dif_Nal-Ext"] = g11c["Nacional"]-g11c["Extranjera"]
g11 = pd.concat([g11,g11c],axis=1)
g11

Unnamed: 0_level_0,nacionalidad,Nacional,Extranjera,Otras,ext/nal*100,Nacional,Extranjera,Otras,Dif_Nal-Ext
año,macro_sec,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2019,Agricultura,140464.0,13669.0,125.0,9.7,29.7,31.5,6.2,-1.8
2019,Comercio,477053.0,82525.0,3442.0,17.3,10.1,28.0,51.4,-17.8
2019,Construcción,131709.0,11674.0,39.0,8.9,6.9,22.8,1.6,-15.9
2019,Industria,254115.0,27386.0,54.0,10.8,11.9,45.3,2.3,-33.4
2019,Servicios,1011620.0,115516.0,8118.0,11.4,11.2,25.4,36.9,-14.3
2020,Agricultura,146271.0,15423.0,144.0,10.5,33.3,41.2,7.6,-7.9
2020,Comercio,529305.0,99108.0,3805.0,18.7,11.8,37.9,70.5,-26.1
2020,Construcción,273336.0,16962.0,44.0,6.2,16.1,36.9,2.1,-20.8
2020,Industria,272499.0,30542.0,142.0,11.2,13.7,55.3,8.9,-41.6
2020,Servicios,1130799.0,154902.0,8509.0,13.7,13.2,36.6,47.0,-23.4


### Productividad

Se eliminan los datos menores al percentil 1 % y mayores al 99 % como tratamiento de outliers, tanto para el ROE y el ROA. Los valores de corte se indentifican sobre el total de datos del periodo 2019-2022. De esta manera, para el ROE los valores de corte son: -2.16 y 16,47; y para el ROA: -1,25 y 2,49.

In [25]:
## Calcular el percentil 1 % y 99 % incluyendo el percentil
percentiles = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")]
percentiles = percentiles.reset_index(drop=True)
## ROA
print('ROA 1 %:', round(percentiles["ROA"].quantile(0.01),2))
print('ROA 99 %:', round(percentiles["ROA"].quantile(0.99),2)) 
## ROE
print('ROE 1 %:', round(percentiles["ROE"].quantile(0.01),2))
print('ROE 99 %:', round(percentiles["ROE"].quantile(0.99),2))  
#otra menera:
#ar = np.array(percentiles["ROE"])
# a = np.nanpercentile(ar, 99, method='linear', axis= 0)
# print(a)

ROA 1 %: -1.25
ROA 99 %: 2.49
ROE 1 %: -2.16
ROE 99 %: 16.47


In [26]:
# obj 12
#Tabla 3.5 ROE y ROA de las empresas vigentes (renovadas) por nacionalidad, en Bogotá, 2019-2022
#ROE
g12 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") & 
                    (cr_can_re_19_22['ROE']> -2.16) & 
                      (cr_can_re_19_22['ROE']< 16.47)].pivot_table(
                     values= 'ROE', index= ['año','nacionalidad'], 
    aggfunc=[np.mean, np.median], margins = False)
g12 = g12.reset_index().set_index(['año','nacionalidad']).unstack(level=[1])
g12 = g12*100
g12["dif_nal-ext"] = g12[('mean','ROE','Nacional')] - g12[('mean','ROE', 'Extranjera')]
g12 = g12.loc[:,[('mean','ROE','Nacional'),
        ('mean','ROE', 'Extranjera'),
        ('mean','ROE', 'Otras'),
        ('dif_nal-ext','', ''),    
         ('median','ROE','Nacional'),
        ('median','ROE', 'Extranjera'),
        ('median','ROE', 'Otras')]]
# #ROA
g12b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") & 
                    (cr_can_re_19_22['ROA']> -1.25) & 
                      (cr_can_re_19_22['ROA']< 2.49)].pivot_table(
                     values= 'ROA', index= ['año','nacionalidad'], 
                        aggfunc=[np.mean, np.median], margins = False)
g12b = g12b.reset_index().set_index(['año','nacionalidad']).unstack(level=[1])

g12b = g12b*100
g12b["dif_nal-ext2"] = g12b[('mean','ROA','Nacional')] - g12b[('mean','ROA', 'Extranjera')]
g12b= g12b.loc[:,[('mean','ROA','Nacional'),
        ('mean','ROA', 'Extranjera'),
        ('mean','ROA', 'Otras'),
        ('dif_nal-ext2','', ''),
         ('median','ROA','Nacional'),
        ('median','ROA', 'Extranjera'),
        ('median','ROA', 'Otras')]]
#concat
g12 = pd.concat([g12, g12b], axis=0)
g12

Unnamed: 0_level_0,dif_nal-ext,dif_nal-ext2,mean,mean,mean,mean,mean,mean,median,median,median,median,median,median
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,ROA,ROA,ROA,ROE,ROE,ROE,ROA,ROA,ROA,ROE,ROE,ROE
nacionalidad,Unnamed: 1_level_2,Unnamed: 2_level_2,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras
año,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3
2019,-0.9,,,,,19.0,18.1,15.3,,,,0.0,0.0,0.0
2020,-2.1,,,,,23.1,21.1,19.3,,,,0.0,0.4,0.3
2021,-2.8,,,,,22.4,19.6,12.5,,,,0.0,0.0,0.0
2022,-1.6,,,,,23.9,22.3,13.5,,,,0.0,0.0,0.0
2019,,4.7,4.9,9.6,4.7,,,,0.0,0.0,0.0,,,
2020,,5.1,5.4,10.5,7.0,,,,0.0,0.0,0.3,,,
2021,,4.0,5.0,9.0,4.9,,,,0.0,0.0,0.0,,,
2022,,5.1,5.5,10.6,6.2,,,,0.0,0.0,0.0,,,


### P-value of t-test

In [27]:
# obj 13
# ##Tabla 3.5 pvalue- dif ROE y dif ROA de las empresas vigentes (renovadas) en Bogotá, 2019-2022
pd.options.display.float_format = '{:.10f}'.format 

#base de filtros empresa vigentes (renovdas)
g13d = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente")]
### ROE
from scipy.stats import ttest_ind
#function ROE
def ttest_pvalue_ROE(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROE
rROE = g13d[(g13d['ROE']> -2.16) & 
                      (g13d['ROE']< 16.47)].groupby('año').apply(ttest_pvalue_ROE)
rROE["ind"] = "dif_ROE_nal_ext"

# ROA
def ttest_pvalue_ROA(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROA
rROA = g13d[(g13d['ROA']> -1.25) & 
                      (g13d['ROA']< 2.49)].groupby('año').apply(ttest_pvalue_ROA)
rROA["ind"] = "dif_ROA_nal_ext"
g13 = pd.concat([rROE, rROA], axis= 0)
g13

Unnamed: 0_level_0,t_test,pvalue,ind
año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,-0.9558413741,0.3391773918,dif_ROE_nal_ext
2020,-1.8280593206,0.0675762165,dif_ROE_nal_ext
2021,-2.3785025205,0.0174044843,dif_ROE_nal_ext
2022,-1.4448399758,0.1485370304,dif_ROE_nal_ext
2019,15.5893038161,0.0,dif_ROA_nal_ext
2020,16.5423638109,0.0,dif_ROA_nal_ext
2021,12.3472020365,0.0,dif_ROA_nal_ext
2022,16.7128999638,0.0,dif_ROA_nal_ext


In [28]:
# obj 14
# diferencia por tamaño ROE
pd.options.display.float_format = '{:.1f}'.format 
g14 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") & 
                    (cr_can_re_19_22['ROE']> -2.16) & 
                      (cr_can_re_19_22['ROE']< 16.47)].pivot_table(
                     values= 'ROE', index= ['año','nacionalidad', 'tamano_activos'], 
    aggfunc=[np.mean], margins = False)
g14 = g14.reset_index().set_index(['año','nacionalidad', 'tamano_activos']).unstack(level=[1])
g14 = g14*100
g14["dif_nal-ext"] = g14[('mean','ROE','Nacional')] - g14[('mean','ROE', 'Extranjera')]
g14 = g14.loc[:,[('dif_nal-ext','','')]]
g14.columns = g14.columns.droplevel([1,2])
g14 = g14.unstack(level=[1])
g14

Unnamed: 0_level_0,dif_nal-ext,dif_nal-ext,dif_nal-ext,dif_nal-ext
tamano_activos,1. Microempresa,2. Pequeña,3. Mediana,4. Grande
año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2019,3.5,-10.2,-10.6,-5.9
2020,4.4,-14.3,-10.2,-14.9
2021,4.5,-15.3,-15.0,-16.2
2022,4.2,-12.3,-10.8,-16.1


In [29]:
# obj 15
# diferencia por tamaño ROA
pd.options.display.float_format = '{:.1f}'.format 
g15 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") & 
                    (cr_can_re_19_22['ROA']> -1.25) & 
                      (cr_can_re_19_22['ROA']< 2.49)].pivot_table(
                     values= 'ROA', index= ['año','nacionalidad', 'tamano_activos'], 
    aggfunc=[np.mean], margins = False)
g15 = g15.reset_index().set_index(['año','nacionalidad', 'tamano_activos']).unstack(level=[1])
g15 = g15*100
g15["dif_nal-ext"] = g15[('mean','ROA','Nacional')] - g15[('mean','ROA', 'Extranjera')]
g15 = g15.loc[:,[('dif_nal-ext','','')]]
g15.columns = g15.columns.droplevel([1,2])
g15 = g15.unstack(level=[1])
g15

Unnamed: 0_level_0,dif_nal-ext,dif_nal-ext,dif_nal-ext,dif_nal-ext
tamano_activos,1. Microempresa,2. Pequeña,3. Mediana,4. Grande
año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2019,5.7,3.5,0.5,0.4
2020,6.8,2.7,0.7,0.2
2021,5.3,1.9,0.2,-0.3
2022,6.7,3.6,0.2,-1.2


In [30]:
# obj 16
#Tabla 3.6 ROE y ROA por tamtamano_activos y nacionalidad de las empresas en Bogotá, 2021
#ROE
g16 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                    (cr_can_re_19_22['ROE']> -2.16) & 
                      (cr_can_re_19_22['ROE']< 16.47)].pivot_table(
                     values= 'ROE', index= ['tamano_activos','nacionalidad'], 
    aggfunc=[np.mean, np.median], margins = False)
g16 = g16.reset_index().set_index(['tamano_activos','nacionalidad']).unstack(level=[1])
g16 = g16*100
g16["dif_nal-ext"] = g16[('mean','ROE','Nacional')] - g16[('mean','ROE', 'Extranjera')]
g16 = g16.loc[:,[('mean','ROE','Nacional'),
        ('mean','ROE', 'Extranjera'),
        ('mean','ROE', 'Otras'),
        ('dif_nal-ext','', ''),    
         ('median','ROE','Nacional'),
        ('median','ROE', 'Extranjera'),
        ('median','ROE', 'Otras')]]
# #ROA
g16b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                    (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                    (cr_can_re_19_22['ROA']> -1.25) & 
                      (cr_can_re_19_22['ROA']< 2.49)].pivot_table(
                     values= 'ROA', index= ['tamano_activos','nacionalidad'], 
                        aggfunc=[np.mean, np.median], margins = False)
g16b = g16b.reset_index().set_index(['tamano_activos','nacionalidad']).unstack(level=[1])

g16b = g16b*100
g16b["dif_nal-ext2"] = g16b[('mean','ROA','Nacional')] - g16b[('mean','ROA', 'Extranjera')]
g16b= g16b.loc[:,[('mean','ROA','Nacional'),
        ('mean','ROA', 'Extranjera'),
        ('mean','ROA', 'Otras'),
        ('dif_nal-ext2','', ''),
         ('median','ROA','Nacional'),
        ('median','ROA', 'Extranjera'),
        ('median','ROA', 'Otras')]]
# #concat
g16 = pd.concat([g16, g16b], axis=0)
g16

Unnamed: 0_level_0,dif_nal-ext,dif_nal-ext2,mean,mean,mean,mean,mean,mean,median,median,median,median,median,median
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,ROA,ROA,ROA,ROE,ROE,ROE,ROA,ROA,ROA,ROE,ROE,ROE
nacionalidad,Unnamed: 1_level_2,Unnamed: 2_level_2,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras
tamano_activos,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3
1. Microempresa,4.2,,,,,20.0,24.3,15.1,,,,0.0,0.0,0.0
2. Pequeña,-12.3,,,,,30.2,18.0,11.6,,,,9.7,7.6,1.0
3. Mediana,-10.8,,,,,25.1,14.3,12.2,,,,10.7,6.1,2.5
4. Grande,-16.1,,,,,33.1,16.9,11.2,,,,13.2,7.8,7.5
1. Microempresa,,6.7,4.2,10.9,7.5,,,,0.0,0.0,0.0,,,
2. Pequeña,,3.6,6.8,10.4,2.9,,,,3.1,5.2,1.1,,,
3. Mediana,,0.2,7.6,7.8,8.1,,,,4.8,3.8,1.3,,,
4. Grande,,-1.2,8.6,7.4,8.1,,,,4.9,3.9,4.1,,,


In [31]:
# obj 17
#Tabla 3.6 pvalue- dif ROE y dif ROA de las empresas vigentes (renovadas) en Bogotá, 2022
pd.options.display.float_format = '{:.10f}'.format 

#base de filtros empresa vigentes (renovdas)
g16d = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022]))]
### ROE
from scipy.stats import ttest_ind
#function ROE
def ttest_pvalue_ROE(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROE
rtROE = g16d[(g16d['ROE']> -2.16) & 
                      (g16d['ROE']< 16.47)].groupby('tamano_activos').apply(ttest_pvalue_ROE)
rtROE["ind"] = "dif_ROE_nal_ext"

# ROA
def ttest_pvalue_ROA(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROA
rtROA = g16d[(g16d['ROA']> -1.25) & 
                      (g16d['ROA']< 2.49)].groupby('tamano_activos').apply(ttest_pvalue_ROA)
rtROA["ind"] = "dif_ROA_nal_ext"
g17 = pd.concat([rtROE, rtROA], axis= 0)
g17

Unnamed: 0_level_0,t_test,pvalue,ind
tamano_activos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1. Microempresa,3.0105781611,0.002619577,dif_ROE_nal_ext
2. Pequeña,-4.9027712431,1.0178e-06,dif_ROE_nal_ext
3. Mediana,-3.4805978229,0.0005231533,dif_ROE_nal_ext
4. Grande,-3.167033195,0.0016106812,dif_ROE_nal_ext
1. Microempresa,16.4054305205,0.0,dif_ROA_nal_ext
2. Pequeña,5.4643051258,5.18e-08,dif_ROA_nal_ext
3. Mediana,0.2300811077,0.8180753837,dif_ROA_nal_ext
4. Grande,-1.4596817856,0.1447906824,dif_ROA_nal_ext


In [32]:
# obj 18
#Tabla 3.6 ROE y ROA para el totalde empresas vigentes por nacionalidad en Bogotá, 2021
#ROE
g18 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                (cr_can_re_19_22['ROE']> -2.16) & 
                (cr_can_re_19_22['ROE']< 16.47)].pivot_table(
                     values= 'ROE', index= ['nacionalidad'], 
    aggfunc=[np.mean, np.median], margins = False)
g18 = g18.reset_index().set_index(['nacionalidad']).stack([1]).unstack(0)
g18 = g18*100
g18["dif_nal-ext"] = g18[('mean','Nacional')] - g18[('mean','Extranjera')]
g18 = g18.loc[:,[('mean','Nacional'),
        ('mean', 'Extranjera'),
        ('mean', 'Otras'),
        ('dif_nal-ext',''),    
         ('median','Nacional'),
        ('median', 'Extranjera'),
        ('median', 'Otras')]]
# #ROA
g18b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                    (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                    (cr_can_re_19_22['ROA']> -1.25) & 
                      (cr_can_re_19_22['ROA']< 2.49)].pivot_table(
                     values= 'ROA', index= ['nacionalidad'], 
                        aggfunc=[np.mean, np.median], margins = False)
g18b = g18b.reset_index().set_index(['nacionalidad']).stack([1]).unstack(0)

g18b = g18b*100
g18b["dif_nal-ext"] = g18b[('mean','Nacional')] - g18b[('mean', 'Extranjera')]
g18b= g18b.loc[:,[('mean','Nacional'),
        ('mean', 'Extranjera'),
        ('mean', 'Otras'),
        ('dif_nal-ext',''),
         ('median','Nacional'),
        ('median', 'Extranjera'),
        ('median', 'Otras')]]
# #concat
g18 = pd.concat([g18, g18b], axis=0)
g18

Unnamed: 0_level_0,mean,mean,mean,dif_nal-ext,median,median,median
nacionalidad,Nacional,Extranjera,Otras,Unnamed: 4_level_1,Nacional,Extranjera,Otras
ROE,22.296656244,23.9270562137,13.5462456119,-1.6303999697,0.0,0.0,0.0
ROA,10.5971314868,5.5412182495,6.1725444032,5.0559132373,0.0,0.0,0.0


In [33]:
# obj 19
#Tabla 3.6 pvalue sobre la dif ROE y dif ROA del total de empresas vigentes (renovadas) en Bogotá, 2022
pd.options.display.float_format = '{:.10f}'.format 

#base de filtros empresa vigentes (renovdas)
g19d = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022]))]
### ROE
from scipy.stats import ttest_ind
#function ROE
def ttest_pvalue_ROE(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROE
rtROE = pd.DataFrame(ttest_pvalue_ROE(g19d[(g19d['ROE']> -2.16) & 
                      (g19d['ROE']< 16.47)]))
rtROE["ind"] = "dif_ROE_nal_ext"

# ROA
def ttest_pvalue_ROA(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROA
rtROA = pd.DataFrame(ttest_pvalue_ROA(g19d[(g19d['ROA']> -1.25) & 
                      (g19d['ROA']< 2.49)]))
rtROA["ind"] = "dif_ROA_nal_ext"
g19 = pd.concat([rtROE, rtROA], axis= 0)
g19.rename(columns={0:"Valor_prueba"}, inplace =True)
g19

Unnamed: 0,Valor_prueba,ind
t_test,-1.4448399758,dif_ROE_nal_ext
pvalue,0.1485370304,dif_ROE_nal_ext
t_test,16.7128999638,dif_ROA_nal_ext
pvalue,0.0,dif_ROA_nal_ext


In [34]:
# obj 20
#Tabla 3.7 ROE y ROA por macro_sec y nacionalidad de las empresas en Bogotá, 2021
pd.options.display.float_format = '{:.1f}'.format 
#ROE
g20 = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                    (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                    (cr_can_re_19_22['ROE']> -2.16) & 
                      (cr_can_re_19_22['ROE']< 16.47)].pivot_table(
                     values= 'ROE', index= ['macro_sec','nacionalidad'], 
    aggfunc=[np.mean, np.median], margins = False)
g20 = g20.reset_index().set_index(['macro_sec','nacionalidad']).unstack(level=[1])
g20 = g20*100
g20["dif_nal-ext"] = g20[('mean','ROE','Nacional')] - g20[('mean','ROE', 'Extranjera')]
g20 = g20.loc[:,[('mean','ROE','Nacional'),
        ('mean','ROE', 'Extranjera'),
        ('mean','ROE', 'Otras'),
        ('dif_nal-ext','', ''),    
         ('median','ROE','Nacional'),
        ('median','ROE', 'Extranjera'),
        ('median','ROE', 'Otras')]]
# #ROA
g20b = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                    (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022])) & 
                    (cr_can_re_19_22['ROA']> -1.25) & 
                      (cr_can_re_19_22['ROA']< 2.49)].pivot_table(
                     values= 'ROA', index= ['macro_sec','nacionalidad'], 
                        aggfunc=[np.mean, np.median], margins = False)
g20b = g20b.reset_index().set_index(['macro_sec','nacionalidad']).unstack(level=[1])

g20b = g20b*100
g20b["dif_nal-ext2"] = g20b[('mean','ROA','Nacional')] - g20b[('mean','ROA', 'Extranjera')]
g20b= g20b.loc[:,[('mean','ROA','Nacional'),
        ('mean','ROA', 'Extranjera'),
        ('mean','ROA', 'Otras'),
        ('dif_nal-ext2','', ''),
         ('median','ROA','Nacional'),
        ('median','ROA', 'Extranjera'),
        ('median','ROA', 'Otras')]]
# #concat
g20 = pd.concat([g20, g20b], axis=0)
g20

Unnamed: 0_level_0,dif_nal-ext,dif_nal-ext2,mean,mean,mean,mean,mean,mean,median,median,median,median,median,median
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,ROA,ROA,ROA,ROE,ROE,ROE,ROA,ROA,ROA,ROE,ROE,ROE
nacionalidad,Unnamed: 1_level_2,Unnamed: 2_level_2,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras,Extranjera,Nacional,Otras
macro_sec,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3
Agricultura,-5.5,,,,,20.4,14.9,38.8,,,,0.1,0.0,0.0
Comercio,1.2,,,,,21.1,22.2,12.7,,,,0.0,0.2,0.0
Construcción,-6.8,,,,,31.4,24.6,15.1,,,,0.2,0.0,0.0
Industria,-4.7,,,,,29.7,25.0,-0.2,,,,0.0,1.7,0.0
Servicios,-2.8,,,,,24.4,21.6,12.8,,,,0.0,0.0,0.0
Agricultura,,2.6,2.8,5.3,-0.6,,,,0.0,0.0,0.0,,,
Comercio,,4.4,6.1,10.4,5.0,,,,0.0,0.0,0.0,,,
Construcción,,8.7,2.6,11.3,5.8,,,,0.0,0.0,0.0,,,
Industria,,8.5,3.3,11.8,20.4,,,,0.0,1.2,2.8,,,
Servicios,,4.5,6.0,10.6,5.8,,,,0.0,0.0,0.0,,,


In [35]:
# obj 21
#Tabla 3.7 pvalue- dif ROE y dif ROA de las empresas vigentes (renovadas) en Bogotá, 2019-2022
pd.options.display.float_format = '{:.10f}'.format 

#base de filtros empresa vigentes (renovdas)
g21d = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) & 
                (cr_can_re_19_22['tipo empresa'].isin(["renovadas"])) &
                (cr_can_re_19_22['vigencia']=="Vigente") &
                (cr_can_re_19_22['ano_renova'].isin([2022]))]
### ROE
from scipy.stats import ttest_ind
#function ROE
def ttest_pvalue_ROE(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROE'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROE'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROE
rsROE = g21d[(g21d['ROE']> -2.16) & 
                      (g21d['ROE']< 16.47)].groupby('macro_sec').apply(ttest_pvalue_ROE)
rsROE["ind"] = "dif_ROE_nal_ext"

# ROA
def ttest_pvalue_ROA(df):
    t_test = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[0]
    pvalue = ttest_ind(df[df['nacionalidad'] == 'Nacional']['ROA'], 
                       df[df['nacionalidad'] == 'Extranjera']['ROA'], 
                       equal_var=False)[1]
    return pd.Series({'t_test': t_test, 'pvalue': pvalue})
#filtros ROA
rsROA = g21d[(g21d['ROA']> -1.25) & 
                      (g21d['ROA']< 2.49)].groupby('macro_sec').apply(ttest_pvalue_ROA)
rsROA["ind"] = "dif_ROA_nal_ext"
g21 = pd.concat([rsROE, rsROA], axis= 0)
g21

Unnamed: 0_level_0,t_test,pvalue,ind
macro_sec,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Agricultura,-1.0699066133,0.2853422454,dif_ROE_nal_ext
Comercio,0.720689863,0.4711576728,dif_ROE_nal_ext
Construcción,-1.0503024992,0.2941161894,dif_ROE_nal_ext
Industria,-0.792087793,0.4286346383,dif_ROE_nal_ext
Servicios,-1.7581120755,0.0787910039,dif_ROE_nal_ext
Agricultura,1.6672096035,0.0963051926,dif_ROA_nal_ext
Comercio,8.0702837229,0.0,dif_ROA_nal_ext
Construcción,7.3332937824,0.0,dif_ROA_nal_ext
Industria,6.9976333488,0.0,dif_ROA_nal_ext
Servicios,10.7942067267,0.0,dif_ROA_nal_ext


### Resultados corte-stock

In [36]:
ccb_19_22.columns

Index(['num_matricula', 'vigencia', 'fec_matricula', 'año_matricula',
       'fec_vigencia', 'fec_cancelacion', 'año_cancelacion', 'tipo_disolucion',
       'fec_disolucion', 'fec_renova', 'ano_renova', 'nombre', 'tipo_persona',
       'direccion_comercial', 'id_municipio_comercial',
       'cantidad_establecimientos', 'organizacion_juridica', 'rep_legal',
       'tipo_id_replegal', 'estado_matricula', 'resultado_periodo',
       'utilidad_perdida_operacional', 'activo_total', 'pasivo_total',
       'patrimonio_neto', 'tamano_activos', 'tamano_ingresos',
       'numero_empleados', 'importador_exportador', 'ciiu_1', 'sectores_pib',
       'sectores_14', 'macro_sec', 'codloc', 'localidad', 'codupz', 'nomupz',
       'longitude', 'latitude', 'corte', 'sexo', 'nacionalidad', 'ROA', 'ROE'],
      dtype='object')

In [37]:
#inicio obj 22
#Tabla 3.8 Empresas vigentes por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas por grupo en Bogotá, 2019-2022 
pd.options.display.float_format = '{:.0f}'.format 
g22a = ccb_19_22[(ccb_19_22['estado_matricula']=="MA") & 
               (ccb_19_22['tipo_persona']== 2) & 
               (ccb_19_22['vigencia']=="Vigente")].pivot_table(
    values= 'num_matricula', index= ['corte','ciiu_1', 'macro_sec'], columns= ['nacionalidad'],
    aggfunc=np.size, margins = False)
g22a = g22a.iloc[:,[1,0,2]].reset_index()
g22a.columns.name = None
g22a["ciiu_1"] = g22a["ciiu_1"].astype(int)
g22a["ciiu_1"] = g22a["ciiu_1"].astype(str).str.zfill(4) 

In [38]:
#cargue listado ciiu a 4 dígitos
l_ciiu = pd.read_excel("G:/Unidades compartidas/Datos y procesamientos 2023/CCB/Datos/Listado_CIIU_4D.xlsx")  

In [39]:
#agregar cero a la izquierda y borrar variable duplicada
l_ciiu.drop(columns="Clase.1", inplace =True)
l_ciiu["Clase"] = l_ciiu["Clase"].astype(str).str.zfill(4) 

In [40]:
# continuación obj 22
#Tabla 3.8 Empresas vigentes por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas por grupo en Bogotá, 2019-2022  
#concatenar, reorganizar variables, ordenar por año y seleccionar los primeros 5
pd.options.display.float_format = '{:.1f}'.format 
g22b = g22a.merge(l_ciiu, how="left", left_on="ciiu_1", right_on="Clase", validate="m:1")
g22b = g22b.iloc[:,[0,1,7,2,3,4,5]]
#lista años
l_anos = [2019, 2020, 2021, 2022]

for i, j in zip(l_anos, range(19,23)):
    msk = g22b["corte"]==i
    exec('g22b_{} = g22b[msk==True]'.format(j))
    exec('g22b_{}.reset_index(drop =True, inplace = True)'.format(j))
    ##imprimir total de empresas vigentes nacioanles y extranjeras
    exec('print("Nal 20{}", g22b_{}["Nacional"].sum())'.format(j,j))
    exec('print("Ext 20{}", g22b_{}["Extranjera"].sum())'.format(j,j))
    # crear variable de participación
    exec('g22b_{}["%nal"] = (g22b_{}["Nacional"] /g22b_{}["Nacional"].sum())*100'.format(j,j,j))
    exec('g22b_{}["%ext"] = (g22b_{}["Extranjera"] /g22b_{}["Extranjera"].sum())*100'.format(j,j,j))
    #ordenar por # empresas extranjeras
    exec('g22b_{} = g22b_{}.sort_values(by="%ext", ascending=False).reset_index(drop =True).head(5)'.format(j,j)) 
g22 = pd.concat([g22b_19, g22b_20, g22b_21, g22b_22], axis=0)
g22

Nal 2019 182709.0
Ext 2019 9042.0
Nal 2020 171634.0
Ext 2020 8229.0
Nal 2021 179751.0
Ext 2021 8678.0
Nal 2022 186792.0
Ext 2022 8923.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Unnamed: 0,corte,ciiu_1,Descripción,macro_sec,Nacional,Extranjera,Otras,%nal,%ext
0,2019,7020,Actividades de consultoría de gestión,Servicios,9291.0,521.0,15.0,5.1,5.8
1,2019,6810,Actividades inmobiliarias realizadas con biene...,Servicios,10762.0,371.0,75.0,5.9,4.1
2,2019,6201,Actividades de desarrollo de sistemas informát...,Servicios,3447.0,353.0,3.0,1.9,3.9
3,2019,4659,Comercio al por mayor de otros tipos de maquin...,Comercio,2519.0,291.0,3.0,1.4,3.2
4,2019,6202,Actividades de consultoría informática y activ...,Servicios,2431.0,286.0,3.0,1.3,3.2
0,2020,7020,Actividades de consultoría de gestión,Servicios,8762.0,487.0,10.0,5.1,5.9
1,2020,6201,Actividades de desarrollo de sistemas informát...,Servicios,3495.0,353.0,2.0,2.0,4.3
2,2020,6810,Actividades inmobiliarias realizadas con biene...,Servicios,10181.0,349.0,53.0,5.9,4.2
3,2020,7110,Actividades de arquitectura e ingeniería y otr...,Servicios,6100.0,286.0,6.0,3.6,3.5
4,2020,4659,Comercio al por mayor de otros tipos de maquin...,Comercio,2421.0,273.0,2.0,1.4,3.3


In [41]:
#inicio obj 23
#Tabla 3.9 Empresas  vigentes por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas en Bogotá, 2019-2021
pd.options.display.float_format = '{:.0f}'.format 
g23a = g22a.copy()
#sumar saltandose los nulos
g23a["Total"] = g23a[['Nacional', 'Extranjera', 'Otras']].sum(skipna=True, axis=1)
g23a = g23a.iloc[:,[0,1,2,6,3,4,5]]

In [42]:
#fin obj 23
#Tabla 3.9 Empresas  vigentes por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas en Bogotá, 2019-2021
#concatenar, reorganizar variables, ordenar por año y seleccionar los primeros 5
pd.options.display.float_format = '{:.1f}'.format 
g23b = g23a.merge(l_ciiu, how="left", left_on="ciiu_1", right_on="Clase", validate="m:1")
g23b = g23b.iloc[:,[0,1,8,2,3,4,5]]
#lista años
l_anos = [2019, 2020, 2021, 2022]

for i, j in zip(l_anos, range(19,23)):
    msk = g23b["corte"]==i
    exec('g23b_{} = g23b[msk==True]'.format(j))
    exec('g23b_{}.reset_index(drop =True, inplace = True)'.format(j))
    exec('g23b_{}["%nal"] = (g23b_{}["Nacional"] /g23b_{}["Total"])*100'.format(j,j,j))
    exec('g23b_{}["%ext"] = (g23b_{}["Extranjera"] /g23b_{}["Total"])*100'.format(j,j,j))
    #filtrar las empresas totales mayor a 100 en cda año
    exec('g23b_{} = g23b_{}[g23b_{}["Total"]>100]'.format(j,j,j))
    #ordenar por # empresas extranjeras
    exec('g23b_{} = g23b_{}.sort_values(by="%ext", ascending=False).reset_index(drop =True).head(5)'.format(j,j)) 
g23 = pd.concat([g23b_19, g23b_20, g23b_21, g23b_22], axis=0)
g23

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Unnamed: 0,corte,ciiu_1,Descripción,macro_sec,Total,Nacional,Extranjera,%nal,%ext
0,2019,610,Extracción de petróleo crudo,Agricultura,164.0,84.0,78.0,51.2,47.6
1,2019,910,Actividades de apoyo para la extracción de pet...,Agricultura,477.0,332.0,145.0,69.6,30.4
2,2019,3511,Generación de energía eléctrica,Servicios,354.0,252.0,102.0,71.2,28.8
3,2019,4632,Comercio al por mayor de bebidas y tabaco,Comercio,292.0,245.0,47.0,83.9,16.1
4,2019,4210,Construcción de carreteras y vías de ferrocarril,Construcción,640.0,545.0,94.0,85.2,14.7
0,2020,610,Extracción de petróleo crudo,Agricultura,147.0,77.0,67.0,52.4,45.6
1,2020,3511,Generación de energía eléctrica,Servicios,344.0,233.0,107.0,67.7,31.1
2,2020,910,Actividades de apoyo para la extracción de pet...,Agricultura,413.0,286.0,127.0,69.2,30.8
3,2020,4632,Comercio al por mayor de bebidas y tabaco,Comercio,257.0,217.0,40.0,84.4,15.6
4,2020,6120,Actividades de telecomunicaciones inalámbricas,Servicios,191.0,163.0,28.0,85.3,14.7


### Año - flujo

In [43]:
# inicio obj 24
#Tabla 3.10 Creación neta de empresas por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas por grupo en Bogotá, 2019-2021
pd.options.display.float_format = '{:.0f}'.format 
#Creadas
g24cr = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MA") & 
               (cr_can_re_19_22['tipo_persona']== 2) &
                (cr_can_re_19_22['tipo empresa'].isin(["creadas","canceladas"])) &
               (cr_can_re_19_22['ano_renova'].isin([2019,2020,2021,2022]))].pivot_table(
    values= 'num_matricula', index= ['año','ciiu_1', 'macro_sec'], columns= ['nacionalidad'],
    aggfunc=np.size, margins = False)
g24cr = g24cr.iloc[:,[1,0,2]]
# #canceladas
g24can = cr_can_re_19_22[(cr_can_re_19_22['estado_matricula']=="MC") & 
               (cr_can_re_19_22['tipo_persona']== 2) &
                (cr_can_re_19_22['tipo empresa'].isin(["creadas","canceladas"])) &
               (cr_can_re_19_22['ano_renova'].isin([2019,2020,2021,2022]))].pivot_table(
    values= 'num_matricula', index= ['año','ciiu_1', 'macro_sec'], columns= ['nacionalidad'],
    aggfunc=np.size, margins = False)
g24can = g24can.iloc[:,[1,0,2]]

# #creación neta
g24cr_neta = g24cr - g24can 
g24cr_neta = g24cr_neta.reset_index()
g24cr_neta.columns.name = None
g24cr_neta["ciiu_1"] = g24cr_neta["ciiu_1"].astype(int)
g24cr_neta["ciiu_1"] = g24cr_neta["ciiu_1"].astype(str).str.zfill(4) 

In [44]:
# fin obj 24
#Tabla 3.10 Creación neta de empresas por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas por grupo en Bogotá, 2019-2021
pd.options.display.float_format = '{:.1f}'.format 
g24cr_neta_a = g24cr_neta.merge(l_ciiu, how="left", left_on="ciiu_1", right_on="Clase", validate="m:1")
g24cr_neta_a = g24cr_neta_a.iloc[:,[0,1,7,2,3,4,5]]
# #lista años
l_anos = [2019, 2020, 2021, 2022]

for i, j in zip(l_anos, range(19,23)):
    msk = g24cr_neta_a["año"]==i
    exec('g24cr_neta_a{} = g24cr_neta_a[msk==True]'.format(j))
    exec('g24cr_neta_a{}.reset_index(drop =True, inplace = True)'.format(j))
    #imprimir totales
    exec('print("Nal 20{}", g24cr_neta_a{}["Nacional"].sum())'.format(j,j))
    exec('print("Ext 20{}", g24cr_neta_a{}["Extranjera"].sum())'.format(j,j))
    #crear variables de participación
    exec('g24cr_neta_a{}["%nal"] = (g24cr_neta_a{}["Nacional"] /g24cr_neta_a{}["Nacional"].sum())*100'.format(j,j,j))
    exec('g24cr_neta_a{}["%ext"] = (g24cr_neta_a{}["Extranjera"] /g24cr_neta_a{}["Extranjera"].sum())*100'.format(j,j,j))
    #ordenar por # empresas extranjeras
    exec('g24cr_neta_a{} = g24cr_neta_a{}.sort_values(by="%ext", ascending=False).reset_index(drop =True).head(5)'.format(j,j)) 
g24cr_neta_a19_22 = pd.concat([g24cr_neta_a19, g24cr_neta_a20, g24cr_neta_a21, g24cr_neta_a22], axis=0)
g24 = g24cr_neta_a19_22.copy()
g24

Nal 2019 21304.0
Ext 2019 683.0
Nal 2020 17229.0
Ext 2020 494.0
Nal 2021 17924.0
Ext 2021 751.0
Nal 2022 17512.0
Ext 2022 803.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Unnamed: 0,año,ciiu_1,Descripción,macro_sec,Nacional,Extranjera,Otras,%nal,%ext
0,2019,7020,Actividades de consultoría de gestión,Servicios,1184.0,88.0,,5.6,12.9
1,2019,6201,Actividades de desarrollo de sistemas informát...,Servicios,685.0,77.0,,3.2,11.3
2,2019,5611,Expendio a la mesa de comidas preparadas,Comercio,299.0,46.0,,1.4,6.7
3,2019,7310,Publicidad,Servicios,641.0,38.0,,3.0,5.6
4,2019,6202,Actividades de consultoría informática y activ...,Servicios,241.0,37.0,,1.1,5.4
0,2020,6201,Actividades de desarrollo de sistemas informát...,Servicios,602.0,62.0,,3.5,12.6
1,2020,7020,Actividades de consultoría de gestión,Servicios,749.0,38.0,,4.3,7.7
2,2020,6810,Actividades inmobiliarias realizadas con biene...,Servicios,641.0,29.0,,3.7,5.9
3,2020,7110,Actividades de arquitectura e ingeniería y otr...,Servicios,473.0,23.0,,2.7,4.7
4,2020,6202,Actividades de consultoría informática y activ...,Servicios,223.0,20.0,,1.3,4.0


In [45]:
# inicio obj 25
#Tabla 3.11 Creación neta de empresas por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas en Bogotá, 2019-2021
pd.options.display.float_format = '{:.0f}'.format 
g25_c_n = g24cr_neta.copy()
#sumar saltandose los nulos
g25_c_n["Total"] = g25_c_n[['Nacional', 'Extranjera', 'Otras']].sum(skipna=True, axis=1)
g25_c_n = g25_c_n.iloc[:,[0,1,2,6,3,4,5]]

In [46]:
# fin obj 25
#Tabla 3.9 Empresas  vigentes por CIIU a 4 dígitos, macro sector y nacionalidad respecto al total de empresas en Bogotá, 2019-2021
#concatenar, reorganizar variables, ordenar por año y seleccionar los primeros 5
pd.options.display.float_format = '{:.1f}'.format 
g25a = g25_c_n.merge(l_ciiu, how="left", left_on="ciiu_1", right_on="Clase", validate="m:1")
g25a = g25a.iloc[:,[0,1,8,2,3,4,5]]
#lista años
l_anos = [2019, 2020, 2021, 2022]

for i, j in zip(l_anos, range(19,23)):
    msk = g25a["año"]==i
    exec('g25a_{} = g25a[msk==True]'.format(j))
    exec('g25a_{}.reset_index(drop =True, inplace = True)'.format(j))
    exec('g25a_{}["%nal"] = (g25a_{}["Nacional"] /g25a_{}["Total"])*100'.format(j,j,j))
    exec('g25a_{}["%ext"] = (g25a_{}["Extranjera"] /g25a_{}["Total"])*100'.format(j,j,j))
    #filtrar las empresas totales mayor a 100 en cda año
    exec('g25a_{} = g25a_{}[g25a_{}["Total"]>80]'.format(j,j,j))
    #ordenar por # empresas extranjeras
    exec('g25a_{} = g25a_{}.sort_values(by="%ext", ascending=False).reset_index(drop =True).head(5)'.format(j,j)) 
g25a_19_22 = pd.concat([g25a_19, g25a_20, g25a_21, g25a_22], axis=0)
g25 = g25a_19_22.copy()
g25

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Unnamed: 0,año,ciiu_1,Descripción,macro_sec,Total,Nacional,Extranjera,%nal,%ext
0,2019,4659,Comercio al por mayor de otros tipos de maquin...,Comercio,192.0,160.0,32.0,83.3,16.7
1,2019,4652,"Comercio al por mayor de equipo, partes y piez...",Comercio,109.0,93.0,16.0,85.3,14.7
2,2019,5611,Expendio a la mesa de comidas preparadas,Comercio,345.0,299.0,46.0,86.7,13.3
3,2019,6202,Actividades de consultoría informática y activ...,Servicios,278.0,241.0,37.0,86.7,13.3
4,2019,4669,Comercio al por mayor de otros productos n.c.p.,Comercio,156.0,138.0,18.0,88.5,11.5
0,2020,6209,Otras actividades de tecnologías de informació...,Servicios,118.0,105.0,13.0,89.0,11.0
1,2020,5611,Expendio a la mesa de comidas preparadas,Comercio,169.0,151.0,18.0,89.3,10.7
2,2020,6201,Actividades de desarrollo de sistemas informát...,Servicios,664.0,602.0,62.0,90.7,9.3
3,2020,6202,Actividades de consultoría informática y activ...,Servicios,243.0,223.0,20.0,91.8,8.2
4,2020,8299,Otras actividades de servicio de apoyo a las e...,Servicios,180.0,167.0,13.0,92.8,7.2


### Exportar a Excel cada objeto gráfico

In [47]:
#actualizar versión de 'xlsxwriter'
#!pip3 install xlsxwriter==1.4.3 --upgrade
# import xlsxwriter 
# xlsxwriter.__version__

In [48]:
##guardar en un solo archivo excel con distintas pestañas
salida = "G:/Unidades compartidas/Inv.migración/Emprendimiento/datos/4_Output/datos_cap_3.xlsx"

#objeto para almacenar ruta  agregar pestañas
writer = pd.ExcelWriter(salida)
#listas de 2 a 23 objetos y nombres de 2 a 23 pestañas
obj = []
pes = []
for i in range(2,26):
    exec('obj.append(g{})'.format(i))
    pes.append('objeto_{}'.format(i))
# #Almacena cada gráfica en un solo excel
for i, j in zip(obj, pes):
    i.to_excel(writer, sheet_name = '{}'.format(j), header = True, index=True)
#writer.save()
writer.close()

In [49]:
pd.options.display.max_rows = None

In [50]:
pd.options.display.max_columns = None