In [2]:
# Cargamos las librerías que vamos a usar
import pandas as pd
import numpy as np

In [3]:
# Cargamos los datos de recaudación hasta noviembre del 2021
df = pd.read_excel('Data/Recaudación por actividad económica_Nov2021.xlsx', 
                   sheet_name='Data', engine='openpyxl',
                   dtype={'DESCRIPCIÓN_SECCIÓN': np.str,
                          'DESCRIPCIÓN_GRUPO': np.str,
                          'Recaudación a noviembre del 2021': np.float64
                         }
                  )
df.head(10)

Unnamed: 0,DESCRIPCIÓN_SECCIÓN,DESCRIPCIÓN_GRUPO,Recaudación a noviembre del 2021
0,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...,ACTIVIDADES DE ALOJAMIENTO.,17583380.0
1,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...,SERVICIO DE ALIMENTO Y BEBIDA.,106094700.0
2,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ASISTENCIA SOCIAL SIN ALOJAMIENTO.,8968093.0
3,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA.,216765400.0
4,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ATENCIÓN EN INSTITUCIONES.,7401450.0
5,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES; A...,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES DE...,655106.2
6,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES; A...,ACTIVIDADES NO DIFERENCIADAS DE LOS HOGARES CO...,49133.92
7,ACTIVIDADES DE ORGANIZACIONES Y ÓRGANOS EXTRAT...,ACTIVIDADES DE ORGANIZACIONES Y ÓRGANOS EXTRAT...,904481.8
8,ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE ...,ACTIVIDADES ADMINISTRATIVAS Y DE APOYO DE OFIC...,26371900.0
9,ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE ...,"ACTIVIDADES DE AGENCIAS DE VIAJES, OPERADORES ...",19399490.0


In [4]:
# Cargamos el detalle de desagregación por sector
codes = pd.read_excel('Data/Recaudación por actividad económica_Nov2021.xlsx',
                      sheet_name='code_list', engine='openpyxl'
                     )
codes.head(6)

Unnamed: 0,COD_SEC,div_0,div_1,div_2,div_alt,SECCIÓN
0,A,Agricultura,Industria,Agricultura,Agricultura,"AGRICULTURA, GANADERÍA, SILVICULTURA Y PESCA."
1,B,No Agricultura,Industria,"Minas y canteras; suministro de electricidad, ...","Minas y canteras; suministro de electricidad, ...",EXPLOTACIÓN DE MINAS Y CANTERAS.
2,C,No Agricultura,Industria,Fabricación,Fabricación,INDUSTRIAS MANUFACTURERAS.
3,D,No Agricultura,Industria,"Minas y canteras; suministro de electricidad, ...","Minas y canteras; suministro de electricidad, ...","SUMINISTRO DE ELECTRICIDAD, GAS, VAPOR Y AIRE ..."
4,E,No Agricultura,Industria,"Minas y canteras; suministro de electricidad, ...","Minas y canteras; suministro de electricidad, ...","DISTRIBUCIÓN DE AGUA; ALCANTARILLADO, GESTIÓN ..."
5,F,No Agricultura,Industria,Construcción,Construcción,CONSTRUCCIÓN.


In [5]:
# Leemos columnas para unir df y codes
df.columns

Index(['DESCRIPCIÓN_SECCIÓN', 'DESCRIPCIÓN_GRUPO',
       'Recaudación a noviembre del 2021'],
      dtype='object')

In [6]:
# Unimos
df_merge = df.merge(codes, right_on=['SECCIÓN'], left_on=['DESCRIPCIÓN_SECCIÓN'], suffixes=('_left', False))
df_merge.head(6)

Unnamed: 0,DESCRIPCIÓN_SECCIÓN,DESCRIPCIÓN_GRUPO,Recaudación a noviembre del 2021,COD_SEC,div_0,div_1,div_2,div_alt,SECCIÓN
0,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...,ACTIVIDADES DE ALOJAMIENTO.,17583380.0,I,No Agricultura,Servicios,Servicios de mercado (Comercio; Transporte; Al...,Servicios,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...
1,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...,SERVICIO DE ALIMENTO Y BEBIDA.,106094700.0,I,No Agricultura,Servicios,Servicios de mercado (Comercio; Transporte; Al...,Servicios,ACTIVIDADES DE ALOJAMIENTO Y DE SERVICIO DE CO...
2,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ASISTENCIA SOCIAL SIN ALOJAMIENTO.,8968093.0,Q,No Agricultura,Servicios,Servicios no comerciales (Administración públi...,Servicios,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...
3,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA.,216765400.0,Q,No Agricultura,Servicios,Servicios no comerciales (Administración públi...,Servicios,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...
4,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...,ACTIVIDADES DE ATENCIÓN EN INSTITUCIONES.,7401450.0,Q,No Agricultura,Servicios,Servicios no comerciales (Administración públi...,Servicios,ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y D...
5,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES; A...,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES DE...,655106.2,T,No Agricultura,Servicios,Servicios no comerciales (Administración públi...,Servicios,ACTIVIDADES DE LOS HOGARES COMO EMPLEADORES; A...


In [7]:
# Revisamos los nombres de las variables para crear los cuadros de resumen
df_merge.columns

Index(['DESCRIPCIÓN_SECCIÓN', 'DESCRIPCIÓN_GRUPO',
       'Recaudación a noviembre del 2021', 'COD_SEC', 'div_0', 'div_1',
       'div_2', 'div_alt', 'SECCIÓN'],
      dtype='object')

# Clasificación de la recaudación según CIIU

###  Ver en https://ilostat.ilo.org/es/resources/concepts-and-definitions/classification-economic-activities/
### Tabla Amplia concordancia de sector con la CIIU Rev. 2-4

In [8]:
# Recaudación por detalle de desagregación al nivel div_2
cuadro1 = df_merge.groupby(by=['div_1', 'div_2']).sum().reset_index()
cuadro1.head(6)

Unnamed: 0,div_1,div_2,Recaudación a noviembre del 2021
0,Industria,Agricultura,432210000.0
1,Industria,Construcción,220163900.0
2,Industria,Fabricación,2128066000.0
3,Industria,"Minas y canteras; suministro de electricidad, ...",1194528000.0
4,No clasificado,No clasificado,16316600.0
5,Servicios,Servicios de mercado (Comercio; Transporte; Al...,7678476000.0


In [8]:
# Recaudación por div_1
cuadro2 = df_merge.groupby(by=['div_1']).sum().reset_index()
cuadro2['Participación en la recaudación total (%)'] = 100*cuadro2['Recaudación a noviembre del 2021']/cuadro2['Recaudación a noviembre del 2021'].sum()
cuadro2['Recaudación a noviembre del 2021'] = cuadro2['Recaudación a noviembre del 2021']/10**6
cuadro2 = cuadro2.sort_values(by=['Participación en la recaudación total (%)'], ascending=False)
cuadro2

Unnamed: 0,div_1,Recaudación a noviembre del 2021,Participación en la recaudación total (%)
2,Servicios,8734.757271,68.636875
0,Industria,3974.967725,31.234911
1,No clasificado,16.316601,0.128214


In [9]:
# Unimos los cuadros para calcular la ponderación de div_2 respecto a div_1
cuadro1 = cuadro1.rename(columns = {'Recaudación a noviembre del 2021': 'Recaudación a noviembre del 2021, nivel2'}, inplace = False)
cuadro1 = cuadro1.merge(cuadro2, on='div_1')

In [10]:
# Obtenemos el porcentaje de redaudación por subsector (div_2)
cuadro1 = cuadro1.iloc[:, :-1]
cuadro1['Recaudación a noviembre del 2021, nivel2'] = cuadro1['Recaudación a noviembre del 2021, nivel2']/10**6
cuadro1['Descomposición sector'] = 100*cuadro1['Recaudación a noviembre del 2021, nivel2']/cuadro1['Recaudación a noviembre del 2021']
cuadro1

Unnamed: 0,div_1,div_2,"Recaudación a noviembre del 2021, nivel2",Recaudación a noviembre del 2021,Descomposición sector
0,Industria,Agricultura,432.210027,3974.967725,10.873297
1,Industria,Construcción,220.16392,3974.967725,5.53876
2,Industria,Fabricación,2128.0662,3974.967725,53.536691
3,Industria,"Minas y canteras; suministro de electricidad, ...",1194.527577,3974.967725,30.051252
4,No clasificado,No clasificado,16.316601,16.316601,100.0
5,Servicios,Servicios de mercado (Comercio; Transporte; Al...,7678.476467,8734.757271,87.907153
6,Servicios,Servicios no comerciales (Administración públi...,1056.280804,8734.757271,12.092847


In [13]:
cuadro1.div_2.values

array(['Agricultura', 'Construcción', 'Fabricación',
       'Minas y canteras; suministro de electricidad, gas y agua',
       'No clasificado',
       'Servicios de mercado (Comercio; Transporte; Alojamiento y alimentación; y Servicios comerciales y administrativos)',
       'Servicios no comerciales (Administración pública; servicios y actividades comunitarios, sociales y de otro tipo)'],
      dtype=object)

In [11]:
# Guardamos el cuadro
cuadro1.to_csv('Data/Recaudación.csv', decimal=',', encoding='utf-8')

# Recaudación según sector clasificación del INEC

In [9]:
# Recaudación por detalle de desagregación al nivel div_2
cuadro3 = df_merge.groupby(by=['div_alt']).sum().reset_index()
cuadro1.head(6)

Unnamed: 0,div_1,div_2,Recaudación a noviembre del 2021
0,Industria,Agricultura,432210000.0
1,Industria,Construcción,220163900.0
2,Industria,Fabricación,2128066000.0
3,Industria,"Minas y canteras; suministro de electricidad, ...",1194528000.0
4,No clasificado,No clasificado,16316600.0
5,Servicios,Servicios de mercado (Comercio; Transporte; Al...,7678476000.0


In [12]:
cuadro3['Participación en la recaudación total (%)'] = 100*cuadro3['Recaudación a noviembre del 2021']/cuadro3['Recaudación a noviembre del 2021'].sum()
cuadro3['Recaudación a noviembre del 2021'] = cuadro3['Recaudación a noviembre del 2021']/10**6
cuadro3 = cuadro3.sort_values(by=['Participación en la recaudación total (%)'], ascending=False)
cuadro3

Unnamed: 0,div_alt,Recaudación a noviembre del 2021,Participación en la recaudación total (%)
6,Servicios,5079.615194,39.915123
1,Comercio,3655.142077,28.721752
3,Fabricación,2128.0662,16.722138
4,"Minas y canteras; suministro de electricidad, ...",1194.527577,9.386482
0,Agricultura,432.210027,3.396264
2,Construcción,220.16392,1.730027
5,No clasificado,16.316601,0.128214
