# Introduccion

Este notebook contiene los procesos que se han realizado para acceder a las bases de datos del REGISTRO UNICO EMPRESARIAL para carturar información sobre las empresas (servicios y proveedores) y clientes de los contratos reportados en el sistema RENOVA de la SUPERINTENDENCIA DE VIGILANCIA Y SEGURIDAD RIVADA DE COLOMBIA. 

Contiene las funciones e scripts para cargar los datasets en Jupyter o Colab, a partir de archivos en formato CSV. 

Esta es la tercera etapa del trabajo con estos datos. 

Los objetivos de éste notebook son:
  - Identificar cuales son los sectores económicos a los que pertenecen las empresas que son servicios vigilados, proveedores de equipos, y clientes del sector de vigilancia y seguridad privada
  - Identificar la distribución de contratos en dichos sectores

Los datos de salida del notebook son:
  - Tablas con la proporción de empresas (Servicios y Clientes) en los diferentes sectores, bajo varias clasificaciones
  - Tablas con la proporción de contratos en los diferentes sectores, bajo varias clasificaciones
  (Tablas para copiar en Excel, para realizar informes)

In [None]:
# First import the required libraries.
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns

# To load an manage files:
import io
import os

In [None]:
# Ajustar No Maximo de Columnas para mostrar
# pd.get_option("display.max_columns")
pd.set_option('display.max_columns', None)
#pd.set_option('display.max_columns', 20) # reset to default

In [None]:
# Ajustar el tamaño máximo de columna que se muestra
#pd.get_option('display.max_colwidth')
#pd.set_option('display.max_colwidth', -1) 
#pd.set_option('display.max_colwidth', 50)  # reset to default

In [None]:
# Ajustar el número máximo de filas para mostrar
#pd.get_option('display.max_rows')
pd.set_option('display.max_rows', None) # mostrar todas
#pd.set_option('display.max_rows', 60) # reset to default

In [None]:
#para poder ver los montos en valores con todas las cifras significativas en vez de notación científica
pd.set_option('display.float_format',  '{:,.2f}'.format)

# Step 1: **Data Loading**

## Funciones Complementarias

#### Funcion para tener Nits de 14 caracteres

In [None]:
# using strings of 14 characters lenght in order to match what we will get from the RUES database:
def extender_nit_string(nit):
    return (14-len(nit))*'0' + nit

# driver code
nit_list = ['1', '2', '3']
  
# Map method returns a map object
# so we cast it into list using list()
output_list = list(map(extender_nit_string, nit_list))
print(output_list)

['00000000000001', '00000000000002', '00000000000003']


## Load CSV into colab 
From Google Drive only (DO NOT RUN if in Jupyter):

In [None]:
# For Using Google Drive, (Only if executing notebook from Google colab):
from google.colab import drive
drive.mount('/content/drive')

# after that:
# <--- Refresh mounted Drive
# <--- Look for file and get the path link

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Get the current directory
print(os.getcwd())
# Check if the directory exists
print(os.path.exists('../'))

/content
True


In [None]:
ls

[0m[01;34mdrive[0m/  [01;34msample_data[0m/


In [None]:
cd /content/drive/MyDrive/Observatorio SPVS/

/content/drive/MyDrive/Observatorio SPVS


## Load files from OneDrive Folder

In [1]:
pwd

'd:\\DS4A\\SuperVigilancia\\OneDrive - Superintendencia de Vigilancia\\Proyecto Observatorio 2022\\6.Scripts\\3_CU_Gasto_Publico'

In [2]:
cd ../..

d:\DS4A\SuperVigilancia\OneDrive - Superintendencia de Vigilancia\Proyecto Observatorio 2022


In [None]:
# Tabla de contratos en RENOVA  (de cliente gobierno)

PATH = 'BD RENOVA - Contratos cliente gobierno/contratos_gobierno_tipo_vigilado_Datos Validos.csv'
df_Gobierno = pd.read_csv(PATH, encoding = 'utf-8', dtype='str', sep=',' )
print(df_Gobierno.shape)
df_Gobierno.head()

(1792, 59)

In [None]:
# Tabla de contratos reportados en RENOVA (de todos los clientes)

PATH = 'BD RENOVA - Contratos Todos los Clientes/contratos_sector_cliente_tipo_vigilado.csv'
df_Contratos = pd.read_csv(PATH, encoding = 'utf-8', dtype='str', sep=',' )
print(df_Contratos.shape)
df_Contratos.head()

Unnamed: 0.1,Unnamed: 0,ID_CONTRATO,FECHA_INICIO_CONTRATO,FECHA_FIN_CONTRATO,MONTO_CONTRATO,CANTIDAD_PUESTOS_CONTRATO,NIT_VIGILADO_x,DESCRIPCION_VALOR_AGREGADO,ID_ESTADO_CONTRATO,FECHA_CONTRATO_ESTADO,MAXDATE,MINDATE,ID_CLIENTE,TIPO_CONTRATO,ACTIVO_x,NUMERO_DOCUMENTO_CLIENTE,DIGITO_VERIFICACION,RAZON_SOCIAL_CLIENTE,PRIMER_NOMBRE_CLIENTE,SEGUNDO_NOMBRE_CLIENTE,PRIMER_APELLIDO_CLIENTE,SEGUNDO_APELIDO_CLIENTE,SECTOR_CLIENTE,CIIU_CLIENTE,DIRECCION_CLIENTE,TELEFONO_FIJO_CLIENTE,TELEFONO_MOVIL_CLIENTE,CORREO_ELECTRONICO_CLIENTE,CORREO_ELECTRONICO_ALTERNATIVO_CLIENTE,ID_CIUDAD,ID_DEPARTAMENTO,ID_DEPARTAMENTO1,ID_TIPO_DOCUMENTO_IDENTIFICACION,NUMERO_DOCUMENTO_REPRESENTANTE_LEGAL_CLIENTE,ID_TIPO_CLIENTE,TIPO_VIA,NOMBRE_NUM_VIA,PREFIJO_UNO,PREFIJO_UNO_UNO,NUMERO_VIA_GENERADORA,PREFIJO_DOS,PREFIJO_DOS_DOS,NUMERO_PLACA,COMPLEMENTARIO_LISTA,COMPLEMENTARIO_TEXTO,ID_TIPO_DOCUMENTO_IDENTIFICACION_REPRESENTANTE_LEGAL_CLIENTE,NIT_VIGILADO_y,CONSORCIO,ID_DIRECCION,ACTIVO_y,NIT_VIGILADO,ID_TIPO_SERVICIO,ID_TIPO_SOCIEDAD,RAZON_SOCIAL_VIGILADO,CIIU_VIGILADO
0,0,1,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,0.0,2.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020
1,1,3,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020
2,2,4,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,177520.0,9.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020
3,3,6,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020
4,4,8,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020


In [None]:
# Tabla de empresas registradas en el RUES

PATH = '/4.Bases_de_datos_Externas/Camaras_de_Comercio-Registro_Unico_de_Empresas_RUES/1.Clean_dataset/empresas_registradas_RUES.csv'
df_Gobierno = pd.read_csv(PATH, encoding = 'utf-8', dtype='str', sep=',' )
print(df_Gobierno.shape)
df_Gobierno.head()

(1792, 59)

# Step 2: Arreglar Formato y Consistencia de los datos

### Tabla de Contratos en RENOVA

In [None]:
df_Contratos['NUMERO_DOCUMENTO_CLIENTE'].str[-1].head()

0    9
1    9
2    9
3    9
4    9
Name: NUMERO_DOCUMENTO_CLIENTE, dtype: object

In [None]:
df_Contratos[df_Contratos['NUMERO_DOCUMENTO_CLIENTE'].str[-1] != df_Contratos['DIGITO_VERIFICACION']].shape

(167378, 55)

In [None]:
print(len(df_Contratos['NUMERO_DOCUMENTO_CLIENTE']))
df_Contratos['NUMERO_DOCUMENTO_CLIENTE'].describe()

177614


count        177614
unique       102110
top       900581703
freq           3170
Name: NUMERO_DOCUMENTO_CLIENTE, dtype: object

In [None]:
# Crear una lista de vigilados únicos
vigilado_list = pd.concat([df_Contratos['NIT_VIGILADO'], df_Contratos['NIT_VIGILADO_x'], df_Contratos['NIT_VIGILADO_y']]).unique()
vigilado_list =  list(map(extender_nit_string, vigilado_list))
len(vigilado_list)

720

In [None]:
# Cuantas empresas son unicas?
len(set(vigilado_list))

720

In [None]:
cliente_list = df_Contratos['NUMERO_DOCUMENTO_CLIENTE'].unique()
cliente_list =  list(map(extender_nit_string, cliente_list))
len(cliente_list)

102110

In [None]:
# Cuantas empresas son unicas?
len(set(cliente_list))

102104

### Completar informacion de Tipos de Servicios y  Sectores de Cliente

In [None]:
# mapeo de codigos de sectores

df_Contratos['TIPO_SERVICIO'] = df_Contratos['ID_TIPO_SERVICIO'].map({'1': 'Empresa de Vigilancia y Seguridad Privadas con Armas',
                                                '2': 'Empresa de Vigilancia y Seguridad Privadas sin Armas',
                                                '3': 'Cooperativa de Vigilancia y Seguridad Privada',
                                                '4': 'Empresa de Transporte de Valores',
                                                '5': 'Empresa Blindadora',
                                                '6': 'Empresa Arrendadora de Vehículos Blindados',
                                                '7': 'Empresa Asesora, Consultora e Investigadora en Vigilancia y Seguridad Privada',
                                                '8': 'Escuela de Capacitación y Entrenamiento en Vigilancia y Seguridad Privada' ,
                                                '9': 'Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada',
                                                '10': 'Servicio Comunitario de Vigilancia y Seguridad Privada',
                                                '11': 'Departamento de Seguridad Persona Natural',
                                                '12': 'Departamento de Seguridad Persona Jurídica'
                                               })
df_Contratos['TIPO_SERVICIO'].value_counts().to_frame()

Unnamed: 0,TIPO_SERVICIO
Empresa de Vigilancia y Seguridad Privadas sin Armas,75674
Empresa de Vigilancia y Seguridad Privadas con Armas,70979
Empresa Arrendadora de Vehículos Blindados,15840
Cooperativa de Vigilancia y Seguridad Privada,8566
Empresa Blindadora,3790
Empresa de Transporte de Valores,1340
"Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada",1109
"Empresa Asesora, Consultora e Investigadora en Vigilancia y Seguridad Privada",315
Departamento de Seguridad Persona Jurídica,1


In [None]:
# mapeo de codigos de sectores

df_Contratos['SECTOR_CLIENTE_DESC'] = df_Contratos['SECTOR_CLIENTE'].map({'1.0': 'COMERCIAL',
                                                '2.0': 'FINANCIERO',
                                                '3.0': 'SERVICIOS',
                                                '4.0': 'INDUSTRIAL',
                                                '5.0': 'AGRICOLA Y GANADERO',
                                                '6.0': 'RESIDENCIAL',
                                                '7.0': 'GOBIERNO',
                                                '8.0': 'MINAS Y ENERGIA' ,
                                                '9.0': 'TRANSPORTES',
                                                '10.0': 'VIGILANCIA',
                                                '11.0': 'EDUCATIVO',
                                                '12.0': 'OTRO'
                                               })
df_Contratos['SECTOR_CLIENTE_DESC'].value_counts().to_frame()


Unnamed: 0,SECTOR_CLIENTE_DESC
COMERCIAL,38511
RESIDENCIAL,18641
OTRO,14223
SERVICIOS,9207
VIGILANCIA,6429
INDUSTRIAL,4423
EDUCATIVO,1909
GOBIERNO,1818
TRANSPORTES,1443
FINANCIERO,1363


## Base de Datos de Empresas RENOVA

In [None]:
# Tabla de Empresas en RENOVA

PATH = ''
df_Gobierno = pd.read_csv(PATH, encoding = 'utf-8', dtype='str', sep=',' )
df_Gobierno.shape

In [None]:
# Crear una lista de vigilados únicos
vigilado_list = pd.concat([df_Contratos['NIT_VIGILADO'], df_Contratos['NIT_VIGILADO_x'], df_Contratos['NIT_VIGILADO_y']]).unique()
vigilado_list =  list(map(extender_nit_string, vigilado_list))
len(vigilado_list)

720

In [None]:
# Cuantas empresas son unicas?
len(set(vigilado_list))

720

In [None]:
cliente_list = df_Contratos['NUMERO_DOCUMENTO_CLIENTE'].unique()
cliente_list =  list(map(extender_nit_string, cliente_list))
len(cliente_list)

102110

In [None]:
# Cuantas empresas son unicas?
len(set(cliente_list))

102104

## Base de datos de registro de empresas en RUES

In [None]:
empresas_RUES_df = pd.read_csv('empresas_registradas_RUES.csv')

  exec(code_obj, self.user_global_ns, self.user_ns)


In [None]:
# Tenemos 5 millones de empresas
empresas_RUES_df.shape

(5521230, 12)

# Step 2: Buscar empresas registradas en el RUES

In [None]:
vigilados_df[vigilados_df['numero_identificacion']!=vigilados_df['nit_propietario'].str[5:]][['numero_identificacion', 'nit_propietario']].head()


(3080645, 12)
(2440585, 12)


Unnamed: 0,numero_identificacion,nit_propietario
4,37896777,
10,900116408,
11,52635635,
26,1067402410,
29,0,
31,37220512,
32,12962175,
33,41619240,
37,14221605,
39,1049618609,


In [None]:
# Test con un nit
empresas_RUES_df.loc[empresas_RUES_df['nit_propietario'].str.contains(nit) == True ]

Unnamed: 0.1,Unnamed: 0,camara_comercio,razon_social,estado_matricula,ultimo_ano_renovado,cod_ciiu_act_econ_pri,codigo_clase_identificacion,clase_identificacion,numero_identificacion,nit_propietario,digito_verificacion,cod_ciiu_act_econ_sec
395852,395852,MANIZALES,SEGURTRONIC LTDA,CANCELADA,2018.0,8020,2.0,NIT,800250741,800250741,3.0,4774.0
794869,794869,MEDELLIN PARA ANTIOQUIA,SEGURTRONIC LIMITADA,ACTIVA,2022.0,8020,2.0,NIT,800250741,800250741,3.0,8010.0
1071479,1071479,SANTA MARTA,SOGERCOL SAS,CANCELADA,2017.0,8121,2.0,NIT,800250741,800250741,3.0,
1082306,1082306,SANTA MARTA,SEGURTRONIC LTDA,ACTIVA,2022.0,8020,2.0,NIT,800250741,800250741,3.0,
1125387,1125387,BUCARAMANGA,SEGURTRONIC LTDA,CANCELADA,2018.0,8020,2.0,NIT,800250741,800250741,3.0,4774.0
1424280,1424280,BOGOTA,SEGURTRONIC LTDA,CANCELADA,2018.0,8020,2.0,NIT,800250741,800250741,3.0,4774.0
2053788,2053788,ORIENTE ANTIOQUENO,AGENCIA SEGURTRONIC RIONEGRO,ACTIVA,2022.0,8020,2.0,NIT,800250741,800250741,3.0,
2858598,2858598,MONTERIA,SEGURTRONIC MONTERIA,CANCELADA,2018.0,8020,2.0,NIT,800250741,800250741,3.0,4774.0
4167740,4167740,BARRANQUILLA,SEGURTRONIC LTDA.,CANCELADA,2019.0,8020,2.0,NIT,800250741,800250741,3.0,4774.0
4393070,4393070,MEDELLIN PARA ANTIOQUIA,SEGURIDAD ELECTRONICA SEGURTRONIC,CANCELADA,2005.0,7492,2.0,NIT,800250741,800250741,3.0,


In [None]:
# Test con un nit
empresas_RUES_df.loc[empresas_RUES_df['nit_propietario'].str.contains('800233036') == True ]

Unnamed: 0.1,Unnamed: 0,camara_comercio,razon_social,estado_matricula,ultimo_ano_renovado,cod_ciiu_act_econ_pri,codigo_clase_identificacion,clase_identificacion,numero_identificacion,nit_propietario,digito_verificacion,cod_ciiu_act_econ_sec
226300,226300,CALI,METRO ALARMAS LTDA VALLE,CANCELADA,2019.0,8020,2.0,NIT,800233036,800233036,7.0,
689954,689954,ORIENTE ANTIOQUENO,METRO ALARMAS RIONEGRO,CANCELADA,2019.0,8020,2.0,NIT,800233036,800233036,7.0,4652.0
1425022,1425022,CALI,METRO ALARMAS LTDA,CANCELADA,2002.0,5169,2.0,NIT,800233036,800233036,7.0,
4148531,4148531,MEDELLIN PARA ANTIOQUIA,R&R INVERTERRA,ACTIVA,2022.0,6810,2.0,NIT,800233036,800233036,7.0,7010.0
4613978,4613978,MEDELLIN PARA ANTIOQUIA,METROVIGIAS,CANCELADA,2013.0,8010,2.0,NIT,800233036,800233036,7.0,
4630769,4630769,BOGOTA,METRO ALARMAS LTDA,CANCELADA,2019.0,8020,2.0,NIT,800233036,800233036,7.0,
4672935,4672935,PEREIRA,METRO ALARMAS LTDA.,CANCELADA,2019.0,8020,2.0,NIT,800233036,800233036,7.0,4652.0
5189653,5189653,BARRANQUILLA,METRO ALARMAS LTDA.,CANCELADA,2019.0,8020,2.0,NIT,800233036,800233036,7.0,4652.0


In [None]:
# [WARNING] Este código es muy demorado, en los 10 primeros registros se demoro 10 minutos.
'''
# Cuantos Vigilados están en el RUES?
count = 0
for nit in vigilado_list:
    count = count + empresas_RUES_df['nit_propietario'].str.contains(nit).sum()
    #print (count)
print ('vigilados en el RUES: ', count)


# Cuantos Clientes están en el RUES?
count = 0
for nit in cliente_list:
    count = count + empresas_RUES_df['nit_propietario'].str.contains(nit).sum()
print ('Clientes en el RUES: ', count)
'''

"\n# Cuantos Vigilados están en el RUES?\ncount = 0\nfor nit in vigilado_list:\n    count = count + empresas_RUES_df['nit_propietario'].str.contains(nit).sum()\n    #print (count)\nprint ('vigilados en el RUES: ', count)\n\n\n# Cuantos Clientes están en el RUES?\ncount = 0\nfor nit in cliente_list:\n    count = count + empresas_RUES_df['nit_propietario'].str.contains(nit).sum()\nprint ('Clientes en el RUES: ', count)\n"

In [None]:
# Buscar los vigilados que están en el RUES usando pandas:

empresas_RUES_df['nit_propietario'].isin(vigilado_list).sum()

2315

In [None]:
vigilados_df = empresas_RUES_df.loc[empresas_RUES_df['nit_propietario'].isin(vigilado_list) == True ]
vigilados_df.sort_values(by=['nit_propietario', 'camara_comercio'], inplace = True)
#vigilados_df.drop_duplicates(subset=['camara_comercio', 'razon_social', 'nit_propietario'], keep='first', inplace=True, ignore_index=True)
vigilados_df.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)


(2315, 12)

In [None]:
# Se puede usar el nit como indice? NO, porque está repetido
#vigilados_df.set_index('nit_propietario', drop=True,  inplace=True, verify_integrity=True)

In [None]:
len(vigilados_df['nit_propietario'].unique())

478

In [None]:
vigilados_df['cod_ciiu_act_econ_pri'].value_counts().head(20)

8010    1977
5611      92
4923      56
8020      49
9999      20
7492      18
4659      15
1040       8
8030       8
7710       7
4719       5
2930       5
9609       4
5619       3
6190       3
2920       2
8110       2
5241       2
4921       2
4690       2
Name: cod_ciiu_act_econ_pri, dtype: int64

In [None]:
vigilados_df['cod_ciiu_act_econ_sec'].value_counts().head(20)

8020    1059
1040      80
8010      57
8299      25
5229      14
6190      12
7730      11
4923      10
8030      10
4774       9
5611       6
7710       6
6201       5
4659       5
4690       4
3313       4
7490       4
4652       4
6810       4
4321       3
Name: cod_ciiu_act_econ_sec, dtype: int64

In [None]:
# Buscar los Clientes que están en el RUES usando pandas:

empresas_RUES_df['nit_propietario'].isin(cliente_list).sum()

444920

In [None]:
clientes_df = empresas_RUES_df.loc[empresas_RUES_df['nit_propietario'].isin(cliente_list) == True ]
clientes_df.sort_values(by=['numero_identificacion', 'camara_comercio'], inplace = True)
clientes_df.drop_duplicates(subset=['camara_comercio', 'razon_social', 'nit_propietario'], keep='first', inplace=True, ignore_index=True)
clientes_df.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)


(426019, 12)

In [None]:
len(clientes_df['nit_propietario'].unique())

44739

In [None]:
clientes_df.head()

Unnamed: 0.1,Unnamed: 0,camara_comercio,razon_social,estado_matricula,ultimo_ano_renovado,cod_ciiu_act_econ_pri,codigo_clase_identificacion,clase_identificacion,numero_identificacion,nit_propietario,digito_verificacion,cod_ciiu_act_econ_sec
0,3888483,PASTO,SIGLO XXI ENGLISH CENTER,CANCELADA,2008.0,8060,6.0,SIN IDENTIFICACION,0,0,,
1,4810271,TULUA,RECICLAJE Y ASEO ZARZAL EMPRESA ASOCIATIVA DE ...,MATRÍCULA CANCELADA LEY 1429,1998.0,4665,2.0,NIT,0,0,,
2,150,ABURRA SUR,TIENDA LAKSHMI,CANCELADA,1994.0,9999,6.0,SIN IDENTIFICACION,0,0,,
3,1831,ABURRA SUR,SHUJO ESCOVAR CARDONA,CANCELADA,1995.0,9999,6.0,SIN IDENTIFICACION,0,0,,
4,2855,ABURRA SUR,ELASTOQUIMICA LTDA.,CANCELADA,1992.0,9999,6.0,SIN IDENTIFICACION,0,0,,


In [None]:
clientes_df['cod_ciiu_act_econ_pri'].value_counts().head(20)

9999    137234
4711     13079
4771     12182
4773     11780
5611      9650
9200      8767
4719      6590
6412      5568
1410      5087
4772      4813
4752      4637
4754      4464
4923      4210
4530      4140
8621      3758
4759      3738
5630      3403
8299      3224
9602      3206
1081      3169
Name: cod_ciiu_act_econ_pri, dtype: int64

In [None]:
clientes_df['cod_ciiu_act_econ_sec'].value_counts().head(20)

8299    3900
4711    3843
4741    2678
5310    2164
4771    1881
6810    1874
4772    1739
4773    1646
4732    1522
5320    1437
6190    1394
8699    1380
5611    1153
4719    1150
4530    1121
4759    1059
4923     976
5630     963
4520     923
8621     922
Name: cod_ciiu_act_econ_sec, dtype: int64

## CODIGO ABANDONADO Base de Datos de Códigos CIIU 

Se consultaron los archivos Tablas Correlativas en:

Sistema Estadístico Nacional (SEN)/ Normas y estándaresNomenclaturas y clasificaciones / Tablas Correlativas

https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen/normas-y-estandares/nomenclaturas-y-clasificaciones/tablas-correlativas

Y se extraen los Códigos CIUU que vienen por División, Grupo y Clase


In [None]:
# No fue posible cargar el archivo anidado de códigos CIIU en JSON.
#import json
#with open ("../CIIU.json", "r", encoding='utf-8') as file:
    #ciiu_dict = pd.DataFrame.from_dict(json.load(file), orient-'columns')
    #data=file.read().lower()
    #ciiu_dict = json.load(file)
    #ciiu_dict = pd.read_json(file, encoding='utf-8')
    #ciiu_dict = pd.json_normalize(data)
    #ciiu_dict = pd.DataFrame(data)
#ciiu_dict.head()


In [None]:
ls

 Volume in drive D has no label.
 Volume Serial Number is 5E36-13E0

 Directory of d:\DS4A\SuperVigilancia\OneDrive - Superintendencia de Vigilancia\Proyecto Observatorio 2022\4.Bases_de_datos_Externas\Camaras_de_Comercio-Registro_Unico_de_Empresas_RUES

10/13/2022  05:29 PM    <DIR>          .
10/13/2022  05:29 PM    <DIR>          ..
10/10/2022  04:50 PM    <DIR>          0.Raw_dataset
10/11/2022  06:03 PM    <DIR>          1.Clean_dataset
10/10/2022  04:49 PM    <DIR>          2.Processed_dataset
10/13/2022  04:22 PM            81,736 actividades_codigo_ciiu_2021.xlsx
10/13/2022  04:30 PM            95,972 CIIU.json
10/13/2022  04:14 PM            56,815 CIIU.txt
09/20/2022  07:43 PM            70,594 Tabla correlativa CIIU 4 A.C. (2020) - CIIU 4 A.C. (2021).xlsx
10/13/2022  05:27 PM           113,758 Tabla correlativa CIIU.xlsx
09/21/2022  10:51 AM           226,127 TC_CIIU4AC2020-CIIU4AC2021.xlsx
               6 File(s)        645,002 bytes
               5 Dir(s)  387,700,080,64

In [None]:
# Tabla de Divisiónes de Códigos CIUU del DANE:
PATH = 'Tabla correlativa CIIU 4 A.C. (2020) - CIIU 4 A.C. (2021).xlsx'
CIIU_codes_df = pd.read_excel(PATH,  sheet_name='Clase') # encoding = 'utf-8', dtype='str', sep=',' ) #
CIIU_codes_df.shape

In [None]:
CIIU_grupo_codes_dict = CIIU_grupo_codes_df['Descripcion'].to_dict()

In [None]:
CIIU_codes_df['Code Division'] = CIIU_codes_df[' División'].str.replace('DIVISIÓN ', '').astype(str)

CIIU_codes_df['Code Division'].head()

0    01
1    02
2    03
3    05
4    06
Name: Code Division, dtype: object

: 

: 

In [None]:
CIIU_codes_df.set_index('Code Division', drop=True,  inplace=True, verify_integrity=True)

: 

: 

In [None]:
CIIU_codes_df['División_Desc'].head()

Code Division
01    Agricultura, ganadería, caza y actividades de ...
02                  Silvicultura y extracción de madera
03                                  Pesca y acuicultura
05             Extracción de carbón de piedra y lignito
06           Extracción de petróleo crudo y gas natural
Name: División_Desc, dtype: object

: 

: 

In [None]:
# Crear un diccionario de codigos a descipciones de divisiones
#CIIU_codes_df['Code Division'] = CIIU_codes_df['Code Division']
CIIU_codes_dict = CIIU_codes_df['División_Desc'].to_dict()
CIIU_codes_dict

{'01': 'Agricultura, ganadería, caza y actividades de servicios conexas',
 '02': 'Silvicultura y extracción de madera',
 '03': 'Pesca y acuicultura',
 '05': 'Extracción de carbón de piedra y lignito',
 '06': 'Extracción de petróleo crudo y gas natural',
 '07': 'Extracción de minerales metalíferos',
 '08': 'Extracción de otras minas y canteras',
 '09': 'Actividades de servicios de apoyo para la explotación de minas y canteras',
 '10': 'Elaboración de productos alimenticios',
 '11': 'Elaboración de bebidas',
 '12': 'Elaboración de productos de tabaco',
 '13': 'Fabricación de productos textiles',
 '14': 'Confección de prendas de vestir',
 '15': 'Curtido y recurtido de cueros; fabricación de calzado; fabricación de artículos de viaje, maletas, bolsos de mano y artículos similares, y fabricación de artículos de talabartería y guarnicionería; adobo y teñido de pieles',
 '16': 'Transformación de la madera y fabricación de productos de madera y de corcho, excepto muebles; fabricación de artícu

: 

: 

In [None]:
CIIU_codes_df[['Seccion', 'Seccion_Desc']].head()

Unnamed: 0_level_0,Seccion,Seccion_Desc
Code Division,Unnamed: 1_level_1,Unnamed: 2_level_1
1,SECCIÓN A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y P..."
2,SECCIÓN A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y P..."
3,SECCIÓN A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y P..."
5,SECCIÓN B,EXPLOTACIÓN DE MINAS Y CANTERAS
6,SECCIÓN B,EXPLOTACIÓN DE MINAS Y CANTERAS


: 

: 

In [None]:
# Crear un diccionario de codigos a descipciones de secciones (Sectores?)
CIIU_seccion_dict = CIIU_codes_df['Seccion_Desc'].to_dict()

: 

: 

In [None]:
# Tabla de Grupos de Códigos CIUU del DANE:

PATH = '/content/drive/MyDrive/Observatorio SPVS/BD RENOVA - Contratos Todos los Clientes/Tabla correlativa CIIU 4 A.C. (2020) - CIIU 4 A.C. (2021).xlsx'
CIIU_grupo_codes_df = pd.read_excel(PATH,  sheet_name='Grupo') # encoding = 'utf-8', dtype='str', sep=',' ) #
CIIU_grupo_codes_df.shape

(246, 2)

: 

: 

In [None]:
CIIU_grupo_codes_df.head()

Unnamed: 0,Grupo,Descripcion
0,11,Cultivos agrícolas transitorios
1,12,Cultivos agrícolas permanentes
2,13,Propagación de plantas (actividades de los viv...
3,14,Ganadería
4,15,Explotación mixta (agrícola y pecuaria)


: 

: 

In [None]:
CIIU_grupo_codes_df['Grupo'] = CIIU_grupo_codes_df['Grupo'].astype(int).astype(str)
CIIU_grupo_codes_df['Grupo'].head()

0    11
1    12
2    13
3    14
4    15
Name: Grupo, dtype: object

: 

: 

In [None]:
CIIU_grupo_codes_df.set_index('Grupo', drop=True,  inplace=True, verify_integrity=True)

: 

: 

In [None]:
CIIU_grupo_codes_df['Descripcion'].tail()

Grupo
960            Otras actividades de servicios personales
970    Actividades de los hogares individuales como e...
981    Actividades no diferenciadas de los hogares in...
982    Actividades no diferenciadas de los hogares in...
990    Actividades de organizaciones y entidades extr...
Name: Descripcion, dtype: object

: 

: 

# Step 3: Asignar descripciones de los códigos a cada vigilado y cada cliente

en las dos tablas de Vigilados registrados y Clientes registrados

### Por División

In [None]:
# dos nuevas columnas con la División de los códigos CIUU en cada tabla (vigilados y clientes)
vigilados_df['ciuu_division_pri'] = vigilados_df['cod_ciiu_act_econ_pri'].str[:2]
vigilados_df['ciuu_division_sec'] = vigilados_df['cod_ciiu_act_econ_sec'].str[:2]
clientes_df['ciuu_division_pri'] = clientes_df['cod_ciiu_act_econ_pri'].str[:2]
clientes_df['ciuu_division_sec'] = clientes_df['cod_ciiu_act_econ_sec'].str[:2]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_

In [None]:
#Incluir dos nuevas columnas con las descripciones de los códigos CIUU en cada tabla (Vigilados y Clientes)
vigilados_df['ciuu_division_pri_desc'] = vigilados_df['ciuu_division_pri'].map(CIIU_codes_dict)
vigilados_df['ciuu_division_sec_desc'] = vigilados_df['ciuu_division_sec'].map(CIIU_codes_dict)
clientes_df['ciuu_division_pri_desc'] = clientes_df['ciuu_division_pri'].map(CIIU_codes_dict)
clientes_df['ciuu_division_sec_desc'] = clientes_df['ciuu_division_sec'].map(CIIU_codes_dict)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_

# Estadísticas de las actividades económicas de los Vigilados y los Clientes

In [None]:
vigilados_df[['ciuu_division_pri','ciuu_division_pri_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_division_pri,ciuu_division_pri_desc,Unnamed: 2_level_1
80,Actividades de seguridad e investigación privada,2034
56,Actividades de servicios de comidas y bebidas,95
49,Transporte terrestre; transporte por tuberías,58
74,"Otras actividades profesionales, científicas y técnicas",21
99,Actividades de organizaciones y entidades extraterritoriales,20


In [None]:
vigilados_df[['ciuu_division_sec','ciuu_division_sec_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_division_sec,ciuu_division_sec_desc,Unnamed: 2_level_1
80,Actividades de seguridad e investigación privada,1126
10,Elaboración de productos alimenticios,80
82,Actividades administrativas y de apoyo de oficina y otras actividades de apoyo a las empresas,25
77,Actividades de alquiler y arrendamiento,17
47,"Comercio al por menor (incluso el comercio al por menor de combustibles), excepto el de vehículos automotores y motocicletas",16


In [None]:
clientes_df[['ciuu_division_pri', 'ciuu_division_pri_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_division_pri,ciuu_division_pri_desc,Unnamed: 2_level_1
47,"Comercio al por menor (incluso el comercio al por menor de combustibles), excepto el de vehículos automotores y motocicletas",27967
46,"Comercio al por mayor y en comisión o por contrata, excepto el comercio de vehículos automotores y motocicletas",6978
92,Actividades de juegos de azar y apuestas,5700
64,"Actividades de servicios financieros, excepto las de seguros y de pensiones",5470
56,Actividades de servicios de comidas y bebidas,4811


In [None]:
clientes_df[['ciuu_division_sec','ciuu_division_sec_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_division_sec,ciuu_division_sec_desc,Unnamed: 2_level_1
47,"Comercio al por menor (incluso el comercio al por menor de combustibles), excepto el de vehículos automotores y motocicletas",14034
46,"Comercio al por mayor y en comisión o por contrata, excepto el comercio de vehículos automotores y motocicletas",4722
82,Actividades administrativas y de apoyo de oficina y otras actividades de apoyo a las empresas,3416
53,Correo y servicios de mensajería,2506
56,Actividades de servicios de comidas y bebidas,2372


### Por Clase CIIU

In [None]:
# dos nuevas columnas con la División de los códigos CIUU en cada tabla (vigilados y clientes)
vigilados_df['ciuu_grupo_pri'] = vigilados_df['cod_ciiu_act_econ_pri'].str[:3]
vigilados_df['ciuu_grupo_sec'] = vigilados_df['cod_ciiu_act_econ_sec'].str[:3]
clientes_df['ciuu_grupo_pri'] = clientes_df['cod_ciiu_act_econ_pri'].str[:3]
clientes_df['ciuu_grupo_sec'] = clientes_df['cod_ciiu_act_econ_sec'].str[:3]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_

In [None]:
#Incluir dos nuevas columnas con las descripciones de los códigos CIUU en cada tabla (Vigilados y Clientes)
vigilados_df['ciuu_grupo_pri_desc'] = vigilados_df['ciuu_grupo_pri'].map(CIIU_grupo_codes_dict)
vigilados_df['ciuu_grupo_sec_desc'] = vigilados_df['ciuu_grupo_sec'].map(CIIU_grupo_codes_dict)
clientes_df['ciuu_grupo_pri_desc'] = clientes_df['ciuu_grupo_pri'].map(CIIU_grupo_codes_dict)
clientes_df['ciuu_grupo_sec_desc'] = clientes_df['ciuu_grupo_sec'].map(CIIU_grupo_codes_dict)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_

In [None]:
vigilados_df[['ciuu_grupo_pri','ciuu_grupo_pri_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_grupo_pri,ciuu_grupo_pri_desc,Unnamed: 2_level_1
801,Actividades de seguridad privada,1977
561,"Actividades de restaurantes, cafeterías y servicio móvil de comidas",95
492,Transporte terrestre público automotor,58
802,Actividades de servicios de sistemas de seguridad,49
749,"Otras actividades profesionales, científicas y técnicas n.c.p.",21


In [None]:
vigilados_df[['ciuu_grupo_sec', 'ciuu_grupo_sec_desc']].value_counts().head().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
ciuu_grupo_sec,ciuu_grupo_sec_desc,Unnamed: 2_level_1
802,Actividades de servicios de sistemas de seguridad,1059
104,Elaboración de productos lácteos,80
801,Actividades de seguridad privada,57
829,Actividades de servicios de apoyo a las empresas n.c.p.,25
522,"Actividades de las estaciones, vías y servicios complementarios para el transporte",14


In [None]:
clientes_df[['ciuu_grupo_pri','ciuu_grupo_pri_desc']].value_counts().shape

(207,)

In [None]:
clientes_df[['ciuu_grupo_pri','ciuu_grupo_pri_desc']].value_counts().head()

ciuu_grupo_pri  ciuu_grupo_pri_desc                                                        
477             Comercio al por menor de otros productos en establecimientos especializados    13723
920             Actividades de juegos de azar y apuestas                                        5700
471             Comercio al por menor en establecimientos no especializados                     5641
561             Actividades de restaurantes, cafeterías y servicio móvil de comidas             4428
641             Intermediación monetaria                                                        4151
dtype: int64

In [None]:
clientes_df[['ciuu_grupo_sec','ciuu_grupo_sec_desc']].value_counts().head(10)

ciuu_grupo_sec  ciuu_grupo_sec_desc                                                                                          
471             Comercio al por menor en establecimientos no especializados                                                      3893
477             Comercio al por menor de otros productos en establecimientos especializados                                      3546
829             Actividades de servicios de apoyo a las empresas n.c.p.                                                          3209
474             Comercio al por menor de equipos de informática y de comunicaciones en establecimientos especializados           1738
561             Actividades de restaurantes, cafeterías y servicio móvil de comidas                                              1726
472             Comercio al por menor de alimentos (víveres en general), bebidas y tabaco, en establecimientos especializados    1672
531             Actividades postales nacionales                       

### Por ciudades


In [None]:
vigilados_df['camara_comercio'].value_counts().head().to_frame()

Unnamed: 0,camara_comercio
BOGOTA,308
CALI,177
MEDELLIN PARA ANTIOQUIA,158
BUCARAMANGA,140
BARRANQUILLA,133


In [None]:
clientes_df['camara_comercio'].value_counts().head()

BOGOTA                     18931
MEDELLIN PARA ANTIOQUIA    11663
CALI                        7276
BARRANQUILLA                4977
BUCARAMANGA                 4189
Name: camara_comercio, dtype: int64

### Por Seccion CIIU

In [None]:
#Incluir una columna con el sector del cliente:

vigilados_df['ciuu_seccion_desc'] = vigilados_df['ciuu_division_pri'].map(CIIU_seccion_dict)
clientes_df['ciuu_seccion_desc'] = clientes_df['ciuu_division_pri'].map(CIIU_seccion_dict)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [None]:
vigilados_df['ciuu_seccion_desc'].value_counts().head().to_frame()

Unnamed: 0,ciuu_seccion_desc
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,2048
ALOJAMIENTO Y SERVICIOS DE COMIDA,96
TRANSPORTE Y ALMACENAMIENTO,63
COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS,31
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",22


In [None]:
ciudades_vigilados = vigilados_df['camara_comercio'].value_counts().head(10).keys().to_list()

In [None]:
# Ahora veamos las secciones por ciudades:
vigilados_df[vigilados_df['camara_comercio'].isin(ciudades_vigilados)].groupby(['ciuu_seccion_desc', 'camara_comercio']).size().unstack()

camara_comercio,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,CARTAGENA,IBAGUE,MEDELLIN PARA ANTIOQUIA,PASTO,TUNJA,VILLAVICENCIO
ciuu_seccion_desc,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
ACTIVIDADES DE ORGANIZACIONES Y ENTIDADES EXTRATERRITORIALES,,,1.0,,,,6.0,,,
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,122.0,194.0,122.0,160.0,82.0,71.0,127.0,67.0,60.0,102.0
ACTIVIDADES FINANCIERAS Y DE SEGUROS,,1.0,,,,,,,,
ACTIVIDADES INMOBILIARIAS,,,2.0,,,,1.0,,,
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",,,,1.0,10.0,,10.0,,,
ALOJAMIENTO Y SERVICIOS DE COMIDA,,90.0,5.0,,,,,,,
COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS,6.0,7.0,2.0,4.0,1.0,,7.0,,1.0,1.0
CONSTRUCCIÓN,,,,,,,,1.0,,
EDUCACIÓN,,,2.0,,,,,,,
INDUSTRIAS MANUFACTURERAS,1.0,10.0,1.0,2.0,,,,,,1.0


In [None]:
clientes_df['ciuu_seccion_desc'].value_counts().head().to_frame()

Unnamed: 0,ciuu_seccion_desc
COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS,38437
INDUSTRIAS MANUFACTURERAS,7304
ACTIVIDADES FINANCIERAS Y DE SEGUROS,6801
"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y RECREACIÓN",6125
ALOJAMIENTO Y SERVICIOS DE COMIDA,5659


In [None]:
clientes_df['camara_comercio'].value_counts().head(20)

CALI                       105806
MEDELLIN PARA ANTIOQUIA     31149
BOGOTA                      26753
BUCARAMANGA                 20685
PEREIRA                     19216
ABURRA SUR                  15961
IBAGUE                      15304
BARRANCABERMEJA             13824
ARMENIA                     11910
BARRANQUILLA                11231
VILLAVICENCIO               11144
CUCUTA                       8745
CARTAGENA                    8717
SANTA MARTA                  8433
CAUCA                        7575
MONTERIA                     7413
HUILA                        6856
VALLEDUPAR                   6806
MANIZALES                    5278
TUMACO                       5170
Name: camara_comercio, dtype: int64

In [None]:
ciudades_clientes = clientes_df['camara_comercio'].value_counts().head(10).keys().to_list()

In [None]:
# Ahora veamos las secciones por ciudades:
clientes_df[clientes_df['camara_comercio'].isin(ciudades_clientes)].groupby(['ciuu_seccion_desc', 'camara_comercio']).size().unstack()

camara_comercio,ABURRA SUR,ARMENIA,BARRANCABERMEJA,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,IBAGUE,MEDELLIN PARA ANTIOQUIA,PEREIRA
ciuu_seccion_desc,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y RECREACIÓN",231.0,316.0,142.0,309.0,1820.0,418.0,1968.0,247.0,797.0,355.0
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,244.0,123.0,139.0,696.0,1245.0,580.0,2366.0,217.0,1093.0,178.0
ACTIVIDADES DE LOS HOGARES INDIVIDUALES EN CALIDAD DE EMPLEADORES; ACTIVIDADES NO DIFERENCIADAS DE LOS HOGARES INDIVIDUALES COMO PRODUCTORES DE BIENES Y SERVICIOS PARA USO PROPIO,1.0,,,1.0,,,3.0,,,
ACTIVIDADES DE ORGANIZACIONES Y ENTIDADES EXTRATERRITORIALES,9409.0,9587.0,11098.0,56.0,4.0,2341.0,1.0,11492.0,2560.0,15415.0
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,193.0,110.0,100.0,433.0,853.0,891.0,3299.0,202.0,905.0,197.0
ACTIVIDADES FINANCIERAS Y DE SEGUROS,192.0,148.0,134.0,521.0,2409.0,1598.0,3307.0,175.0,1468.0,213.0
ACTIVIDADES INMOBILIARIAS,107.0,13.0,10.0,138.0,258.0,486.0,1721.0,43.0,400.0,27.0
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",174.0,50.0,143.0,297.0,380.0,1387.0,4568.0,140.0,1194.0,103.0
ADMINISTRACIÓN PÚBLICA Y DEFENSA; PLANES DE SEGURIDAD SOCIAL DE AFILIACIÓN OBLIGATORIA,7.0,15.0,10.0,47.0,108.0,56.0,101.0,21.0,60.0,13.0
"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y PESCA",38.0,9.0,61.0,102.0,106.0,277.0,1317.0,36.0,204.0,10.0


### Por Tipo de Servicio

In [None]:
# Construir un diccionario de nits a tipos de servicio con la base de datos de contratos:
frame = pd.melt(df_Contratos, id_vars=['ID_CONTRATO', 'TIPO_SERVICIO'], value_vars=['NIT_VIGILADO_x', 'NIT_VIGILADO_y', 'NIT_VIGILADO'], var_name='NIT_Column', value_name='NIT_VIGILADO')
frame.drop_duplicates(subset=['TIPO_SERVICIO', 'NIT_VIGILADO'], keep='first', inplace=True, ignore_index=True)
frame['NIT_VIGILADO'] = frame['NIT_VIGILADO'].apply(extender_nit_string)
frame.set_index('NIT_VIGILADO', inplace=True)
nit_tipo_servicio_dict = frame['TIPO_SERVICIO'].to_dict()
frame.head()

  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0_level_0,ID_CONTRATO,TIPO_SERVICIO,NIT_Column
NIT_VIGILADO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
811001008,1,Empresa de Vigilancia y Seguridad Privadas sin...,NIT_VIGILADO_x
800042276,7,Empresa de Vigilancia y Seguridad Privadas con...,NIT_VIGILADO_x
900091901,54,Empresa de Vigilancia y Seguridad Privadas con...,NIT_VIGILADO_x
860023264,70,Empresa de Vigilancia y Seguridad Privadas con...,NIT_VIGILADO_x
830070625,11904,Empresa de Vigilancia y Seguridad Privadas con...,NIT_VIGILADO_x


In [None]:
# Asignar el tipo de servicio a cada vigilado
vigilados_df['Tipo_Servicio'] = vigilados_df['nit_propietario'].map(nit_tipo_servicio_dict)
vigilados_df['Tipo_Servicio'].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


97035      Empresa de Vigilancia y Seguridad Privadas con...
4198382    Empresa de Vigilancia y Seguridad Privadas con...
1991454    Empresa de Vigilancia y Seguridad Privadas con...
4028019    Empresa de Vigilancia y Seguridad Privadas sin...
508550     Empresa de Vigilancia y Seguridad Privadas con...
Name: Tipo_Servicio, dtype: object

In [None]:
vigilados_df['Tipo_Servicio'].value_counts()

Empresa de Vigilancia y Seguridad Privadas con Armas                                                                                                            1194
Empresa de Vigilancia y Seguridad Privadas sin Armas                                                                                                             617
Cooperativa de Vigilancia y Seguridad Privada                                                                                                                    319
Departamento de Seguridad Persona Jurídica                                                                                                                       108
Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada      46
Empresa Blindadora                                                                                                                                                14
Empresa Ar

In [None]:
vigilados_df['Tipo_Servicio'].value_counts(normalize=True, dropna = True)

Empresa de Vigilancia y Seguridad Privadas con Armas                                                                                                           0.52
Empresa de Vigilancia y Seguridad Privadas sin Armas                                                                                                           0.27
Cooperativa de Vigilancia y Seguridad Privada                                                                                                                  0.14
Departamento de Seguridad Persona Jurídica                                                                                                                     0.05
Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada   0.02
Empresa Blindadora                                                                                                                                             0.01
Empresa Arrendad

In [None]:
#Ahora veamos los Tipos de Servicios por ciudades
vigilados_df[vigilados_df['camara_comercio'].isin(ciudades_vigilados)].groupby(['Tipo_Servicio', 'camara_comercio']).size().unstack()

camara_comercio,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,CARTAGENA,IBAGUE,MEDELLIN PARA ANTIOQUIA,PASTO,TUNJA,VILLAVICENCIO
Tipo_Servicio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Cooperativa de Vigilancia y Seguridad Privada,18.0,34.0,23.0,23.0,14.0,11.0,19.0,8.0,6.0,12.0
Departamento de Seguridad Persona Jurídica,1.0,97.0,7.0,1.0,,,1.0,,,1.0
Empresa Arrendadora de Vehículos Blindados,1.0,2.0,1.0,1.0,2.0,,1.0,,,
"Empresa Asesora, Consultora e Investigadora en Vigilancia y Seguridad Privada",1.0,,,1.0,,,1.0,,,
Empresa Blindadora,2.0,8.0,,1.0,1.0,,1.0,,,
Empresa de Transporte de Valores,,,2.0,2.0,,,1.0,,,
Empresa de Vigilancia y Seguridad Privadas con Armas,67.0,109.0,64.0,97.0,43.0,44.0,68.0,42.0,40.0,66.0
Empresa de Vigilancia y Seguridad Privadas sin Armas,40.0,56.0,39.0,45.0,31.0,17.0,58.0,17.0,16.0,25.0
"Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada",3.0,2.0,4.0,6.0,4.0,,8.0,1.0,,1.0


In [None]:
vigilados_df.columns

Index(['Unnamed: 0', 'camara_comercio', 'razon_social', 'estado_matricula',
       'ultimo_ano_renovado', 'cod_ciiu_act_econ_pri',
       'codigo_clase_identificacion', 'clase_identificacion',
       'numero_identificacion', 'nit_propietario', 'digito_verificacion',
       'cod_ciiu_act_econ_sec', 'ciuu_division_pri', 'ciuu_division_sec',
       'ciuu_division_pri_desc', 'ciuu_division_sec_desc', 'ciuu_grupo_pri',
       'ciuu_grupo_sec', 'ciuu_grupo_pri_desc', 'ciuu_grupo_sec_desc',
       'ciuu_seccion_desc', 'Tipo_Servicio'],
      dtype='object')

### Por Sector

In [None]:
df_Contratos['SECTOR_CLIENTE_DESC'].value_counts()

COMERCIAL              38511
RESIDENCIAL            18641
OTRO                   14223
SERVICIOS               9207
VIGILANCIA              6429
INDUSTRIAL              4423
EDUCATIVO               1909
GOBIERNO                1818
TRANSPORTES             1443
FINANCIERO              1363
MINAS Y ENERGIA          536
AGRICOLA Y GANADERO      361
Name: SECTOR_CLIENTE_DESC, dtype: int64

In [None]:
# Construir un diccionario de nits a sectores con la base de datos de contratos:
frame = df_Contratos[['NUMERO_DOCUMENTO_CLIENTE', 'SECTOR_CLIENTE_DESC']]
frame.drop_duplicates(keep='first', inplace=True, ignore_index=True)
frame.dropna(inplace = True)
frame['NUMERO_DOCUMENTO_CLIENTE'] = frame['NUMERO_DOCUMENTO_CLIENTE'].apply(extender_nit_string)
frame.set_index('NUMERO_DOCUMENTO_CLIENTE', inplace=True)
nit_sector_dict = frame['SECTOR_CLIENTE_DESC'].to_dict()
frame.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Unnamed: 0_level_0,SECTOR_CLIENTE_DESC
NUMERO_DOCUMENTO_CLIENTE,Unnamed: 1_level_1
890920369,COMERCIAL
800106884,COMERCIAL
800169068,COMERCIAL
900196221,COMERCIAL
900030978,COMERCIAL


In [None]:
# Tabla de equivalencia de Sector a Seccion de Códigos CIUU del DANE:

PATH = '/content/drive/MyDrive/Observatorio SPVS/BD RENOVA - Contratos Todos los Clientes/Tabla correlativa CIIU 4 A.C. (2020) - CIIU 4 A.C. (2021).xlsx'
CIIU_sector_df = pd.read_excel(PATH,  sheet_name='Seccion CIIU a Sector') # encoding = 'utf-8', dtype='str', sep=',' ) #
CIIU_sector_df.shape

(21, 4)

In [None]:
CIIU_sector_df.head()

Unnamed: 0,Código,Descripción,Seccion,Seccion_Desc
0,5.0,AGRICOLA Y GANADERO,SECCIÓN A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y P..."
1,8.0,MINAS Y ENERGIA,SECCIÓN B,EXPLOTACIÓN DE MINAS Y CANTERAS
2,4.0,INDUSTRIAL,SECCIÓN C,INDUSTRIAS MANUFACTURERAS
3,8.0,MINAS Y ENERGIA,SECCIÓN D,"SUMINISTRO DE ELECTRICIDAD, GAS, VAPOR Y AIRE ..."
4,12.0,OTRO,SECCIÓN E,DISTRIBUCIÓN DE AGUA; EVACUACIÓN Y TRATAMIENTO...


In [None]:

# Crear un diccionario de seccion a sector:
CIIU_sector_df.set_index('Seccion_Desc', inplace = True)
ciuu_seccion_sector_dict = CIIU_sector_df['Descripción'].to_dict()

In [None]:
clientes_df.columns

Index(['Unnamed: 0', 'camara_comercio', 'razon_social', 'estado_matricula',
       'ultimo_ano_renovado', 'cod_ciiu_act_econ_pri',
       'codigo_clase_identificacion', 'clase_identificacion',
       'numero_identificacion', 'nit_propietario', 'digito_verificacion',
       'cod_ciiu_act_econ_sec', 'ciuu_division_pri', 'ciuu_division_sec',
       'ciuu_division_pri_desc', 'ciuu_division_sec_desc', 'ciuu_grupo_pri',
       'ciuu_grupo_sec', 'ciuu_grupo_pri_desc', 'ciuu_grupo_sec_desc',
       'ciuu_seccion_desc'],
      dtype='object')

In [None]:
# Asignar el sector a cada cliente
clientes_df['Sector'] = clientes_df['ciuu_seccion_desc'].map(ciuu_seccion_sector_dict)
clientes_df.loc[clientes_df['Sector'].isna(), 'Sector'] = clientes_df['nit_propietario'].map(nit_sector_dict)
clientes_df['Sector'].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(ilocs[0], value, pi)


0    SERVICIOS
1    COMERCIAL
2     GOBIERNO
3     GOBIERNO
4     GOBIERNO
Name: Sector, dtype: object

In [None]:
clientes_df['Sector'].value_counts().to_frame()

Unnamed: 0,Sector
COMERCIAL,38437
FINANCIERO,12926
SERVICIOS,11900
INDUSTRIAL,8495
RESIDENCIAL,6644
TRANSPORTES,4943
EDUCATIVO,908
AGRICOLA Y GANADERO,606
GOBIERNO,600
MINAS Y ENERGIA,311


In [None]:
clientes_df['Sector'].value_counts(normalize=True, dropna = True).to_frame()

Unnamed: 0,Sector
COMERCIAL,0.45
FINANCIERO,0.15
SERVICIOS,0.14
INDUSTRIAL,0.1
RESIDENCIAL,0.08
TRANSPORTES,0.06
EDUCATIVO,0.01
AGRICOLA Y GANADERO,0.01
GOBIERNO,0.01
MINAS Y ENERGIA,0.0


In [None]:
# Ahora veamos los sectores por ciudades

clientes_df[clientes_df['camara_comercio'].isin(ciudades_clientes)].groupby(['Sector', 'camara_comercio']).size().unstack()

camara_comercio,ABURRA SUR,ARMENIA,BARRANCABERMEJA,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,IBAGUE,MEDELLIN PARA ANTIOQUIA,PEREIRA
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
AGRICOLA Y GANADERO,38,9,61,102,106,277,1317,36,204,10
COMERCIAL,2921,911,938,5332,11960,6664,42735,1718,11098,1702
EDUCATIVO,66,19,29,109,332,200,1485,46,414,48
FINANCIERO,423,464,276,830,4232,2016,5276,422,2265,568
GOBIERNO,9416,9602,11108,103,113,2397,102,11513,2620,15428
INDUSTRIAL,1409,232,447,1259,2506,2728,17492,424,4397,305
MINAS Y ENERGIA,14,10,11,30,62,163,282,15,136,11
OTRO,13,5,12,51,29,71,706,16,127,2
RESIDENCIAL,519,178,244,863,2945,1213,12048,266,2737,265
SERVICIOS,808,382,526,1890,3169,3369,17499,691,4259,722


#### guardar archivos

In [None]:
#vigilados_df.to_csv('vigilados_registrados_RUES.csv')
#clientes_df.to_csv('clientes_registrados_RUES.csv')

In [None]:
vigilados_df = pd.read_csv('vigilados_registrados_RUES.csv')
clientes_df = pd.read_csv('clientes_registrados_RUES.csv')

# Step 4: Completar la información de los Contratos

In [None]:
vigilados_df_sinduplicados = vigilados_df.drop_duplicates(subset=['nit_propietario'], keep='first', ignore_index=True)
clientes_df_sinduplicados = clientes_df.drop_duplicates(subset=['nit_propietario'], keep='first', ignore_index=True)

In [None]:
# Diccionario de clientes a CIIU
clientes_frame = clientes_df_sinduplicados[['nit_propietario',
       'cod_ciiu_act_econ_pri','ciuu_division_pri', 'ciuu_division_pri_desc', 'ciuu_grupo_pri',
       'ciuu_grupo_pri_desc', 'ciuu_seccion_desc', 'Sector']]
clientes_frame.head()

Unnamed: 0,nit_propietario,cod_ciiu_act_econ_pri,ciuu_division_pri,ciuu_division_pri_desc,ciuu_grupo_pri,ciuu_grupo_pri_desc,ciuu_seccion_desc,Sector
0,0,5229,52,Almacenamiento y actividades complementarias a...,522,"Actividades de las estaciones, vías y servicio...",TRANSPORTE Y ALMACENAMIENTO,TRANSPORTES
1,860034313,6412,64,"Actividades de servicios financieros, excepto ...",641,Intermediación monetaria,ACTIVIDADES FINANCIERAS Y DE SEGUROS,FINANCIERO
2,860002153,5210,52,Almacenamiento y actividades complementarias a...,521,Almacenamiento y depósito,TRANSPORTE Y ALMACENAMIENTO,TRANSPORTES
3,800233052,4923,49,Transporte terrestre; transporte por tuberías,492,Transporte terrestre público automotor,TRANSPORTE Y ALMACENAMIENTO,TRANSPORTES
4,800001520,9200,92,Actividades de juegos de azar y apuestas,920,Actividades de juegos de azar y apuestas,"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y R...",FINANCIERO


In [None]:
df_Contratos2 = df_Contratos.copy()

In [None]:
df_Contratos2['NUMERO_DOCUMENTO_CLIENTE'] = df_Contratos2['NUMERO_DOCUMENTO_CLIENTE'].apply(extender_nit_string)

In [None]:
df_Contratos2 = pd.merge(df_Contratos2, clientes_frame, how='left', left_on='NUMERO_DOCUMENTO_CLIENTE', right_on='nit_propietario')
df_Contratos2.head()

Unnamed: 0.1,Unnamed: 0,ID_CONTRATO,FECHA_INICIO_CONTRATO,FECHA_FIN_CONTRATO,MONTO_CONTRATO,CANTIDAD_PUESTOS_CONTRATO,NIT_VIGILADO_x,DESCRIPCION_VALOR_AGREGADO,ID_ESTADO_CONTRATO,FECHA_CONTRATO_ESTADO,MAXDATE,MINDATE,ID_CLIENTE,TIPO_CONTRATO,ACTIVO_x,NUMERO_DOCUMENTO_CLIENTE,DIGITO_VERIFICACION,RAZON_SOCIAL_CLIENTE,PRIMER_NOMBRE_CLIENTE,SEGUNDO_NOMBRE_CLIENTE,PRIMER_APELLIDO_CLIENTE,SEGUNDO_APELIDO_CLIENTE,SECTOR_CLIENTE,CIIU_CLIENTE,DIRECCION_CLIENTE,TELEFONO_FIJO_CLIENTE,TELEFONO_MOVIL_CLIENTE,CORREO_ELECTRONICO_CLIENTE,CORREO_ELECTRONICO_ALTERNATIVO_CLIENTE,ID_CIUDAD,ID_DEPARTAMENTO,ID_DEPARTAMENTO1,ID_TIPO_DOCUMENTO_IDENTIFICACION,NUMERO_DOCUMENTO_REPRESENTANTE_LEGAL_CLIENTE,ID_TIPO_CLIENTE,TIPO_VIA,NOMBRE_NUM_VIA,PREFIJO_UNO,PREFIJO_UNO_UNO,NUMERO_VIA_GENERADORA,PREFIJO_DOS,PREFIJO_DOS_DOS,NUMERO_PLACA,COMPLEMENTARIO_LISTA,COMPLEMENTARIO_TEXTO,ID_TIPO_DOCUMENTO_IDENTIFICACION_REPRESENTANTE_LEGAL_CLIENTE,NIT_VIGILADO_y,CONSORCIO,ID_DIRECCION,ACTIVO_y,NIT_VIGILADO,ID_TIPO_SERVICIO,ID_TIPO_SOCIEDAD,RAZON_SOCIAL_VIGILADO,CIIU_VIGILADO,TIPO_SERVICIO,SECTOR_CLIENTE_DESC,nit_propietario,cod_ciiu_act_econ_pri,ciuu_division_pri,ciuu_division_pri_desc,ciuu_grupo_pri,ciuu_grupo_pri_desc,ciuu_seccion_desc,Sector
0,0,1,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,0.0,2.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020,Empresa de Vigilancia y Seguridad Privadas sin...,COMERCIAL,890920369,1410,14,Confección de prendas de vestir,141,"Confección de prendas de vestir, excepto prend...",INDUSTRIAS MANUFACTURERAS,INDUSTRIAL
1,1,3,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020,Empresa de Vigilancia y Seguridad Privadas sin...,COMERCIAL,890920369,1410,14,Confección de prendas de vestir,141,"Confección de prendas de vestir, excepto prend...",INDUSTRIAS MANUFACTURERAS,INDUSTRIAL
2,2,4,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,177520.0,9.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020,Empresa de Vigilancia y Seguridad Privadas sin...,COMERCIAL,890920369,1410,14,Confección de prendas de vestir,141,"Confección de prendas de vestir, excepto prend...",INDUSTRIAS MANUFACTURERAS,INDUSTRIAL
3,3,6,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020,Empresa de Vigilancia y Seguridad Privadas sin...,COMERCIAL,890920369,1410,14,Confección de prendas de vestir,141,"Confección de prendas de vestir, excepto prend...",INDUSTRIAS MANUFACTURERAS,INDUSTRIAL
4,4,8,2011-08-02 00:00:00.000,2012-08-01 00:00:00.000,37659.0,1.0,811001008,,,,,,306,,1,890920369,9,INDUSTRIAS EL TORO LTDA,RAFAEL,,SANCHEZ,FRAN,1.0,1810,null null null null null null null null,2313506,342313506,televigia@televigia.com,andicasta888@hotmail.com,5001.0,5.0,5.0,4,6783521,1,CARRERA,56,C,,50.0,,,30.0,LOCAL,301,1.0,811001008,0.0,160029,1,811001008,2,2,TELEVIGIA,8020,Empresa de Vigilancia y Seguridad Privadas sin...,COMERCIAL,890920369,1410,14,Confección de prendas de vestir,141,"Confección de prendas de vestir, excepto prend...",INDUSTRIAS MANUFACTURERAS,INDUSTRIAL


In [None]:
df_Contratos2.to_csv('contratos_RENOVA_todos_los_clientes_con_Datos_de_RUES.csv')

# Step 5: Estadísticas de actividades económicas de los Contratos

In [None]:
df_Contratos2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 177614 entries, 0 to 177613
Data columns (total 65 columns):
 #   Column                                                        Non-Null Count   Dtype 
---  ------                                                        --------------   ----- 
 0   Unnamed: 0                                                    177614 non-null  object
 1   ID_CONTRATO                                                   177614 non-null  object
 2   FECHA_INICIO_CONTRATO                                         177614 non-null  object
 3   FECHA_FIN_CONTRATO                                            177614 non-null  object
 4   MONTO_CONTRATO                                                177614 non-null  object
 5   CANTIDAD_PUESTOS_CONTRATO                                     62366 non-null   object
 6   NIT_VIGILADO_x                                                177614 non-null  object
 7   DESCRIPCION_VALOR_AGREGADO                                    949

In [None]:
df_Contratos2['SECTOR_CLIENTE_DESC'].value_counts().to_frame()

Unnamed: 0,SECTOR_CLIENTE_DESC
COMERCIAL,38511
RESIDENCIAL,18641
OTRO,14223
SERVICIOS,9207
VIGILANCIA,6429
INDUSTRIAL,4423
EDUCATIVO,1909
GOBIERNO,1818
TRANSPORTES,1443
FINANCIERO,1363


In [None]:
df_Contratos2['SECTOR_CLIENTE_DESC'].value_counts(normalize=True, dropna = True).to_frame()

Unnamed: 0,SECTOR_CLIENTE_DESC
COMERCIAL,0.39
RESIDENCIAL,0.19
OTRO,0.14
SERVICIOS,0.09
VIGILANCIA,0.07
INDUSTRIAL,0.04
EDUCATIVO,0.02
GOBIERNO,0.02
TRANSPORTES,0.01
FINANCIERO,0.01


In [None]:
df_Contratos2['ciuu_seccion_desc'].value_counts().to_frame()

Unnamed: 0,ciuu_seccion_desc
COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS,20428
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,9402
INDUSTRIAS MANUFACTURERAS,7053
TRANSPORTE Y ALMACENAMIENTO,3199
ACTIVIDADES FINANCIERAS Y DE SEGUROS,2787
CONSTRUCCIÓN,2668
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,2605
ALOJAMIENTO Y SERVICIOS DE COMIDA,2546
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",1572
ACTIVIDADES INMOBILIARIAS,1076


In [None]:
df_Contratos2['ciuu_seccion_desc'].value_counts(normalize=True, dropna = True).to_frame()

Unnamed: 0,ciuu_seccion_desc
COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS,0.35
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,0.16
INDUSTRIAS MANUFACTURERAS,0.12
TRANSPORTE Y ALMACENAMIENTO,0.05
ACTIVIDADES FINANCIERAS Y DE SEGUROS,0.05
CONSTRUCCIÓN,0.05
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,0.04
ALOJAMIENTO Y SERVICIOS DE COMIDA,0.04
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",0.03
ACTIVIDADES INMOBILIARIAS,0.02


In [None]:
df_Contratos2['ID_CIUDAD'].value_counts().head()

11001.0    48037
5001.0     36026
76001.0    15266
8001.0      8355
13001.0     4373
Name: ID_CIUDAD, dtype: int64

In [None]:
df_Contratos2['ID_DEPARTAMENTO'].value_counts().head()

5.0     49715
11.0    48037
76.0    17959
8.0      8866
25.0     6290
Name: ID_DEPARTAMENTO, dtype: int64

In [None]:
df_Contratos2['ID_DEPARTAMENTO1'].value_counts().head()

5.0     49714
11.0    47956
76.0    17954
8.0      8860
25.0     6273
Name: ID_DEPARTAMENTO1, dtype: int64

In [None]:
df_Contratos2.groupby(['SECTOR_CLIENTE_DESC', 'ID_CIUDAD']).size().unstack()

ID_CIUDAD,11001.0,13001.0,17001.0,17380.0,19001.0,20001.0,20011.0,20710.0,23001.0,25035.0,25126.0,25175.0,25214.0,25260.0,25286.0,25430.0,25473.0,25486.0,25799.0,25875.0,25899.0,41001.0,47001.0,50001.0,5001.0,50226.0,5045.0,5088.0,5148.0,5266.0,5308.0,5318.0,54001.0,5615.0,5631.0,5679.0,5789.0,5887.0,63001.0,66001.0,66400.0,68001.0,68081.0,68307.0,70001.0,73001.0,73408.0,73547.0,73563.0,76001.0,76109.0,76520.0,8001.0,85010.0,85230.0,13006.0,13244.0,13430.0,13683.0,13688.0,13836.0,15001.0,15104.0,15176.0,15238.0,15299.0,15407.0,15469.0,15491.0,15516.0,15646.0,15759.0,15806.0,17174.0,17541.0,17614.0,17873.0,17877.0,18001.0,18753.0,19130.0,19142.0,19212.0,19256.0,19300.0,19548.0,19573.0,19698.0,19780.0,19807.0,20013.0,20060.0,20443.0,23162.0,23189.0,23417.0,23466.0,23555.0,23660.0,23807.0,25001.0,25019.0,25099.0,25148.0,25151.0,25269.0,25281.0,25290.0,25293.0,25295.0,25297.0,25307.0,25320.0,25322.0,25377.0,25386.0,25407.0,25740.0,25743.0,25754.0,25758.0,25785.0,25817.0,25843.0,27001.0,27361.0,41298.0,41349.0,41357.0,41524.0,41551.0,41668.0,44001.0,44430.0,44650.0,47189.0,47288.0,47707.0,50006.0,5002.0,50150.0,5030.0,50313.0,5034.0,5042.0,5044.0,50568.0,50606.0,50689.0,5079.0,5101.0,5113.0,5129.0,5147.0,5154.0,5172.0,5197.0,52001.0,5209.0,5212.0,52356.0,5237.0,52399.0,5264.0,52835.0,52838.0,5310.0,5313.0,5360.0,5364.0,5376.0,5380.0,5390.0,5400.0,5440.0,54498.0,54518.0,54874.0,5541.0,5607.0,5642.0,5656.0,5660.0,5664.0,5667.0,5686.0,5697.0,5756.0,5761.0,5837.0,5856.0,5893.0,5895.0,63130.0,63401.0,63594.0,66088.0,66170.0,66383.0,66440.0,66594.0,66682.0,68077.0,68092.0,68276.0,68406.0,68418.0,68432.0,68522.0,68547.0,68655.0,68679.0,68755.0,68773.0,68861.0,70708.0,73124.0,73168.0,73268.0,73275.0,73319.0,73349.0,73443.0,73449.0,73504.0,73671.0,73861.0,76020.0,76036.0,76041.0,76111.0,76113.0,76130.0,76147.0,76248.0,76318.0,76364.0,76403.0,76622.0,76736.0,76823.0,76834.0,76892.0,76895.0,8078.0,81001.0,8296.0,8433.0,85001.0,85250.0,85410.0,8560.0,8573.0,86568.0,86749.0,8685.0,8758.0,88001.0,91001.0,95001.0,17513.0,20621.0,25513.0,25572.0,25718.0,25841.0,63212.0,86001.0,8638.0,5021.0,5604.0,15753.0,18756.0,19473.0,19517.0,19532.0,19845.0,20045.0,20400.0,23182.0,23672.0,25053.0,25200.0,25312.0,25335.0,25402.0,25488.0,25612.0,44035.0,44279.0,50287.0,50318.0,50680.0,54313.0,54405.0,5579.0,5736.0,70215.0,70823.0,85440.0,8849.0,94001.0,97001.0,99001.0,15542.0,17442.0,20770.0,25491.0,44078.0,47058.0,47245.0,50110.0,50124.0,50573.0,68549.0,68669.0,68705.0,70523.0,70771.0,73770.0,76233.0,76275.0,76670.0,76869.0,15667.0,23580.0,25317.0,25793.0,41016.0,73411.0,86885.0,13052.0,15322.0,15693.0,17042.0,17653.0,19622.0,20175.0,20228.0,20238.0,25154.0,25178.0,25658.0,25736.0,25769.0,25815.0,41885.0,44560.0,47980.0,5038.0,5086.0,52473.0,52480.0,5284.0,5321.0,5353.0,5847.0,5890.0,63190.0,63302.0,63470.0,66045.0,66075.0,68176.0,70110.0,76563.0,76616.0,76828.0,76863.0,8372.0,85430.0,86573.0,15204.0,15599.0,15673.0,25040.0,25483.0,5809.0,70221.0,76606.0,13657.0,13744.0,15514.0,15764.0,19450.0,20787.0,25183.0,41006.0,41791.0,44378.0,47555.0,47798.0,54003.0,54810.0,68615.0,73148.0,73200.0,73217.0,76400.0,86760.0,13838.0,44874.0,15572.0,17013.0,5250.0,5368.0,5858.0,81736.0
SECTOR_CLIENTE_DESC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1,Unnamed: 85_level_1,Unnamed: 86_level_1,Unnamed: 87_level_1,Unnamed: 88_level_1,Unnamed: 89_level_1,Unnamed: 90_level_1,Unnamed: 91_level_1,Unnamed: 92_level_1,Unnamed: 93_level_1,Unnamed: 94_level_1,Unnamed: 95_level_1,Unnamed: 96_level_1,Unnamed: 97_level_1,Unnamed: 98_level_1,Unnamed: 99_level_1,Unnamed: 100_level_1,Unnamed: 101_level_1,Unnamed: 102_level_1,Unnamed: 103_level_1,Unnamed: 104_level_1,Unnamed: 105_level_1,Unnamed: 106_level_1,Unnamed: 107_level_1,Unnamed: 108_level_1,Unnamed: 109_level_1,Unnamed: 110_level_1,Unnamed: 111_level_1,Unnamed: 112_level_1,Unnamed: 113_level_1,Unnamed: 114_level_1,Unnamed: 115_level_1,Unnamed: 116_level_1,Unnamed: 117_level_1,Unnamed: 118_level_1,Unnamed: 119_level_1,Unnamed: 120_level_1,Unnamed: 121_level_1,Unnamed: 122_level_1,Unnamed: 123_level_1,Unnamed: 124_level_1,Unnamed: 125_level_1,Unnamed: 126_level_1,Unnamed: 127_level_1,Unnamed: 128_level_1,Unnamed: 129_level_1,Unnamed: 130_level_1,Unnamed: 131_level_1,Unnamed: 132_level_1,Unnamed: 133_level_1,Unnamed: 134_level_1,Unnamed: 135_level_1,Unnamed: 136_level_1,Unnamed: 137_level_1,Unnamed: 138_level_1,Unnamed: 139_level_1,Unnamed: 140_level_1,Unnamed: 141_level_1,Unnamed: 142_level_1,Unnamed: 143_level_1,Unnamed: 144_level_1,Unnamed: 145_level_1,Unnamed: 146_level_1,Unnamed: 147_level_1,Unnamed: 148_level_1,Unnamed: 149_level_1,Unnamed: 150_level_1,Unnamed: 151_level_1,Unnamed: 152_level_1,Unnamed: 153_level_1,Unnamed: 154_level_1,Unnamed: 155_level_1,Unnamed: 156_level_1,Unnamed: 157_level_1,Unnamed: 158_level_1,Unnamed: 159_level_1,Unnamed: 160_level_1,Unnamed: 161_level_1,Unnamed: 162_level_1,Unnamed: 163_level_1,Unnamed: 164_level_1,Unnamed: 165_level_1,Unnamed: 166_level_1,Unnamed: 167_level_1,Unnamed: 168_level_1,Unnamed: 169_level_1,Unnamed: 170_level_1,Unnamed: 171_level_1,Unnamed: 172_level_1,Unnamed: 173_level_1,Unnamed: 174_level_1,Unnamed: 175_level_1,Unnamed: 176_level_1,Unnamed: 177_level_1,Unnamed: 178_level_1,Unnamed: 179_level_1,Unnamed: 180_level_1,Unnamed: 181_level_1,Unnamed: 182_level_1,Unnamed: 183_level_1,Unnamed: 184_level_1,Unnamed: 185_level_1,Unnamed: 186_level_1,Unnamed: 187_level_1,Unnamed: 188_level_1,Unnamed: 189_level_1,Unnamed: 190_level_1,Unnamed: 191_level_1,Unnamed: 192_level_1,Unnamed: 193_level_1,Unnamed: 194_level_1,Unnamed: 195_level_1,Unnamed: 196_level_1,Unnamed: 197_level_1,Unnamed: 198_level_1,Unnamed: 199_level_1,Unnamed: 200_level_1,Unnamed: 201_level_1,Unnamed: 202_level_1,Unnamed: 203_level_1,Unnamed: 204_level_1,Unnamed: 205_level_1,Unnamed: 206_level_1,Unnamed: 207_level_1,Unnamed: 208_level_1,Unnamed: 209_level_1,Unnamed: 210_level_1,Unnamed: 211_level_1,Unnamed: 212_level_1,Unnamed: 213_level_1,Unnamed: 214_level_1,Unnamed: 215_level_1,Unnamed: 216_level_1,Unnamed: 217_level_1,Unnamed: 218_level_1,Unnamed: 219_level_1,Unnamed: 220_level_1,Unnamed: 221_level_1,Unnamed: 222_level_1,Unnamed: 223_level_1,Unnamed: 224_level_1,Unnamed: 225_level_1,Unnamed: 226_level_1,Unnamed: 227_level_1,Unnamed: 228_level_1,Unnamed: 229_level_1,Unnamed: 230_level_1,Unnamed: 231_level_1,Unnamed: 232_level_1,Unnamed: 233_level_1,Unnamed: 234_level_1,Unnamed: 235_level_1,Unnamed: 236_level_1,Unnamed: 237_level_1,Unnamed: 238_level_1,Unnamed: 239_level_1,Unnamed: 240_level_1,Unnamed: 241_level_1,Unnamed: 242_level_1,Unnamed: 243_level_1,Unnamed: 244_level_1,Unnamed: 245_level_1,Unnamed: 246_level_1,Unnamed: 247_level_1,Unnamed: 248_level_1,Unnamed: 249_level_1,Unnamed: 250_level_1,Unnamed: 251_level_1,Unnamed: 252_level_1,Unnamed: 253_level_1,Unnamed: 254_level_1,Unnamed: 255_level_1,Unnamed: 256_level_1,Unnamed: 257_level_1,Unnamed: 258_level_1,Unnamed: 259_level_1,Unnamed: 260_level_1,Unnamed: 261_level_1,Unnamed: 262_level_1,Unnamed: 263_level_1,Unnamed: 264_level_1,Unnamed: 265_level_1,Unnamed: 266_level_1,Unnamed: 267_level_1,Unnamed: 268_level_1,Unnamed: 269_level_1,Unnamed: 270_level_1,Unnamed: 271_level_1,Unnamed: 272_level_1,Unnamed: 273_level_1,Unnamed: 274_level_1,Unnamed: 275_level_1,Unnamed: 276_level_1,Unnamed: 277_level_1,Unnamed: 278_level_1,Unnamed: 279_level_1,Unnamed: 280_level_1,Unnamed: 281_level_1,Unnamed: 282_level_1,Unnamed: 283_level_1,Unnamed: 284_level_1,Unnamed: 285_level_1,Unnamed: 286_level_1,Unnamed: 287_level_1,Unnamed: 288_level_1,Unnamed: 289_level_1,Unnamed: 290_level_1,Unnamed: 291_level_1,Unnamed: 292_level_1,Unnamed: 293_level_1,Unnamed: 294_level_1,Unnamed: 295_level_1,Unnamed: 296_level_1,Unnamed: 297_level_1,Unnamed: 298_level_1,Unnamed: 299_level_1,Unnamed: 300_level_1,Unnamed: 301_level_1,Unnamed: 302_level_1,Unnamed: 303_level_1,Unnamed: 304_level_1,Unnamed: 305_level_1,Unnamed: 306_level_1,Unnamed: 307_level_1,Unnamed: 308_level_1,Unnamed: 309_level_1,Unnamed: 310_level_1,Unnamed: 311_level_1,Unnamed: 312_level_1,Unnamed: 313_level_1,Unnamed: 314_level_1,Unnamed: 315_level_1,Unnamed: 316_level_1,Unnamed: 317_level_1,Unnamed: 318_level_1,Unnamed: 319_level_1,Unnamed: 320_level_1,Unnamed: 321_level_1,Unnamed: 322_level_1,Unnamed: 323_level_1,Unnamed: 324_level_1,Unnamed: 325_level_1,Unnamed: 326_level_1,Unnamed: 327_level_1,Unnamed: 328_level_1,Unnamed: 329_level_1,Unnamed: 330_level_1,Unnamed: 331_level_1,Unnamed: 332_level_1,Unnamed: 333_level_1,Unnamed: 334_level_1,Unnamed: 335_level_1,Unnamed: 336_level_1,Unnamed: 337_level_1,Unnamed: 338_level_1,Unnamed: 339_level_1,Unnamed: 340_level_1,Unnamed: 341_level_1,Unnamed: 342_level_1,Unnamed: 343_level_1,Unnamed: 344_level_1,Unnamed: 345_level_1,Unnamed: 346_level_1,Unnamed: 347_level_1,Unnamed: 348_level_1,Unnamed: 349_level_1,Unnamed: 350_level_1,Unnamed: 351_level_1,Unnamed: 352_level_1,Unnamed: 353_level_1,Unnamed: 354_level_1,Unnamed: 355_level_1,Unnamed: 356_level_1,Unnamed: 357_level_1,Unnamed: 358_level_1,Unnamed: 359_level_1,Unnamed: 360_level_1,Unnamed: 361_level_1,Unnamed: 362_level_1,Unnamed: 363_level_1,Unnamed: 364_level_1,Unnamed: 365_level_1,Unnamed: 366_level_1,Unnamed: 367_level_1,Unnamed: 368_level_1,Unnamed: 369_level_1,Unnamed: 370_level_1,Unnamed: 371_level_1,Unnamed: 372_level_1,Unnamed: 373_level_1,Unnamed: 374_level_1,Unnamed: 375_level_1,Unnamed: 376_level_1,Unnamed: 377_level_1,Unnamed: 378_level_1,Unnamed: 379_level_1,Unnamed: 380_level_1,Unnamed: 381_level_1,Unnamed: 382_level_1,Unnamed: 383_level_1,Unnamed: 384_level_1,Unnamed: 385_level_1,Unnamed: 386_level_1,Unnamed: 387_level_1,Unnamed: 388_level_1,Unnamed: 389_level_1,Unnamed: 390_level_1,Unnamed: 391_level_1,Unnamed: 392_level_1,Unnamed: 393_level_1,Unnamed: 394_level_1,Unnamed: 395_level_1,Unnamed: 396_level_1,Unnamed: 397_level_1,Unnamed: 398_level_1,Unnamed: 399_level_1,Unnamed: 400_level_1,Unnamed: 401_level_1,Unnamed: 402_level_1,Unnamed: 403_level_1,Unnamed: 404_level_1,Unnamed: 405_level_1,Unnamed: 406_level_1,Unnamed: 407_level_1,Unnamed: 408_level_1
AGRICOLA Y GANADERO,97.0,2.0,3.0,1.0,11.0,2.0,2.0,2.0,3.0,1.0,10.0,1.0,9.0,1.0,1.0,1.0,5.0,2.0,5.0,2.0,3.0,3.0,8.0,15.0,22.0,2.0,2.0,1.0,2.0,2.0,1.0,1.0,5.0,1.0,6.0,1.0,2.0,1.0,1.0,2.0,1.0,20.0,5.0,2.0,2.0,1.0,2.0,1.0,1.0,21.0,1.0,9.0,6.0,3.0,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
COMERCIAL,8828.0,1594.0,297.0,4.0,628.0,268.0,16.0,,355.0,,16.0,78.0,360.0,2.0,89.0,12.0,38.0,1.0,7.0,,6.0,57.0,308.0,317.0,7937.0,1.0,41.0,207.0,5.0,458.0,21.0,34.0,433.0,220.0,216.0,,,2.0,161.0,1185.0,9.0,1252.0,153.0,105.0,158.0,1623.0,2.0,,1.0,3795.0,37.0,48.0,1455.0,2.0,,2.0,3.0,2.0,1.0,2.0,26.0,135.0,2.0,4.0,24.0,1.0,5.0,11.0,1.0,1.0,2.0,28.0,1.0,9.0,4.0,1.0,9.0,1.0,10.0,2.0,2.0,2.0,1.0,1.0,4.0,1.0,5.0,16.0,3.0,1.0,1.0,2.0,2.0,4.0,1.0,3.0,2.0,11.0,1.0,4.0,2.0,1.0,2.0,1.0,1.0,13.0,2.0,13.0,4.0,3.0,1.0,52.0,1.0,2.0,18.0,1.0,1.0,2.0,6.0,25.0,7.0,3.0,120.0,1.0,7.0,2.0,1.0,1.0,1.0,1.0,7.0,2.0,14.0,1.0,1.0,10.0,3.0,1.0,2.0,2.0,3.0,4.0,2.0,10.0,6.0,1.0,2.0,4.0,2.0,6.0,3.0,1.0,107.0,4.0,15.0,4.0,1.0,494.0,2.0,34.0,95.0,7.0,1.0,2.0,25.0,2.0,1.0,3.0,548.0,2.0,30.0,103.0,6.0,8.0,15.0,8.0,1.0,6.0,1.0,29.0,6.0,4.0,1.0,1.0,1.0,12.0,5.0,1.0,6.0,9.0,1.0,1.0,1.0,1.0,6.0,1.0,3.0,136.0,25.0,1.0,2.0,10.0,4.0,1.0,84.0,5.0,2.0,2.0,1.0,40.0,4.0,3.0,3.0,1.0,1.0,2.0,21.0,2.0,31.0,1.0,22.0,6.0,18.0,2.0,2.0,8.0,1.0,4.0,2.0,1.0,23.0,4.0,13.0,170.0,3.0,2.0,26.0,1.0,3.0,1.0,1.0,19.0,109.0,8.0,1.0,3.0,2.0,9.0,34.0,1.0,2.0,1.0,6.0,1.0,1.0,1.0,31.0,18.0,5.0,3.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
EDUCATIVO,507.0,50.0,11.0,,83.0,30.0,,,36.0,,,13.0,5.0,,1.0,6.0,3.0,,,,,6.0,35.0,45.0,282.0,,1.0,10.0,10.0,11.0,1.0,9.0,26.0,12.0,14.0,,,,5.0,99.0,,80.0,5.0,,5.0,44.0,1.0,,,94.0,3.0,5.0,73.0,,,,,3.0,,,1.0,17.0,,,9.0,,,,,,2.0,,,,,,,,,,,,,,,,,,,,,,,1.0,,,,,,,,,,,,1.0,,2.0,,,,2.0,,,,,,,,1.0,,,,,7.0,,,,,,,,1.0,,,1.0,,,,,,,2.0,,,,,,,1.0,,,6.0,,1.0,,,4.0,,1.0,,,,,,,,,5.0,,3.0,7.0,,,5.0,2.0,1.0,,,,,,,,,,,,,,,,,,,,,4.0,,,,3.0,,,10.0,,,,,,,1.0,,,,,,,1.0,,,,,,,,,,,,1.0,,,9.0,1.0,,,,,,,1.0,,,,,,,13.0,,,,8.0,,,,3.0,2.0,1.0,,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
FINANCIERO,657.0,7.0,4.0,,10.0,3.0,2.0,,10.0,,,5.0,2.0,,,,1.0,,,,,1.0,3.0,5.0,298.0,,,3.0,,,,,3.0,3.0,1.0,,2.0,,3.0,44.0,,70.0,6.0,,7.0,11.0,,,,97.0,9.0,1.0,22.0,,,,,,,,,,,,,,,,,,,1.0,,,,,,,,,,,,,,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,,,,,,,,,,,1.0,,,,,,,,,,,,,,,,,2.0,,,,,1.0,,1.0,3.0,,,,1.0,,,,10.0,,2.0,1.0,,,,3.0,,,,,,2.0,,,,,1.0,,,,,,,,,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2.0,,,,,,,3.0,,,,,,1.0,,,,,,,,,,,,,,,,,,,,,1.0,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
GOBIERNO,727.0,32.0,19.0,,50.0,15.0,,,20.0,,2.0,,,,5.0,2.0,,,1.0,2.0,3.0,11.0,45.0,82.0,136.0,,2.0,4.0,1.0,5.0,1.0,7.0,16.0,2.0,2.0,,1.0,1.0,1.0,25.0,,17.0,6.0,1.0,20.0,13.0,1.0,,,25.0,1.0,1.0,17.0,1.0,,,,,,,,24.0,,3.0,4.0,,3.0,,,6.0,,2.0,4.0,,,,,,4.0,,,,,1.0,,,,2.0,,,2.0,,,,,1.0,,,,,,,1.0,,2.0,4.0,,2.0,,,,,,,,,,2.0,,4.0,2.0,1.0,,2.0,4.0,,,,,,,,21.0,,2.0,,1.0,,5.0,,11.0,,5.0,,,,9.0,5.0,6.0,2.0,,,,,,1.0,,38.0,,,1.0,,,,2.0,,,,5.0,,2.0,5.0,,,,2.0,,1.0,,3.0,,,,,,,,,,1.0,,1.0,,,,,,1.0,,,,,2.0,,7.0,3.0,,,,2.0,1.0,2.0,,,,,,1.0,2.0,1.0,,1.0,,,,,,,,,2.0,,1.0,1.0,,,1.0,,,,,,4.0,,,17.0,,1.0,27.0,11.0,1.0,,,,,,,10.0,2.0,5.0,,1.0,,,,,,4.0,,,,1.0,2.0,1.0,2.0,2.0,2.0,3.0,2.0,1.0,1.0,1.0,6.0,1.0,1.0,5.0,4.0,1.0,1.0,1.0,10.0,5.0,5.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,10.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
INDUSTRIAL,1242.0,209.0,51.0,,14.0,6.0,1.0,,24.0,,12.0,19.0,14.0,3.0,32.0,12.0,16.0,,9.0,,2.0,18.0,41.0,42.0,788.0,,1.0,14.0,,44.0,8.0,7.0,46.0,37.0,121.0,,,,4.0,67.0,8.0,130.0,18.0,39.0,13.0,29.0,,,,315.0,8.0,35.0,214.0,3.0,,,1.0,,,,2.0,23.0,,,2.0,,,,1.0,,1.0,7.0,,,,,,,,,,31.0,,,,,11.0,8.0,,,,,,8.0,,,1.0,4.0,,,,,,,,2.0,,1.0,,1.0,,2.0,1.0,1.0,,1.0,,,,16.0,4.0,,13.0,,,,,,,,,,1.0,,,1.0,3.0,,6.0,,1.0,4.0,7.0,,,,,,,3.0,,,5.0,,2.0,1.0,,9.0,,9.0,,,,,2.0,,,1.0,86.0,,6.0,47.0,,,1.0,1.0,,4.0,,,,,,1.0,,,,,,1.0,,,,,2.0,,,24.0,,,,,2.0,,14.0,,,1.0,,6.0,,,,,,,,,1.0,,,,,2.0,,,,,,,2.0,,7.0,11.0,,1.0,7.0,,,,,2.0,63.0,,,,1.0,8.0,15.0,,2.0,,,,,,7.0,,,2.0,,,,,,,,,,,,,,,,1.0,1.0,,1.0,,,,1.0,,,,,,,,,,,,,,,,2.0,,,,,,3.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,5.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
MINAS Y ENERGIA,274.0,4.0,2.0,,,1.0,,,,,,1.0,,,2.0,,,,,,1.0,6.0,5.0,2.0,44.0,,,,,,,,9.0,,1.0,,,,1.0,3.0,,26.0,8.0,,,5.0,,,,12.0,,,37.0,2.0,,,,,,,,1.0,,,,,,,,1.0,4.0,,,,,,,,,,,,,,,,,,,,,2.0,,,,,,,,,,,1.0,,,,,,,,,,,,,,,1.0,,,,,,2.0,,,,,,,,,,,,1.0,,,,,,,,,,,1.0,,,1.0,,,,,,,,1.0,,,,,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,7.0,,1.0,,,1.0,,,3.0,,,,,,,,,,,,,,,,,,,,,,1.0,,,,,,,,,,,,,,,,,,2.0,,,,,,,5.0,,,,,,,,,,,,,,,,,,,,,1.0,1.0,2.0,1.0,1.0,1.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
OTRO,3142.0,181.0,63.0,,114.0,33.0,3.0,,54.0,1.0,11.0,64.0,15.0,3.0,16.0,6.0,12.0,2.0,2.0,,10.0,6.0,55.0,78.0,4199.0,,27.0,125.0,12.0,223.0,9.0,20.0,67.0,243.0,151.0,4.0,1.0,1.0,89.0,279.0,4.0,72.0,6.0,1.0,7.0,82.0,,,,1787.0,11.0,70.0,1080.0,3.0,,,,1.0,,,3.0,27.0,,2.0,21.0,1.0,,,,,3.0,5.0,,4.0,,1.0,1.0,,7.0,,,3.0,,,8.0,,14.0,6.0,,,2.0,2.0,,4.0,,,,,4.0,,,1.0,,,,5.0,,3.0,1.0,2.0,1.0,5.0,1.0,1.0,13.0,1.0,,1.0,1.0,3.0,4.0,,13.0,,1.0,,1.0,,,1.0,6.0,,5.0,5.0,,1.0,,,10.0,1.0,3.0,2.0,1.0,,3.0,1.0,,,,18.0,,,13.0,1.0,4.0,,,7.0,,36.0,,,,1.0,1.0,,,,264.0,,74.0,71.0,2.0,3.0,27.0,,,1.0,1.0,27.0,1.0,,,1.0,1.0,3.0,1.0,,,2.0,,,,8.0,2.0,,,37.0,,,,2.0,4.0,,10.0,,,,,2.0,1.0,1.0,1.0,,,,1.0,,3.0,,,2.0,1.0,1.0,,1.0,,,,,13.0,1.0,13.0,11.0,1.0,,16.0,,,,,17.0,54.0,6.0,,,5.0,6.0,33.0,1.0,1.0,,7.0,1.0,,1.0,30.0,,,,,,2.0,,2.0,,,1.0,6.0,,,1.0,,,,,2.0,,,,,,,,,,,1.0,,,,,,1.0,,,20.0,,,,,,,,,,,,,,,,,4.0,,,,,1.0,,,2.0,,1.0,,,,1.0,,,,2.0,4.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,1.0,1.0,2.0,1.0,1.0,2.0,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,7.0,1.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
RESIDENCIAL,7734.0,129.0,105.0,,642.0,31.0,,,21.0,,44.0,197.0,3.0,,41.0,14.0,38.0,,3.0,10.0,23.0,66.0,111.0,368.0,2129.0,,6.0,69.0,6.0,360.0,1.0,3.0,71.0,77.0,92.0,,,,101.0,348.0,,773.0,7.0,12.0,2.0,179.0,,,,1502.0,3.0,18.0,186.0,,,,,,,,,168.0,,1.0,45.0,,,,,1.0,,11.0,,,,,,,10.0,,7.0,,,,,,,,,,,,,2.0,,,,,,,3.0,,,,,10.0,,6.0,,1.0,,113.0,,,51.0,14.0,,,12.0,95.0,11.0,1.0,5.0,2.0,,,,,,,6.0,,,,,,,,1.0,2.0,,,5.0,,18.0,,,15.0,,1.0,,,1.0,1.0,,,,27.0,,8.0,,,,,1.0,,,,39.0,,19.0,38.0,,,3.0,,,8.0,,63.0,,12.0,,,,,,,2.0,,,,,3.0,1.0,,,27.0,,,,2.0,2.0,,190.0,3.0,6.0,,1.0,75.0,,3.0,,,,,,,,16.0,,,,4.0,,,,1.0,,,,1.0,4.0,5.0,,,29.0,,,1.0,,,7.0,,,,,,22.0,,,,9.0,,,,1.0,,,,,,,,1.0,,,1.0,,1.0,,,,,,,,,,,,,1.0,1.0,,9.0,1.0,5.0,,,,,,,13.0,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,,,,,,,,,,,,,,,,,,,,,,,1.0,,2.0,,,,,,,,,,,,,1.0,,,,,,,,,,,,,,1.0,1.0,2.0,1.0,3.0,2.0,4.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,
SERVICIOS,3637.0,272.0,103.0,,222.0,125.0,6.0,,329.0,,6.0,21.0,5.0,,7.0,2.0,8.0,,,,3.0,17.0,230.0,94.0,871.0,,14.0,18.0,1.0,76.0,4.0,2.0,165.0,25.0,11.0,,,1.0,23.0,152.0,1.0,356.0,7.0,9.0,119.0,105.0,1.0,1.0,,374.0,27.0,15.0,397.0,1.0,,,3.0,1.0,,5.0,1.0,30.0,,2.0,28.0,,,8.0,,,4.0,15.0,,10.0,,,,,1.0,,1.0,,,2.0,,2.0,2.0,2.0,,,,,,10.0,3.0,2.0,8.0,1.0,2.0,,,,,,1.0,1.0,,3.0,,,1.0,1.0,,,6.0,1.0,,,1.0,2.0,2.0,,,,3.0,1.0,,,,,12.0,,26.0,,,9.0,3.0,,14.0,,7.0,,5.0,2.0,,,,,1.0,2.0,1.0,,3.0,2.0,,1.0,,37.0,,8.0,1.0,1.0,,,1.0,,,,44.0,,4.0,8.0,1.0,1.0,2.0,14.0,,,,2.0,,,,1.0,,,2.0,,1.0,1.0,,,,1.0,1.0,,,25.0,,,,7.0,,,30.0,1.0,,1.0,,2.0,,4.0,,,,,1.0,,5.0,,1.0,3.0,,2.0,,,,,,,,6.0,4.0,40.0,1.0,,9.0,,,1.0,,13.0,7.0,3.0,1.0,4.0,6.0,2.0,35.0,,,,,,,,11.0,4.0,5.0,,,,,,,,,,1.0,,,,,,,2.0,1.0,1.0,2.0,1.0,4.0,,,,,1.0,,,,2.0,,,,,,,,3.0,,1.0,,,,,,,,,,,4.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2.0,,,,,,,,,,,,,,,,,,,1.0,,1.0,,,,,,,,,,,,,,,,,,,,1.0,4.0,1.0,1.0,1.0,3.0,2.0,1.0,1.0,1.0,2.0,12.0,4.0,1.0,2.0,2.0,1.0,1.0,6.0,1.0,,,,,,,,


In [None]:
df_Contratos2.groupby(['TIPO_SERVICIO', 'SECTOR_CLIENTE_DESC']).size().unstack()

SECTOR_CLIENTE_DESC,AGRICOLA Y GANADERO,COMERCIAL,EDUCATIVO,FINANCIERO,GOBIERNO,INDUSTRIAL,MINAS Y ENERGIA,OTRO,RESIDENCIAL,SERVICIOS,TRANSPORTES,VIGILANCIA
TIPO_SERVICIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Cooperativa de Vigilancia y Seguridad Privada,16.0,1834.0,98.0,49.0,84.0,164.0,3.0,353.0,4463.0,228.0,37.0,140.0
Departamento de Seguridad Persona Jurídica,,1.0,,,,,,,,,,
Empresa Arrendadora de Vehículos Blindados,12.0,3017.0,,47.0,338.0,47.0,60.0,343.0,1.0,416.0,526.0,4851.0
"Empresa Asesora, Consultora e Investigadora en Vigilancia y Seguridad Privada",1.0,5.0,4.0,6.0,1.0,,4.0,25.0,,7.0,2.0,
Empresa Blindadora,35.0,291.0,10.0,235.0,23.0,100.0,80.0,350.0,17.0,119.0,33.0,406.0
Empresa de Transporte de Valores,1.0,297.0,3.0,230.0,13.0,3.0,62.0,100.0,,353.0,34.0,2.0
Empresa de Vigilancia y Seguridad Privadas con Armas,244.0,15435.0,1271.0,521.0,1293.0,3403.0,312.0,4693.0,12098.0,4656.0,502.0,492.0
Empresa de Vigilancia y Seguridad Privadas sin Armas,52.0,17151.0,523.0,275.0,66.0,706.0,15.0,8359.0,2062.0,3426.0,309.0,529.0
"Inscripción en el Registro de Fabricantes, Importadores, Comercializadores, Arrendadores e Instaladores de Equipos para la Vigilancia y la Seguridad Privada",,480.0,,,,,,,,2.0,,9.0


In [None]:
df_Contratos2.groupby(['TIPO_SERVICIO', 'año']).size().unstack()

In [None]:
df_Contratos2.groupby(['SECTOR_CLIENTE_DESC',  'año']).size().unstack()

In [None]:
df_Contratos2.groupby(['ID_CIUDAD', 'año']).size().unstack()

In [None]:
df_Contratos2.groupby(['ID_DEPARTAMENTO1', 'año']).size().unstack()

In [None]:
# Para sacar porcentajes se puede usar 
value_counts(normalize=True)

# Step 6: Exploracion de Clientes

In [None]:
 clientes_df['numero_identificacion'].value_counts().head()

0000000000000    262990
830111257          1474
900276962          1022
890903938           854
860002964           809
Name: numero_identificacion, dtype: int64

In [None]:
clientes_df.loc[clientes_df['numero_identificacion'] == '800001520', 'ultimo_ano_renovado'].value_counts()

2,022.00    241
0.00        107
2,017.00     12
2,019.00     10
2,018.00      9
2,020.00      9
2,012.00      5
2,014.00      4
2,015.00      4
2,021.00      3
Name: ultimo_ano_renovado, dtype: int64

## Considerar solo clientes activos en el RUES

In [None]:
clientes_df.loc[(clientes_df['numero_identificacion'] == '800001520') & (clientes_df['ultimo_ano_renovado'] == 2022), 'estado_matricula'].value_counts()

ACTIVA    241
Name: estado_matricula, dtype: int64

In [None]:
clientes_df = clientes_df[clientes_df['ultimo_ano_renovado'] == 2022]
clientes_df.shape

(85982, 22)

In [None]:
# Ahora veamos las secciones por ciudades:
clientes_df[clientes_df['camara_comercio'].isin(ciudades_clientes)].groupby(['ciuu_seccion_desc', 'camara_comercio']).size().unstack()

camara_comercio,ABURRA SUR,ARMENIA,BARRANCABERMEJA,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,IBAGUE,MEDELLIN PARA ANTIOQUIA,PEREIRA
ciuu_seccion_desc,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y RECREACIÓN",149.0,256.0,50.0,50.0,1638.0,121.0,113.0,181.0,301.0,258.0
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,105.0,61.0,30.0,348.0,763.0,213.0,455.0,103.0,573.0,98.0
ACTIVIDADES DE ORGANIZACIONES Y ENTIDADES EXTRATERRITORIALES,,1.0,,7.0,,,,2.0,71.0,
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,81.0,51.0,22.0,213.0,586.0,176.0,299.0,75.0,431.0,94.0
ACTIVIDADES FINANCIERAS Y DE SEGUROS,118.0,106.0,61.0,296.0,1656.0,421.0,464.0,117.0,642.0,155.0
ACTIVIDADES INMOBILIARIAS,60.0,3.0,3.0,80.0,213.0,45.0,132.0,15.0,248.0,15.0
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",52.0,11.0,14.0,124.0,249.0,100.0,210.0,25.0,328.0,42.0
ADMINISTRACIÓN PÚBLICA Y DEFENSA; PLANES DE SEGURIDAD SOCIAL DE AFILIACIÓN OBLIGATORIA,4.0,9.0,4.0,24.0,97.0,21.0,22.0,7.0,22.0,8.0
"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y PESCA",14.0,3.0,7.0,51.0,95.0,53.0,53.0,12.0,73.0,2.0
ALOJAMIENTO Y SERVICIOS DE COMIDA,179.0,68.0,11.0,302.0,1919.0,239.0,462.0,100.0,873.0,104.0


In [None]:
clientes_df2 = clientes_df.drop_duplicates(subset=['razon_social', 'nit_propietario'], keep='first', ignore_index=True)
clientes_df2.shape

(83042, 22)

In [None]:
# Ahora veamos las secciones por ciudades:
clientes_df2[clientes_df2['camara_comercio'].isin(ciudades_clientes)].groupby(['ciuu_seccion_desc', 'camara_comercio']).size().unstack()

camara_comercio,ABURRA SUR,ARMENIA,BARRANCABERMEJA,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,IBAGUE,MEDELLIN PARA ANTIOQUIA,PEREIRA
ciuu_seccion_desc,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y RECREACIÓN",149.0,256.0,49.0,49.0,1636.0,120.0,111.0,179.0,300.0,258.0
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,102.0,60.0,28.0,348.0,759.0,209.0,450.0,102.0,570.0,95.0
ACTIVIDADES DE ORGANIZACIONES Y ENTIDADES EXTRATERRITORIALES,,1.0,,7.0,,,,2.0,70.0,
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,79.0,49.0,18.0,211.0,573.0,158.0,268.0,65.0,385.0,70.0
ACTIVIDADES FINANCIERAS Y DE SEGUROS,117.0,102.0,55.0,291.0,1645.0,393.0,436.0,103.0,615.0,135.0
ACTIVIDADES INMOBILIARIAS,58.0,3.0,3.0,80.0,210.0,43.0,132.0,15.0,246.0,15.0
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",52.0,10.0,14.0,124.0,246.0,96.0,203.0,24.0,320.0,33.0
ADMINISTRACIÓN PÚBLICA Y DEFENSA; PLANES DE SEGURIDAD SOCIAL DE AFILIACIÓN OBLIGATORIA,4.0,7.0,2.0,23.0,95.0,17.0,19.0,4.0,18.0,5.0
"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y PESCA",13.0,3.0,7.0,50.0,94.0,52.0,53.0,11.0,69.0,2.0
ALOJAMIENTO Y SERVICIOS DE COMIDA,178.0,67.0,11.0,302.0,1917.0,239.0,461.0,99.0,872.0,102.0


In [None]:
clientes_df3 = clientes_df.drop_duplicates(subset=['nit_propietario'], keep='first', ignore_index=True)
clientes_df3.shape

(23644, 22)

In [None]:
# Ahora veamos las secciones por ciudades:
clientes_df3[clientes_df3['camara_comercio'].isin(ciudades_clientes)].groupby(['ciuu_seccion_desc', 'camara_comercio']).size().unstack()

camara_comercio,ABURRA SUR,ARMENIA,BARRANCABERMEJA,BARRANQUILLA,BOGOTA,BUCARAMANGA,CALI,IBAGUE,MEDELLIN PARA ANTIOQUIA,PEREIRA
ciuu_seccion_desc,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
"ACTIVIDADES ARTÍSTICAS, DE ENTRETENIMIENTO Y RECREACIÓN",15.0,7.0,3.0,22.0,84.0,16.0,32.0,7.0,79.0,11.0
ACTIVIDADES DE ATENCIÓN DE LA SALUD HUMANA Y DE ASISTENCIA SOCIAL,31.0,26.0,9.0,171.0,184.0,59.0,163.0,46.0,180.0,27.0
ACTIVIDADES DE ORGANIZACIONES Y ENTIDADES EXTRATERRITORIALES,,,,5.0,,,,,65.0,
ACTIVIDADES DE SERVICIOS ADMINISTRATIVOS Y DE APOYO,45.0,22.0,7.0,146.0,203.0,35.0,101.0,20.0,129.0,11.0
ACTIVIDADES FINANCIERAS Y DE SEGUROS,35.0,29.0,6.0,71.0,63.0,32.0,50.0,8.0,77.0,3.0
ACTIVIDADES INMOBILIARIAS,40.0,1.0,3.0,74.0,86.0,25.0,104.0,14.0,190.0,13.0
"ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS",44.0,6.0,10.0,105.0,150.0,55.0,151.0,18.0,253.0,22.0
ADMINISTRACIÓN PÚBLICA Y DEFENSA; PLANES DE SEGURIDAD SOCIAL DE AFILIACIÓN OBLIGATORIA,2.0,4.0,,3.0,4.0,1.0,2.0,1.0,3.0,
"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y PESCA",9.0,2.0,2.0,17.0,30.0,9.0,42.0,7.0,49.0,1.0
ALOJAMIENTO Y SERVICIOS DE COMIDA,70.0,31.0,7.0,91.0,252.0,58.0,130.0,44.0,286.0,48.0
