# Prueba Técnica

**Autor:** Daniel Dávila Lesmes

**Contacto** danielandresd998@gmail.com https://www.linkedin.com/in/danielandresd/


## Caso de negocio

"La Caja Colombiana de Subsidio Familiar – Colsubsidio, es una compañía que pertenece al Sistema del Subsidio Familiar y al Sistema de Protección y Seguridad Social colombiano, que en sus más de 60 años se ha consolidado como la caja de compensación familiar de mayor cobertura del país. Su gestión, la desarrolla a través de la administración de recursos provenientes de las empresas aportantes y la prestación de servicios sociales para los trabajadores afiliados, sus familias y la población en general.

Colsubsidio ha dividido la prestación de sus servicios en once diferentes unidades especializadas de servicio (UES) que ofrecen diferentes productos.

En este caso, se requiere un análisis general del consumo individual en un periodo de tiempo y su penetración(*) en la población afiliada. Para tal fin en la carpeta data encontrará los siguientes archivos:

Persona: Datos de las personas con afiliación vigente a la caja
Empresa: Datos de la empresa aportante.
Consumo: Bases de datos del consumos individuales de los productos Colsubsidio

(*) Se define la penetración del servicio como la proporción de clientes afiliados respecto el total de clientes atendidos en un periodo de tiempo"

### Preguntas clave a responder					
	

¿Existen temporadas de mayor venta de productos?							
								
¿Cuál es la participación de consumo de personas afiliadas y no afiliadas?								
								
								
¿Cuál es el consumo total por unidad de negocio?								
								
								
¿Cuáles son las unidades y productos de mayor uso en cada categoría?								
								
								
Identifique los clientes (afiliados y no afiliados) con mayor frecuencia de uso y mayor valor neto de venta.								
								
								
¿Cómo ha sido el porcentaje histórico de penetración en la población afiliada de los servicios Colsubsidio?								
								
								
¿Cuáles son los productos más consumidos en el cada segmento poblacional?								
								
								
¿Cuáles son las mejores empresas en cuanto a consumo individual de sus empleados?	

## Desarrollo del ejercicio

### Importar librerías y módulos

In [49]:
""" Importar modulos generales"""
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### Extraccion de datos

In [163]:
"""Definir rutas de ubicación de los archivos"""
data_folder= 'Data/' #Carpeta donde se almacenan los datasets de caracter lectura
img_folder='Graficos/'
#Ruta de los archivos
consumos_path=data_folder+"Consumo.csv"
empresas_path=data_folder+"Empresa.csv"
personas_path=data_folder+"Persona.csv"

In [51]:
"""Crear DataFrames"""
consumos_df=pd.read_csv(consumos_path,";")
empresas_df=pd.read_csv(empresas_path,";")
personas_df=pd.read_csv(personas_path,";")

  consumos_df=pd.read_csv(consumos_path,";")
  empresas_df=pd.read_csv(empresas_path,";")
  personas_df=pd.read_csv(personas_path,";")


### Transformacion de datos

#### Tabla Empresas

In [52]:
"""Verificar datos nulos por columna"""
empresas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74045 entries, 0 to 74044
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id_empresa           74045 non-null  int64 
 1   Piramide1            74045 non-null  object
 2   Piramide2            74045 non-null  object
 3   cx_empresa           41522 non-null  object
 4   cy_empresa           41522 non-null  object
 5   DepartamentoEmpresa  41802 non-null  object
 6   MunicipioEmpresa     41802 non-null  object
 7   SectorCIIU           74045 non-null  object
 8   DescripcionCIIU      74045 non-null  object
dtypes: int64(1), object(8)
memory usage: 5.1+ MB


In [53]:
"""Eliminar columnas que no se van a utilizar"""
empresas_df = empresas_df.drop(['cx_empresa', 'cy_empresa'], axis=1)

In [54]:
"""Validar que no existan registros con id duplicado"""
empresas_df['id_empresa'].duplicated().sum()

0

In [55]:
"""Llenar campos vacíos de las columnas Dpto y municipio"""
empresas_df['DepartamentoEmpresa'] = empresas_df['DepartamentoEmpresa'].fillna('DESCONOCIDO')
empresas_df['MunicipioEmpresa'] = empresas_df['MunicipioEmpresa'].fillna('DESCONOCIDO')

In [56]:
"""Unificar formato de los campos de texto"""
empresas_df['DepartamentoEmpresa']=empresas_df['DepartamentoEmpresa'].str.strip().str.upper()
empresas_df['MunicipioEmpresa']=empresas_df['MunicipioEmpresa'].str.strip().str.upper()
empresas_df['Piramide1']=empresas_df['Piramide1'].str.strip().str.upper()
empresas_df['Piramide2']=empresas_df['Piramide2'].str.strip().str.upper()

In [57]:
"""Ver categorias de empresa (Validar que no existan repetidos)"""
print(list(empresas_df['Piramide1'].unique()))
print(list(empresas_df['Piramide2'].unique()))

['4 MICRO', '1 EMP GRANDES', '3 EMPRESAS PYMES', '2 EMP MEDIO', '5 MICRO']
['4.5 TRANSACCIONAL', '4.8 TRANSACCIONAL - PENSIONADO', '1.2 PREMIUM', '3.2 VIP ESTÁNDAR', '4.1 ESTÁNDAR', '3.1 VIP', '4.7 TRANSACCIONAL - INDEPENDIENTE', '2.1 GOLD', '4.3 TRANS.JURIDICA ENT. 11 A 99 TRAB.', '2.2 SILVER', '4.6 TRANSACCIONAL - FACULTATIVO', '1.1 PLATINUM', '4.2 TRANS. MAS DE 100 TRAB.', '5.1 COLSUBSIDIO', '4.4 TRANS.NATURAL ENT. 11 A 99 TRAB.']


#### Tabla Personas

In [58]:
"""Ver informacion de la tabla personas"""
personas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 594191 entries, 0 to 594190
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   NumIdPersona             594191 non-null  int64  
 1   id_empresa               594191 non-null  int64  
 2   Genero                   594191 non-null  object 
 3   FechaNacimiento          594191 non-null  object 
 4   Edad                     594191 non-null  int64  
 5   Salario                  594191 non-null  int64  
 6   Categoria                594191 non-null  object 
 7   Segmento_poblacional     594191 non-null  object 
 8   segmento_grupo_familiar  455668 non-null  object 
 9   cx_persona               405040 non-null  object 
 10  cy_persona               405040 non-null  object 
 11  DepartamentoPersona      466530 non-null  object 
 12  MunicipioPersona         466530 non-null  object 
 13  EstratoPersona           369316 non-null  float64
dtypes: f

In [59]:
"""Cambiar tipo de datos de las columnas que no tienen el tipo correcto"""
personas_df['EstratoPersona']=personas_df['EstratoPersona'].astype('Int64')
personas_df['FechaNacimiento']=personas_df['FechaNacimiento'].astype('datetime64[ns]')

In [60]:
"""Contar valores nulos"""
personas_df.isnull().sum()/len(personas_df)*100 ##Porcentaje de datos nulos

NumIdPersona                0.000000
id_empresa                  0.000000
Genero                      0.000000
FechaNacimiento             0.000000
Edad                        0.000000
Salario                     0.000000
Categoria                   0.000000
Segmento_poblacional        0.000000
segmento_grupo_familiar    23.312874
cx_persona                 31.833367
cy_persona                 31.833367
DepartamentoPersona        21.484842
MunicipioPersona           21.484842
EstratoPersona             37.845575
dtype: float64

In [61]:
"""Eliminar columnas con vacíos que no son representativas para el análisis"""
personas_df = personas_df.drop(['cx_persona', 'cy_persona'], axis=1)

In [62]:
"""Validar id persona que no tenga duplicados"""
personas_df['NumIdPersona'].duplicated().sum()

0

In [63]:
"""Ver campos"""
personas_df.head(2)

Unnamed: 0,NumIdPersona,id_empresa,Genero,FechaNacimiento,Edad,Salario,Categoria,Segmento_poblacional,segmento_grupo_familiar,DepartamentoPersona,MunicipioPersona,EstratoPersona
0,1174205,56353,F,1968-01-01,52,1800000,B,Medio,,,,
1,800759,13625,M,1930-11-10,88,4139944,C,Medio,PAREJA CONYUGAL,DISTRITO CAPITAL,BOGOTA D.C.,5.0


In [64]:
"""Transformar formatos de los datos"""
personas_df['Genero']=personas_df['Genero'].str.strip().str.upper()
personas_df['Categoria']=personas_df['Categoria'].str.strip().str.upper()
personas_df['Segmento_poblacional']=personas_df['Segmento_poblacional'].str.strip().str.upper()
personas_df['segmento_grupo_familiar']=personas_df['segmento_grupo_familiar'].str.strip().str.upper()
personas_df['DepartamentoPersona']=personas_df['DepartamentoPersona'].str.strip().str.upper()
personas_df['MunicipioPersona']=personas_df['MunicipioPersona'].str.strip().str.upper()

In [65]:
"""Verificar que las variavles categoricas no queden con duplicados"""
print(list(personas_df['Genero'].unique()))
print(list(personas_df['Categoria'].unique()))
print(list(personas_df['Segmento_poblacional'].unique()))
print(list(personas_df['segmento_grupo_familiar'].unique()))
print(list(personas_df['EstratoPersona'].unique()))

['F', 'M', '1']
['B', 'C', 'A']
['MEDIO', 'BÁSICO', 'ALTO', 'JOVEN']
[nan, 'PAREJA CONYUGAL', 'FAMILIA NUCLEAR INTEGRAL', 'FAMILIA MONOPARENTERAL', 'FAMILIA MONPARENTERAL AMPLIADA', 'FAMILIA NUCLEAR AMPLIADA', 'AFILIADO SIN GRUPO FAMILIAR']
[<NA>, 5, 4, 3, 2, 6, 0, 1]


In [66]:
"""Llenar registros vacios de la categoría segmento grupo familiar"""
personas_df['segmento_grupo_familiar'] = personas_df['segmento_grupo_familiar'].fillna('DESCONOCIDO')
print(list(personas_df['segmento_grupo_familiar'].unique()))

['DESCONOCIDO', 'PAREJA CONYUGAL', 'FAMILIA NUCLEAR INTEGRAL', 'FAMILIA MONOPARENTERAL', 'FAMILIA MONPARENTERAL AMPLIADA', 'FAMILIA NUCLEAR AMPLIADA', 'AFILIADO SIN GRUPO FAMILIAR']


#### Tabla Consumos

In [67]:
consumos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984563 entries, 0 to 984562
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   NumIdPersona      984563 non-null  int64 
 1   Periodo           984563 non-null  int64 
 2   Valor             984563 non-null  object
 3   NumTransacciones  984563 non-null  int64 
 4   UES               983517 non-null  object
 5   Producto          983228 non-null  object
dtypes: int64(3), object(3)
memory usage: 45.1+ MB


In [68]:
"""Ver porcentaje de datos nulos por columna"""
print(consumos_df.isnull().sum()/len(consumos_df)*100)

NumIdPersona        0.000000
Periodo             0.000000
Valor               0.000000
NumTransacciones    0.000000
UES                 0.106240
Producto            0.135593
dtype: float64


In [69]:
"""Cambiar formato de fecha del periodo"""
consumos_df['Periodo']=pd.to_datetime(consumos_df['Periodo'], format='%Y%m')
consumos_df['Valor']=consumos_df['Valor'].str.replace(',', '.').astype(float)


In [70]:
consumos_df.head(2)

Unnamed: 0,NumIdPersona,Periodo,Valor,NumTransacciones,UES,Producto
0,708858,2020-01-01,675161.0,5,Mercadeo Social,Supermercados
1,941811,2020-02-01,30597.0,1,Mercadeo Social,Supermercados


In [72]:
"""Llenar datos nulos de las columnas UES y Supermercados"""
consumos_df['UES']=consumos_df['UES'].fillna('DESCONOCIDO')
consumos_df['Producto']=consumos_df['Producto'].fillna('DESCONOCIDO')