# Prueba Técnica

##### **Objetivo:** Asignación de retos comerciales para la variable de GCAR del negocio empresarial por gerente comercial y análisis de tamaño comercial.

### **Tener en cuenta:**
- El reto para la variable de GCAR de la Vicepresidencia Empresarial para 2024 es un crecimiento del 15% adicional vs el año anterior.
- La Vicepresidencia Empresarial consta de 8 zonas y 78 gerentes comerciales.
- En la hoja datos se encuentran los datos codificados de la GCAR y tamaño comercial por gerente comercial y zona de enero 2022 a diciembre 2023. El dato es generado mensualmente, es decir, no se encuentra acumulado.
- En la hoja Zonas códigos se encuentra la relación del código de zona y el nombre de la zona. En la hoja Rubros códigos se encuentra el código del rubro y la descripción del mismo.
- Para encontrar el valor del reto de GCAR se debe acumular los resultados del año 2023 y aplicar la tasa de crecimiento para el año 2024.
- Recordar que el TC se acumula como el promedio de los meses y la GCAR en suma. El cierre de cada año es acumulado de enero a diciembre.

---

### **Actividad 1:  Responda las siguientes preguntas:**

1. Cuál fue el gerente con mayor crecimiento en su Tamaño comercial entre 2022 y 2023? **//** el gerente con mayor crecimiento comercial es el **9116** con un crecimiento de **67.817,44**
2. Cuánto fue el crecimiento de la zona Antioquia 1 en GCAR entre 2022 y 2023? **//** el crecimiento de la zona Antioquia 1 en GCAR fue de **993.99**
3. Cuál fue la zona con menor GCAR en el segundo semestre de 2022 y la de mayor tamaño comercial en todo 2023? **//** la zona de menor GCAR es la zona **22300** "VP Empresas zona Centro" y la zona **22220**	"VP Empresas zona Bogotá 2" fue la de mayor tamaño comercial en el 2023


In [1]:
# Importamos las libreria pandas para trabajar con los datos y responder las preguntas de la actividad 1
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

In [2]:
# Importamos los datos necesarios del archivo de excel para resolver las preguntas de la actividad 1

df_datos = pd.read_excel(r'Prueba Bancolombia 2024 (analitico).xlsx', sheet_name='Datos')
df_rubros_codigos = pd.read_excel(r'Prueba Bancolombia 2024 (analitico).xlsx', sheet_name='Rubros codigos')
df_zonas_codigos = pd.read_excel(r'Prueba Bancolombia 2024 (analitico).xlsx', sheet_name='Zonas códigos')

In [3]:
# Creamos 2 columnas para saber los acumulados del 2022 y 2023 siguiendo las reglas de la actividad 1, donde se menciona que el acumulado de GCAR se suma y el de TC se promedia

df_datos.loc[df_datos['cod_rubro'] == 95999, 'acumulado_2022'] = df_datos.loc[df_datos['cod_rubro'] == 95999].filter(like='2022').sum(axis=1)
df_datos.loc[df_datos['cod_rubro'] == 96450, 'acumulado_2022'] = df_datos.loc[df_datos['cod_rubro'] == 96450].filter(like='2022').mean(axis=1)

df_datos.loc[df_datos['cod_rubro'] == 95999, 'acumulado_2023'] = df_datos.loc[df_datos['cod_rubro'] == 95999].filter(like='2023').sum(axis=1)
df_datos.loc[df_datos['cod_rubro'] == 96450, 'acumulado_2023'] = df_datos.loc[df_datos['cod_rubro'] == 96450].filter(like='2023').mean(axis=1)

In [4]:
# Creamos una columna para saber el crecimiento restando los totales del 2023 - 2022

df_datos['Crecimiento'] = df_datos['acumulado_2023'] - df_datos['acumulado_2022']

    Podemos ver las columnas **"acumulado_2022"**, **"acumulado_2023"** y **"Crecimiento"** creadas al final del DataFrame omitiendo los datos mensuales

In [5]:
df_datos.loc[: , ['zona', 'gerente', 'cod_rubro', 'acumulado_2022', 'acumulado_2023', 'Crecimiento']]

Unnamed: 0,zona,gerente,cod_rubro,acumulado_2022,acumulado_2023,Crecimiento
0,22110,9102,95999,6893.76,7932.29,1038.53
1,22110,9125,95999,7983.04,8027.06,44.02
2,22110,9166,95999,9072.92,7917.03,-1155.89
3,22110,9184,95999,7894.10,8752.69,858.59
4,22110,9198,95999,8232.61,6980.49,-1252.12
...,...,...,...,...,...,...
147,22500,9179,96450,136708.79,160233.37,23524.58
148,22500,9410,96450,121289.90,117929.00,-3360.90
149,22500,9411,96450,187765.81,192539.09,4773.28
150,22500,9901,96450,122541.93,125084.67,2542.74


#### **1. Cuál fue el gerente con mayor crecimiento en su Tamaño comercial entre 2022 y 2023?**
    Para responder esta pregunta inicialmente Nos fijamos en el dataFrame de los rubros para identificar el codigo del Tamaño comercial 

In [9]:
df_rubros_codigos

Unnamed: 0,descri_rubro,cod_rubro
0,GCAR,95999
1,Tamaño comercial,96450


    Una vez hecho esto, solo filtramos el codigo 96450 y agrupamos por gerente

In [10]:
df_temp = df_datos.loc[df_datos['cod_rubro'] == 96450].groupby('gerente').agg({'acumulado_2022': 'sum', 'acumulado_2023': 'sum', 'Crecimiento': 'sum'}).reset_index().copy()

    Finalmente ordenamos los datos de mayor a menor utilizando la columna **"Crecimiento"**, para llegar a la conclusion de que el gerente con mayor crecimiento comercial es el 9116 con un crecimiento de 67.817,44

In [11]:
df_temp.sort_values(by='Crecimiento', ascending=False)

Unnamed: 0,gerente,acumulado_2022,acumulado_2023,Crecimiento
1,9116,240593.26,308410.70,67817.44
75,9922,234209.13,272292.36,38083.23
35,9218,99092.75,134862.52,35769.76
38,9274,158486.95,190276.23,31789.29
19,9160,138616.89,168133.90,29517.01
...,...,...,...,...
70,9909,62137.05,51351.09,-10785.96
50,9334,132056.62,120047.58,-12009.04
46,9310,207948.68,195434.89,-12513.79
11,9144,203038.00,188870.57,-14167.43


#### **2. Cuánto fue el crecimiento de la zona Antioquia 1 en GCAR entre 2022 y 2023?**

    Inicialmente para resolver esta pregunta identificamos el codigo de la zona Antioquia 1 del dataFrame df_zonas_codigos el cual corresponde a 22110

In [6]:
df_zonas_codigos

Unnamed: 0,zona,Desc
0,22110,VP Empresas zona Antioquia 1
1,22120,VP Empresas zona Antioquia 2
2,22210,VP Empresas zona Bogotá 1
3,22210,VP Empresas zona Bogotá 1
4,22220,VP Empresas zona Bogotá 2
5,22230,VP Empresas zona Bogotá 3
6,22300,VP Empresas zona Centro
7,22400,VP Empresas zona Sur
8,22500,VP Empresas zona Caribe


    Buscamos el codigo de GCAR en el dataFrame df_rubros_codigos el cual corresponde a 95999

In [7]:
df_rubros_codigos

Unnamed: 0,descri_rubro,cod_rubro
0,GCAR,95999
1,Tamaño comercial,96450


    filtramos la zona 22110 y el codigo de rubro 95999 y sumamos los totales y el crecimiento para concluir que el crecimiento de la zona Antioquia 1 en GCAR fue de 993.99

In [14]:
df_temp = df_datos.loc[(df_datos['cod_rubro'] == 95999) & (df_datos['zona'] == 22110)].groupby('zona').agg({'acumulado_2022': 'sum', 'acumulado_2023': 'sum', 'Crecimiento': 'sum'}).reset_index().sort_values(by='Crecimiento', ascending=False)
df_temp

Unnamed: 0,zona,acumulado_2022,acumulado_2023,Crecimiento
0,22110,58943.38,59937.37,993.99


    Calculamos el porcentaje de crecimiento equivalente a 1.69%

In [16]:
df_temp['Porcentaje_Crecimiento'] = (df_temp['Crecimiento'] / df_temp['acumulado_2022']) * 100
df_temp['Porcentaje_Crecimiento']

0   1.69
Name: Porcentaje_Crecimiento, dtype: float64

#### **3. Cuál fue la zona con menor GCAR en el segundo semestre de 2022 y la de mayor tamaño comercial en todo 2023?**

    Iniciamos verificando cual fue la zona con menor GCAR, para esto creamos una nueva columna que nos sume el GCAR para el segundo semestre del 2022

In [17]:
df_datos['semestre2_2022'] = df_datos.filter(like='2022').iloc[:, 6:12].sum(axis=1)
df_datos.loc[: , [ 'gerente', 'zona', 'cod_rubro', 'acumulado_2022', 'acumulado_2023', 'Crecimiento', 'semestre2_2022']].head(3)

Unnamed: 0,gerente,zona,cod_rubro,acumulado_2022,acumulado_2023,Crecimiento,semestre2_2022
0,9102,22110,95999,6893.76,7932.29,1038.53,3943.64
1,9125,22110,95999,7983.04,8027.06,44.02,3858.64
2,9166,22110,95999,9072.92,7917.03,-1155.89,5023.96


    Posteriormente filtramos el codigo 95999 correspondiente al GCAR, agrupamos por la zona y ordenamos de menor a mayor para encontrar la zona de menor GCAR, y concluir que la zona de menor crecimiento es la zona 22300 "VP Empresas zona Centro"

In [18]:
df_datos.loc[df_datos['cod_rubro'] == 95999].groupby('zona').agg({'semestre2_2022': 'sum'}).reset_index().sort_values(by='semestre2_2022', ascending=True)

Unnamed: 0,zona,semestre2_2022
5,22300,31539.28
0,22110,32105.78
6,22400,33722.31
7,22500,35164.94
1,22120,37358.5
4,22230,41425.59
2,22210,47342.14
3,22220,50881.84


    Para encontrar la zona de mayor tamaño comercial en todo 2023 filtramos el codigo 96450, y agrupamos por zona sumando la columna "acumulado_2023" que calculamos al comienzo. Se concluye que la zona 22220	"VP Empresas zona Bogotá 2" fue la de mayor tamaño comercial en el 2023.

In [19]:
df_datos.loc[df_datos['cod_rubro'] == 96450].groupby('zona').agg({'acumulado_2023': 'sum'}).reset_index().sort_values(by='acumulado_2023', ascending=False)

Unnamed: 0,zona,acumulado_2023
3,22220,1518174.07
1,22120,1440314.17
2,22210,1368384.32
4,22230,1295494.78
0,22110,1276101.99
6,22400,1270682.69
7,22500,1198621.0
5,22300,1116107.31


---

### **Actividad 2:  En la hoja Retos 2024 asigne los retos en GCAR  para cada gerente a Diciembre de 2024, y responda las siguientes preguntas en el word que anexará:**

1. Qué técnicas de modelación considera pueden ser pertinentes para asignar los retos: 
2. Cuál de ellas utilizó y por qué?
3. Qué herramientas conoce y usó para realizar esta prueba?
4. Asumiendo que las hojas de Datos, Rubros códigos y Zonas códigos, son tablas en zonas de resultados (tablas sql), diseñe un query que las combine y genere el resultado agregado el nombre de la zona, el rubro y el valor de cierre del Tamaño comercial para la zona del 2023. (Dejar expresadas las sentencias de SQL (pseudocódigo) en la respuesta)


    Iniciamos asignando los retos en el dataFrame df_retos_2024, para esto importamos los datos desde el excel

In [4]:
df_retos_2024 = pd.read_excel(r'Prueba Bancolombia 2024 (analitico).xlsx', sheet_name='Retos 2024')

NameError: name 'pd' is not defined

In [22]:
df_datos_GCAR = df_datos.loc[df_datos['cod_rubro'] == 95999].copy()

In [24]:
df_datos_GCAR['GCAR 2024'] = df_datos_GCAR['acumulado_2023'] * 1.15

In [25]:
df_datos_GCAR

Unnamed: 0,zona,gerente,cod_rubro,202201,202202,202203,202204,202205,202206,202207,...,202308,202309,202310,202311,202312,acumulado_2022,acumulado_2023,Crecimiento,semestre2_2022,GCAR 2024
0,22110,9102,95999,491.31,397.38,461.87,498.73,554.02,546.81,601.44,...,547.66,511.29,589.47,545.68,585.82,6893.76,7932.29,1038.53,3943.64,9122.13
1,22110,9125,95999,788.23,567.35,656.65,712.50,719.60,680.06,724.63,...,562.46,560.10,543.04,535.04,560.85,7983.04,8027.06,44.02,3858.64,9231.12
2,22110,9166,95999,658.50,565.78,605.37,722.22,737.28,759.80,842.86,...,611.42,621.19,621.83,605.45,626.68,9072.92,7917.03,-1155.89,5023.96,9104.59
3,22110,9184,95999,555.22,480.31,390.33,760.71,723.12,614.47,553.36,...,670.25,683.04,730.15,816.73,771.53,7894.10,8752.69,858.59,4369.94,10065.59
4,22110,9198,95999,587.96,511.28,600.37,605.01,658.13,720.13,764.16,...,586.25,590.10,676.41,603.76,657.76,8232.61,6980.49,-1252.12,4549.72,8027.56
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,22500,9179,95999,417.92,391.76,463.81,479.92,560.08,584.20,573.05,...,665.80,684.86,666.26,611.00,567.98,6787.22,7952.17,1164.95,3889.53,9145.00
72,22500,9410,95999,468.41,456.91,458.58,473.14,523.62,533.33,539.19,...,475.21,463.27,533.97,485.85,570.73,6358.50,6145.22,-213.28,3444.51,7067.01
73,22500,9411,95999,600.49,566.64,617.32,631.07,662.13,681.88,746.87,...,663.84,520.10,697.36,617.41,691.68,8580.42,8266.54,-313.87,4820.89,9506.52
74,22500,9901,95999,418.18,372.09,393.87,402.09,448.22,493.38,554.95,...,424.95,415.27,424.24,399.61,442.01,5543.27,5567.41,24.13,3015.46,6402.52


In [21]:
df_retos_2024

Unnamed: 0,zona,gerente,GCAR 2024
0,VP Empresas zona Antioquia 1,9102,
1,VP Empresas zona Antioquia 1,9125,
2,VP Empresas zona Antioquia 1,9166,
3,VP Empresas zona Antioquia 1,9184,
4,VP Empresas zona Antioquia 1,9198,
...,...,...,...
74,VP Empresas zona Sur,9203,
75,VP Empresas zona Sur,9307,
76,VP Empresas zona Sur,9310,
77,VP Empresas zona Sur,9334,


#### **1. Qué técnicas de modelación considera pueden ser pertinentes para asignar los retos:** 

Las tecnicas de modelación que pueden ser pertinentes para el congunto de datos suministrado son:
- Modelado de datos entidad-relación
- Modelado de datos orientado a objetos
- Modelado de datos como series de tiempo

#### **2. Cuál de ellas utilizó y por qué?**

Se utilizo el modelado de datos entidad relación, debido a que este es el mas comun para modelar datos estructurados como los suministrados, aunque se pudo usar perfectamente el enfoque como series de tiempo debido a la periodicidad de los datos de manera mensual 

##### Se realizo un diagrama entidad realcion para entender como se relacionaban los datos de las diferentes hojas

![Diagrama ER](diagrama_ER.png)