# Actividad Integradora
**Habilidades Intermedias para Analista de datos**</br>
*Módulo 2: Herramientas de programación para el análisis de datos.</br>
Universidad de los Andes* | *Facultad de Economía* | *Educación Continua*</br>
</br>
*Agosto de 2023*


<sub>* Ejercicio de simulación pedagógica diseñado para el entrenamiento de competencias de análisis descriptivo de datos.</sub>

## Cámara de Comercio de Bogotá
Para este caso problema usted está analizando información sobre las **entidades en CCB** del registro de información financiera y general para el tercer trimestre de 2022 en la Cámara de Comercio de Bogotá.

La Cámara de Comercio se dispone a lanzar un **programa de entrenamiento** para fortalecer **las ventas las empresas**, y desea identificar en qué tipo de entidades debe focalizar los recursos. Para esto:

- La CCB cuenta con **registros detallados** de cada entidad registrada
- La idea es identificar si es mejor focalizar la convocatoria **por tamaño de empresa** o por **tipo de sociedad**.
- La matrícula mercantil aquí puesta es ficticia, como un id anónimo.

Antes de correr los análisis usted debe **explorar y limpiar** las bases de datos y posteriormente implementar visualizaciones que le permitan aproximarse a la pregunta:

¿Sobre qué tipo de empresas deberían prioriarse los entrenamientos para mejorar las ventas?

![Edificio de la Cámara de Comercio de Bogotá en la calle 26](https://upload.wikimedia.org/wikipedia/commons/1/1d/C%C3%A1mara_4_Comercio_Bogot%C3%A1_Cund%2C_Col.jpg)

### Cargar y observar los datos

In [1]:
# Importar pandas
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns
import cv2

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Cargar datos
camara = pd.ExcelFile(r'drive/MyDrive/Colab Notebooks/Data_M2_Actividad_Final/2022-3_ccb_registros.xlsx')
camara.sheet_names

['General', 'Financiera']

#### Ejercicio 1

In [4]:
# Cargar en dos dataframes distintos cada pestaña modificando el atributo correspondiente
camara_gral = camara.parse('General')
camara_financiera = camara.parse('Financiera')

**Explorar:** revisemos información sobre las columnas de cada tabla. Utilice las funciones info y head de Pandas para cada una de las 2 tablas.

In [4]:
camara_gral.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185495 entries, 0 to 185494
Data columns (total 22 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   Matrícula                     185495 non-null  float64
 1   Indicador                     185495 non-null  object 
 2   Período                       185495 non-null  object 
 3   Año                           185495 non-null  int64  
 4   Organización Jurídica         185495 non-null  object 
 5   Tamaño                        185494 non-null  object 
 6   Sector                        185495 non-null  object 
 7   Sección Actividad Económica   185495 non-null  object 
 8   CIIU                          185495 non-null  object 
 9   Cantidad de Establecimientos  185494 non-null  float64
 10  Personal Ocupado              185494 non-null  float64
 11  Importador Exportador         185145 non-null  object 
 12  Categoría                     185494 non-nul

In [5]:
camara_gral.head()

Unnamed: 0,Matrícula,Indicador,Período,Año,Organización Jurídica,Tamaño,Sector,Sección Actividad Económica,CIIU,Cantidad de Establecimientos,...,Categoría,Macrosector,Especialización Inteligente,Iniciativa Clúster,País,Departamento,Municipio,Localidad,Barrio,Cantidad Total
0,5061891.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,L 68 ACTIVIDADES INMOBILIARIAS,6820 ACTIVIDADES INMOBILIARIAS REALIZADAS A...,0.0,...,Principal,Construcción y Energía,Ciudad-región sostenible,IC Construcción,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",ENGATIVA,SANTA MONICA,2.0
1,5061892.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,K 64-66 ACTIVIDADES FINANCIERAS Y DE SEGUROS,6611 ADMINISTRACIÓN DE MERCADOS FINANCIEROS,0.0,...,Principal,Servicios Empresariales,Servicios empresariales,IC Sector financiero,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",CHAPINERO,EL NOGAL,2.0
2,5061893.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,L 68 ACTIVIDADES INMOBILIARIAS,6820 ACTIVIDADES INMOBILIARIAS REALIZADAS A...,0.0,...,Principal,Construcción y Energía,Ciudad-región sostenible,IC Construcción,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",SUBA,PRADO VERANIEGO NORTE,2.0
3,5061894.0,Matricula No Renovada,Tercer Trimestre,2022,Persona Natural,Microempresas,Servicios,S 94-96 OTRAS ACTIVIDADES DE SERVICIOS,9511 MANTENIMIENTO Y REPARACIÓN DE COMPUTAD...,1.0,...,Sin Categ,TIC,,,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",TUNJUELITO,EL CARMEN,2.0
4,5061895.0,Matricula No Renovada,Tercer Trimestre,2022,Limitada,Microempresas,Comercio,G 45-47 COMERCIO AL POR MAYOR Y AL POR MENOR; ...,4620 COMERCIO AL POR MAYOR DE MATERIAS PRIM...,0.0,...,Principal,Agropecuario y Agroindustrial,Biopolo,,COLOMBIA,Cundinamarca,CHÍA,,,2.0


In [6]:
camara_financiera.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185495 entries, 0 to 185494
Data columns (total 5 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   Matrícula                 185495 non-null  float64
 1   Total Valor Activos       185494 non-null  float64
 2   Total Valor Pasivos       185494 non-null  float64
 3   Total Valor Patrimonio    185494 non-null  float64
 4   Total Valor Ventas Netas  185494 non-null  float64
dtypes: float64(5)
memory usage: 7.1 MB


In [7]:
camara_financiera.head()

Unnamed: 0,Matrícula,Total Valor Activos,Total Valor Pasivos,Total Valor Patrimonio,Total Valor Ventas Netas
0,5061891.0,35936379.0,204403836.0,35936379.0,0.0
1,5061892.0,342953600.0,200448883.0,342953600.0,0.0
2,5061893.0,9500000.0,3545000.0,9500000.0,0.0
3,5061894.0,15693250.0,1221500.0,15693250.0,0.0
4,5061895.0,99019844.0,64768753.0,99019844.0,0.0


#### Ejercicio 2

En un documento aparte, escriba brevemente los datos que tiene cada data frame.



### Limpieza

#### Ejercicio 3

**Ejercicio**: Note que una de las columnas (Total Valor Ventas Netas) parece tener sólamente valores cero. Detalle esta columna para revisar qué tipos de valores tiene. Puede utilizar la función describe para obtener los cuartiles.





In [8]:
camara_financiera.describe()

Unnamed: 0,Matrícula,Total Valor Activos,Total Valor Pasivos,Total Valor Patrimonio,Total Valor Ventas Netas
count,185495.0,185494.0,185494.0,185494.0,185494.0
mean,5154638.0,402982700.0,270313100.0,411737300.0,194981100.0
std,53547.94,11476840000.0,9841262000.0,11801640000.0,22374410000.0
min,5061891.0,-2000000.0,-2092842000.0,-101504700.0,-2087387000.0
25%,5108265.0,1800000.0,0.0,1770250.0,0.0
50%,5154638.0,9810000.0,0.0,9600000.0,0.0
75%,5201012.0,52086970.0,7638658.0,51705250.0,0.0
max,5247385.0,2539298000000.0,2298869000000.0,2539298000000.0,7907010000000.0


El valor mínimo es negativo, y tenemos que ¡al menos el 75% de los datos es cero!

In [9]:
# Vamos a quedarnos sólamente con las filas que tienen ventas mayores a cero.
# Es decir, hacemos elegibles sólamente a las empresas que han vendido algo en
# este periodo.
no_utilizar = camara_financiera['Total Valor Ventas Netas'] <= 0
no_utilizar

0          True
1          True
2          True
3          True
4          True
          ...  
185490     True
185491     True
185492     True
185493     True
185494    False
Name: Total Valor Ventas Netas, Length: 185495, dtype: bool

In [10]:
# Usamos loc siempre que queremos reemplazar valores utilizando condiciones lógicas
camara_financiera.loc[no_utilizar, 'Total Valor Ventas Netas'] = np.nan

In [11]:
# Así, tenemos:
camara_financiera['Total Valor Ventas Netas'].describe()

count    3.995800e+04
mean     9.052059e+08
std      4.820130e+10
min      1.000000e+00
25%      7.682892e+06
50%      5.121050e+07
75%      2.391192e+08
max      7.907010e+12
Name: Total Valor Ventas Netas, dtype: float64

### Unión

#### Ejercicio 4

**Ejercicio**: Considere qué tipo de unión es adecuada entre las dos tablas para poder relacionar ventas con el tipo de sociedad/entidad. Impleméntela a continuación. En caso de ser una unión horizontal considere todas las filas.

In [12]:
entidades_camara = pd.merge(camara_gral, camara_financiera, on='Matrícula', how='outer')

In [13]:
entidades_camara.head(3)

Unnamed: 0,Matrícula,Indicador,Período,Año,Organización Jurídica,Tamaño,Sector,Sección Actividad Económica,CIIU,Cantidad de Establecimientos,...,País,Departamento,Municipio,Localidad,Barrio,Cantidad Total,Total Valor Activos,Total Valor Pasivos,Total Valor Patrimonio,Total Valor Ventas Netas
0,5061891.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,L 68 ACTIVIDADES INMOBILIARIAS,6820 ACTIVIDADES INMOBILIARIAS REALIZADAS A...,0.0,...,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",ENGATIVA,SANTA MONICA,2.0,35936379.0,204403836.0,35936379.0,
1,5061892.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,K 64-66 ACTIVIDADES FINANCIERAS Y DE SEGUROS,6611 ADMINISTRACIÓN DE MERCADOS FINANCIEROS,0.0,...,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",CHAPINERO,EL NOGAL,2.0,342953600.0,200448883.0,342953600.0,
2,5061893.0,Matricula No Renovada,Tercer Trimestre,2022,Sociedad por Acciones Simplificada,Microempresas,Servicios,L 68 ACTIVIDADES INMOBILIARIAS,6820 ACTIVIDADES INMOBILIARIAS REALIZADAS A...,0.0,...,COLOMBIA,"Bogotá, D.C","BOGOTÁ, D.C.",SUBA,PRADO VERANIEGO NORTE,2.0,9500000.0,3545000.0,9500000.0,


In [None]:
entidades_camara['_merge'].value_counts()

KeyError: ignored

Tenga en cuenta si la cantidad de filas que pegaron tiene sentido.

### Gráficos

Para elaborar el análisis gráfico, se le sugiere un procedimiento tipo *drill down*.

Esto es:</br>
1) Formalizamos estadísticamente la pregunta de negocio</br>
2) Hacemos visualizaciones univariadas</br>
3) Hacemos visualizaciones cruzadas

Primero hagamos un par de procedimientos de referencia. Primero, veamos la distribución de las ventas netas por tipo de organización jurídica. Eso nos da una idea de qué magnitud tienen los valores.

In [None]:
# Este estilo de gráfica queremos lograr (recuerden poner los archivos de imágen en la carpeta sample_data)
g1 = cv2.imread('drive/MyDrive/Colab Notebooks/Data_M2_Actividad_Final/Graficos/g1.png',1)
plt.imshow(g1)
plt.axis("off")
plt.show()

In [None]:
sns.boxplot(x="Organización Jurídica", y="Total Valor Ventas Netas", data=entidades_camara)
plt.xticks(rotation=90)

**Como tenemos unos datos muy altos, parecen muy atípicos. Lo mejor es filtrar por tamaño de empresa. Y podemos no considerar valores atípicos.**

#### Ejercicio 5
Lea y modifique el siguiente código para observar empresas grandes en el gráfico.

In [None]:
# Le podemos cambiar el tamaño al que queramos
tamanio1 = entidades_camara['Tamaño'] == 'Microempresas'
tamanio2 = entidades_camara['Tamaño'] == 'Pequeñas'
tamanio3 = entidades_camara['Tamaño'] == 'Medianas'
tamanio4 = entidades_camara['Tamaño'] == 'Grandes'

micro = sns.boxplot(x="Organización Jurídica", y="Total Valor Ventas Netas", data=entidades_camara[tamanio1], showfliers=False)
plt.xticks(rotation=90)
plt.title('Distribución de ventas de Microempresas por tipo de persona jurídica')

### Drill down


Vamos a jugar principalmente con:

* Tamaño de empreas
* Tipo de organización jurídica
* Total de ventas

Primero identificamos cuántas empresas se encuentran en cada categoría de las vairables categóricas:

In [None]:
# Número de empresas en cada tamaño
entidades_camara['Tamaño'].value_counts()

In [None]:
# EJERCICIO OPCIONAL: Calcule el número de empresas en cada categoría de organización jurídica inspirándose en la celda anterior


Ahora calculamos el total de las ventas netas de todas las empresas, para tener una magnitud superior contra la cual comparar los valores.

In [None]:
# Total de referencia de ventas netas
camara_financiera['Total Valor Ventas Netas'].sum()

### Gráficos por grupos
Ahora comencemos a elaborar un par de gráficos de ventas netas por cada variable categórica:

In [None]:
# Este estilo de gráfica queremos lograr (recuerden poner los archivos de imágen en la carpeta sample_data)
g1 = cv2.imread('drive/MyDrive/Colab Notebooks/Data_M2_Actividad_Final/Graficos/g3.png',1)
plt.imshow(g1)
plt.axis("off")
plt.show()

In [None]:
# Agrupamos por Tamaño univariadamente para lograr esta gráfica, y calculamos la suma de ventas netas, y la cuenta de empresas en cada grupo
entidades_camara_T = entidades_camara.groupby('Tamaño').agg({'Total Valor Ventas Netas': 'sum','Matrícula':'count'}).reset_index()
entidades_camara_T = entidades_camara_T.rename(columns={'Matrícula': 'Empresas'})
entidades_camara_T = entidades_camara_T.sort_values('Total Valor Ventas Netas',ascending=False)

In [None]:
entidades_camara_T.head()

In [None]:
sns.barplot(y='Tamaño',x='Total Valor Ventas Netas',data=entidades_camara_T).set(title = "Composición de las ventas por tipo de empresa")

#### Ejercicio 6
Elabore el siguiente gráfico para continuar el análisis.
Puede inspirarse en el algoritmo del anterior.

In [None]:
# Este estilo de gráfica queremos lograr (recuerden poner los archivos de imágen en la carpeta sample_data)
g1 = cv2.imread('drive/MyDrive/Colab Notebooks/Data_M2_Actividad_Final/Graficos/g2.png',1)
plt.imshow(g1)
plt.axis("off")
plt.show()

In [None]:
# Grupos univariados por organización jurídica EJERCICIO


In [None]:
# EJERCICIO: gráfico


#### Ejercicio 7
Finalmente combinamos los grupos para lograr una gráfica como la siguiente:

In [None]:
# Este estilo de gráfica queremos lograr (recuerden poner los archivos de imágen en la carpeta sample_data)
g1 = cv2.imread('drive/MyDrive/Colab Notebooks/Data_M2_Actividad_Final/Graficos/g4.png',1)
plt.imshow(g1)
plt.axis("off")
plt.show()

In [None]:
# Y ahora las combinamos, tenga en cuenta que ahora al groupby le proporcionamos una lista de dos columnas

