# Diplomatura en ciencia de datos, aprendizaje automático y sus aplicaciones - Edición 2023 - FAMAF (UNC)

## Mentoría 16 - ¿Cómo identificar fuga de ventas? Inteligencia artificial aplicada al sector comercial.

### Análisis y visualización de datos (TP1)

**Integrantes:**
- Canalis, Patricio.
- Chevallier-Boutell, Ignacio José.
- Villarroel Torrez, Daniel.

**Mentores:**
- Gonzalez, Lucía
- Lahoz, Nahuel

---

## Librerías

In [None]:
import numpy as np
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.graphics.tsaplots import plot_acf
from scipy.stats import linregress as LR
from scipy.stats import skew, kurtosis, skewtest, kurtosistest

## Dataset

In [None]:
url = 'https://www.dropbox.com/scl/fi/iaagjtks3apflrywvomuv/muestra_diplodatos_ventas_2023.csv?dl=1&rlkey=zfsh0bnwbomd4g56bcjysytiy'
ventas = pd.read_csv(url)

In [None]:
print('Las columnas que arrojan el warning son:')
for col in [10, 11, 13]:
    print(f'\t{ventas.columns[col]}')

---
# Variables

### Tamaño, nombres y tipo

In [None]:
print(f'Hay un total de {ventas.shape[0]} registros y un total de {ventas.shape[1]} variables:')
tipo_rev = ['string', 'entero', 'entero', 'entero', 'string', 'entero', 
            'string', 'flotante', 'flotante', 'flotante', 'string', 'string', 
            'string', 'string', 'string', 'string', 'string', 'entero', 'entero']

vartype = pd.DataFrame({'Variable': ventas.columns, 
                        'Tipo según Pandas': ventas.dtypes, 
                        'Tipo revisado': tipo_rev}).set_index('Variable').sort_values('Tipo revisado')
vartype

### Sneak peek

In [None]:
print('Todos los que son "object" en realidad son "str".')
display(ventas[:5])

### Datos faltantes

In [None]:
msno.bar(ventas.sort_values('ID_VENDEDOR'), sort="ascending", fontsize=12, color="tab:green", figsize=(6, 5))
msno.matrix(ventas.sort_values('ID_VENDEDOR'), fontsize=12, color=[0.5,0,0], figsize=(6, 5))
msno.heatmap(ventas.sort_values('ID_VENDEDOR'), fontsize=12, figsize=(6, 5))

plt.show()

### Problemas con tipo de datos

In [None]:
m = 10
print(ventas.columns[m])
a = ventas[ventas.columns[m]].value_counts()
for k in range(len(a)):
    if a[k].dtype != 'int64':
        print(a[k].dtype)

print('Si no hay nada impreso, es porque todas las variables son del tipo int64.')

In [None]:
m = 11
print(ventas.columns[m])
a = ventas[ventas.columns[m]].value_counts()
for k in range(len(a)):
    if a[k].dtype != 'int64':
        print(a[k].dtype)

print('Si no hay nada impreso, es porque todas las variables son del tipo int64.')

In [None]:
m = 13
print(ventas.columns[m])
a = ventas[ventas.columns[m]].value_counts()
for k in range(len(a)):
    if a[k].dtype != 'int64':
        print(a[k].dtype)

print('Si no hay nada impreso, es porque todas las variables son del tipo int64.')

### Cardinalidad: valores únicos

In [None]:
m = 0
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 1
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 2
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 3
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 4
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 5
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 6
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 7
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 8
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 9
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 10
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 11
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 12
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 13
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 14
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 15
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 16
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 17
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

In [None]:
m = 18
a = 100*ventas[ventas.columns[m]].value_counts(normalize=True).iloc[:10]
print(a)
print(f'\nContribución porcentual de los 10 casos mayoritarios: {np.sum(a):.2f} %')
print(f'Cardinalidad: {ventas[ventas.columns[m]].nunique()}')

### Descarte de columnas/variables

In [None]:
ventas_clean = ventas.drop(['NOMBRE', 'CATEGORIA', 'OMEGA',
                        'CATEGORIA (Ajustado)', 'DESCRIPCION_CATEGORIA'], axis=1).copy()
ventas_clean.shape

### Imputación de valores faltantes: `CM04` y `TRATAMIENTO_DIFERNCIAL`

In [None]:
ventas_clean['CM04'] = ventas_clean['CM04'].fillna('No')
ventas_clean['TRATAMIENTO_DIFERNCIAL'] = ventas_clean['TRATAMIENTO_DIFERNCIAL'].fillna('No')

In [None]:
msno.bar(ventas_clean.sort_values('ID_VENDEDOR'), sort="ascending", fontsize=12, color="tab:green", figsize=(6, 5))
msno.matrix(ventas_clean.sort_values('ID_VENDEDOR'), fontsize=12, color=[0.5,0,0], figsize=(6, 5))
msno.heatmap(ventas_clean.sort_values('ID_VENDEDOR'), fontsize=12, figsize=(6, 5))

plt.show()

---
# Simplificación

### Simplificación de variables

In [None]:
# Se reacomodan las columnas deliberadamente
ventas_clean = ventas_clean[['ID_VENDEDOR', 'INSCRIPCION', 'SUB-CATEGORIA', 
                             'DESC_TRATAMIENTO_FISCAL', 'TRATAMIENTO_FISCAL',
                             'TRATAMIENTO_DIFERNCIAL', 'CM04', 'AÑO', 'MES', 
                             'DEPOSITO', 'TOTAL_VENTAS', 
                             'PORCENTAJE_COMISION_EMPRESA', 
                             'COMISION_EMPRESA', 'MODELO']]
ventas_clean = ventas_clean.sort_values(['AÑO', 'MES', 'TOTAL_VENTAS']).reset_index(drop=True)

In [None]:
# Se modifican los nombres de las columnas
ventas_clean.rename(columns = {'ID_VENDEDOR': 'ID', 
                               'INSCRIPCION': 'DGR', 
                               'SUB-CATEGORIA': 'Categoria', 
                               'DESC_TRATAMIENTO_FISCAL': 'Trat_Fisc_Agg', 
                               'TRATAMIENTO_FISCAL': 'Trat_Fisc', 
                               'TRATAMIENTO_DIFERNCIAL': 'Trat_Dif', 
                               'CM04': 'CM', 
                               'AÑO': 'Año', 
                               'MES': 'Mes', 
                               'DEPOSITO': 'Deposito', 
                               'TOTAL_VENTAS': 'Ventas', 
                               'PORCENTAJE_COMISION_EMPRESA': 'Alicuota', 
                               'COMISION_EMPRESA': 'Comision', 
                               'MODELO': 'Modelo'}, inplace = True)
ventas_clean.columns

### Simplificación de valores

In [None]:
ven_cln_map = ventas_clean.copy()

#### Mapeos de string/entero a otros enteros: generación de variables indicadoras

In [None]:
# Mapeo de `ID`, `DGR` y `Deposito` a enteros según cardinalidad
for col in ['Deposito', 'ID', 'DGR']:
    print(f'Actualizando variable {col}')
    valunico = ven_cln_map[col].unique()
    porc10 = int(0.1 * len(valunico))
    prog = 0
    for v in range(len(valunico)):
        ven_cln_map[col] = ven_cln_map[col].replace({valunico[v]: v})
        if v % porc10 == 0:
            print(f'\t Progreso del {prog}%')
            prog += 10

In [None]:
# Mapeo de `CM` según "Si" >> 1 y "No" >> 0.
ven_cln_map['CM'] = ven_cln_map['CM'].replace({'No': 0, 'Si': 1})


In [None]:
for col in ['Deposito', 'ID', 'DGR']:
    print(f'Variable {col}')
    print(ven_cln_map[col].unique())

#### Unificacón y simplificación de categorías de `Trat_Fisc`

In [None]:
ven_cln_map['Trat_Fisc'] = ven_cln_map['Trat_Fisc'].replace({0.0: '0', 1.0: '1', 2.0: '2', 3.0: '3',
                                                             'Especial 1': 'Esp.1', 'Especial 2': 'Esp.2',
                                                             'Especial 3': 'Esp.3', 'Especial 4': 'Esp.4',
                                                             'Normal': 'Norm', 'Minorista': 'Min',
                                                             'Alícuota reducida': 'Alic.Reduc',
                                                             'Alícuota agravada': 'Alic.Agrav',
                                                             'Exento/Desgravado': 'Exento',
                                                             'Mera Compra': 'MeraComp'})

#### Simplificación de categorías de `Trat_Fisc_Agg`, `Trat_Dif` y `Categoria`

In [None]:
ven_cln_map['Trat_Fisc_Agg'] = ven_cln_map['Trat_Fisc_Agg'].replace({'Normal': 'Norm', 'Minorista': 'Min',
                                                                     'Exento/Desgravado': 'Exento',
                                                                     'Otro Tratamiento Fiscal': 'Otro'})

In [None]:
ven_cln_map['Trat_Dif'] = ven_cln_map['Trat_Dif'].replace({'Artículo 21': 'Art.21', 'Artículo 20': 'Art.20',
                                                           'Artículo 19 y 20': 'Art.19+20', 'Artículo 22': 'Art.22',
                                                           'Artículo 16': 'Art.16', 'Artículo 18': 'Art.18', 
                                                           'Artículo 34': 'Art.34', 'Artículo 19': 'Art.19', 
                                                           'Artículo 31': 'Art.31', 'Artículo 17': 'Art.17', 
                                                           'Artículo 28': 'Art.28'})

In [None]:
ven_cln_map['Categoria'] = ven_cln_map['Categoria'].replace({'Acopio de Cereales, Semillas, Fertilizantes, Granos y afines': 'Acopio Agrop.',
                                                             'Cigarrillos, tabacos y afines': 'Tabaco',
                                                             'Fraccionamiento y distribución de gas licuado': 'Gas Licuado',
                                                             'Instalación, Mantenimiento, Reparación, etc de productos varios': 'Mantenimiento',
                                                             'Supermercados, Hipermercados, Kioscos y afines': 'Supermercados',
                                                             'Venta de Autos, Camionetas, Motos, y Afines': 'Vehiculos',
                                                             'Venta de Artículos, productos, accesorios, etc de diversos materiales': 'Misceláneo',
                                                             'Venta de Combustibles para reventa (Incluye tmb gas, carbón, leña, etc)': 'Comb. Reventa',
                                                             'Venta de Cereales y afines': 'Cerales',
                                                             'Venta de Combustibles de Producción Propia (Incluye tmb gas, carbón, leña, etc)': 'Comb. Prod.Propia',
                                                             'Venta de Combustibles (Incluye tmb gas, carbón, leña, etc)': 'Comb.',
                                                             'Venta de Combustibles Ley 23966 (Incluye tmb gas, carbón, leña, etc)': 'Comb. Ley',
                                                             'Venta de Productos Pecuarios, Veterinarios y similares': 'Veterinarios',
                                                             'Venta de Productos farmacéuticos, de perfumería, cosméticos y similares': 'Farmacia',
                                                             'Venta de Semillas, Fertilizantes, Granos y afines': 'Venta Agrop.',
                                                             'Venta de Productos Alimenticios, Bebidas, Lácteos y afines': 'Gondola',
                                                             'Venta en Comisión, Consignación o Intermediación de Cereales': 'Com. Cerales',
                                                             'Venta en Comisión, Consignación o Intermediación de Productos Varios': 'Com. Varios',
                                                             'Venta en Comisión, Consignación o Intermediación de Ganado': 'Com. Ganado',
                                                             'Venta no realizada en Establecimientos (si en Puestos móviles)': 'Venta movil',
                                                             'Venta por Correo, Internet, tv, etc': 'Comunicacion'})

### Justificación

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(12, 10))

fig.suptitle('Efectos del mapeo de variables')

axs[0, 0].scatter(ventas_clean['ID'], ventas_clean['DGR'])
axs[0, 1].scatter(ven_cln_map['ID'], ven_cln_map['DGR'])

axs[1, 0].scatter(ventas_clean['ID'], ventas_clean['Deposito'])
axs[1, 1].scatter(ven_cln_map['ID'], ven_cln_map['Deposito'])

axs[0, 0].set_title('Antes')
axs[0, 1].set_title('Ahora')

axs[0, 0].set_ylabel('DGR')
axs[1, 0].set_ylabel('Deposito')
axs[1, 0].set_xlabel('ID')
axs[1, 1].set_xlabel('ID')

plt.show()

---
# Guardado del dataset

In [None]:
ven_cln_map.to_csv('./ven_cln_map.csv')