# Loading and cleaning

In [1]:
import pyxlsb
import pandas as pd

In [2]:
# Open the database from the third sheet of the .xlsb file
with pyxlsb.open_workbook('BC LCG 2017 CN.xlsb') as wb:
    with wb.get_sheet(3) as sheet:
        data = []
        for row in sheet.rows():
            data.append([item.v for item in row])

# Skip the first empty row and use the second row as header 
df = pd.DataFrame(data[2:], columns=data[1])
df['Fecha'] = pd.to_datetime(df['Fecha'], unit='d', origin='1899-12-30')
df

Unnamed: 0,Fecha,Número de Vendedor,None,Nom_Completo_Vendedor,Número de cliente,Tipo,Departamento - Clave,Departamento,Familia - Clave,Familia,Ventas Netas (Q),Costo,None.1,None.2
0,2015-01-01,7.0,,,66.0,Real,0021,,328,TRATAMIENTO DE CONCRETO,31740.12,22046.54,,
1,2015-01-01,5.0,,,45.0,Real,0021,,370,PINTURAS DECORATIVAS,2377.30,1761.35,,
2,2015-01-01,8.0,,,75.0,Real,,Pinturas,371,BARNICES ARQUITECTÓNICOS,20422.48,13189.05,,
3,2015-01-01,6.0,,,57.0,Real,0021,,372,PINTURA AUTOMOTRIZ,719.80,668.40,,
4,2015-01-01,7.0,,,62.0,Real,0021,,376,TINTES PARA MADERA,15589.78,10835.03,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7409,2016-12-01,4.0,,,36.0,Real,0050,,527,Puertas,12490.53,9547.57,,
7410,2016-12-01,1.0,,,47.0,Real,0050,,528,Ventanas,11183.92,7751.78,,
7411,2016-12-01,1.0,,,68.0,Real,0050,,529,Techos,67611.21,51465.89,,
7412,2016-12-01,4.0,,,35.0,Real,0050,,530,Tabicación,13373.82,10981.85,,


In [3]:
df = df.dropna(axis=1, how='all').dropna(axis=0, how='all')
df

Unnamed: 0,Fecha,Número de Vendedor,Número de cliente,Tipo,Departamento - Clave,Departamento,Familia - Clave,Familia,Ventas Netas (Q),Costo
0,2015-01-01,7.0,66.0,Real,0021,,328,TRATAMIENTO DE CONCRETO,31740.12,22046.54
1,2015-01-01,5.0,45.0,Real,0021,,370,PINTURAS DECORATIVAS,2377.30,1761.35
2,2015-01-01,8.0,75.0,Real,,Pinturas,371,BARNICES ARQUITECTÓNICOS,20422.48,13189.05
3,2015-01-01,6.0,57.0,Real,0021,,372,PINTURA AUTOMOTRIZ,719.80,668.40
4,2015-01-01,7.0,62.0,Real,0021,,376,TINTES PARA MADERA,15589.78,10835.03
...,...,...,...,...,...,...,...,...,...,...
7409,2016-12-01,4.0,36.0,Real,0050,,527,Puertas,12490.53,9547.57
7410,2016-12-01,1.0,47.0,Real,0050,,528,Ventanas,11183.92,7751.78
7411,2016-12-01,1.0,68.0,Real,0050,,529,Techos,67611.21,51465.89
7412,2016-12-01,4.0,35.0,Real,0050,,530,Tabicación,13373.82,10981.85


In [4]:
unique_days_only = df['Fecha'].dt.day.unique()
print(f"Unique days: {unique_days_only}")

Unique days: [1]


Entries in the Date column are only month-year

In [5]:
df["Fecha"] = pd.to_datetime(df["Fecha"])
df["Año"] = df["Fecha"].dt.year
df["Mes"] = df["Fecha"].dt.month

check if there are any blank cells or whitespaces 

In [6]:
assert df.replace(r'^\s*$', pd.NA, regex=True).isna().sum().sum() >= df.isna().sum().sum(), "Blank spaces replacement reduced NA count, which should not happen."

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7392 entries, 0 to 7413
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Fecha                 7392 non-null   datetime64[ns]
 1   Número de Vendedor    7392 non-null   float64       
 2   Número de cliente     7392 non-null   float64       
 3   Tipo                  7392 non-null   object        
 4   Departamento - Clave  7387 non-null   object        
 5   Departamento          5 non-null      object        
 6   Familia - Clave       7392 non-null   object        
 7   Familia               7392 non-null   object        
 8   Ventas Netas (Q)      7392 non-null   float64       
 9   Costo                 7392 non-null   float64       
 10  Año                   7392 non-null   int32         
 11  Mes                   7392 non-null   int32         
dtypes: datetime64[ns](1), float64(4), int32(2), object(5)
memory usage: 693.0+ KB


Check if non-nulls in Departamento match nulls in Departamento - Clave


-> Find rows where 'Departamento' is not null and 'Departamento - Clave' is null

In [8]:
mask = df['Departamento'].notna() & df['Departamento - Clave'].isna()
df[mask][['Departamento', 'Departamento - Clave']]

Unnamed: 0,Departamento,Departamento - Clave
2,Pinturas,
4340,Plomería,
4341,Plomería,
4342,Plomería,
5448,Juguetes,


As all entries match, it is safe to change them using the dictionary. 

## Load dictionaries

In [9]:
# Open the database from the second sheet of the .xlsb file
with pyxlsb.open_workbook('BC LCG 2017 CN.xlsb') as wb:
    with wb.get_sheet(2) as sheet:
        data = []
        for row in sheet.rows():
            data.append([item.v for item in row])

# Skip the first empty row and use the second row as header 
depa = pd.DataFrame(data[2:], columns=data[1])

# Drop empty columns and rows
depa = depa.dropna(axis=1, how='all').dropna(axis=0, how='all')

# Save the dictionary of sellers
sellers = depa[['No. Vendedor', 'Nombre', 'Apellido']]

# Keep only columns that belong to the 'Departamento' dictionary
depa = depa[['Departamento - Clave', 'Departamento']]

Map null values in 'Departamento - Clave' in df using depa as a dictionary

In [10]:
df.loc[mask, 'Departamento - Clave'] = df.loc[mask, 'Departamento'].map(
    depa.set_index('Departamento')['Departamento - Clave']
)

Check changed values and delete now unuseful column

In [11]:
df[mask]

Unnamed: 0,Fecha,Número de Vendedor,Número de cliente,Tipo,Departamento - Clave,Departamento,Familia - Clave,Familia,Ventas Netas (Q),Costo,Año,Mes
2,2015-01-01,8.0,75.0,Real,21,Pinturas,371,BARNICES ARQUITECTÓNICOS,20422.48,13189.05,2015,1
4340,2016-03-01,3.0,27.0,Real,24,Plomería,963,EMPAQUES,11811.43,4923.92,2016,3
4341,2016-03-01,6.0,52.0,Real,24,Plomería,964,"TUBERÍA, CONEXIONES Y DRENAJE",662548.79,330311.75,2016,3
4342,2016-03-01,3.0,25.0,Real,24,Plomería,971,CALENTADORES DE AGUA,1190755.27,759981.72,2016,3
5448,2016-06-01,1.0,81.0,Real,1,Juguetes,921,Libros,1356.95,1114.3,2016,6


In [12]:
df.drop(columns=['Departamento'], inplace=True)

# Profiling

To deeply understand relationships between variables, the tool pandas profiling gives a very complete summary of what to look after when working with these variables. 

In [13]:
# from ydata_profiling import ProfileReport
# profile_report = ProfileReport(df, title="Profiling Report")
# profile_report.to_file("Profile_report.html")

Interesting points that came out of this: 
- `Tipo` has a constant value: all entries are "Real"
- Dataset has 1 duplicate row 
- `Costo` and `Ventas Netas (Q)` are highly correlated overall. 

# Análisis de datos 
(Ahora en español para consistencia de respuestas)

- Expresar los resultados en dólares americanos y utilizar el tipo de cambio 1 USD = Q 7.5 dónde la Q es el símbolo de la moneda oficial de Guatemala, el Quetzal. 


In [14]:
df['Ventas Netas (USD)'] = df['Ventas Netas (Q)'] / 7.5
df['Costo (USD)'] = df['Costo'] / 7.5

In [15]:
df.to_csv('BD_LCG_2017_CN.csv', index=False)

In [16]:
df['Departamento - Clave'].unique()

array(['0021', '0022', '0023', '0024', '0025', '0026', '0027', '0028',
       '0030', '0058', '2247', '2248', '0002', '0003', '0004', '0005',
       '0008', '0009', '0010', '0015', '0042', '0059', '0806', '0807',
       '2249', '2250', '0001', '0007', '0012', '2251', '0011', '0050'],
      dtype=object)

## Pareto ABC por departamentos

In [17]:
# Cambiar la visualización de pandas para no usar notación científica
pd.set_option('display.float_format', '{:,.2f}'.format)

In [18]:
# Agrupar las ventas netas por departamento
ventas_por_departamento = df.groupby("Departamento - Clave")["Ventas Netas (USD)"].sum().sort_values(ascending=False)

# Calcular el porcentaje acumulado
ventas_acumuladas = ventas_por_departamento.cumsum()
ventas_totales = ventas_por_departamento.sum()
porcentaje_acumulado = ventas_acumuladas / ventas_totales

In [19]:
# Clasificar en A, B y C
def clasificacion_abc(pct):
    if pct <= 0.8:
        return 'A'
    elif pct <= 0.95:
        return 'B'
    else:
        return 'C'

clasificacion_dpto = porcentaje_acumulado.apply(clasificacion_abc)

Comprobar resultados

In [20]:
# DataFrame con toda la información
df_pareto = pd.DataFrame({
    "Ventas Netas (USD)": ventas_por_departamento,
    "Ventas Acumuladas": ventas_acumuladas,
    "Porcentaje Acumulado": porcentaje_acumulado,
    "Clasificación": clasificacion_dpto
})
df_pareto

Unnamed: 0_level_0,Ventas Netas (USD),Ventas Acumuladas,Porcentaje Acumulado,Clasificación
Departamento - Clave,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,20274844.59,20274844.59,0.09,A
22,13653840.73,33928685.33,0.14,A
5,13540891.31,47469576.64,0.2,A
8,12903730.01,60373306.66,0.26,A
3,12539779.33,72913085.99,0.31,A
2,11895221.25,84808307.24,0.36,A
9,11810286.93,96618594.17,0.41,A
23,11283274.29,107901868.46,0.46,A
25,10472857.66,118374726.11,0.5,A
24,9942731.37,128317457.49,0.55,A


### 1.- 
¿Cuál es el monto de ventas por cada clasificación (A, B y C)?

### 2.- 
Calcular el número de departamentos por cada clasificación (A, B y C).


In [21]:
# Pregunta 1.- 
ventas_por_clase = df_pareto.groupby("Clasificación")["Ventas Netas (USD)"].sum()

# Pregunta 2.-
frecuencia = df_pareto["Clasificación"].value_counts()

# Juntar ambas
resumen = pd.concat([ventas_por_clase, frecuencia], axis=1)
resumen.columns = ["Ventas Netas (USD)", "Número de Departamentos"]
print(resumen)

               Ventas Netas (USD)  Número de Departamentos
Clasificación                                             
A                  184,530,954.91                       18
B                   35,356,586.65                        7
C                   14,864,808.48                        7


## Pareto ABC por clientes

In [22]:
# Agrupar las ventas netas por número de cliente
ventas_por_cliente = df.groupby("Número de cliente")["Ventas Netas (USD)"].sum().sort_values(ascending=False)

# Calcular el porcentaje acumulado
ventas_acumuladas_cliente = ventas_por_cliente.cumsum()
ventas_totales_cliente = ventas_por_cliente.sum()
porcentaje_acumulado_cliente = ventas_acumuladas_cliente / ventas_totales_cliente

In [23]:
# Llamar a la función de clasificación ABC
clasificacion_cliente = porcentaje_acumulado_cliente.apply(clasificacion_abc)

# DataFrame con toda la información
df_pareto_cliente = pd.DataFrame({
    "Ventas Netas (USD)": ventas_por_cliente,
    "Ventas Acumuladas": ventas_acumuladas_cliente,
    "Porcentaje Acumulado": porcentaje_acumulado_cliente,
    "Clasificación": clasificacion_cliente
})
df_pareto_cliente

Unnamed: 0_level_0,Ventas Netas (USD),Ventas Acumuladas,Porcentaje Acumulado,Clasificación
Número de cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
47.00,20530094.33,20530094.33,0.09,A
14.00,19963858.34,40493952.67,0.17,A
59.00,19198607.44,59692560.11,0.25,A
68.00,18611336.47,78303896.58,0.33,A
74.00,16949299.52,95253196.10,0.41,A
...,...,...,...,...
18.00,943603.08,231808396.15,0.99,C
16.00,924974.47,232733370.62,0.99,C
12.00,877763.51,233611134.13,1.00,C
17.00,579313.19,234190447.32,1.00,C


In [24]:
ventas_por_clase_cliente = df_pareto_cliente.groupby("Clasificación")["Ventas Netas (USD)"].sum()
frecuencia_cliente = df_pareto_cliente["Clasificación"].value_counts()

# Juntar ambas
resumen_cliente = pd.concat([ventas_por_clase_cliente, frecuencia_cliente], axis=1)
resumen_cliente.columns = ["Ventas Netas (USD)", "Cantidad de Clientes"]
print(resumen_cliente)

               Ventas Netas (USD)  Cantidad de Clientes
Clasificación                                          
A                  186,864,368.68                    49
B                   35,345,594.06                    25
C                   12,542,387.29                    13


### 3.- 
Realizar un ABC de clientes e identificar cuáles son los 5 clientes que más compran.


In [25]:
# Agrupar por cliente y sumar sus compras totales
ventas_por_cliente = df.groupby("Número de cliente")["Ventas Netas (USD)"].sum()

# Ordenar de mayor a menor
top_5_clientes = ventas_por_cliente.sort_values(ascending=False).head(5)
print(top_5_clientes)

Número de cliente
47.00   20,530,094.33
14.00   19,963,858.34
59.00   19,198,607.44
68.00   18,611,336.47
74.00   16,949,299.52
Name: Ventas Netas (USD), dtype: float64


### 4.- 
Identificar cuál es el vendedor que le vende a la mayoría de los clientes


In [26]:
# Agrupar por vendedor y contar cuántos clientes distintos ha atendido
clientes_por_vendedor = df.groupby("Número de Vendedor")["Número de cliente"].nunique().sort_values(ascending=False)
clientes_por_vendedor = clientes_por_vendedor.rename("Clientes Únicos")
clientes_por_vendedor

Número de Vendedor
1.00    87
8.00    16
3.00    10
4.00    10
2.00     9
5.00     9
6.00     9
7.00     9
Name: Clientes Únicos, dtype: int64

## Análisis de tendencia de ventas

Utilizar la base de datos para construir gráficos dinámicos que representen la tendencia de ventas por mes por vendedor, total 


### 5.- 
¿Cuál es el mes con más ventas para el año 2015 y 2016?

In [27]:
# Agrupar por año y mes numérico, y sumar ventas
ventas_por_mes_num = df.groupby(["Año", "Mes"])["Ventas Netas (USD)"].sum().reset_index()

# Encontrar el mes con mayor venta por año usando la columna Mes
meses_maximos = ventas_por_mes_num.loc[ventas_por_mes_num.groupby("Año")["Ventas Netas (USD)"].idxmax()]
print(meses_maximos)

     Año  Mes  Ventas Netas (USD)
11  2015   12       23,388,850.79
22  2016   11       16,960,601.28


### 6.- 
¿Cuál es el mes con menos ventas para el año 2015 y 2016?


In [28]:
# Obtener el mes con menos ventas por año usando la columna Mes
meses_minimos = ventas_por_mes_num.loc[ventas_por_mes_num.groupby("Año")["Ventas Netas (USD)"].idxmin()]
print(meses_minimos)

     Año  Mes  Ventas Netas (USD)
1   2015    2        7,084,395.69
23  2016   12        4,404,673.10


### 7.- 
¿Cuál es el porcentaje de crecimiento anual?


Se calculará el porcentaje de crecimiento de la siguiente manera: 

(Ventas año actual - Ventas año anterior) * 100 / (Ventas año anterior) 

In [29]:
# Calcular ventas anuales en total
ventas_anuales = df.groupby("Año")["Ventas Netas (USD)"].sum()

# Calcular el porcentaje de crecimiento entre 2015 y 2016
ventas_2015 = ventas_anuales.get(2015, 0)
ventas_2016 = ventas_anuales.get(2016, 0)

if ventas_2015 > 0:
    crecimiento_pct = ((ventas_2016 - ventas_2015) / ventas_2015) * 100
    print(f"Crecimiento de 2015 a 2016: {crecimiento_pct:.2f}%")
else:
    print("No hay datos de ventas para 2015 o son cero.")


Crecimiento de 2015 a 2016: -7.18%


In [31]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

# Crear la serie temporal mensual (sumando ventas por mes y excluyendo diciembre 2016)
ventas_por_mes_sarima = (
    df[(df["Año"] < 2016) | ((df["Año"] == 2016) & (df["Mes"] < 12))]
    .groupby([df["Fecha"].dt.to_period("M")])["Ventas Netas (USD)"]
    .sum()
    .sort_index()
)

# Ajustar el modelo SARIMA (parámetros básicos, pueden ajustarse)
model = SARIMAX(ventas_por_mes_sarima, order=(1,1,1), seasonal_order=(1,1,1,12))
results = model.fit(disp=False)

# Predecir diciembre 2016
pred = results.get_forecast(steps=1)
predicted_dec_2016 = pred.predicted_mean.iloc[0]

print(f"Predicción SARIMA para ventas netas (USD) en diciembre 2016: {predicted_dec_2016:,.2f}")

Predicción SARIMA para ventas netas (USD) en diciembre 2016: 33,201,465.50


  warn('Too few observations to estimate starting parameters%s.'


In [32]:
predicted_dec_2016

33201465.500646316

In [33]:
print("hello")

hello


In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX
import matplotlib.pyplot as plt
%matplotlib inline

# Crear la serie temporal mensual (sumando ventas por mes y excluyendo diciembre 2016)
ventas_por_mes_sarima = (
    df[(df["Año"] < 2016) | ((df["Año"] == 2016) & (df["Mes"] < 12))]
    .groupby([df["Fecha"].dt.to_period("M")])["Ventas Netas (USD)"]
    .sum()
    .sort_index()
)

# Ajustar el modelo SARIMA
model = SARIMAX(ventas_por_mes_sarima, order=(1,1,1), seasonal_order=(1,1,1,12))
results = model.fit(disp=False)

# Predecir diciembre 2016
pred = results.get_forecast(steps=1)
predicted_dec_2016 = pred.predicted_mean.iloc[0]
conf_int = pred.conf_int().iloc[0]

# Obtener el valor real de diciembre 2016
ventas_dic_2016 = df[(df["Año"] == 2016) & (df["Mes"] == 12)]["Ventas Netas (USD)"].sum()

# Crear una nueva serie que incluya diciembre 2016 real y predicho
ventas_plot = ventas_por_mes_sarima.copy()
ventas_plot = ventas_plot.append(pd.Series([ventas_dic_2016], index=[pd.Period('2016-12', freq='M')]))

plt.figure(figsize=(10,6))
ventas_plot.plot(label='Ventas reales hasta dic-2016')
plt.scatter(['2016-12'], [ventas_dic_2016], color='green', label='Real dic-2016')
plt.scatter(['2016-12'], [predicted_dec_2016], color='red', label='Predicción SARIMA dic-2016')
plt.fill_between(['2016-12'], conf_int[0], conf_int[1], color='red', alpha=0.2, label='Intervalo confianza')
plt.legend()
plt.title('Predicción SARIMA para ventas en diciembre 2016')
plt.ylabel('Ventas Netas (USD)')
plt.xlabel('Mes')
plt.show()


Too few observations to estimate starting parameters for seasonal ARMA. All parameters except for variances will be set to zeros.



AttributeError: 'Series' object has no attribute 'append'

## Análisis de rentabilidad de portafolio 

Definiendo rentabilidad como el Return on Investment (ROI) como: 

(Ventas Netas (USD) - Costo (USD)) *100 / Costo (USD)

Asumiendo que el Costo en la BD está en Q, se convierte a USD y se utiliza ese costo en la fórmula. 

### 8.- 
¿Cuál es la rentabilidad del mes de septiembre del 2016?


In [None]:
# Filtrar septiembre 2016
sept_2016 = df[(df["Fecha"].dt.year == 2016) & (df["Fecha"].dt.month == 9)]

# Calcular rentabilidad total del mes
ventas = sept_2016["Ventas Netas (USD)"].sum()
costos = sept_2016["Costo (USD)"].sum()

if costos > 0:
    rentabilidad_sept = ((ventas - costos) / costos) * 100
    print(f"Rentabilidad de septiembre 2016: {rentabilidad_sept:.2f}%")
else:
    print("Costo total es cero, no se puede calcular rentabilidad.")


Rentabilidad de septiembre 2016: 77.28%


### 9.- 
¿Cuál fue el trimestre con la rentabilidad más baja?


In [None]:
# Crear columna de trimestre
df["Trimestre"] = df["Fecha"].dt.to_period("Q")

# Agrupar por trimestre y calcular rentabilidad
rentabilidad_trimestres = df.groupby("Trimestre").agg({
    "Ventas Netas (USD)": "sum",
    "Costo (USD)": "sum"
})

rentabilidad_trimestres["Rentabilidad (%)"] = (
    (rentabilidad_trimestres["Ventas Netas (USD)"] - rentabilidad_trimestres["Costo (USD)"])
    / rentabilidad_trimestres["Costo (USD)"]
) * 100

# Encontrar el trimestre con menor rentabilidad
trimestre_min = rentabilidad_trimestres["Rentabilidad (%)"].idxmin()
valor_min = rentabilidad_trimestres["Rentabilidad (%)"].min()

print(f"Trimestre con menor rentabilidad: {trimestre_min}, con {valor_min:.2f}%")


Trimestre con menor rentabilidad: 2016Q2, con 68.05%


### 10.- 
¿Cuál fue el cliente menos rentable y en qué año?


In [None]:
# Agrupar por cliente y año
rentabilidad_cliente_anio = df.groupby(["Número de cliente", "Año"]).agg({
    "Ventas Netas (USD)": "sum",
    "Costo (USD)": "sum"
})

rentabilidad_cliente_anio["Rentabilidad (%)"] = (
    (rentabilidad_cliente_anio["Ventas Netas (USD)"] - rentabilidad_cliente_anio["Costo (USD)"])
    / rentabilidad_cliente_anio["Costo (USD)"]
) * 100

# Filtrar los casos donde el costo fue mayor a 0 para evitar divisiones por cero
rentabilidad_cliente_anio = rentabilidad_cliente_anio[rentabilidad_cliente_anio["Costo (USD)"] > 0]

# Encontrar el cliente con menor rentabilidad
menor_rentabilidad = rentabilidad_cliente_anio["Rentabilidad (%)"].idxmin()
valor_min_rent = rentabilidad_cliente_anio["Rentabilidad (%)"].min()

cliente, año = menor_rentabilidad

print(f"Cliente menos rentable: {int(cliente)}, Año: {año}, Rentabilidad: {valor_min_rent:.2f}%")


Cliente menos rentable: 20, Año: 2015, Rentabilidad: 43.72%
