# **Desarrollo**

## **Lección 1**: La librería numpy

En primer lugar, procedo a importar la librería numpy:

In [3]:
import numpy as np

Se pide generar datos ficticios por lo que utilizaré números aleatorios. Para garantizar la reproducibilidad de los números aleatorios, utilizo una seed igual a 1.

In [4]:
np.random.seed(1)

A continuación, genero 100 datos de clientes de manera aleatoria ya sea: identificadores de clientes, nombres, edades y ciudades los cuales son almacenados como numpy arrays.

In [5]:
num_clientes = 100
cliente_ids = np.arange(1, num_clientes + 1)
nombres = np.array([f'cliente_{i}' for i in cliente_ids])
edades = np.random.randint(18, 71, size=num_clientes)
ciudades = np.random.choice(['Santiago', 'Valparaíso', 'Concepción', 'Antofagasta'], size=num_clientes)

También genero 500 datos de transacciones de manera aleatoria dentro de un rango de dos años desde el 01-01-2023 utilizando la librería datetime. Los datos generados son: identificadores de transacciones, asociación de transacciones con identificadores de clientes, fechas de realización de transacción y montos.

In [6]:
from datetime import datetime, timedelta

In [7]:
num_transacciones = 500
transaccion_ids = np.arange(1, num_transacciones + 1)
cliente_ids_trans = np.random.choice(cliente_ids, size=num_transacciones)

fecha_inicio = datetime(2023, 1, 1)
dias_rango = 365 * 2
fechas = [fecha_inicio + timedelta(days=int(d)) for d in np.random.randint(0, dias_rango, size=num_transacciones)]

montos = np.round(np.random.uniform(10.0, 1001.0, size=num_transacciones), 2)

También genero una cantidad igual al 5% de registros con montos de transacciones nulos de modo de poder manipular estos registros a futuro:

In [8]:
porcentaje_nulos = 0.05
num_nulos = int(porcentaje_nulos * num_transacciones)
indices_nulos = np.random.choice(num_transacciones, size=num_nulos, replace=False)

montos[indices_nulos] = np.nan

## **Lección 2** - La librería pandas

En primer lugar, procedo a importar la librería pandas:

In [9]:
import pandas as pd

A continuación, procedo a crear dos dataframes con los datos generados de manera aleatoria en la lección anterior:

In [10]:
clientes = pd.DataFrame({
    'cliente_id': cliente_ids,
    'nombre': nombres,
    'edad': edades,
    'ciudad': ciudades
})


transacciones = pd.DataFrame({
    'transaccion_id': transaccion_ids,
    'cliente_id': cliente_ids_trans,
    'fecha': fechas,
    'monto_venta': montos
})

Elijo el dataframe de transacciones para trabajarlo en esta lección mientras que el dataframe de clientes lo almaceno como archivo excel para utilizarlo posteriormente:

In [21]:
clientes.to_excel("clientes.xlsx",index=False)

A continuación, visualizo las 3 primeras filas y 3 últimas filas de cada dataframe:

In [11]:
pd.concat([clientes.head(3), clientes.tail(3)])

Unnamed: 0,cliente_id,nombre,edad,ciudad
0,1,cliente_1,55,Antofagasta
1,2,cliente_2,61,Santiago
2,3,cliente_3,30,Concepción
97,98,cliente_98,41,Concepción
98,99,cliente_99,43,Santiago
99,100,cliente_100,25,Antofagasta


In [12]:
pd.concat([transacciones.head(3), transacciones.tail(3)])

Unnamed: 0,transaccion_id,cliente_id,fecha,monto_venta
0,1,62,2023-12-11,530.15
1,2,57,2024-05-16,289.5
2,3,90,2023-01-23,269.86
497,498,15,2024-12-10,297.28
498,499,37,2023-07-09,982.07
499,500,27,2023-12-10,889.51


El siguiente código muestra estadisticas descriptivas de cada campo para el dataframe de clientes y transacciones:

In [13]:
clientes.describe(include='all')

Unnamed: 0,cliente_id,nombre,edad,ciudad
count,100.0,100,100.0,100
unique,,100,,4
top,,cliente_1,,Santiago
freq,,1,,31
mean,50.5,,41.21,
std,29.011492,,15.324302,
min,1.0,,18.0,
25%,25.75,,27.0,
50%,50.5,,40.5,
75%,75.25,,55.0,


In [14]:
transacciones.describe(include='all')

Unnamed: 0,transaccion_id,cliente_id,fecha,monto_venta
count,500.0,500.0,500,475.0
mean,250.5,50.818,2023-12-01 05:05:16.800000,513.607768
min,1.0,1.0,2023-01-01 00:00:00,10.58
25%,125.75,27.0,2023-05-25 18:00:00,276.235
50%,250.5,49.0,2023-11-19 00:00:00,513.83
75%,375.25,77.25,2024-05-23 00:00:00,763.89
max,500.0,100.0,2024-12-28 00:00:00,998.82
std,144.481833,28.493168,,286.84797


El código siguiente obtiene la cantidad de clientes diferentes que estan dentro del rango de edad de 30 años (incluidos) y 40 (excluidos).

In [15]:
len(clientes[(clientes['edad']>=30) & (clientes['edad']<40)])

18

El siguiente código muestra el porcentaje de transacciones del total realizadas durante el año 2023:

In [16]:
total_transacciones=len(transacciones)

cantidad_transacciones_2023=transacciones[transacciones['fecha'].dt.year == 2023]
porcentaje_transacciones_2023=(len(cantidad_transacciones_2023)/total_transacciones)*100
print(porcentaje_transacciones_2023)

55.2


De modo similar, el siguiente código muestra el porcentaje de ventas realizadas durante el año 2023 con respecto al total:

In [17]:
suma_total_ventas=transacciones['monto_venta'].sum()

suma_ventas_2023=cantidad_transacciones_2023['monto_venta'].sum()

porcentaje_ventas_2023=(suma_ventas_2023/suma_total_ventas)*100
print(porcentaje_ventas_2023)

55.71317190685221


A continuación, procedo a guardar el dataframe transacciones en un archivo csv:

In [18]:
transacciones.to_csv("transacciones.csv",index=False)

## **Lección 3** - Obtención de datos desde archivos

En primer lugar, procedo a cargar el archivo csv generado el finalizar la lección anterior:

In [19]:
transacciones=pd.read_csv("transacciones.csv")
transacciones.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,monto_venta
0,1,62,2023-12-11,530.15
1,2,57,2024-05-16,289.5
2,3,90,2023-01-23,269.86
3,4,22,2024-06-17,462.87
4,5,97,2023-07-16,402.44


A continuación, cargo el archivo excel con datos de clientes generado en la lección anterior:

In [22]:
clientes=pd.read_excel("clientes.xlsx")
clientes.head()

Unnamed: 0,cliente_id,nombre,edad,ciudad
0,1,cliente_1,55,Antofagasta
1,2,cliente_2,61,Santiago
2,3,cliente_3,30,Concepción
3,4,cliente_4,26,Concepción
4,5,cliente_5,27,Concepción


Como la tercera fuente de datos utilizo la siguiente url con los registros de poblaciones para cada región de Chile:

In [23]:
url="https://es.wikipedia.org/wiki/Anexo:Regiones_de_Chile_por_poblaci%C3%B3n"

tablas=pd.read_html(url)
poblaciones=tablas[0]
poblaciones.head()

Unnamed: 0_level_0,Regiones de Chile por población (est. 2024),Regiones de Chile por población (est. 2024),Regiones de Chile por población (est. 2024),Regiones de Chile por población (est. 2024),Regiones de Chile por población (est. 2024)
Unnamed: 0_level_1,Puesto,Región,Población,País comparable,Unnamed: 4_level_1
0,1,Metropolitana,7 400 741,Kirguistán,
1,2,Valparaíso,1 896 053,Guinea Ecuatorial,
2,3,Biobío,1 613 059,Baréin,
3,4,Maule,1 123 008,Yibuti,
4,5,Araucanía,1 010 423,Chipre,


A continuación, realizo un merge entre el dataframe de transacciones y clientes utilizando la columna cliente_id común a ambos dataframes:

In [25]:
transacciones_con_clientes = pd.merge(transacciones, clientes, on='cliente_id', how='inner')

Antes de continuar con el merge del dataframe anterior con el dataframe obtenido desde la fuente web procedo a realizar un ajuste en los encabezados del dataframe de poblaciones ya que actualmente es de tipo MultiIndex:

In [24]:
poblaciones.columns=poblaciones.columns.get_level_values(1)

Con el ajuste anterior listo, ahora procedo a realizar un merge entre el dataframe transacciones_con_clientes y el dataframe de poblaciones:

In [27]:
df_merge = pd.merge(
    transacciones_con_clientes,
    poblaciones,
    left_on='ciudad',
    right_on='Región',
    how='inner'
)

df_final = df_merge[['transaccion_id', 'cliente_id','fecha', 'nombre','edad', 'ciudad', 'Población','monto_venta']]
df_final.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,nombre,edad,ciudad,Población,monto_venta
0,6,84,2024-11-19,cliente_84,57,Valparaíso,1 896 053,733.39
1,7,26,2023-04-29,cliente_26,32,Antofagasta,635 416,15.95
2,10,85,2024-10-13,cliente_85,41,Valparaíso,1 896 053,72.15
3,16,16,2023-07-12,cliente_16,43,Valparaíso,1 896 053,
4,17,25,2023-03-31,cliente_25,47,Valparaíso,1 896 053,813.27


Por último, procedo a almacenar el dataframe df_final como archivo csv llamado datos_analisis.csv:

In [28]:
df_final.to_csv("datos_analisis.csv",index=False)

# **Lección 4**- Manejo de valores perdidos y outliers

En primer lugar, cargo en un dataframe el archivo csv generado al finalizar la lección anterior:

In [29]:
df_final=pd.read_csv("datos_analisis.csv")
df_final.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,nombre,edad,ciudad,Población,monto_venta
0,6,84,2024-11-19,cliente_84,57,Valparaíso,1 896 053,733.39
1,7,26,2023-04-29,cliente_26,32,Antofagasta,635 416,15.95
2,10,85,2024-10-13,cliente_85,41,Valparaíso,1 896 053,72.15
3,16,16,2023-07-12,cliente_16,43,Valparaíso,1 896 053,
4,17,25,2023-03-31,cliente_25,47,Valparaíso,1 896 053,813.27


A continuación, obtengo la cantidad de valores nulos por cada columna del dataframe:

In [30]:
df_final.isna().sum()

Unnamed: 0,0
transaccion_id,0
cliente_id,0
fecha,0
nombre,0
edad,0
ciudad,0
Población,0
monto_venta,11


Los montos de ventas nulos se eliminarán debido a que su naturaleza bien puede ser producto de algún error o registros incompletos realizados en otra transacción. El código para eliminar las filas en las que el monto de ventas es nulo es el siguiente:

In [32]:
df_final=df_final.dropna()

Para verificar la eliminación correcta de filas con monto de ventas nulo ejecuto el siguiente código:

In [33]:
df_final.isna().sum()

Unnamed: 0,0
transaccion_id,0
cliente_id,0
fecha,0
nombre,0
edad,0
ciudad,0
Población,0
monto_venta,0


Ahora procedo a identificar valores outliers usando la técnica del intervalo intercuartilico:

In [42]:
q1=df_final['monto_venta'].quantile(0.25)
q3=df_final['monto_venta'].quantile(0.75)
IQR=q3-q1
outliers=df_final[(df_final['monto_venta']<(q1-1.5*IQR))|(df_final['monto_venta']>(q3+1.5*IQR))]
print(outliers)

Empty DataFrame
Columns: [transaccion_id, cliente_id, fecha, nombre, edad, ciudad, Población, monto_venta]
Index: []


El método anterior mostro que bajo el método de intervalo intercuartilico no existen outliers para el monto de la venta. A continuación, aplico la técnica de determinación de outliers en base al Z-score:

In [43]:
from scipy.stats import zscore

In [44]:
df_final['z_score']=zscore(df_final['monto_venta'])
outliers_z=df_final[df_final['z_score'].abs()>3]
print(outliers_z)

Empty DataFrame
Columns: [transaccion_id, cliente_id, fecha, nombre, edad, ciudad, Población, monto_venta, z_score]
Index: []


Se observa que bajo el método del Z-score no existen outliers para monto de la venta. Por último, procedo a almacenar el dataframe en un archivo csv llamado datos_limpios.csv:

In [45]:
df_final.to_csv("datos_limpios.csv",index=False)

## **Lección 5** - DATA WRANGLING

En primer lugar, procedo a cargar el archivo csv con los datos limpios generado al finalizar la lección anterior:

In [46]:
df_limpio=pd.read_csv("datos_limpios.csv")
df_limpio.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,nombre,edad,ciudad,Población,monto_venta,z_score
0,6,84,2024-11-19,cliente_84,57,Valparaíso,1 896 053,733.39,0.711122
1,7,26,2023-04-29,cliente_26,32,Antofagasta,635 416,15.95,-1.848578
2,10,85,2024-10-13,cliente_85,41,Valparaíso,1 896 053,72.15,-1.648066
3,17,25,2023-03-31,cliente_25,47,Valparaíso,1 896 053,813.27,0.99612
4,18,10,2024-07-06,cliente_10,34,Valparaíso,1 896 053,934.75,1.429539


Ahora procedo a verificar si existen registros duplicados:

In [47]:
df_limpio.duplicated().sum()

np.int64(0)

Se observa que no existen registros duplicados por lo que no es necesario eliminar filas.

A continuación, procedo verificar los tipos de datos de cada columna:

In [48]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   transaccion_id  206 non-null    int64  
 1   cliente_id      206 non-null    int64  
 2   fecha           206 non-null    object 
 3   nombre          206 non-null    object 
 4   edad            206 non-null    int64  
 5   ciudad          206 non-null    object 
 6   Población       206 non-null    object 
 7   monto_venta     206 non-null    float64
 8   z_score         206 non-null    float64
dtypes: float64(2), int64(3), object(4)
memory usage: 14.6+ KB


En primer lugar, transformo el tipo de datos de la columna fecha a datetime:

In [49]:
df_limpio['fecha']=pd.to_datetime(df_limpio['fecha'])

También se visualiza que la columna Población es posible transformarla a tipo de dato numérico ya que actualmente su tipo es object. Para ello y antes de realizar alguna conversión, procedo a verificar el formato actual en que se presenta la data:

In [50]:
df_limpio['Población'].head()

Unnamed: 0,Población
0,1 896 053
1,635 416
2,1 896 053
3,1 896 053
4,1 896 053


Se observa que los separadores de miles han sido reemplazados por espacios en blanco por lo que procedo a reemplazar esos espacios por un caracter vacío para luego aplicar un formato de entero a cada valor de la columna Población:

In [51]:
df_limpio['Población'] =df_limpio['Población'].str.replace(r'\s+', '', regex=True).astype(int)

Por último, ejecuto el siguiente código para verificar que el cambio de tipos de datos ha sido realizado correctamente:

In [52]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaccion_id  206 non-null    int64         
 1   cliente_id      206 non-null    int64         
 2   fecha           206 non-null    datetime64[ns]
 3   nombre          206 non-null    object        
 4   edad            206 non-null    int64         
 5   ciudad          206 non-null    object        
 6   Población       206 non-null    int64         
 7   monto_venta     206 non-null    float64       
 8   z_score         206 non-null    float64       
dtypes: datetime64[ns](1), float64(2), int64(4), object(2)
memory usage: 14.6+ KB


Antes de seguir avanzando, procedo a eliminar la columna z_score ya que no es necesaria:

In [53]:
df_limpio.drop('z_score',axis=1,inplace=True)

Ahora procedo a crear la columna calculada llamada Año:

In [56]:
df_limpio['Año']=df_limpio['fecha'].dt.year

Para verificar que los pasos anteriores se realizaron correctamente ejecuto el siguiente código:

In [57]:
df_limpio.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,nombre,edad,ciudad,Población,monto_venta,Año
0,6,84,2024-11-19,cliente_84,57,Valparaíso,1896053,733.39,2024
1,7,26,2023-04-29,cliente_26,32,Antofagasta,635416,15.95,2023
2,10,85,2024-10-13,cliente_85,41,Valparaíso,1896053,72.15,2024
3,17,25,2023-03-31,cliente_25,47,Valparaíso,1896053,813.27,2023
4,18,10,2024-07-06,cliente_10,34,Valparaíso,1896053,934.75,2024


Listo lo anterior, ahora necesito restar el IVA de cada monto de venta y para ello realizo la siguiente operación sobre cada monto de venta:

In [58]:
df_limpio['monto_venta']=df_limpio['monto_venta'].apply(lambda m:m/1.19)

A continuación, quiero crear categorías de rangos etarios para lo cual necesito saber las cotas de edades actuales en la columna **edad** y para ello ejecuto el siguiente código:

In [59]:
df_limpio['edad'].describe()

Unnamed: 0,edad
count,206.0
mean,44.271845
std,15.895202
min,18.0
25%,32.0
50%,42.5
75%,58.75
max,70.0


El código anterior muestra que el rango de edades esta entre 18 y 70 años por lo que crearé 5 categorías de edades:

In [60]:
bins=[18,25,35,45,60,70]
labels=['18-25','26-35','36-45','46-60','60+']
df_limpio['Grupo etario']=pd.cut(df_limpio['edad'],bins=bins,labels=labels)

Para verificar que la columna **Grupo etario** se ha creado correctamente ejecuto el siguiente código:

In [61]:
df_limpio['Grupo etario'].head()

Unnamed: 0,Grupo etario
0,46-60
1,26-35
2,36-45
3,46-60
4,26-35


Por último, almaceno el dataframe anterior en un archivo csv llamado datos_finales:

In [62]:
df_limpio.to_csv("datos_finales.csv",index=False)

## **Lección 6** - Agrupamiento y pivoteo de datos

El primer paso corresponde a cargar los datos del archivo datos_finales.csv en un dataframe:

In [63]:
df=pd.read_csv("datos_finales.csv")
df.head()

Unnamed: 0,transaccion_id,cliente_id,fecha,nombre,edad,ciudad,Población,monto_venta,Año,Grupo etario
0,6,84,2024-11-19,cliente_84,57,Valparaíso,1896053,616.294118,2024,46-60
1,7,26,2023-04-29,cliente_26,32,Antofagasta,635416,13.403361,2023,26-35
2,10,85,2024-10-13,cliente_85,41,Valparaíso,1896053,60.630252,2024,36-45
3,17,25,2023-03-31,cliente_25,47,Valparaíso,1896053,683.420168,2023,46-60
4,18,10,2024-07-06,cliente_10,34,Valparaíso,1896053,785.504202,2024,26-35


A continuación, realizo una agrupación del monto de ventas totales a partir del Grupo Etario:

In [64]:
df.groupby("Grupo etario")["monto_venta"].sum()

Unnamed: 0_level_0,monto_venta
Grupo etario,Unnamed: 1_level_1
18-25,13771.756303
26-35,15495.747899
36-45,18318.865546
46-60,26623.058824
60+,16731.243697


A continuación, realizo un pivoteado del dataframe utilizando el método pivot agrupando por la sumatoria del monto de la venta para cada año, campo que irá en las filas y para cada ciudad, campo que irá en las columnas:

In [65]:
ventas_anuales_por_ciudad=df.pivot_table(index='Año',columns='ciudad',values='monto_venta',aggfunc='sum')
ventas_anuales_por_ciudad

ciudad,Antofagasta,Valparaíso
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2023,23908.697479,28625.563025
2024,18345.159664,21573.857143


Posteriormente, realizo un melt (unpivoting) sobre el dataframe ventas_anuales_por_ciudad para lo cual debo resetear el índice ya que actualmente es ocupado por la columna Año. Una vez reseteado el índice, procedo a ejecutar el método melt:

In [68]:
df_temp=ventas_anuales_por_ciudad.reset_index()

tabla_melted = df_temp.melt(id_vars='Año', var_name='Ciudad', value_name='Total Ventas')
tabla_melted.head()

Unnamed: 0,Año,Ciudad,Total Ventas
0,2023,Antofagasta,23908.697479
1,2024,Antofagasta,18345.159664
2,2023,Valparaíso,28625.563025
3,2024,Valparaíso,21573.857143


He creado un archivo excel con datos historicos llamado datos_historicos.xlsx en el cual existen datos desde 2020 a 2022. En el siguiente código realizo la carga de la data en un dataframe temporal:

In [66]:
datos_historicos=pd.read_excel("datos_historicos.xlsx")
datos_historicos.head()

Unnamed: 0,Año,Ciudad,Total Ventas
0,2020,Antofagasta,85152.55
1,2021,Antofagasta,50350.85
2,2022,Antofagasta,14542.25
3,2020,Valparaíso,85545.556
4,2021,Valparaíso,58745.5


A continuación, procedo a realizar una unión del dataframe llamado tabla_melted con el dataframe datos_historicos:

In [69]:
datos_desde_2020=pd.concat([tabla_melted,datos_historicos])
datos_desde_2020

Unnamed: 0,Año,Ciudad,Total Ventas
0,2023,Antofagasta,23908.697479
1,2024,Antofagasta,18345.159664
2,2023,Valparaíso,28625.563025
3,2024,Valparaíso,21573.857143
0,2020,Antofagasta,85152.55
1,2021,Antofagasta,50350.85
2,2022,Antofagasta,14542.25
3,2020,Valparaíso,85545.556
4,2021,Valparaíso,58745.5
5,2022,Valparaíso,12575.56


He creado un archivo excel llamado sucursales.xlsx que registra la cantidad de sucursales por región. A continuación, cargo la data de dicho archivo en un dataframe:

In [71]:
sucursales=pd.read_excel("sucursales.xlsx")
sucursales.head()

Unnamed: 0,ciudad,cantidad sucursales
0,Antofagasta,15
1,Valparaíso,10


A continuación, realizo un merge (join) entre ambos dataframes creando el siguiente dataframe consolidado:

In [72]:
datos_consolidados=pd.merge(datos_desde_2020,sucursales,left_on='Ciudad',right_on='ciudad',how='inner')
datos_consolidados.head()

Unnamed: 0,Año,Ciudad,Total Ventas,ciudad,cantidad sucursales
0,2023,Antofagasta,23908.697479,Antofagasta,15
1,2024,Antofagasta,18345.159664,Antofagasta,15
2,2023,Valparaíso,28625.563025,Valparaíso,10
3,2024,Valparaíso,21573.857143,Valparaíso,10
4,2020,Antofagasta,85152.55,Antofagasta,15


El dataframe **datos_consolidados** contiene los datos listos para el análisis. A continuación, procedo a exportar dicho dataframe en formato csv y formato excel:

In [73]:
datos_consolidados.to_csv("datos_consolidados.csv",index=False)
datos_consolidados.to_excel("datos_consolidados.xlsx",index=False)