# TP 1 - Analisis de datos comerciales para entender su Composición

## Introducción

`Dataset: Datos.csv`

Este proyecto de data science se enfoca en el análisis de una base de datos alterada de una empresa comercial que realiza ventas online. La base de datos, cuidadosamente falsificada, no guarda relación con la realidad ni toma en cuenta efemérides, lo que permite analizar las ventas en un contexto controlado y simulado, proporcionando información valiosa para realizar inferencias sin comprometer la integridad de datos reales.

### Objetivo de análisis:

El objetivo principal del proyecto es analizar la composición y distribución de las ventas contenidas en el dataset, generando gráficos y análisis numéricos para responder preguntas de interés y validar o refutar hipótesis comerciales. Este análisis permitirá generar un informe detallado para el área comercial de la empresa.

El análisis se enfoca en las siguientes hipótesis iniciales:

1. **Distribución geográfica**: Dado que la sede principal de la empresa se encuentra en Córdoba, se espera que al menos el 70% de las ventas provengan de esta localidad.
2. **Concentración de ventas en tiendas**: El 60% de las operaciones deberían estar concentradas en tres de las tiendas principales (Tiendas 1, 2 y 5).
3. **Comportamiento temporal de las ventas**: Se asume que la mayoría de las ventas ocurren durante los fines de semana.
4. **Patrones horarios**: Se estima que una cantidad considerable de ventas se realizan en horarios de siesta.

#### Gráficos y análisis de variables:

Para dar respuesta a estas hipótesis, se crearán gráficos que incluyan al menos tres variables clave, como **ubicación geográfica**, **horario de la transacción**, y **categoría del producto**. Estos gráficos permitirán realizar un diagnóstico visual de cómo se comportan las ventas en función de las preguntas de interés. Además, el análisis numérico complementará los gráficos, brindando información cuantitativa precisa sobre las tendencias observadas.

A tomar en cuenta, presenta Dataset es por articulos por lo cual se deberia individualziar las "ventas" de los "articulos"

#### Identificación de valores perdidos:

Durante el proceso de análisis, se identificarán los valores perdidos en el dataset, lo que permitirá evaluar su impacto en los resultados. Se implementarán técnicas para gestionar estos valores, garantizando que no afecten de forma significativa las conclusiones del análisis.

### Diccionario de datos:

Para facilitar la comprensión y análisis del dataset, se incluye un diccionario de datos que detalla los campos más relevantes. Este diccionario abarca variables como el **origen del pedido** (marketplace o fulfillment), el **documento del cliente**, la **ciudad** y **estado** desde donde se realizó el pedido, el **tipo de dirección de entrega**, así como detalles sobre las **promociones aplicadas**, el **código de referencia del SKU**, el **precio de venta del SKU**, entre otros.

## Diccionario

* Origin:  indica si el origen del pedido es marketplace o fulfillment.
* Sequence:  es la secuencia numérica de la transacción del pedido.
* Creation Date:  es la fecha y hora en que el cliente realizó el pedido.
* Client Document:  es el número de identificación fiscal del cliente que realizó el pedido.
* UF:  es el estado, provincia, región o departamento desde el que el cliente realizó el pedido.
* City:  es la ciudad desde la que el cliente realizó el pedido.
* Address Type:  es el tipo de dirección de entrega (domicilio o recogida).
* Postal Code:  es el código postal de la dirección de entrega.
* Courier:  es la transportadora responsable de la entrega.
* Status:  es el status del pedido en el momento de exportación la plantilla.
* Coupon:  es el ID del cupón del pedido, si lo hay.
* Quantity_SKU:  es la cantidad de ítems del mismo SKU.
* Category Ids Sku:  son los ID de las categorías en los que se encuentra el SKU. Esta información se presenta siguiendo el árbol de departamento/categoría/subcategoría. Por ejemplo, si el valor es /1000003/1000016/, eso significa que el SKU está en la categoría 1000016, que a su vez forma parte del departamento 1000003.
* Reference Code:  es el código de referencia del SKU.
* SKU Selling Price:  es el precio al que se vendió el SKU realmente, ya con los descuentos o promociones aplicados.
* SKU Total Price:  es el valor total del SKU en el pedido, considerando todos os ítems del SKU.
* Total Value:  es el valor total del pedido. Atención
* Discounts Names:  son las promociones aplicadas al pedido.
* Canceled By:  es el email del usuario que realizó la cancelación del pedido.
* Corporate Document:  es el número de registro de persona jurídica, cuando el pedido es realizado por una empresa.
* SalesChannel:  es el ID de la política comercial del pedido.


## Código

### Inicializando Datos

In [250]:
# Importación de librerias
import pandas as pd
import numpy as np
import locale
import unidecode
import matplotlib.pyplot as plt
import seaborn as sns

locale.setlocale(locale.LC_TIME, 'Spanish_Argentina.1252')

'Spanish_Argentina.1252'

In [251]:
# Asignacion del dataset a la variable "dataset"
dataset = pd.read_csv('./Datos/Datos.csv',sep=';')

In [252]:
# Lectura basica de la cabecera
dataset.head()

Unnamed: 0,Origin,Sequence,Creation Date,Client Document,UF,City,Address Type,Postal Code,Courrier,Status,...,Quantity_SKU,Category Ids Sku,Reference Code,SKU Selling Price,SKU Total Price,Total Value,Discounts Names,Cancelled By,Corporate Document,SalesChannel
0,Marketplace,1488581,2020-06-12 15:48:08Z,1,Buenos Aires,Olavarria,pickup,7400,Correo Sucursal,Faturado,...,1,/1/50/59/,1 - 1213,16999.0,16999.0,118098.0,x,,,1
1,Marketplace,1470647,2020-06-06 21:04:26Z,2,Córdoba,Córdoba,residential,5014,Correo,Faturado,...,1,/1/34/78/,2 - 0,8999.0,8999.0,63897.99,x,,,1
2,Marketplace,1464248,2020-06-01 22:38:00Z,3,Córdoba,Córdoba,residential,5000,Correo,Faturado,...,1,/1/34/78/,3 - 0,9629.1,9629.1,32108.2,x,,,1
3,Marketplace,1502447,2020-06-23 02:05:13Z,4,Buenos Aires,Victoria,pickup,1644,Correo Sucursal,Faturado,...,1,/1/34/78/,4 - 0,35799.0,35799.0,40299.0,,,,1
4,Marketplace,1479789,2020-06-09 10:04:41Z,5,Buenos Aires,Santa Teresita,residential,7107,Correo,Faturado,...,1,/1/34/78/,4 - 0,33499.0,33499.0,67098.0,x,,,1


In [253]:
# Se obtiene información básica de las columnas
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24554 entries, 0 to 24553
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Origin              24554 non-null  object 
 1   Sequence            24554 non-null  int64  
 2   Creation Date       24554 non-null  object 
 3   Client Document     24554 non-null  int64  
 4   UF                  24554 non-null  object 
 5   City                24554 non-null  object 
 6   Address Type        24554 non-null  object 
 7   Postal Code         24554 non-null  int64  
 8   Courrier            24554 non-null  object 
 9   Status              24554 non-null  object 
 10  Coupon              609 non-null    object 
 11  Quantity_SKU        24554 non-null  int64  
 12  Category Ids Sku    24554 non-null  object 
 13  Reference Code      24554 non-null  object 
 14  SKU Selling Price   24554 non-null  float64
 15  SKU Total Price     24554 non-null  float64
 16  Tota

### ETL - Dataset = Articulos

In [254]:
# Conversiones necesarias

# Convertir las columnas de identificadores a texto
dataset['Client Document'] = dataset['Client Document'].astype(str)
dataset['Postal Code'] = dataset['Postal Code'].astype(str)
dataset['Corporate Document'] = dataset['Corporate Document'].astype(str)
dataset['SalesChannel'] = dataset['SalesChannel'].astype(str)

# Convertir 'Creation Date' a datetime
dataset['Creation Date'] = pd.to_datetime(dataset['Creation Date'])

In [255]:
# Cambiar el nombre de columnas
dataset.rename(columns={'UF': 'State'}, inplace=True)

In [256]:
# Creación de las columnas necesarias para el analisis objetivo

# Extraer el día de la semana (Devuelve números: 0=Lunes, 6=Domingo)
dataset['Day of Week'] = dataset['Creation Date'].dt.dayofweek

# Extraer el nombre del día
dataset['Day Name'] = dataset['Creation Date'].dt.strftime('%A') 

# Extraer la hora
dataset['Hour'] = dataset['Creation Date'].dt.hour

In [257]:
# Correción de valores (ETL)

# Provincias (States)
dataset['State'] = dataset['State'].str.title()
dataset['State'] = dataset['State'].replace({
    'Cordoba': 'Córdoba',
    'Entre Rios': 'Entre Ríos',
    'Misiones': 'Misíones',
    'Neuquen': 'Neuquén',
    'Rio Negro': 'Río Negro',
    'Santa Fe': 'Santa Fé',
    'Tucuman': 'Tucumán',
    'Ciudad Autónoma De Buenos Aires': 'CABA'
})

# Ciudades (City)
dataset['City'] = dataset['City'].str.title()
dataset['City'] = dataset['City'].str.strip()
dataset['City'] = dataset['City'].str.replace(r'\s+', ' ', regex=True)
dataset['City'] = dataset['City'].apply(unidecode.unidecode)
dataset['City'] = dataset['City'].replace({
    'Ciudad Autonoma De Buenos Aires': 'CABA',
    'C.A.B.A.': 'CABA',
    'El Jaguel': 'El Jagüel',
    'Emilio Bunge': 'Emilio V. Bunge',
    'Joaquin V Gonzalez': 'Joaquin V. Gonzalez',
    'Jose C. Paz': 'Jose Clemente Paz',
    'Pto.iguazu': 'Puerto Iguazu',
    'Pto.madryn': 'Puerto Madryn'
})

In [258]:
# Revisión de valores nulos
dataset.isnull().sum()

Origin                    0
Sequence                  0
Creation Date             0
Client Document           0
State                     0
City                      0
Address Type              0
Postal Code               0
Courrier                  0
Status                    0
Coupon                23945
Quantity_SKU              0
Category Ids Sku          0
Reference Code            0
SKU Selling Price         0
SKU Total Price           0
Total Value               0
Discounts Names       13235
Cancelled By          22883
Corporate Document        0
SalesChannel              0
Day of Week               0
Day Name                  0
Hour                      0
dtype: int64

In [259]:
# TRATAMIENTO DE VALORES NULOS
dataset.fillna({'Discounts Names': 'Sin descuento'}, inplace=True)

Las columnas 'Coupon' y 'Cancelled By' esta bien que tengan valores nulos porqu no se rellenarian en su caso

In [260]:
# Verificación de valores nulos
dataset.isnull().sum()

Origin                    0
Sequence                  0
Creation Date             0
Client Document           0
State                     0
City                      0
Address Type              0
Postal Code               0
Courrier                  0
Status                    0
Coupon                23945
Quantity_SKU              0
Category Ids Sku          0
Reference Code            0
SKU Selling Price         0
SKU Total Price           0
Total Value               0
Discounts Names           0
Cancelled By          22883
Corporate Document        0
SalesChannel              0
Day of Week               0
Day Name                  0
Hour                      0
dtype: int64

In [261]:
# Renombrar Columnas al español

columnas_originales = [
    'Origin', 
    'Sequence', 
    'Creation Date', 
    'Client Document', 
    'State', 
    'City', 
    'Address Type', 
    'Postal Code', 
    'Courier', 
    'Status', 
    'Coupon', 
    'Quantity_SKU', 
    'Category Ids Sku', 
    'Reference Code', 
    'SKU Selling Price', 
    'SKU Total Price', 
    'Total Value', 
    'Discounts Names', 
    'Cancelled By', 
    'Corporate Document', 
    'SalesChannel',
    'Day of Week',
    'Day Name',
    'Hour'
]

nuevos_nombres = [
    'Origen', 
    'Secuencia', 
    'Fecha de Creación', 
    'Documento del Cliente', 
    'Provincia', 
    'Ciudad', 
    'Tipo de Dirección', 
    'Código Postal', 
    'Transportista', 
    'Estado', 
    'Cupón', 
    'Cantidad_SKU', 
    'IDs de Categoría SKU', 
    'Código de Referencia', 
    'Precio de Venta SKU', 
    'Precio Total SKU', 
    'Valor Total', 
    'Tiene descuento', 
    'Cancelado Por', 
    'Documento Corporativo', 
    'Tienda',
    'Día de la Semana',
    'Día',
    'Hora'
]

dataset.columns = nuevos_nombres


In [262]:
# Visualización de columnas
dataset.columns

Index(['Origen', 'Secuencia', 'Fecha de Creación', 'Documento del Cliente',
       'Provincia', 'Ciudad', 'Tipo de Dirección', 'Código Postal',
       'Transportista', 'Estado', 'Cupón', 'Cantidad_SKU',
       'IDs de Categoría SKU', 'Código de Referencia', 'Precio de Venta SKU',
       'Precio Total SKU', 'Valor Total', 'Tiene descuento', 'Cancelado Por',
       'Documento Corporativo', 'Tienda', 'Día de la Semana', 'Día', 'Hora'],
      dtype='object')

In [263]:
dataset.tail()

Unnamed: 0,Origen,Secuencia,Fecha de Creación,Documento del Cliente,Provincia,Ciudad,Tipo de Dirección,Código Postal,Transportista,Estado,...,Precio de Venta SKU,Precio Total SKU,Valor Total,Tiene descuento,Cancelado Por,Documento Corporativo,Tienda,Día de la Semana,Día,Hora
24549,Marketplace,1531456,2020-07-25 14:31:44+00:00,16372,La Rioja,La Rioja,residential,5300,Correo,Faturado,...,53099.0,53099.0,68598.0,Sin descuento,,,4,5,sábado,14
24550,Marketplace,1529581,2020-07-21 22:27:32+00:00,17165,Buenos Aires,Moron,residential,1708,Correo,Faturado,...,56899.0,56899.0,61399.0,Sin descuento,,,1,1,martes,22
24551,Marketplace,1525099,2020-07-16 14:27:19+00:00,16704,Buenos Aires,Juan Maria Gutierrez,residential,1890,Correo,Faturado,...,56899.0,56899.0,61399.0,Sin descuento,,,1,3,jueves,14
24552,Marketplace,1514968,2020-07-05 18:53:56+00:00,17166,Buenos Aires,Mar Del Plata,pickup,7600,Correo Sucursal,Faturado,...,56899.0,56899.0,61399.0,Sin descuento,,,1,6,domingo,18
24553,Marketplace,1514735,2020-07-05 14:21:16+00:00,12277,Buenos Aires,CABA,pickup,1013,Correo Sucursal,Faturado,...,9299.0,9299.0,51998.0,Sin descuento,,,1,6,domingo,14


In [264]:
# Se obtiene nuevamente información básica de las columnas para verificación
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24554 entries, 0 to 24553
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype              
---  ------                 --------------  -----              
 0   Origen                 24554 non-null  object             
 1   Secuencia              24554 non-null  int64              
 2   Fecha de Creación      24554 non-null  datetime64[ns, UTC]
 3   Documento del Cliente  24554 non-null  object             
 4   Provincia              24554 non-null  object             
 5   Ciudad                 24554 non-null  object             
 6   Tipo de Dirección      24554 non-null  object             
 7   Código Postal          24554 non-null  object             
 8   Transportista          24554 non-null  object             
 9   Estado                 24554 non-null  object             
 10  Cupón                  609 non-null    object             
 11  Cantidad_SKU           24554 non-null  int64          

### ETL - Pedidos = Dataset Ventas (articulos agrupados)

In [265]:
# Creacion de Pedidos
pedidos = dataset.groupby('Secuencia').agg(
    Origen=('Origen', 'first'),  # Tomar el primer valor
    Fecha=('Fecha de Creación', 'first'),  # Tomar el primer valor
    Documento_Cliente=('Documento del Cliente', 'first'),  # Tomar el primer valor
    Provincia=('Provincia', 'first'),  # Tomar el primer valor
    Ciudad=('Ciudad', 'first'),  # Tomar el primer valor
    Tipo_Dirección=('Tipo de Dirección', 'first'),  # Tomar el primer valor
    Código_Postal=('Código Postal', 'first'),  # Tomar el primer valor
    Transportista=('Transportista', 'first'),  # Tomar el primer valor
    Estado=('Estado', 'first'), # Tomar el primer valor
    Cupón=('Cupón', 'first'),  # Tomar el primer valor del cupón (o None si no hay)
    Cantidad_SKU=('Cantidad_SKU', 'sum'),  # Sumar la cantidad de SKU
    Precio_Promedio=('Precio de Venta SKU', 'mean'),  # Calcular el precio promedio por SKU
    Valor_Total=('Valor Total', 'first'),   # El valor ya viene siendo el total
    Discount=('Tiene descuento', 'first'), # Tomar el primer valor
    Cancelado_Por=('Cancelado Por', 'first'),  # Tomar el primer valor
    Documento_Corporativo=('Documento Corporativo', 'first'),  # Tomar el primer valor
    Tienda=('Tienda', 'first'),  # Tomar el primer valor
    Dia_de_la_Semana=('Día de la Semana', 'first'),  # Tomar el primer valor
    Dia=('Día', 'first'),  # Tomar el primer valor
    Hora=('Hora', 'first')  # Tomar la primera hora
).reset_index() 
pedidos.set_index('Secuencia', inplace=True)

In [266]:
pedidos.head()

Unnamed: 0_level_0,Origen,Fecha,Documento_Cliente,Provincia,Ciudad,Tipo_Dirección,Código_Postal,Transportista,Estado,Cupón,Cantidad_SKU,Precio_Promedio,Valor_Total,Discount,Cancelado_Por,Documento_Corporativo,Tienda,Dia_de_la_Semana,Dia,Hora
Secuencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1463347,Marketplace,2020-06-01 00:37:05+00:00,9676,Santa Cruz,Rio Gallegos,residential,9400,Correo,Faturado,,1,40699.0,44199.0,Sin descuento,,,1,0,lunes,0
1463349,Fulfillment,2020-06-01 00:40:58+00:00,9643,La Pampa,Santa Rosa,residential,6300,Correo,Faturado,,1,7040.0,7040.0,Sin descuento,,,1,0,lunes,0
1463350,Marketplace,2020-06-01 00:45:04+00:00,7461,Santa Fé,Canada De Gomez,residential,2500,Correo,Faturado,,1,22945.0,26445.0,Sin descuento,,,2,0,lunes,0
1463360,Marketplace,2020-06-01 00:52:17+00:00,310,Buenos Aires,Zarate,residential,2800,Correo,Cancelado,,1,45199.0,45199.0,x,empleado,418.0,1,0,lunes,0
1463366,Marketplace,2020-06-01 00:58:06+00:00,7782,Córdoba,Oliva,residential,5980,Correo,Faturado,,4,18036.75,72147.0,x,,,1,0,lunes,0


In [267]:
# Análisis describe
pedidos.describe()

Unnamed: 0,Cantidad_SKU,Precio_Promedio,Valor_Total,Dia_de_la_Semana,Hora
count,18815.0,18815.0,18815.0,18815.0,18815.0
mean,1.336646,49772.6,60321.15,3.02126,14.421525
std,0.935682,40571.9,45241.46,2.077988,5.928832
min,1.0,199.0,199.0,0.0,0.0
25%,1.0,23200.0,31499.0,1.0,11.0
50%,1.0,40319.1,53799.0,3.0,15.0
75%,1.0,64999.0,74560.0,5.0,19.0
max,26.0,1119499.0,1119499.0,6.0,23.0


### Análisis Esploratorio

In [268]:
# Análisis por hora
conteo_horas = pedidos['Hora'].value_counts().sort_index()
conteo_horas

Hora
0      698
1      433
2      184
3      145
4       73
5       71
6      102
7      275
8      489
9      748
10     992
11    1235
12    1216
13    1141
14    1192
15    1056
16    1035
17    1043
18    1123
19    1141
20    1187
21    1218
22    1097
23     921
Name: count, dtype: int64

Segun el conteo de horas, se observa un pico de operaciones hacia el medio dia y a ultima hora, y, como se espera, en la madrugada se reduce drasticamente.

In [269]:
# Análisis por día (dia 0 = Lunes)
conteo_dia = pedidos['Dia_de_la_Semana'].value_counts().sort_index()
conteo_dia

Dia_de_la_Semana
0    2948
1    2672
2    2683
3    2227
4    2350
5    2884
6    3051
Name: count, dtype: int64

Se observa que el dáa de más ventas es el domingo y el de menor ventas el jueves

In [270]:
# Análisis por provincias
conteo_provincias = pedidos['Provincia'].value_counts().sort_index()
conteo_provincias

Provincia
Buenos Aires           4728
CABA                   1104
Capital Federal         192
Catamarca               139
Chaco                   270
Chubut                  289
Corrientes              257
Córdoba                6616
Entre Ríos              455
Formosa                 134
Jujuy                   192
La Pampa                192
La Rioja                161
Mendoza                 400
Misíones                268
Neuquén                 450
Río Negro               394
Salta                   337
San Juan                136
San Luis                252
Santa Cruz              281
Santa Fé               1028
Santiago Del Estero     229
Tierra Del Fuego         45
Tucumán                 266
Name: count, dtype: int64

In [271]:
cantVentas = sum(conteo_provincias)
porcentajeCordoba = conteo_provincias['Córdoba']/ cantVentas if cantVentas > 0 else 0
print('Ventas en Córdoba:', conteo_provincias['Córdoba'])
print('Total de Ventas:', cantVentas)
print('Procentaje de Córdoba:', round(porcentajeCordoba*100,1))

Ventas en Córdoba: 6616
Total de Ventas: 18815
Procentaje de Córdoba: 35.2


El porcentaje de ventas en Córdoba es mucho menor al esperado, siendo Gran Buenos Aires una fuente importante de ventas

In [272]:
# Análisis por tienda
conteo_tiendas = pedidos['Tienda'].value_counts().sort_index()
conteo_tiendas

Tienda
1    10293
2     2841
3     3096
4     2279
5      306
Name: count, dtype: int64

In [273]:
cantVentasG = sum(conteo_tiendas)
Grupo1 = conteo_tiendas[['1', '2', '5']].sum()
pGrupo1 = Grupo1 / cantVentasG if cantVentasG > 0 else 0 
print('Ventas del Grupo 1:', Grupo1)
print('Total de Ventas:', cantVentasG)
print('Procentaje del Grupo 1:', round(pGrupo1*100,1))

Ventas del Grupo 1: 13440
Total de Ventas: 18815
Procentaje del Grupo 1: 71.4


El porcentaje del Grupo de tiendas 1 supera al esperado

## Graficación

Consigna

1. Generar preguntas o hipótesis de interés sobre el dataset elegido para el proyecto final.
2. Crear gráficos que usen al menos tres variables y hacer un diagnóstico de lo que los mismos nos están diciendo.
3. Vincular los gráficos y análisis numéricos hechos hasta el momento con las preguntas de interés.
4. Identificar valores perdidos.


El análisis se enfoca en las siguientes hipótesis iniciales:

1. **Distribución geográfica**: Dado que la sede principal de la empresa se encuentra en Córdoba, se espera que al menos el 70% de las ventas provengan de esta localidad.
2. **Concentración de ventas en tiendas**: El 60% de las operaciones deberían estar concentradas en tres de las tiendas principales (Tiendas 1, 2 y 5).
3. **Comportamiento temporal de las ventas**: Se asume que la mayoría de las ventas ocurren durante los fines de semana.
4. **Patrones horarios**: Se estima que una cantidad considerable de ventas se realizan en horarios de siesta.

### Gráficos y análisis de variables:

Para dar respuesta a estas hipótesis, se crearán gráficos que incluyan al menos tres variables clave, como **ubicación geográfica**, **horario de la transacción**, y **categoría del producto**. Estos gráficos permitirán realizar un diagnóstico visual de cómo se comportan las ventas en función de las preguntas de interés. Además, el análisis numérico complementará los gráficos, brindando información cuantitativa precisa sobre las tendencias observadas.

### Identificación de valores perdidos:

Durante el proceso de análisis, se identificarán los valores perdidos en el dataset, lo que permitirá evaluar su impacto en los resultados. Se implementarán técnicas para gestionar estos valores, garantizando que no afecten de forma significativa las conclusiones del análisis.