## ***Prueba Técnica – Análisis y Procesamiento de Datos de Ventas***
**Vacante:** Analista de Sección Evolución Operación Financiación (Junior)  
**Autor:** Luis Alejandro Londoño Martínez  
**Fecha:** 12-11-2025

### ***Librerías***

In [None]:
import pandas as pd

### ***1. Carga y escaneo de datos***

In [10]:
ruta = "datos_ventas.xlsx"
datos_ventas_df = pd.read_excel(ruta)
datos_ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID_Venta         100 non-null    int64  
 1   Fecha            100 non-null    object 
 2   Producto         100 non-null    object 
 3   Cantidad         100 non-null    int64  
 4   Precio_Unitario  100 non-null    int64  
 5   Total_Venta      75 non-null     float64
 6   Vendedor         100 non-null    object 
 7   ID_Cruce         100 non-null    int64  
dtypes: float64(1), int64(4), object(3)
memory usage: 6.4+ KB


In [12]:
# Cantidad general de registros
len(datos_ventas_df)

100

In [11]:
datos_ventas_df.sample(6)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor,ID_Cruce
62,63,2023-05-25,Monitor,2,1151,2302.0,Carlos,163
50,51,2023-12-14,Mouse,7,278,,Carlos,151
46,47,2023-03-11,Laptop,9,619,5571.0,Beatriz,147
26,27,2023-03-21,Laptop,5,228,1140.0,Ana,127
98,99,2023-12-21,Laptop,4,1885,7540.0,Carlos,199
30,31,2023-06-07,Teclado,6,894,5364.0,Carlos,131


In [13]:
# Selección de columnas de interés para la prueba
columnas = [
    "ID_Venta", "Fecha", "Producto",
    "Cantidad", "Precio_Unitario",
    "Total_Venta", "Vendedor"
]

datos_ventas_df = datos_ventas_df[columnas].copy()

# También hubiera sido posible solo eliminar la columna "ID_Cruce" ya que es la única no relevante

In [15]:
datos_ventas_df.sample(6)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
8,9,2023-08-16,Impresora,7,827,5789.0,Carlos
73,74,2023-09-11,Monitor,10,784,7840.0,Beatriz
41,42,2023-02-19,Impresora,5,1459,,David
11,12,2023-06-15,Mouse,7,1376,9632.0,Carlos
99,100,2023-01-27,Tablet,8,1371,10968.0,Carlos
68,69,2023-09-17,Teclado,3,1474,4422.0,Ana


### ***2. Procesamiento de datos***
*Como ya se tienen los datos en un DataFrame, se procederá a hacer el respectivo procesamiento y limpieza de los datos.*

*Los Valores Nulos solo existen en la columna "Total_Venta". La solución propuesta indica multiplicar la cantidad por el precio unitario. En procesos con grandes volúmenes de datos o procesos repetitivos de preparación, es recomendable incoporar esta corrección dentro de un pipeline. De esta forma, los datos futuros que lleguen con valores nulos o inválidos en esta columna serán corregidos automáticamente.*

#### ***Manejo Valores Faltantes***

In [17]:
# Conteo de NaN de la columna Total_Venta
print(datos_ventas_df["Total_Venta"].isna().sum())

25


*Es importante revisar el tipo de dato de las columnas antes de hacer estas operaciones*

In [None]:
# Valores Faltantes
datos_ventas_df["Total_Venta"] = datos_ventas_df["Total_Venta"].fillna(datos_ventas_df["Cantidad"] * datos_ventas_df["Precio_Unitario"])

In [19]:
datos_ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID_Venta         100 non-null    int64  
 1   Fecha            100 non-null    object 
 2   Producto         100 non-null    object 
 3   Cantidad         100 non-null    int64  
 4   Precio_Unitario  100 non-null    int64  
 5   Total_Venta      100 non-null    float64
 6   Vendedor         100 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 5.6+ KB


In [20]:
datos_ventas_df.sample(10)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
10,11,2023-09-18,Impresora,10,1318,13180.0,Carlos
21,22,2023-09-08,Mouse,8,269,2152.0,Ana
4,5,2023-01-24,Impresora,8,644,5152.0,David
19,20,2023-11-22,Tablet,9,1098,9882.0,Carlos
9,10,2023-02-10,Teclado,7,627,4389.0,Beatriz
84,85,2023-11-18,Celular,7,1820,12740.0,Elena
79,80,2023-05-03,Tablet,4,898,3592.0,Carlos
50,51,2023-12-14,Mouse,7,278,1946.0,Carlos
83,84,2023-09-12,Celular,4,1200,4800.0,Beatriz
53,54,2023-09-14,Mouse,10,1448,14480.0,Elena


#### ***Conversión columna Fecha a DateTime***

In [21]:
# Conversión columna Fecha
datos_ventas_df["Fecha"] = pd.to_datetime(datos_ventas_df["Fecha"])

In [23]:
datos_ventas_df["Fecha"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 100 entries, 0 to 99
Series name: Fecha
Non-Null Count  Dtype         
--------------  -----         
100 non-null    datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 932.0 bytes


#### ***Filtro de las ventas de 2023***

In [47]:
datos_ventas_df.sample(3)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
74,75,2023-04-27,Teclado,1,581,581.0,Ana
82,83,2023-08-23,Teclado,3,1334,4002.0,Elena
46,47,2023-03-11,Laptop,9,619,5571.0,Beatriz


In [48]:
datos_ventas_df["Fecha"].dt.year.value_counts()

Fecha
2023    100
Name: count, dtype: int64

In [49]:
# Filtrar las ventas del año 2023
# La totalidad de los registros son del año 2023, sin embargo la línea para filtrar sería así
df_2023 = datos_ventas_df[datos_ventas_df["Fecha"].dt.year == 2023].copy()
df_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ID_Venta         100 non-null    int64         
 1   Fecha            100 non-null    datetime64[ns]
 2   Producto         100 non-null    object        
 3   Cantidad         100 non-null    int64         
 4   Precio_Unitario  100 non-null    int64         
 5   Total_Venta      100 non-null    float64       
 6   Vendedor         100 non-null    object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(2)
memory usage: 5.6+ KB


#### ***Creación columna Mes***

In [50]:
# Columna Mes en formato numérico
df_2023["Mes"] = df_2023["Fecha"].dt.month

In [55]:
df_2023.sample(5)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor,Mes
0,1,2023-06-02,Monitor,3,669,2007.0,Elena,6
74,75,2023-04-27,Teclado,1,581,581.0,Ana,4
59,60,2023-06-19,Monitor,3,112,336.0,Elena,6
69,70,2023-08-06,Mouse,4,547,2188.0,Carlos,8
80,81,2023-10-28,Mouse,4,1913,7652.0,Ana,10


#### ***Total de ventas por vendedor y por mes***

In [57]:
# Agrupar por la columna Vendedor
ventas_por_vendedor = df_2023.groupby("Vendedor")["Total_Venta"].sum().reset_index()

# Agrupar por la columna Mes
ventas_por_mes = df_2023.groupby("Mes")["Total_Venta"].sum().reset_index()

In [58]:
ventas_por_vendedor

Unnamed: 0,Vendedor,Total_Venta
0,Ana,141425.0
1,Beatriz,111286.0
2,Carlos,130801.0
3,David,104820.0
4,Elena,85343.0


In [None]:
# Aplicar un formato a Total Venta para mejor visualización de los valores
ventas_por_vendedor["Total_Venta"] = ventas_por_vendedor["Total_Venta"].apply(lambda x: f"${x:,.0f}")
ventas_por_vendedor

Unnamed: 0,Vendedor,Total_Venta
0,Ana,"$141,425"
1,Beatriz,"$111,286"
2,Carlos,"$130,801"
3,David,"$104,820"
4,Elena,"$85,343"


In [59]:
ventas_por_mes

Unnamed: 0,Mes,Total_Venta
0,1,38617.0
1,2,79020.0
2,3,26514.0
3,4,19552.0
4,5,33014.0
5,6,81217.0
6,7,26158.0
7,8,73812.0
8,9,52082.0
9,10,47184.0


In [61]:
ventas_por_mes["Total_Venta"] = ventas_por_mes["Total_Venta"].apply(lambda x: f"${x:,.0f}")
ventas_por_mes

Unnamed: 0,Mes,Total_Venta
0,1,"$38,617"
1,2,"$79,020"
2,3,"$26,514"
3,4,"$19,552"
4,5,"$33,014"
5,6,"$81,217"
6,7,"$26,158"
7,8,"$73,812"
8,9,"$52,082"
9,10,"$47,184"


### ***3. Generación de un Nuevo Archivo Excel***

In [62]:
with pd.ExcelWriter("resumen_ventas.xlsx", engine="openpyxl") as writer:
    ventas_por_vendedor.to_excel(writer, sheet_name="Resumen_Ventas", index=False)
    ventas_por_mes.to_excel(writer, sheet_name="Ventas_Mensuales", index=False)