## ***Prueba Técnica – Análisis y Procesamiento de Datos de Ventas***
**Vacante:** Analista de Sección Evolución Operación Financiación (Junior)  
**Autor:** Luis Alejandro Londoño Martínez  
**Fecha:** 12-11-2025

### ***Librerías***

In [1]:
import pandas as pd

### ***1. Carga y escaneo de datos***

In [2]:
ruta = "datos_ventas.xlsx"
datos_ventas_df = pd.read_excel(ruta)
datos_ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID_Venta         100 non-null    int64  
 1   Fecha            100 non-null    object 
 2   Producto         100 non-null    object 
 3   Cantidad         100 non-null    int64  
 4   Precio_Unitario  100 non-null    int64  
 5   Total_Venta      75 non-null     float64
 6   Vendedor         100 non-null    object 
 7   ID_Cruce         100 non-null    int64  
dtypes: float64(1), int64(4), object(3)
memory usage: 6.4+ KB


In [3]:
# Cantidad general de registros
len(datos_ventas_df)

100

In [4]:
datos_ventas_df.sample(6)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor,ID_Cruce
24,25,2023-04-06,Celular,4,557,2228.0,Elena,125
19,20,2023-11-22,Tablet,9,1098,9882.0,Carlos,120
18,19,2023-01-11,Teclado,10,700,,Beatriz,119
29,30,2023-08-23,Tablet,4,1974,,Beatriz,130
49,50,2023-10-11,Mouse,3,440,1320.0,Elena,150
65,66,2023-07-03,Monitor,6,1483,8898.0,David,166


In [5]:
# Selección de columnas de interés para la prueba
columnas = [
    "ID_Venta", "Fecha", "Producto",
    "Cantidad", "Precio_Unitario",
    "Total_Venta", "Vendedor"
]

datos_ventas_df = datos_ventas_df[columnas].copy()

# También hubiera sido posible solo eliminar la columna "ID_Cruce" ya que es la única no relevante

In [6]:
datos_ventas_df.sample(6)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
62,63,2023-05-25,Monitor,2,1151,2302.0,Carlos
63,64,2023-08-07,Teclado,6,1955,11730.0,Beatriz
86,87,2023-05-06,Monitor,2,470,940.0,Carlos
25,26,2023-05-21,Teclado,8,1469,,Ana
83,84,2023-09-12,Celular,4,1200,4800.0,Beatriz
48,49,2023-08-08,Teclado,3,1363,4089.0,Ana


### ***2. Procesamiento de datos***
*Como ya se tienen los datos en un DataFrame, se procederá a hacer el respectivo procesamiento y limpieza de los datos.*

*Los Valores Nulos solo existen en la columna "Total_Venta". La solución propuesta indica multiplicar la cantidad por el precio unitario. En procesos con grandes volúmenes de datos o procesos repetitivos de preparación, es recomendable incoporar esta corrección dentro de un pipeline. De esta forma, los datos futuros que lleguen con valores nulos o inválidos en esta columna serán corregidos automáticamente.*

#### ***Manejo Valores Faltantes***

In [7]:
# Conteo de NaN de la columna Total_Venta
print(datos_ventas_df["Total_Venta"].isna().sum())

25


*Es importante revisar el tipo de dato de las columnas antes de hacer estas operaciones*

In [8]:
# Valores Faltantes
datos_ventas_df["Total_Venta"] = datos_ventas_df["Total_Venta"].fillna(datos_ventas_df["Cantidad"] * datos_ventas_df["Precio_Unitario"])

In [9]:
datos_ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID_Venta         100 non-null    int64  
 1   Fecha            100 non-null    object 
 2   Producto         100 non-null    object 
 3   Cantidad         100 non-null    int64  
 4   Precio_Unitario  100 non-null    int64  
 5   Total_Venta      100 non-null    float64
 6   Vendedor         100 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 5.6+ KB


In [10]:
datos_ventas_df.sample(10)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
45,46,2023-04-12,Teclado,1,1530,1530.0,David
95,96,2023-08-15,Monitor,7,138,966.0,Beatriz
36,37,2023-08-05,Mouse,5,1179,5895.0,David
62,63,2023-05-25,Monitor,2,1151,2302.0,Carlos
11,12,2023-06-15,Mouse,7,1376,9632.0,Carlos
66,67,2023-10-12,Celular,6,862,5172.0,Carlos
88,89,2023-02-04,Impresora,9,1222,10998.0,Beatriz
61,62,2023-02-28,Teclado,4,1812,7248.0,Ana
6,7,2023-11-13,Monitor,8,1840,14720.0,Ana
89,90,2023-08-28,Teclado,9,1447,13023.0,Ana


#### ***Conversión columna Fecha a DateTime***

In [11]:
# Conversión columna Fecha
datos_ventas_df["Fecha"] = pd.to_datetime(datos_ventas_df["Fecha"])

In [12]:
datos_ventas_df["Fecha"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 100 entries, 0 to 99
Series name: Fecha
Non-Null Count  Dtype         
--------------  -----         
100 non-null    datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 932.0 bytes


#### ***Filtro de las ventas de 2023***

In [13]:
datos_ventas_df.sample(3)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor
41,42,2023-02-19,Impresora,5,1459,7295.0,David
98,99,2023-12-21,Laptop,4,1885,7540.0,Carlos
16,17,2023-06-15,Monitor,10,1291,12910.0,David


In [14]:
datos_ventas_df["Fecha"].dt.year.value_counts()

Fecha
2023    100
Name: count, dtype: int64

In [15]:
# Filtrar las ventas del año 2023
# La totalidad de los registros son del año 2023, sin embargo la línea para filtrar sería así
df_2023 = datos_ventas_df[datos_ventas_df["Fecha"].dt.year == 2023].copy()
df_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ID_Venta         100 non-null    int64         
 1   Fecha            100 non-null    datetime64[ns]
 2   Producto         100 non-null    object        
 3   Cantidad         100 non-null    int64         
 4   Precio_Unitario  100 non-null    int64         
 5   Total_Venta      100 non-null    float64       
 6   Vendedor         100 non-null    object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(2)
memory usage: 5.6+ KB


#### ***Creación columna Mes***

In [16]:
# Columna Mes en formato numérico
df_2023["Mes"] = df_2023["Fecha"].dt.month

In [17]:
df_2023.sample(5)

Unnamed: 0,ID_Venta,Fecha,Producto,Cantidad,Precio_Unitario,Total_Venta,Vendedor,Mes
80,81,2023-10-28,Mouse,4,1913,7652.0,Ana,10
63,64,2023-08-07,Teclado,6,1955,11730.0,Beatriz,8
29,30,2023-08-23,Tablet,4,1974,7896.0,Beatriz,8
64,65,2023-02-09,Monitor,3,1856,5568.0,Carlos,2
58,59,2023-02-10,Celular,8,1609,12872.0,Carlos,2


#### ***Total de ventas por vendedor y por mes***

In [18]:
# Agrupar por la columna Vendedor
ventas_por_vendedor = df_2023.groupby("Vendedor")["Total_Venta"].sum().reset_index()

# Agrupar por la columna Mes
ventas_por_mes = df_2023.groupby("Mes")["Total_Venta"].sum().reset_index()

In [19]:
ventas_por_vendedor

Unnamed: 0,Vendedor,Total_Venta
0,Ana,141425.0
1,Beatriz,111286.0
2,Carlos,130801.0
3,David,104820.0
4,Elena,85343.0


In [20]:
# Aplicar un formato a Total Venta para mejor visualización de los valores
ventas_por_vendedor["Total_Venta"] = ventas_por_vendedor["Total_Venta"].apply(lambda x: f"${x:,.0f}")
ventas_por_vendedor

Unnamed: 0,Vendedor,Total_Venta
0,Ana,"$141,425"
1,Beatriz,"$111,286"
2,Carlos,"$130,801"
3,David,"$104,820"
4,Elena,"$85,343"


In [21]:
ventas_por_mes

Unnamed: 0,Mes,Total_Venta
0,1,38617.0
1,2,79020.0
2,3,26514.0
3,4,19552.0
4,5,33014.0
5,6,81217.0
6,7,26158.0
7,8,73812.0
8,9,52082.0
9,10,47184.0


In [22]:
ventas_por_mes["Total_Venta"] = ventas_por_mes["Total_Venta"].apply(lambda x: f"${x:,.0f}")
ventas_por_mes

Unnamed: 0,Mes,Total_Venta
0,1,"$38,617"
1,2,"$79,020"
2,3,"$26,514"
3,4,"$19,552"
4,5,"$33,014"
5,6,"$81,217"
6,7,"$26,158"
7,8,"$73,812"
8,9,"$52,082"
9,10,"$47,184"


### ***3. Generación de un Nuevo Archivo Excel***

In [None]:
with pd.ExcelWriter("resumen_ventas.xlsx", engine="openpyxl") as writer:
    ventas_por_vendedor.to_excel(writer, sheet_name="Resumen_Ventas", index=False)
    ventas_por_mes.to_excel(writer, sheet_name="Ventas_Mensuales", index=False)