# Caso Ingeniería de Datos
## Exploración de datos


*Diego Morales*
**15/11/2025**

---

In [1]:
import pandas as pd
import numpy as np
import os

print(pd.__version__)
print(np.__version__)

2.3.3
2.2.6


### 1. Importación de datos

In [2]:
raw_path = 'data/raw/'
raw_file = 'data_entrega_productos.csv'
raw_filepath = os.path.join(raw_path, raw_file)

df = pd.read_csv(raw_filepath, sep=',')
print(df.shape)
df.head()

(379, 9)


Unnamed: 0,pais,fecha_proceso,transporte,ruta,tipo_entrega,material,precio,cantidad,unidad
0,GT,20250513,67053596,919885,ZPRE,AA004003,3195.54,100.0,CS
1,GT,20250513,67053596,919885,ZPRE,BA018426,529.99,20.0,CS
2,GT,20250513,67053610,919885,Z04,BA018426,7799.74,103.0,CS
3,GT,20250513,67053610,919885,Z04,BA018426,25.25,2.0,ST
4,GT,20250513,67053610,919885,Z04,AA004005,1537.5,15.0,CS


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 379 entries, 0 to 378
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   pais           379 non-null    object 
 1   fecha_proceso  379 non-null    int64  
 2   transporte     379 non-null    int64  
 3   ruta           379 non-null    int64  
 4   tipo_entrega   379 non-null    object 
 5   material       361 non-null    object 
 6   precio         379 non-null    float64
 7   cantidad       379 non-null    float64
 8   unidad         379 non-null    object 
dtypes: float64(2), int64(3), object(4)
memory usage: 26.8+ KB


In [4]:
df.describe(include='all')

Unnamed: 0,pais,fecha_proceso,transporte,ruta,tipo_entrega,material,precio,cantidad,unidad
count,379,379.0,379.0,379.0,379,361,379.0,379.0,379
unique,6,,,,5,32,,,2
top,SV,,,,ZPRE,AA875142,,,CS
freq,162,,,,183,42,,,271
mean,,20250340.0,67052780.0,3183348.0,,,8347.186016,22.770449,
std,,99.93655,547.2517,1824361.0,,,27123.1023,89.056771,
min,,20250110.0,67050260.0,919885.0,,,0.0,1.0,
25%,,20250310.0,67052660.0,2161885.0,,,17.28,2.0,
50%,,20250320.0,67052850.0,2710948.0,,,416.67,10.0,
75%,,20250320.0,67052850.0,2710948.0,,,3000.0,20.0,


### 2. Analisis por variable

#### fecha_proceso

In [5]:
# se convierte el campo a fecha
df['fecha_proceso'] = pd.to_datetime(df.fecha_proceso, format='%Y%m%d', errors='coerce')

In [6]:
# se revisan los rangos de fechass
df.fecha_proceso.describe()

count                              379
mean     2025-03-24 17:21:03.324538112
min                2025-01-14 00:00:00
25%                2025-03-14 00:00:00
50%                2025-03-25 00:00:00
75%                2025-03-25 00:00:00
max                2025-06-02 00:00:00
Name: fecha_proceso, dtype: object

#### pais

In [7]:
# revision de distribucion valores para pais
# se determina que los codigos de pais son validos
# no hay nulos
(df
    .pais
    .value_counts(dropna=False, normalize=True)
    .mul(100)
)

pais
SV    42.744063
HN    31.398417
EC    12.664908
JM     9.498681
GT     3.166227
PE     0.527704
Name: proportion, dtype: float64

#### tipo_entrega

In [8]:
# distribucion de valores para tipo de entrega
# se encuentran valores no validos segun instruciones: COBR y ZVE1
(df
    .tipo_entrega
    .value_counts(dropna=False, normalize=True)
    .mul(100)
)

tipo_entrega
ZPRE    48.284960
Z04     19.788918
COBR    12.137203
Z05     10.290237
ZVE1     9.498681
Name: proportion, dtype: float64

In [9]:
# se definen valores validos para tipo de entrega
entregas_rutina = ['ZPRE', 'ZVE1']
entregas_bonificadas = ['Z04', 'Z05']

tipo_entrega_validos = entregas_rutina + entregas_bonificadas

# distribucion de valores validos para tipo de entrega
# no se encuentran nulos
(df
    [df.tipo_entrega.isin(tipo_entrega_validos)]
    .tipo_entrega
    .value_counts(dropna=False, normalize=True)
    .mul(100)
)

tipo_entrega
ZPRE    54.954955
Z04     22.522523
Z05     11.711712
ZVE1    10.810811
Name: proportion, dtype: float64

#### unidad

In [10]:
# distribucion de valores para unidad
# no se encuentran valores nuloso invalidos
(df
    .unidad
    .value_counts(dropna=False, normalize=True)
    .mul(100)
)

unidad
CS    71.503958
ST    28.496042
Name: proportion, dtype: float64

#### material

In [11]:
# frecuencia de materiales
# se evidencian 18 valores NaN
(df
    .material
    .value_counts(dropna=False, normalize=False)
    .head(10)
)

material
AA875142    42
AA015008    36
AA131113    36
AA015011    36
AA041001    21
AA317050    21
NaN         18
AA059001    14
AA001001    14
AA015001    12
Name: count, dtype: int64

In [12]:
# se revisa si los valores nulos se asocian a algun comportamiento
# sin embargo, no se encuentra un patron evidente y parecen ser aleatorios
df[df.material.isna()].sort_values(['transporte', 'ruta', 'precio'])

Unnamed: 0,pais,fecha_proceso,transporte,ruta,tipo_entrega,material,precio,cantidad,unidad
10,EC,2025-02-17,67051860,4511092,COBR,,1812.44,1.0,ST
82,EC,2025-02-17,67051860,4511092,ZPRE,,1812.44,1.0,ST
150,EC,2025-02-17,67051860,4511092,Z05,,1812.44,1.0,ST
218,EC,2025-02-17,67051860,4511092,ZPRE,,1812.44,1.0,ST
64,HN,2025-03-14,67052658,2710948,COBR,,4003.0,1.0,ST
136,HN,2025-03-14,67052658,2710948,COBR,,4003.0,1.0,ST
204,HN,2025-03-14,67052658,2710948,Z04,,4003.0,1.0,ST
272,HN,2025-03-14,67052658,2710948,ZPRE,,4003.0,1.0,ST
316,HN,2025-03-14,67052658,2710948,ZPRE,,4003.0,1.0,ST
360,HN,2025-03-14,67052658,2710948,ZPRE,,4003.0,1.0,ST


#### transporte

In [13]:
# distribucion de valores para transporte
# no se encuentran valores nulos
(df
    .transporte
    .value_counts(dropna=False, normalize=False)
)

transporte
67052854    162
67052658    119
67051860     48
67053946     36
67053610      8
67053596      2
67053638      2
67050264      2
Name: count, dtype: int64

#### ruta

In [14]:
# distribucion de valores para ruta
# no se encuentran valores nulos
(df
    .ruta
    .value_counts(dropna=False, normalize=False)
)

ruta
2161885    162
2710948    119
4511092     48
8200894     36
919885      12
5428813      2
Name: count, dtype: int64

In [15]:
df.groupby(['transporte', 'ruta']).size()

transporte  ruta   
67050264    5428813      2
67051860    4511092     48
67052658    2710948    119
67052854    2161885    162
67053596    919885       2
67053610    919885       8
67053638    919885       2
67053946    8200894     36
dtype: int64

#### cantidad

In [16]:
df.cantidad.describe()

count    379.000000
mean      22.770449
std       89.056771
min        1.000000
25%        2.000000
50%       10.000000
75%       20.000000
max      960.000000
Name: cantidad, dtype: float64

In [17]:
df[df.unidad=='CS'].cantidad.describe()

count    271.000000
mean      19.206642
std       34.418364
min        2.000000
25%        5.000000
50%       10.000000
75%       30.000000
max      503.000000
Name: cantidad, dtype: float64

In [18]:
df[df.unidad=='ST'].cantidad.describe()

count    108.000000
mean      31.712963
std      157.848623
min        1.000000
25%        1.000000
50%        2.000000
75%        8.000000
max      960.000000
Name: cantidad, dtype: float64

#### precio

In [19]:
df.precio.describe()

count       379.000000
mean       8347.186016
std       27123.102300
min           0.000000
25%          17.280000
50%         416.670000
75%        3000.000000
max      156400.000000
Name: precio, dtype: float64

In [20]:
# revision de precios iguales a cero
df[df.precio==0]

Unnamed: 0,pais,fecha_proceso,transporte,ruta,tipo_entrega,material,precio,cantidad,unidad
16,EC,2025-02-17,67051860,4511092,COBR,AA004001,0.0,10.0,CS
17,EC,2025-02-17,67051860,4511092,COBR,AA004002,0.0,10.0,CS
18,EC,2025-02-17,67051860,4511092,COBR,AA004003,0.0,10.0,CS
19,EC,2025-02-17,67051860,4511092,COBR,AA004012,0.0,10.0,CS
36,SV,2025-03-25,67052854,2161885,ZPRE,AA015008,0.0,10.0,CS
...,...,...,...,...,...,...,...,...,...
359,HN,2025-03-14,67052658,2710948,ZPRE,AA317050,0.0,8.0,ST
370,HN,2025-03-14,67052658,2710948,ZPRE,EN001001,0.0,10.0,CS
371,HN,2025-03-14,67052658,2710948,ZPRE,CA001099,0.0,10.0,ST
375,HN,2025-03-14,67052658,2710948,ZPRE,AA041001,0.0,1.0,ST


In [21]:
# se revisa si los precios iguales a cero se asocian a algun comportamiento
(df
    [df.precio==0]
    .groupby(['pais', 'transporte', 'ruta'])
    .size()
)

pais  transporte  ruta   
EC    67051860    4511092    16
HN    67052658    2710948    28
SV    67052854    2161885    30
dtype: int64

In [22]:
# verificacion de tipo de entrega para precios 0
(df
    [df.precio==0]
    .tipo_entrega
    .value_counts()
)

tipo_entrega
ZPRE    39
Z04     14
COBR    12
Z05      9
Name: count, dtype: int64

In [23]:
# en promedio, ningun tipo de entrega tiene precio cero
# por lo que parece ser un error en el ingreso de datos
# o alguna particularidad del negocio que no esta documentada
df.groupby('tipo_entrega').precio.mean()

tipo_entrega
COBR     3052.420217
Z04      1247.421600
Z05       331.378974
ZPRE     1946.890164
ZVE1    71122.524167
Name: precio, dtype: float64

In [24]:
# visualizacion de buckets de precio
df.precio.value_counts(bins=[-0.01, 0, 100, 10000, 100000, 1e6]).sort_index()

(-0.011, 0.0]             74
(0.0, 100.0]              90
(100.0, 10000.0]         163
(10000.0, 100000.0]       37
(100000.0, 1000000.0]     15
Name: count, dtype: int64