# Introducción
El análisis de datos es clave en la logística moderna, especialmente para empresas como Amazon, donde la velocidad y eficiencia son esenciales. Este proyecto explora los datos de entrega de Amazon para identificar patrones y proponer mejoras prácticas. Desde factores como el tráfico y el clima hasta la calificación de los agentes, buscamos entender y optimizar los tiempos de entrega.



# Datos Generales
El dataset contiene información relevante sobre el proceso de entrega, incluyendo detalles como:

1.Datos geográficos: Latitud y longitud de la tienda y el destino.
Condiciones externas: Clima y tráfico.
Características del agente: Edad y calificación.
Tiempos asociados: Fecha y hora del pedido, recogida y entrega.
Esta variedad de variables permite explorar tanto aspectos operativos como externos que influyen en la logística de entregas.

1. Datos geográficos: Latitud y longitud de la tienda y el destino.
2. Condiciones externas: Clima y tráfico..
3. Tiempos asociados: Fecha y hora del pedido, recogida y entrega.

Esta variedad de variables permite explorar tanto aspectos operativos como externos que influyen en la logística de entregas.


#Hipótesis
H1: El tráfico y el clima adverso incrementan significativamente los tiempos de entrega.

H2: Agentes con mejores calificaciones tienen tiempos de entrega más rápidos.

H3: Las distancias más largas, determinadas por las coordenadas geográficas, aumentan los tiempos de entrega.


# Objetivos
1. Realizar un análisis exploratorio para comprender las principales características del dataset.
2. Identificar los factores más relevantes que afectan los tiempos de entrega.
3. Desarrollar modelos predictivos para estimar el tiempo de entrega.
4. Proponer recomendaciones para mejorar la eficiencia logística.

#Elección del Dataset
El dataset de Amazon Delivery fue seleccionado por su riqueza en variables clave para el análisis logístico y su alineación con los objetivos del proyecto.
Este conjunto de datos permitirá analizar la relación entre las características del pedido, las condiciones externas y los tiempos de entrega.

#Variables y su descripción


1.   Edad del Agente (Edad), Categoría: Numérica continua, int (número entero).

2.  Calificación del Agente, Categoría: Numérica continua, float (número decimal).

3.   Latitud de la Tienda, Categoría: Numérica continua, float (número decimal).

4.   Longitud de la Tienda, Categoría: Numérica continua, float (número decimal).

5.  Latitud de Entrega, Categoría: Numérica continua, float (número decimal).

6.  Longitud de Entrega, Categoría: Numérica continua, float (número decimal).

7.  Fecha del Pedido, Categoría: Temporal, datetime (formato de fecha).
8.  Hora del Pedido, Categoría: Temporal, datetime.time (hora específica).

9.  Hora de Recogida, Categoría: Temporal, datetime.time (hora específica).

10.  Clima, Categoría: Categórica, str (cadena de texto).

11.  Tráfico, Categoría: Categórica, str (cadena de texto).

12.  Vehículo, Categoría: Categórica, str (cadena de texto).

13.  Área, Categoría: Categórica, str (cadena de texto).

14.  Tiempo de Entrega, Categoría: Numérica continua, int (número entero).

15.  Categoría, Categoría: Categórica, str (cadena de texto).




# Elección del Dataset
El dataset fue seleccionado por su riqueza en variables relevantes, como datos geográficos, condiciones externas y características del agente, permitiendo un análisis integral del proceso de entrega.

# Importación de bibliotecas necesarias  222


In [4]:
# Importación de bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [5]:
# Lectura del dataset
url = 'https://raw.githubusercontent.com/Diego-Silvera/Proyecto_Delivery-_Amazon-/refs/heads/main/amazon_delivery.csv'  # Reemplazar con la ruta correcta del dataset
df = pd.read_csv(url, sep=',', header=None)

# Mostrar las primeras filas del dataset
df.head()

  df = pd.read_csv(url, sep=',', header=None)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,Order_ID,Agent_Age,Agent_Rating,Store_Latitude,Store_Longitude,Drop_Latitude,Drop_Longitude,Order_Date,Order_Time,Pickup_Time,Weather,Traffic,Vehicle,Area,Delivery_Time,Category
1,ialx566343618,37,4.9,22.745049,75.892471,22.765049,75.912471,2022-03-19,11:30:00,11:45:00,Sunny,High,motorcycle,Urban,120,Clothing
2,akqg208421122,34,4.5,12.913041,77.683237,13.043041,77.813237,2022-03-25,19:45:00,19:50:00,Stormy,Jam,scooter,Metropolitian,165,Electronics
3,njpu434582536,23,4.4,12.914264,77.6784,12.924264,77.6884,2022-03-19,08:30:00,08:45:00,Sandstorms,Low,motorcycle,Urban,130,Sports
4,rjto796129700,38,4.7,11.003669,76.976494,11.053669,77.026494,2022-04-05,18:00:00,18:10:00,Sunny,Medium,motorcycle,Metropolitian,105,Cosmetics


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43740 entries, 0 to 43739
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       43740 non-null  object
 1   1       43740 non-null  object
 2   2       43686 non-null  object
 3   3       43740 non-null  object
 4   4       43740 non-null  object
 5   5       43740 non-null  object
 6   6       43740 non-null  object
 7   7       43740 non-null  object
 8   8       43740 non-null  object
 9   9       43740 non-null  object
 10  10      43649 non-null  object
 11  11      43740 non-null  object
 12  12      43740 non-null  object
 13  13      43740 non-null  object
 14  14      43740 non-null  object
 15  15      43740 non-null  object
dtypes: object(16)
memory usage: 5.3+ MB


In [7]:
df.shape

(43740, 16)

#Lista de Variables
       
0. Orden_ID - ID_Orden
1.   Agent_Age - Edad del Agente
2.   Agent_Rating -Clasificación del Agente
3.   Store_Latitude - Latitud de la Tienda
4. Store_Longitude - Longitud de la Tienda
5. Drop_Latitude - Latitud de la Entrada
6. Drop_Longitude - Longitud de la Entrada
7. Order_Date - Fecha del Pedido
8. Order_Time - Hora del Pedido
9. Pickup_Time - Hora de Recogida
10. Weather - Clima
11. Traffic - Trafico
12. Vehicle - Vehículo
13. Area - Área
14. Delivery_Time - Tiempo de Entrega
15. Category - Categoría

La Variable ID_Orden esta compuesta por Letras y Números, puede entenderse como erronea. Para mejorar eso vamos a crear una columna  Autonumerica.

In [9]:
# Asignar valores autonuméricos a la columna 'Order_ID'
df['Order_ID'] = range(1, len(df) + 1)
print(df)

                   0          1             2               3  \
0           Order_ID  Agent_Age  Agent_Rating  Store_Latitude   
1      ialx566343618         37           4.9       22.745049   
2      akqg208421122         34           4.5       12.913041   
3      njpu434582536         23           4.4       12.914264   
4      rjto796129700         38           4.7       11.003669   
...              ...        ...           ...             ...   
43735  jlxf819993117         30           4.8       26.902328   
43736  aevx342135787         21           4.6             0.0   
43737  xnek760674819         30           4.9       13.022394   
43738  cynl434665991         20           4.7       11.001753   
43739  nsyz997960170         23           4.9       23.351058   

                     4              5               6           7           8  \
0      Store_Longitude  Drop_Latitude  Drop_Longitude  Order_Date  Order_Time   
1            75.892471      22.765049       75.912471  20

In [10]:
df_new = df.drop(columns=[0])
print(df_new)

               1             2               3                4  \
0      Agent_Age  Agent_Rating  Store_Latitude  Store_Longitude   
1             37           4.9       22.745049        75.892471   
2             34           4.5       12.913041        77.683237   
3             23           4.4       12.914264          77.6784   
4             38           4.7       11.003669        76.976494   
...          ...           ...             ...              ...   
43735         30           4.8       26.902328        75.794257   
43736         21           4.6             0.0              0.0   
43737         30           4.9       13.022394        80.242439   
43738         20           4.7       11.001753        76.986241   
43739         23           4.9       23.351058        85.325731   

                   5               6           7           8            9  \
0      Drop_Latitude  Drop_Longitude  Order_Date  Order_Time  Pickup_Time   
1          22.765049       75.912471  202

In [11]:
#con esto Elimino el ID de la Orden
df = df_new.drop(columns=['Order_ID'])
print(df)

               1             2               3                4  \
0      Agent_Age  Agent_Rating  Store_Latitude  Store_Longitude   
1             37           4.9       22.745049        75.892471   
2             34           4.5       12.913041        77.683237   
3             23           4.4       12.914264          77.6784   
4             38           4.7       11.003669        76.976494   
...          ...           ...             ...              ...   
43735         30           4.8       26.902328        75.794257   
43736         21           4.6             0.0              0.0   
43737         30           4.9       13.022394        80.242439   
43738         20           4.7       11.001753        76.986241   
43739         23           4.9       23.351058        85.325731   

                   5               6           7           8            9  \
0      Drop_Latitude  Drop_Longitude  Order_Date  Order_Time  Pickup_Time   
1          22.765049       75.912471  202


Como la columna ID_Orden no era necesaria para identificar las filas ya qeu los DataFrames de Pandas tienen un identificador generado automáticamente llamado  **Índice**, se elimino dicha Columna, con el fin de hacer más agíl su procesamiento.



In [19]:
# Contar el número de valores igual a 0 en las columnas 1, 2, 3, 4 y 5
columns_to_check = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

# Contar los valores iguales a 0
nun_missing = (df[columns_to_check] == 0).sum()

# Mostrar el resultado
print(nun_missing)

1       0
2       0
3     892
4     892
5       0
6       0
7       0
8       0
9       0
10      0
11      0
12      0
13      0
14      0
15      0
dtype: int64


In [18]:
print(df.columns)

Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], dtype='object')
