# Аналитическая система для логистической компании

На основе датасета amazon_delivery.csv  
https://www.kaggle.com/datasets/sujalsuthar/amazon-delivery-dataset

## Подготовка данных

In [1]:
import pandas as pd

In [2]:
# Загрузка данных
df = pd.read_csv(r"C:\Users\User\Documents\GitHub\delivery\data\amazon_delivery.csv")

# Первые 5 строк
print(df.head())

        Order_ID  Agent_Age  Agent_Rating  Store_Latitude  Store_Longitude  \
0  ialx566343618         37           4.9       22.745049        75.892471   
1  akqg208421122         34           4.5       12.913041        77.683237   
2  njpu434582536         23           4.4       12.914264        77.678400   
3  rjto796129700         38           4.7       11.003669        76.976494   
4  zguw716275638         32           4.6       12.972793        80.249982   

   Drop_Latitude  Drop_Longitude  Order_Date Order_Time Pickup_Time  \
0      22.765049       75.912471  2022-03-19   11:30:00    11:45:00   
1      13.043041       77.813237  2022-03-25   19:45:00    19:50:00   
2      12.924264       77.688400  2022-03-19   08:30:00    08:45:00   
3      11.053669       77.026494  2022-04-05   18:00:00    18:10:00   
4      13.012793       80.289982  2022-03-26   13:30:00    13:45:00   

      Weather  Traffic      Vehicle            Area  Delivery_Time  \
0       Sunny    High   motorcycle

In [3]:
# Информация о колонках и пропусках
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43739 entries, 0 to 43738
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Order_ID         43739 non-null  object 
 1   Agent_Age        43739 non-null  int64  
 2   Agent_Rating     43685 non-null  float64
 3   Store_Latitude   43739 non-null  float64
 4   Store_Longitude  43739 non-null  float64
 5   Drop_Latitude    43739 non-null  float64
 6   Drop_Longitude   43739 non-null  float64
 7   Order_Date       43739 non-null  object 
 8   Order_Time       43739 non-null  object 
 9   Pickup_Time      43739 non-null  object 
 10  Weather          43648 non-null  object 
 11  Traffic          43739 non-null  object 
 12  Vehicle          43739 non-null  object 
 13  Area             43739 non-null  object 
 14  Delivery_Time    43739 non-null  int64  
 15  Category         43739 non-null  object 
dtypes: float64(5), int64(2), object(9)
memory usage: 5.3+ MB
N

In [4]:
# Статистика по числовым колонкам
print(df.describe())

          Agent_Age  Agent_Rating  Store_Latitude  Store_Longitude  \
count  43739.000000  43685.000000    43739.000000     43739.000000   
mean      29.567137      4.633780       17.210960        70.661177   
std        5.815155      0.334716        7.764225        21.475005   
min       15.000000      1.000000      -30.902872       -88.366217   
25%       25.000000      4.500000       12.933298        73.170283   
50%       30.000000      4.700000       18.551440        75.898497   
75%       35.000000      4.900000       22.732225        78.045359   
max       50.000000      6.000000       30.914057        88.433452   

       Drop_Latitude  Drop_Longitude  Delivery_Time  
count   43739.000000    43739.000000   43739.000000  
mean       17.459031       70.821842     124.905645  
std         7.342950       21.153148      51.915451  
min         0.010000        0.010000      10.000000  
25%        12.985996       73.280000      90.000000  
50%        18.633626       76.002574     125.

| Поле (Column)          | Описание                                | Значения без пропусков | Комментарии по обработке                                                                 | Итого значений |
|------------------------|-----------------------------------------|------------------------|------------------------------------------------------------------------------------------|----------------|
| **Order_ID**           | Уникальный идентификатор заказа         | 43739                  | ID уникальны. Дубликаты отсутствуют.                                                     | 43594          |
| **Agent_Age**          | Возраст курьера                         | 43739                  | Аномалий нет. Данные преобразованы в `int8`                                              | 43594          |
| **Agent_Rating**       | Рейтинг курьера (1.0-5.0)               | 43685 (54 пропуска)    | Пропуски заполнены медианой, аномалии удалены, данные преобразованы в `float32`          | 43594          |
| **Store_Latitude**     | Широта точки отправления                | 43739                  | Пропусков и аномалий нет. Преобразовано в `float32`                                       | 43594          |
| **Store_Longitude**    | Долгота точки отправления               | 43739                  | Пропусков и аномалий нет. Преобразовано в `float32`                                      | 43594          |
| **Drop_Latitude**      | Широта точки доставки                   | 43739                  | Пропусков и аномалий нет. Преобразовано в `float32`                                      | 43594          |
| **Drop_Longitude**     | Долгота точки доставки                  | 43739                  | Пропусков и аномалий нет. Преобразовано в `float32`                                      | 43594          |
| **Order_Date**         | Дата создания заказа                    | 43739                  | Объединено в Order_DateTime. Неликвидные данные преобразованы в пропуски. Строки с такими пропусками удалены. Данные преобразованы в `datetime` | 43594          |
| **Order_Time**         | Время создания заказа                   | 43739                  | Объединено в Order_DateTime. Неликвидные данные преобразованы в пропуски. Строки с такими пропусками удалены. Данные преобразованы в `datetime` | 43594          |
| **Pickup_Time**        | Время забора заказа курьером            | 43739                  | Преобразовано в `timedelta64`                                                            | 43594          |
| **Weather**            | Погодные условия ("Rain", "Sunny" и т.д.) | 43648 (91 пропуск)    | Пропуски заполнены модой. Данные преобразованы в `category`                              | 43594          |
| **Traffic**            | Уровень трафика ("Low", "Medium", "High") | 43739                 | Данные преобразованы в `category`                                                        | 43594          |
| **Vehicle**            | Тип транспорта ("Bike", "Car")          | 43739                  | Данные преобразованы в `category`                                                        | 43594          |
| **Area**               | Район доставки ("Urban", "Suburban")    | 43739                  | Данные преобразованы в `category`                                                        | 43594          |
| **Delivery_Time**      | Время доставки в минутах                | 43739                  | Данные преобразованы в `int16`                                                           | 43594          |
| **Category**           | Категория товара ("Food", "Electronics")| 43739                  | Данные преобразованы в `category`                                                        | 43594          |

In [5]:
df["Order_ID"].nunique() == len(df)
# Все ID заказов уникальны. Дубликаты отсутствуют.
df['Order_ID'] = df['Order_ID'].astype('string')

In [6]:
# Agent_Age
# min = 15, max = 50 из данных describe. Аномалий нет (вне 14-90 лет).
# можно преобразовать в int8
df["Agent_Age"] = df["Agent_Age"].astype("int8")

In [7]:
# Agent_Rating
# Из describe видно что есть выбросы. max = 6.0, хотя шкала 5.0
print((df['Agent_Rating'] > 5.0).sum())
# 53 аномалии, их можно удалить, пропорционально пересчитать исходя из 6 бальной шкалы или же заменить медианой
# так как потери не большие (~0.1%), более правильно будет избавиться от неликвидных данных
df = df[df['Agent_Rating'] <= 5.0]
# пропуски значений заменим медианой
median_rating = df["Agent_Rating"].median() 
df["Agent_Rating"] = df["Agent_Rating"].fillna(median_rating)
# преобразуем в float32
df["Agent_Rating"] = df["Agent_Rating"].astype("float32")


53


In [8]:
# Store_Latitude
# пропусков и аномалий нет (все данные в диапазоне [-90, 90]). преобразуем в float32
df["Store_Latitude"] = df["Store_Latitude"].astype("float32")

In [9]:
# Store_Longitude
# пропусков и аномалий нет (все данные в диапазоне [-180, 180]). преобразуем в float32
df["Store_Longitude"] = df["Store_Longitude"].astype("float32")

In [10]:
# Drop_Latitude
# пропусков и аномалий нет (все данные в диапазоне [-90, 90]). преобразуем в float32
df["Drop_Latitude"] = df["Drop_Latitude"].astype("float32")
# Drop_Longitude
# пропусков и аномалий нет (все данные в диапазоне [-180, 180]). преобразуем в float32
df["Drop_Longitude"] = df["Drop_Longitude"].astype("float32")

In [11]:
# Order_Date (удален)
# Order_Time (удален)
# объединено в Order_DateTime. неликвидные данные преобразоны в пропуски. строчки с такими пропусками удалены.
def convert(row):
    try:
        return pd.to_datetime(row['Order_Date'] + ' ' + row['Order_Time']) # row — это одна строка DataFrame
    except:
        return pd.NaT

df['Order_DateTime'] = df.apply(convert, axis=1)
df.drop(["Order_Date", "Order_Time"], axis=1, inplace=True)
print(f"Пропусков в Order_DateTime: {df['Order_DateTime'].isna().sum()}") # пропусков немного (38)

df.dropna(subset=['Order_DateTime'], inplace=True) # удаляем пропуски


Пропусков в Order_DateTime: 38


In [12]:
# Pickup_Time
# конвертируем в timedelta64
df['Pickup_Time'] = pd.to_timedelta(df['Pickup_Time'])

In [13]:
# Weather
# Пропуски заполнены модой. Данные преобразованы в category.
mode_value = df["Weather"].mode() 
df["Weather"] = df["Weather"].fillna(mode_value).astype('category')
# Traffic
# Данные преобразованы в category.
df["Traffic"] = df["Traffic"].astype('category')
# Vehicle
# Данные преобразованы в category.
df["Vehicle"] = df["Vehicle"].astype('category')
# Area
# Данные преобразованы в category.
df["Area"] = df["Area"].astype('category')
# Delivery_Time
# Данные преобразованы в int16.
df["Delivery_Time"] = df["Delivery_Time"].astype('int16')
# Category
# Данные преобразованы в category.
df["Category"] = df["Category"].astype('category')



In [14]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 43594 entries, 0 to 43738
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype          
---  ------           --------------  -----          
 0   Order_ID         43594 non-null  string         
 1   Agent_Age        43594 non-null  int8           
 2   Agent_Rating     43594 non-null  float32        
 3   Store_Latitude   43594 non-null  float32        
 4   Store_Longitude  43594 non-null  float32        
 5   Drop_Latitude    43594 non-null  float32        
 6   Drop_Longitude   43594 non-null  float32        
 7   Pickup_Time      43594 non-null  timedelta64[ns]
 8   Weather          43594 non-null  category       
 9   Traffic          43594 non-null  category       
 10  Vehicle          43594 non-null  category       
 11  Area             43594 non-null  category       
 12  Delivery_Time    43594 non-null  int16          
 13  Category         43594 non-null  category       
 14  Order_DateTime   43594 non-

Данные очищены, оптимизированы и готовы к дальнейшим манипуляциям.