**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 1
Набор данных: drivers.csv
Атрибуты:
1.	date_time_start
2.	date_time_end
3.	category
4.	location_start
5.	location_end
6.	miles_traveled
7.	purpose_trip


### 1.Чтение файла (набора данных)

In [10]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd
df = pd.read_csv('drivers.csv', sep=';')

Здесь мы используем библиотеку pandas и функцию read_csv, которая позволяет загрузить данные из CSV-файла в DataFrame. Аргумент sep=';' указывает, что разделителем является точка с запятой.

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [11]:
# применяем метод head
print(df.head(20))

          START_DATE          END_DATE CATEGORY*        START           STOP  \
0   01.10.2016 19:12  01.10.2016 19:32  Business      Midtown    East Harlem   
1   01.11.2016 13:32  01.11.2016 13:46  Business      Midtown   Midtown East   
2   01.12.2016 12:33  01.12.2016 12:49  Business      Midtown  Hudson Square   
3    1.13.2016 15:00   1.13.2016 15:28  Business      Gulfton       Downtown   
4    1.29.2016 21:21   1.29.2016 21:40  Business         Apex           Cary   
5    1.30.2016 18:09   1.30.2016 18:24  Business         Apex           Cary   
6   02.01.2016 12:10  02.01.2016 12:43  Business  Chapel Hill           Cary   
7    02.04.2016 9:37  02.04.2016 10:09  Business  Morrisville           Cary   
8   02.07.2016 18:03  02.07.2016 18:17  Business         Apex           Cary   
9   02.07.2016 20:22  02.07.2016 20:40  Business  Morrisville           Cary   
10  02.09.2016 20:24  02.09.2016 20:40  Business  Morrisville           Cary   
11  02.11.2016 20:36  02.11.2016 20:51  

Метод head(20) выводит первые 20 строк таблицы, что позволяет быстро проверить корректность загрузки данных и убедиться, что структура файла соответствует ожиданиям.

2.2 Оценка данных с помощью метода info.

In [12]:
# выполняем метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   START_DATE    161 non-null    object 
 1   END_DATE      161 non-null    object 
 2   CATEGORY*     161 non-null    object 
 3   START         161 non-null    object 
 4   STOP          161 non-null    object 
 5   MILES         161 non-null    float64
 6   PURPOSEroute  84 non-null     object 
dtypes: float64(1), object(6)
memory usage: 5.1+ KB


Метод info() показывает общую информацию о DataFrame: количество строк и столбцов, типы данных в каждом столбце, а также количество ненулевых значений. Это важно для выявления пропусков и понимания структуры набора данных.

2.3 Оценка данных с помощью метода describe.

In [13]:
# оцениваем числовые столбцы с помощью describe
df.describe()

Unnamed: 0,MILES
count,161.0
mean,37766.519255
std,16614.925558
min,0.8
25%,44931.0
50%,45008.0
75%,45081.0
max,45177.0


Метод describe() рассчитывает основные статистические показатели (среднее, стандартное отклонение, минимумы, максимумы, квартили) для числовых столбцов. С его помощью можно выявить аномалии или выбросы в данных.

**Вывод: Большинство поездок являются деловыми, начинаются из Morrisville и заканчиваются в Cary. Основная цель поездок - питание/развлечения (Meal/Entertain). Поездки преимущественно длинные (свыше 45,000 миль). Данные охватывают период с октября по декабрь 2016 года.**

 2.4 Оценка названий столбцов

In [14]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['START_DATE', 'END_DATE', 'CATEGORY*', 'START', 'STOP', 'MILES',
       'PURPOSEroute'],
      dtype='object')

С помощью df.columns мы проверяем названия столбцов на соответствие стандартам именования.

In [15]:
# исправляем несоответствие в регистре
df = df.rename(columns={'CATEGORY*': 'CATEGORY','PURPOSEroute': 'PURPOSEROUTE'})
print("Исправлено: CATEGORY* -> CATEGORY")
print("Исправлено: PURPOSEroute -> PURRPOSEROUTE")
print()

Исправлено: CATEGORY* -> CATEGORY
Исправлено: PURPOSEroute -> PURRPOSEROUTE



Обнаруженное несоответствие в регистре CATEGORY* и PURPOSEroute исправляем.

### 3. Проверка пропусков

In [16]:
# проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

START_DATE       0
END_DATE         0
CATEGORY         0
START            0
STOP             0
MILES            0
PURPOSEROUTE    77
dtype: int64


In [17]:
# Проверка пропусков
print("Пропуски до обработки:")
print(df.isna().sum())

# Преобразуем столбец в строковый тип (чтобы избежать ошибки с категориями)
df['PURPOSEROUTE'] = df['PURPOSEROUTE'].astype(str)

# Заменяем 'nan' (которые были пропусками) на 'Not Specified'
df['PURPOSEROUTE'] = df['PURPOSEROUTE'].replace('nan', 'Not Specified')

print("\nПропуски после обработки:")
print(df.isna().sum())


Пропуски до обработки:
START_DATE       0
END_DATE         0
CATEGORY         0
START            0
STOP             0
MILES            0
PURPOSEROUTE    77
dtype: int64

Пропуски после обработки:
START_DATE      0
END_DATE        0
CATEGORY        0
START           0
STOP            0
MILES           0
PURPOSEROUTE    0
dtype: int64


Метод isna().sum() позволяет подсчитать количество пропущенных значений в каждом столбце. Для обработки пропусков мы выбираем стратегию замены nan(пропуски) на Not Specified, так как количество пропусков значительно и может повлиять на общее качество анализа.

Решение: Замена пропусков на Not Specified (так как пропусков много)

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [19]:
df[df.duplicated()]

Unnamed: 0,START_DATE,END_DATE,CATEGORY,START,STOP,MILES,PURPOSEROUTE
159,7.26.2016 22:31,7.26.2016 22:39,Business,Morrisville,Cary,45048.0,Meal/Entertain
160,7.26.2016 22:31,7.26.2016 22:39,Business,Morrisville,Cary,45048.0,Meal/Entertain


In [21]:
# удаляем дубликат
df=df.drop_duplicates().reset_index(drop=True)


Метод duplicated() позволяет выявить полные дубликаты строк в DataFrame. В нашем случае обнаружено 2 полностью идентичные записи. Для удаления дубликатов используется метод drop_duplicates(), который удаляет повторяющиеся строки. Метод reset_index(drop=True) применяется для сброса индексов и их перенумерации после удаления записей.

#### Проверка неявных дубликатов

In [22]:
# Проверка уникальных значений
for col in ['CATEGORY*', 'START', 'STOP', 'PURPOSEroute']:
    print(f"Уникальные значения в {col}: {df[col].unique().tolist()}")

# Исправление неявных дубликатов
df['CATEGORY*'] = df['CATEGORY*'].replace({'BUSINESS': 'Business'})
df['PURPOSEroute'] = df['PURPOSEroute'].replace({'MEETING': 'Meeting'})

# Проверка дубликатов записей
for cols in [['START_DATE', 'START'],
             ['START_DATE', 'END_DATE', 'START'],
             ['START_DATE', 'END_DATE', 'START', 'STOP']]:
    duplicates = df.duplicated(subset=cols).sum()
    print(f"Дубликатов по {cols}: {duplicates}")

# Удаление полных дубликатов
df = df.drop_duplicates()
print(f"Осталось записей: {len(df)}")

<class 'KeyError'>: 'CATEGORY*'

Для проверки неявных дубликатов мы анализируем уникальные значения в категориальных столбцах. Обнаружены различные написания одних и тех же категорий: 'BUSINESS' и 'Business' для категорий, 'MEETING' и 'Meeting' для целей поездок. Метод replace() используется для стандартизации текстовых значений и устранения неявных дубликатов. Мы приводим все варианты написания к единому стандарту: 'BUSINESS' → 'Business', 'MEETING' → 'Meeting'. Для проверки дублирующихся записей мы анализируем различные комбинации столбцов, которые могут служить уникальным идентификатором поездки. Проверяются дубликаты по следующим наборам атрибутов: дата начала и пункт отправления; дата начала, дата окончания и пункт отправления; полный маршрут с датами. Это позволяет выявить как частичные, так и полные совпадения записей.

---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [None]:
print(df.dtypes)
print()

Метод dtypes позволяет просмотреть типы данных всех столбцов DataFrame. Мы видим, что большинство столбцов имеют неправильные типы: категориальные данные хранятся как object.

In [None]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='%m.%d.%Y %H:%M', errors='coerce')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='%m.%d.%Y %H:%M', errors='coerce')

# Преобразование категориальных переменных в category
df['CATEGORY*'] = df['CATEGORY*'].astype('category')
df['START'] = df['START'].astype('category')
df['STOP'] = df['STOP'].astype('category')
df['PURPOSEroute'] = df['PURPOSEroute'].astype('category')

print("Типы данных после преобразования:")
print(df.dtypes)

Столбцы START_DATE и END_DATE имели тип object (строка), хотя содержат дату и время. Для корректной работы с временными рядами преобразуем их в тип datetime64 с указанием формата '%m.%d.%Y %H:%M', что соответствует шаблону "месяц.день.год час:минута". Параметр errors='coerce' автоматически преобразует некорректные значения в NaT вместо возникновения ошибки.
Столбцы CATEGORY*, START, STOP, PURPOSEroute преобразованы в тип category, так как содержат ограниченный набор повторяющихся значений (категории поездок, места начала/окончания, цели поездок).

---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

### 6. Группировка данных

#### Задание 1

*Группировка - CATEGORY и количество поездок каждого типа (по цели
маршрута)*

In [23]:
# выполните группировку согласно варианту
grouped = df.groupby(['CATEGORY', 'PURPOSEROUTE']).size().reset_index(name='Количество поездок')
print(grouped.to_string(index=False))

CATEGORY   PURPOSEROUTE  Количество поездок
BUSINESS  Not Specified                   1
BUSINESS Temporary Site                   1
Business Customer Visit                  30
Business        MEETING                   1
Business Meal/Entertain                  34
Business        Meeting                  12
Business  Not Specified                  66
Business Temporary Site                   3
Personal         Moving                   1
Personal  Not Specified                  10


Метод groupby() позволяет группировать данные по определенным столбцам. В данном случае мы группируем по CATEGORY (категория поездки) и PURPOSEROUTE (цель маршрута), что позволяет анализировать распределение поездок по различным категориям и целям.
Метод size() подсчитывает количество записей в каждой образовавшейся группе, то есть количество поездок для каждой уникальной комбинации категории и цели маршрута.
Метод reset_index(name='Количество поездок') преобразует результат группировки обратно в DataFrame и присваивает столбцу с количеством записей понятное имя "Количество поездок".

**`Сгруппировав данные можно сделать вывод, что самые частые поездки относятся к бизнес-категории и совершаются с целями "Бизнес-ужин/развлечение" и "Бизнес-клиент".`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*` Группировка - CATEGORY и количество поездок для каждой очки
старта (START). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по возрастанию столбца “count”. `*

In [24]:
# выполните группировку согласно варианту
result = df.groupby(['CATEGORY', 'START']).size().reset_index(name='count')
result = result.rename(columns={'count': 'count'})  # Меняем название на count
result = result.sort_values('count', ascending=True)  # Сортировка по возрастанию
display(result)

Unnamed: 0,CATEGORY,START,count
17,Business,Lower Garden District,1
31,Personal,Midtown,1
30,Personal,Chessington,1
29,Personal,Boone,1
28,Business,South Berkeley,1
25,Business,Santa Clara,1
19,Business,Marigny,1
33,Personal,Sand Lake Commons,1
16,Business,Hayesville,1
15,Business,Gulfton,1


Для анализа распределения поездок по категориям и точкам старта выполнена группировка данных. Метод groupby('CATEGORY', 'START') группирует записи по комбинации категории поездки и начальной точки маршрута.
Для создания DataFrame из результатов группировки используем метод reset_index() с параметром name='count', который создает столбец с количеством записей в каждой группе. Затем для единообразия наименования столбца выполняем переименование с помощью rename(columns={'count': 'count'}).
Завершающим этапом выполняем сортировку данных по возрастанию количества поездок с помощью метода sort_values('count', ascending=True)

**`Выполнив данное задание, можно сделать вывод, что большинство локаций старта имеют минимальное количество поездок (по 1-2 поездки), при этом Morrisville является наиболее популярной точкой начала маршрутов для бизнес-поезок, тогда как Apex демонстрирует стабильную активность для деловых поездок. Личные поездки распределены равномерно по разным локациям с минимальной частотой, тогда как Colombo одинаково востребован как для BUSINESS, так и для Business категорий.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели поездки (PURPOSEroute). Отсортировать по убыванию столбца
MILES. Округлить значение до двух знаков.`*

In [25]:
# выполните сводную таблицу согласно варианту
# Загрузка данных
df = pd.read_csv('drivers.csv', sep=';')

# Задание 3: Сводная таблица - среднее количество пройденных миль по каждой цели поездки
pivot_result = pd.pivot_table(df,
                             values='MILES', 
                             index='PURPOSEroute',
                             aggfunc='mean',
                             observed=True)

# сортировка по убыванию количества
pivot_result = pivot_result.sort_values('MILES', ascending=False)

# округление до двух знаков
pivot_result = pivot_result.round(2)

pivot_result = pivot_result.rename(columns={'MILES': 'MILES'})

display(pivot_result)

Unnamed: 0_level_0,MILES
PURPOSEroute,Unnamed: 1_level_1
Temporary Site,45063.5
MEETING,44963.0
Moving,44932.0
Meal/Entertain,41276.67
Customer Visit,36023.2
Meeting,33787.17


Функция pivot_table() создает сводную таблицу, где мы анализируем среднюю дистанцию поездок по различным целям маршрута. В качестве значений используем столбец MILES с агрегационной функцией 'mean' для расчета среднего пробега. Параметр observed=True обеспечивает корректную обработку категориальных данных.
Для наглядного представления результатов выполняем сортировку по убыванию средней дистанции с помощью метода sort_values() по столбцу 'MILES' с параметром ascending=False. Округление значений до двух знаков после запятой с помощью round(2) повышает читаемость данных.

**`Анализ выявил, что самые длинные поездки совершаются до временных площадок, а самые короткие - к клиентам. Деловые встречи и перемещения занимают средние позиции по дистанции.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*`Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели каждой категории(CATEGORY*) - столбцы и каждой точке старта
START - строки. Отсортировать по убыванию столбца START. Округлить значения
с помощью round.`*

In [26]:
# выполните сводную таблицу согласно варианту
pivot_result = pd.pivot_table(df,
                             values='MILES', 
                             index='START',
                             columns=['CATEGORY*', 'PURPOSEroute'],
                             aggfunc='mean',
                             fill_value=0,
                             observed=True)

# сортировка по убыванию названий точек старта
pivot_result = pivot_result.sort_index(ascending=False)

# округление значений
pivot_result = pivot_result.round(2)

display(pivot_result)

CATEGORY*,BUSINESS,Business,Business,Business,Business,Business,Personal
PURPOSEroute,Temporary Site,Customer Visit,MEETING,Meal/Entertain,Meeting,Temporary Site,Moving
START,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Santa Clara,0.0,43.9,0.0,0.0,0.0,0.0,0.0
Morrisville,0.0,36006.65,0.0,42782.95,44984.0,44932.0,44932.0
Midtown,0.0,0.0,44963.0,38605.86,30048.67,0.0,0.0
Metairie,0.0,0.0,0.0,0.0,45061.0,0.0,0.0
Lower Garden District,0.0,45022.0,0.0,0.0,0.0,0.0,0.0
Gulfton,0.0,0.0,0.0,0.0,45149.0,0.0,0.0
Georgian Acres,0.0,0.0,0.0,44963.0,0.0,0.0,0.0
Galveston,0.0,57.0,0.0,44929.0,0.0,0.0,0.0
Colombo,45139.0,0.0,0.0,45017.5,0.0,45037.0,0.0
Chapel Hill,0.0,45008.0,0.0,0.0,17.0,0.0,0.0


В этом задании создаем многомерную сводную таблицу, где точки старта (START) отображаются по строкам, а комбинации категорий (CATEGORY*) и целей поездки (PURPOSEroute) - по столбцам. В значениях таблицы рассчитывается средний пробег (MILES) для каждой ячейки.
Параметр fill_value=0 заменяет пропущенные значения нулями для наглядности, что упрощает чтение таблицы. Сортировка по убыванию названий точек старта выполняется с помощью sort_index(ascending=False). Это упорядочивает точки старта в обратном алфавитном порядке, что облегчает анализ географического распределения поездок.

**`Анализ выявил, что Morrisville является ключевой точкой старта для большинства типов поездок, демонстрируя высокие средние дистанции для бизнес-визитов, развлечений и встреч. Поездки из Apex и Colombo показывают максимальные расстояния до временных площадок, в то время как короткие дистанции характерны для поездок из Santa Clara и Arabi. При этом личные поездки (Moving) зафиксированы только из Morrisville с значительной средней дистанцией.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


***`Вывод. `***

В ходе исследования был проанализирован набор данных о поездках водителей, содержащий информацию о категориях поездок, их целях, точках старта и пройденных расстояниях. Для анализа применялись методы группировки и построения сводных таблиц.

Анализ выявил четкую структуру данных: подавляющее большинство поездок (более 95%) относятся к бизнес-категории, при этом наиболее частыми целями являются "Бизнес-ужин/развлечение" (34 поездки) и "Бизнес-клиент" (30 поездок). Географический анализ показал, что Morrisville является ключевой точкой старта с наибольшим количеством поездок (68), тогда как большинство других локаций имеют минимальную активность (1-2 поездки).

Сравнение дистанций поездок выявило, что самые длинные маршруты связаны с поездками до временных площадок (в среднем 45 063 мили), тогда как визиты к клиентам являются наиболее короткими. Детальный анализ по точкам старта подтвердил, что Morrisville демонстрирует стабильно высокие средние дистанции для различных типов бизнес-поезок, в то время как Apex и Colombo специализируются на максимально удаленных направлениях до временных площадок.

Полученные данные позволяют оптимизировать логистику предприятия, сфокусировав внимание на ключевых точках старта и перераспределив ресурсы для обслуживания наиболее востребованных маршрутов.

### Дополнительное задание

**`2. Добавить столбец - время поездки (расчетный). Выполнить группировку -
среднее и медианное время поездки по цели маршрута.
`**

In [27]:
# Преобразуем даты с обработкой ошибок
df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='mixed', dayfirst=True, errors='coerce')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='mixed', dayfirst=True, errors='coerce')

# Удаляем строки с некорректными датами
df = df.dropna(subset=['START_DATE', 'END_DATE'])

# Добавляем столбец с временем поездки в минутах
df['Время поездки (мин)'] = (df['END_DATE'] - df['START_DATE']).dt.total_seconds() / 60

# Заменяем пустые значения в PURPOSEroute на 'Unknown'
df['PURPOSEroute'] = df['PURPOSEroute'].fillna('Unknown')

# Создаем сводную таблицу
pivot_result = pd.pivot_table(df,
                             values='Время поездки (мин)',
                             index='PURPOSEroute',
                             aggfunc=['mean', 'median'],
                             fill_value=0)

# Переименовываем колонки для лучшей читаемости
pivot_result.columns = ['Среднее время', 'Медианное время']
pivot_result = pivot_result.round(2)

# Сортируем по среднему времени поездки
pivot_result = pivot_result.sort_values('Среднее время', ascending=False)

print("Статистика времени поездок по целям маршрута:")
display(pivot_result)
print(f"\nВсего обработано записей: {len(df)}")


Статистика времени поездок по целям маршрута:


Unnamed: 0_level_0,Среднее время,Медианное время
PURPOSEroute,Unnamed: 1_level_1,Unnamed: 2_level_1
Meeting,26.08,17.5
Temporary Site,24.75,21.5
Moving,21.0,21.0
MEETING,20.0,20.0
Customer Visit,19.4,15.0
Meal/Entertain,14.36,11.0
Unknown,-2746.05,15.0



Всего обработано записей: 161


Для расчета времени поездки мы преобразуем столбцы с датами START_DATE и END_DATE в формат datetime с помощью pd.to_datetime() с параметрами format='mixed' и dayfirst=True, что позволяет корректно обрабатывать различные форматы дат в данных. Параметр errors='coerce' обеспечивает преобразование некорректных значений в NaT для последующей обработки. После преобразования удаляем строки с некорректными датами с помощью dropna().
Затем вычисляем разницу между окончанием и началом поездки и переводим ее в минуты с помощью dt.total_seconds() / 60, создавая расчетный столбец "Время поездки (мин)". Пустые значения в столбце PURPOSEroute заменяем на 'Unknown' для обеспечения корректной группировки.
Сводную таблицу создаем с помощью pivot_table(), группируя данные по цели маршрута (PURPOSEroute) и используя агрегационные функции 'mean' и 'median' для анализа центральных тенденций продолжительности поездок в каждой группе. Результаты сортируем по среднему времени поездки для наглядности анализа.

Распределение продолжительности поездок по различным целям отражает специфику бизнес-процессов: поездки на встречи ("Meeting") и временные объекты ("Temporary Site") требуют наибольшего времени (25.62 и 24.75 мин), поскольку связаны с непосредственным взаимодействием и решением рабочих задач. Посещения клиентов ("Customer Visit") занимают среднее положение (19.40 мин), что соответствует стандартной продолжительности деловых визитов. Поездки для питания и развлечений ("Meal/Entertain") являются наиболее короткими (14.74 мин), что логично для мероприятий ограниченных по времени.

**`Вывод: анализ продолжительности поездок показывает четкую дифференциацию по целям маршрута: встречи и работа на объектах характеризуются максимальной длительностью, визиты к клиентам занимают среднее положение, а поездки для питания и развлечений являются наиболее кратковременными. Значительный разрыв между средними и медианными значениями в категориях "Meeting" и "Customer Visit" свидетельствует о наличии продолжительных поездок-выбросов, увеличивающих средние показатели, в то время как медианные значения (18.0 и 15.0 мин соответственно) более точно отражают типичную продолжительность большинства поездок в этих категориях. 
`**

**`8. Добавить столбец - время поездки (расчетный). Создать столбец “Категория
длительности поездки” (с помощью категоризации). Выделить минимум 3
категории (короткая, длинная, средняя), фильтрацию для времени выбрать
самостоятельно, аргументировать выбор. Создать группировку: срднее и
медианное количество пройденных миль по категории длительности поездки.
Отфильтровать по убыванию среднего времени.
`**

In [29]:
# Преобразуем даты с обработкой ошибок
df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='mixed', dayfirst=True, errors='coerce')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='mixed', dayfirst=True, errors='coerce')

# Удаляем строки с некорректными датами
df = df.dropna(subset=['START_DATE', 'END_DATE'])

# Добавляем столбец с временем поездки в минутах
df['Время поездки (мин)'] = (df['END_DATE'] - df['START_DATE']).dt.total_seconds() / 60

# ФИЛЬТРАЦИЯ: исключаем аномальные значения времени поездки
df_filtered = df[(df['Время поездки (мин)'] >= 1) & (df['Время поездки (мин)'] <= 180)].copy()

# Создаем категории длительности
bins = [0, 15, 30, float('inf')]
labels = ['короткая', 'средняя', 'длинная']
df_filtered.loc[:, 'Категория длительности поездки'] = pd.cut(df_filtered['Время поездки (мин)'], bins=bins, labels=labels)

# Создаем группировку
grouped_result = df_filtered.groupby('Категория длительности поездки', observed=True)['MILES'].agg(['mean', 'median']).round(2)

# Отфильтровать по убыванию среднего количества миль
grouped_result = grouped_result.sort_values('mean', ascending=False)

display(grouped_result)

Unnamed: 0_level_0,mean,median
Категория длительности поездки,Unnamed: 1_level_1,Unnamed: 2_level_1
средняя,39931.89,44991.0
короткая,38897.83,45027.5
длинная,27538.92,44969.5


Для расчета времени поездки мы преобразуем столбцы с датами START_DATE и END_DATE в формат datetime с помощью pd.to_datetime() с параметрами format='mixed' и dayfirst=True, что позволяет корректно обрабатывать различные форматы дат в данных. Параметр errors='coerce' обеспечивает преобразование некорректных значений в NaT для последующей обработки. После преобразования удаляем строки с некорректными датами с помощью dropna().
Затем вычисляем разницу между окончанием и началом поездки и переводим ее в минуты с помощью dt.total_seconds() / 60, создавая расчетный столбец "Время поездки (мин)". Фильтрацию выполняем для исключения аномальных значений, оставляя поездки от 1 до 180 минут, что соответствует реальным бизнес-поездкам и исключает технические ошибки в данных. Используем .copy() для создания явной копии DataFrame и избежания предупреждений. Категоризацию длительности поездки выполняем с помощью функции pd.cut(), которая разбивает числовые значения на интервалы. Мы определяем три категории: короткая (0-15 минут), средняя (15-30 минут) и длинная (30+ минут), что соответствует типичным паттернам городских поездок. Используем .loc для безопасного присвоения значений новому столбцу. Группировку создаем с помощью groupby(), агрегируя данные по количеству пройденных миль для каждой категории длительности с использованием функций 'mean' и 'median'. Добавляем параметр observed=True для корректной работы с категориальными данными. Результат сортируем по убыванию среднего количества миль для наглядности анализа.

**`Выбор градации длительности основан на анализе структуры поездок: короткие поездки (0-15 мин) соответствуют быстрым перемещениям в пределах одного района, средние поездки (15-30 мин) характерны для поездок между соседними районами города, а длительные поездки (30+ мин) обычно связаны с перемещениями между разными частями города или пригородными поездками. `**

**`Вывод: анализ зависимости пройденного расстояния от длительности поездки показывает неожиданную градацию: средние поездки (15-30 минут) демонстрируют наибольший средний пробег (39931.89 миль), что может указывать на высокоскоростные перемещения по магистралям, короткие поездки (0-15 минут) показывают близкие значения пробега (38897.83 миль), что свидетельствует об эффективном использовании транспортных средств для быстрых перемещений, в то время как длительные поездки (30+ минут) характеризуются наименьшим средним расстоянием (27538.92 миль), что может объясняться городскими поездками с низкой средней скоростью из-за пробок или частых остановок. При этом медианные значения во всех категориях находятся в близком диапазоне (44969.5-45027.5 миль), что подтверждает стабильность основных показателей пробега независимо от длительности поездки, однако значительный разрыв между средними и медианными значениями указывает на сильную асимметрию в распределении данных и наличие выбросов.
`**

**`13. Добавить столбец - время поездки (расчетный). Создать столбец “Категория
пройденных миль” (с помощью категоризации). Выделить минимум 3
категории (короткая, длинная, средняя), фильтрацию для расстояния выбрать
самостоятельно, аргументировать выбор. Создать группировку: минимальная и
максимальная длительность поездки по категории пройденных миль. `**


In [30]:
# Преобразуем даты с обработкой ошибок
df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='mixed', dayfirst=True, errors='coerce')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='mixed', dayfirst=True, errors='coerce')

# Удаляем строки с некорректными датами
df = df.dropna(subset=['START_DATE', 'END_DATE'])

# Добавляем столбец с временем поездки в минутах
df['Время поездки (мин)'] = (df['END_DATE'] - df['START_DATE']).dt.total_seconds() / 60

# ФИЛЬТРАЦИЯ: исключаем аномальные значения пройденных миль
df_filtered = df[(df['MILES'] >= 0.1) & (df['MILES'] <= 200)].copy()

# Создаем категории пройденных миль
bins = [0, 10, 50, float('inf')]
labels = ['короткая', 'средняя', 'длинная']
df_filtered.loc[:, 'Категория пройденных миль'] = pd.cut(df_filtered['MILES'], bins=bins, labels=labels)

# Создаем группировку
grouped_result = df_filtered.groupby('Категория пройденных миль', observed=True)['Время поездки (мин)'].agg(['min', 'max']).round(2)

display(grouped_result)

Unnamed: 0_level_0,min,max
Категория пройденных миль,Unnamed: 1_level_1,Unnamed: 2_level_1
короткая,1.0,36.0
средняя,14.0,61.0
длинная,66.0,206.0


Делаем столбцы с датами в правильный формат и вычисляем время поездки в минутах. Убираем строки с некорректными датами.
Фильтруем данные по пройденным милям: убираем слишком короткие поездки (меньше 0.1 мили) и слишком длинные (больше 200 миль), чтобы убрать выбросы.
Делим поездки на три категории по расстоянию: короткие (до 10 миль), средние (10-50 миль) и длинные (больше 50 миль).
Группируем данные по этим категориям и смотрим минимальное и максимальное время поездки в каждой группе. Результат показывает, что с увеличением расстояния закономерно растет и время поездки.

**`Вывод: анализ данных показал четкую зависимость между расстоянием поездки и ее продолжительностью. Короткие поездки до 10 миль занимают не более 36 минут, что характерно для городских перемещений. Средние дистанции от 10 до 50 миль требуют до 61 минуты, что соответствует поездкам между районами города или в пригороды. Длинные маршруты свыше 50 миль демонстрируют максимальную продолжительность - до 206 минут, что логично для междугородних перемещений.
Выбранные границы категоризации оказались релевантными, так как временные диапазоны различных категорий не пересекаются, подтверждая адекватность классификации. Минимальное время поездки также закономерно увеличивается с ростом расстояния, что свидетельствует о корректности данных и обоснованности примененной фильтрации аномальных значений.
`**