**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №16

Набор данных: drivers.csv

Атрибуты:
1. Дата и время начала
2. Дата и время окончания
3. Категория
4. Место начала (можно не проверять данный столбец на наличие неявных
дубликатов)
5. Место окончания (можно не проверять данный столбец на наличие неявных
дубликатов)
6. Пройденные мили
7. Цель поездки


### 1.Чтение файла (набора данных)

In [2]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd

df = pd.read_csv('drivers.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [3]:
# применить метод head
df.head(20)

Unnamed: 0,START_DATE,END_DATE,CATEGORY*,START,STOP,MILES,PURPOSEroute
0,01.10.2016 19:12,01.10.2016 19:32,Business,Midtown,East Harlem,44963.0,MEETING
1,01.11.2016 13:32,01.11.2016 13:46,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,01.12.2016 12:33,01.12.2016 12:49,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,1.13.2016 15:00,1.13.2016 15:28,Business,Gulfton,Downtown,45149.0,Meeting
4,1.29.2016 21:21,1.29.2016 21:40,Business,Apex,Cary,45051.0,Meal/Entertain
5,1.30.2016 18:09,1.30.2016 18:24,Business,Apex,Cary,45112.0,Customer Visit
6,02.01.2016 12:10,02.01.2016 12:43,Business,Chapel Hill,Cary,45008.0,Customer Visit
7,02.04.2016 9:37,02.04.2016 10:09,Business,Morrisville,Cary,45116.0,Meal/Entertain
8,02.07.2016 18:03,02.07.2016 18:17,Business,Apex,Cary,45112.0,Customer Visit
9,02.07.2016 20:22,02.07.2016 20:40,Business,Morrisville,Cary,44932.0,Meeting


2.2 Оценка данных с помощью метода info.

In [4]:
# выполнит метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   START_DATE    161 non-null    object 
 1   END_DATE      161 non-null    object 
 2   CATEGORY*     161 non-null    object 
 3   START         161 non-null    object 
 4   STOP          161 non-null    object 
 5   MILES         161 non-null    float64
 6   PURPOSEroute  84 non-null     object 
dtypes: float64(1), object(6)
memory usage: 8.9+ KB


2.3 Оценка данных с помощью метода describe.

In [5]:
# оцените числовые столбцы с помощью describe
df.describe()

Unnamed: 0,MILES
count,161.0
mean,37766.519255
std,16614.925558
min,0.8
25%,44931.0
50%,45008.0
75%,45081.0
max,45177.0



---

**Вывод:**
    С помощью метода describe были оценены числовые столбцы, а конкретно один числовой столбец MILES. Стали известны такие данные как: количество ненулевых значений, среднее арифметическое, стандартное отклонение, минимальное значение, первый квартиль, медиана, третий квартиль и максимальное значение.

 ---


 2.4 Оценка названий столбцов

In [6]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['START_DATE', 'END_DATE', 'CATEGORY*', 'START', 'STOP', 'MILES',
       'PURPOSEroute'],
      dtype='object')

In [7]:
# переименование при необходимости
df = df.rename(columns={'CATEGORY*': 'CATEGORY', 'START': 'START_POINT', 'STOP': 'STOP_POINT',
                        'PURPOSEroute': 'ROUTE_PURPOSE'})

In [8]:
# Проверка изменений
df.columns

Index(['START_DATE', 'END_DATE', 'CATEGORY', 'START_POINT', 'STOP_POINT',
       'MILES', 'ROUTE_PURPOSE'],
      dtype='object')

### 3. Проверка пропусков

In [9]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

START_DATE        0
END_DATE          0
CATEGORY          0
START_POINT       0
STOP_POINT        0
MILES             0
ROUTE_PURPOSE    77
dtype: int64


In [10]:
df['ROUTE_PURPOSE'] = df['ROUTE_PURPOSE'].fillna('Other')

In [11]:
print(df.isna().sum())

START_DATE       0
END_DATE         0
CATEGORY         0
START_POINT      0
STOP_POINT       0
MILES            0
ROUTE_PURPOSE    0
dtype: int64



---

**Слишком много пропусков в ROUTE_PURPOSE из-за чего невозможно просто удалить столько строк данных.
Было принято решение присвоить нулевым значениям категорию Other.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [12]:
print(df[df.duplicated()])
print(df.duplicated().sum())

          START_DATE         END_DATE  CATEGORY  START_POINT STOP_POINT  \
159  7.26.2016 22:31  7.26.2016 22:39  Business  Morrisville       Cary   
160  7.26.2016 22:31  7.26.2016 22:39  Business  Morrisville       Cary   

       MILES   ROUTE_PURPOSE  
159  45048.0  Meal/Entertain  
160  45048.0  Meal/Entertain  
2


In [13]:
# удалите дубликаты, если они есть
df = df.drop_duplicates()

In [14]:
print(df.duplicated().sum())

0


#### Проверка неявных дубликатов

In [15]:
print(df['CATEGORY'].unique())
print(df['ROUTE_PURPOSE'].unique())

['Business' 'BUSINESS' 'Personal']
['MEETING' 'Meal/Entertain' 'Meeting' 'Customer Visit' 'Temporary Site'
 'Other' 'Moving']


In [16]:
# удалите дубликаты, если они есть
df['CATEGORY'] = df['CATEGORY'].replace('BUSINESS', 'Business')
df['ROUTE_PURPOSE'] = df['ROUTE_PURPOSE'].replace('MEETING', 'Meeting')

In [17]:
print(df['CATEGORY'].unique())
print(df['ROUTE_PURPOSE'].unique())

['Business' 'Personal']
['Meeting' 'Meal/Entertain' 'Customer Visit' 'Temporary Site' 'Other'
 'Moving']


---

**Явных дубликата было найдено всего два, поэтому было принято решение удалить их.
Что касается неявных дубликатов, все найденные были переименнованы, чтобы соответсовать остальным значениям**


 ---

### 5. Провека типов данных

In [18]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df.dtypes


START_DATE        object
END_DATE          object
CATEGORY          object
START_POINT       object
STOP_POINT        object
MILES            float64
ROUTE_PURPOSE     object
dtype: object

In [19]:
df["START_DATE"] = pd.to_datetime(df["START_DATE"], errors="coerce")
df["END_DATE"] = pd.to_datetime(df["END_DATE"], errors="coerce")


df.head(10)



Unnamed: 0,START_DATE,END_DATE,CATEGORY,START_POINT,STOP_POINT,MILES,ROUTE_PURPOSE
0,2016-01-10 19:12:00,2016-01-10 19:32:00,Business,Midtown,East Harlem,44963.0,Meeting
1,2016-01-11 13:32:00,2016-01-11 13:46:00,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,2016-01-12 12:33:00,2016-01-12 12:49:00,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,2016-01-13 15:00:00,2016-01-13 15:28:00,Business,Gulfton,Downtown,45149.0,Meeting
4,2016-01-29 21:21:00,2016-01-29 21:40:00,Business,Apex,Cary,45051.0,Meal/Entertain
5,2016-01-30 18:09:00,2016-01-30 18:24:00,Business,Apex,Cary,45112.0,Customer Visit
6,2016-02-01 12:10:00,2016-02-01 12:43:00,Business,Chapel Hill,Cary,45008.0,Customer Visit
7,2016-02-04 09:37:00,2016-02-04 10:09:00,Business,Morrisville,Cary,45116.0,Meal/Entertain
8,2016-02-07 18:03:00,2016-02-07 18:17:00,Business,Apex,Cary,45112.0,Customer Visit
9,2016-02-07 20:22:00,2016-02-07 20:40:00,Business,Morrisville,Cary,44932.0,Meeting


In [20]:
df.dtypes

START_DATE       datetime64[ns]
END_DATE         datetime64[ns]
CATEGORY                 object
START_POINT              object
STOP_POINT               object
MILES                   float64
ROUTE_PURPOSE            object
dtype: object

In [21]:
print(df.isna().sum())

START_DATE       0
END_DATE         0
CATEGORY         0
START_POINT      0
STOP_POINT       0
MILES            0
ROUTE_PURPOSE    0
dtype: int64


---

**Был преобразован тип данных дат из object в datetime64[ns]**


 ---

### 6. Группировка данных

#### Задание 1

*`Формулировка задания`*
Группировка - CATEGORY и количество поездок каждого типа (по цели
маршрута).

In [22]:
# выполните группировку согласно варианту
df.groupby(["CATEGORY", "ROUTE_PURPOSE"])['MILES'].mean()

CATEGORY  ROUTE_PURPOSE 
Business  Customer Visit    36023.196667
          Meal/Entertain    41054.823529
          Meeting           34646.846154
          Other             36982.219403
          Temporary Site    45063.500000
Personal  Moving            44932.000000
          Other             36035.000000
Name: MILES, dtype: float64

**`Вывод:` Из результата группировки видно, что большая часть поездок связана с бизнесом, особенно с визитами к клиентам, однако значительное количество маршрутов остаётся неопределённым. Личные поездки встречаются гораздо реже, и среди них также есть неопределённые цели.**

#### Задание 2

*`Формулировка задания`*
Группировка - CATEGORY и количество поездок для каждой очки
старта (START). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по возрастанию столбца “count”.

In [23]:
# выполните группировку согласно варианту
df.groupby(["CATEGORY", "START_POINT"]).size().sort_values(ascending = True).reset_index(name='count')

Unnamed: 0,CATEGORY,START_POINT,count
0,Business,Almond,1
1,Business,Arabi,1
2,Business,Briar Meadow,1
3,Business,Arlington,1
4,Business,Georgian Acres,1
5,Business,Gulfton,1
6,Business,Columbia Heights,1
7,Business,College Avenue,1
8,Business,Hayesville,1
9,Business,Santa Clara,1


**`Вывод:` Сортировка показывает, какие направления редкие и встречаются эпизодически, а какие являются основными и отражают регулярные маршруты водителей.**

#### Задание 3

*`Формулировка задания`*
Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели поездки (PURPOSEroute). Отсортировать по убыванию столбца
MILES. Округлить значение до двух знаков.

In [24]:
# выполните сводную таблицу согласно варианту
df.pivot_table(index='ROUTE_PURPOSE', values='MILES', aggfunc='mean').round(2).sort_values('MILES', ascending=False)


Unnamed: 0_level_0,MILES
ROUTE_PURPOSE,Unnamed: 1_level_1
Temporary Site,45063.5
Moving,44932.0
Meal/Entertain,41054.82
Other,36859.2
Customer Visit,36023.2
Meeting,34646.85


**`Вывод:` В среднем поездки на временные объекты оказываются длиннее остальных целей поездки.**

#### Задание 4

*`Формулировка задания`*
Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели каждой категории(CATEGORY*) - столбцы и каждой точке старта
START - строки. Отсортировать по убыванию столбца START. Округлить значения
с помощью round.

In [25]:
# выполните сводную таблицу согласно варианту
df.pivot_table(index='START_POINT', columns='CATEGORY', values='MILES', 
               aggfunc='mean', fill_value= 0).round(2).sort_values('START_POINT', ascending=False)

CATEGORY,Business,Personal
START_POINT,Unnamed: 1_level_1,Unnamed: 2_level_1
South Berkeley,0.9,0.0
South,22511.4,0.0
Sky Lake,0.0,6.0
Savon Height,45065.5,0.0
Santa Clara,43.9,0.0
Sand Lake Commons,0.0,44963.0
San Jose,22592.8,0.0
SOMISSPO,45017.5,0.0
Morrisville,39730.98,45001.5
Midtown,38117.08,1.0


**`Вывод:` Из сводной таблицы видно четкое разделение точек старта по категориям поездок. Большинство точек используются исключительно для деловых (Business) или личных (Personal) поездок, с минимальным пересечением.**

### Вывод


В ходе лабораторной работы был проанализирован набор данных drivers.csv, содержащий информацию о поездках водителей. Данные включали такие атрибуты, как дата и время начала и окончания поездки, категория, точки старта и финиша, пройденные мили и цель поездки. Основная цель работы заключалась в предобработке данных, включая устранение пропусков, дубликатов и приведение типов данных к корректным форматам.

**`Были выявлены и устранены следующие проблемы:`**
- Пропуски в столбце ROUTE_PURPOSE (77 значений) заполнены категорией "Other".
- Обнаружены и удалены явные дубликаты (2 записи).
- Исправлены неявные дубликаты в столбцах CATEGORY и ROUTE_PURPOSE (например, "BUSINESS" → "Business", "MEETING" → "Meeting").
- Преобразованы типы данных для столбцов START_DATE и END_DATE в datetime.

**`Группировки и сводные таблицы позволили выявить следующие закономерности:`**
- Большинство поездок относятся к бизнес-категории, при этом наиболее частые цели — "Meal/Entertain" и "Customer Visit".
- Наибольшее количество поездок начинается из Morrisville (68 для бизнеса и 6 для личных целей).
- Средняя длина поездки варьируется в зависимости от цели: максимальная — для "Temporary Site" (45063.5 миль), минимальная — для "Meeting" (34646.85 миль).
- Точки старта четко разделены по категориям: большинство используется либо для деловых, либо для личных поездок.

Результаты предобработки позволяют использовать данные для дальнейшего анализа поведения водителей.


### Дополнительные задания

**`Задание 1`**

Добавить столбец - время поездки (расчетный). Выполнить группировку -
среднее и медианное время поездки по категориям.

In [26]:
df["trip_time_min"] = (df["END_DATE"] - df["START_DATE"]).dt.total_seconds() / 60

df.groupby("CATEGORY")["trip_time_min"].agg(["mean", "median"])


Unnamed: 0_level_0,mean,median
CATEGORY,Unnamed: 1_level_1,Unnamed: 2_level_1
Business,20.277027,15.0
Personal,19.0,18.0


***`Пояснение к заданию`***
Был добавлен столбец время поездки с длительностью в минутах. Затем была выполнена группировка по категориям и посчитано среднее и медианное время поездки.


***`Вывод по заданию`***

Business: среднее ≈ 20.28 мин, медианное = 15 мин.

Personal: среднее = 19.00 мин, медианное = 18 мин.

Значит: у Business есть редкие длинные поездки, так как среднее > медианы.

**`Задание 8`**

Добавить столбец - время поездки (расчетный). Создать столбец “Категория
длительности поездки” (с помощью категоризации). Выделить минимум 3
категории (короткая, длинная, средняя), фильтрацию для времени выбрать
самостоятельно, аргументировать выбор. Создать группировку: среднее и
медианное количество пройденных миль по категории длительности поездки.
Отфильтровать по убыванию среднего времени.


In [27]:
bins = [0, 15, 45, df["trip_time_min"].max()]
labels = ["Short", "Medium", "Long"]
df["Trip duration category"] = pd.cut(df["trip_time_min"], bins=bins, labels=labels, include_lowest=True)

df.groupby("Trip duration category", observed=True)["MILES"].agg(["mean", "median"]).sort_values(by="mean", ascending=False)

Unnamed: 0_level_0,mean,median
Trip duration category,Unnamed: 1_level_1,Unnamed: 2_level_1
Medium,39401.453125,44993.0
Short,38754.798837,45022.5
Long,15078.655556,75.7


***`Пояснение к заданию`***
Время было разделено на категории (примерные границы):
Short: 0–15 мин,
Medium: 15–45 мин,
Long: > 45 мин.

После чего были посчитаны среднее и медианное значения по пройденным милям и отсортированы по среднему на убываение.



***`Вывод по заданию`***

Среднее и медианное значение для Short и Medium — порядка десятков тысяч (≈38–45k). Это НЕ типичные дистанции поездок в милях. Странненько -_-

У Long median = 75.7 выглядит правдеподобнее как расстояние в милях.

**`Задание 14`**

Добавить столбец - время поездки (расчетный). Создать столбец “Категория
пройденных миль” (с помощью категоризации). Выделить минимум 3
категории (короткая, длинная, средняя), фильтрацию для расстояния выбрать
самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и
медианная длительность поездки по цели поездки и категории пройденных
миль. 

In [28]:
bins = [0, 5, 15, df["MILES"].max()]
labels = ["Short", "Medium", "Long"]
df["Category of miles traveled"] = pd.cut(df["MILES"], bins=bins, labels=labels, include_lowest=True)
pd.pivot_table(df, values="trip_time_min",index="ROUTE_PURPOSE", 
               columns="Category of miles traveled", aggfunc=["mean", "median"], observed=True, fill_value=0)

Unnamed: 0_level_0,mean,mean,mean,median,median,median
Category of miles traveled,Short,Medium,Long,Short,Medium,Long
ROUTE_PURPOSE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Customer Visit,9.0,0.0,20.555556,9.0,0.0,15.0
Meal/Entertain,9.0,0.0,14.909091,9.0,0.0,14.0
Meeting,17.0,20.0,26.909091,17.0,20.0,18.0
Moving,0.0,0.0,21.0,0.0,0.0,21.0
Other,6.4,22.0,22.852941,5.0,18.5,15.0
Temporary Site,0.0,0.0,24.75,0.0,0.0,21.5


***`Пояснение к заданию`***

Время было разделено на категории (примерные границы):
Short: 0–15 мин,
Medium: 15–45 мин,
Long: > 45 мин.

Далее была создана сводная таблица (среднее и медианное значения длительности по цели и категории миль).

***`Вывод по заданию`***

Для большинства целей время поездки растёт с увеличением категории миль, как надо: Short < Medium < Long.

Нули (0.0) в ячейках означают, что в этой комбинации нет наблюдений (из-за fill_value=0) — это не реальное время.

Customer Visit: Short среднее/медианна ≈ 9 мин; Long среднее ≈ 20.6, медианна 15 — длинные поездки явно дольше.

Meeting: среднее 17 / 20 / 26.9 (Short/Medium/Long) — рост времени с расстоянием, медианы близки (17,20,18).

Other: Medium среднее 22, медианна 18.5 — здесь средние мили дают сравнительно большие времена.