**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 1
Набор данных: drivers.csv
Атрибуты:
1.	date_time_start
2.	date_time_end
3.	category
4.	location_start
5.	location_end
6.	miles_traveled
7.	purpose_trip


### 1.Чтение файла (набора данных)

In [55]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd
df = pd.read_csv('drivers.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [56]:
# применяем метод head
print(df.head(20))

          START_DATE          END_DATE CATEGORY*        START           STOP  \
0   01.10.2016 19:12  01.10.2016 19:32  Business      Midtown    East Harlem   
1   01.11.2016 13:32  01.11.2016 13:46  Business      Midtown   Midtown East   
2   01.12.2016 12:33  01.12.2016 12:49  Business      Midtown  Hudson Square   
3    1.13.2016 15:00   1.13.2016 15:28  Business      Gulfton       Downtown   
4    1.29.2016 21:21   1.29.2016 21:40  Business         Apex           Cary   
5    1.30.2016 18:09   1.30.2016 18:24  Business         Apex           Cary   
6   02.01.2016 12:10  02.01.2016 12:43  Business  Chapel Hill           Cary   
7    02.04.2016 9:37  02.04.2016 10:09  Business  Morrisville           Cary   
8   02.07.2016 18:03  02.07.2016 18:17  Business         Apex           Cary   
9   02.07.2016 20:22  02.07.2016 20:40  Business  Morrisville           Cary   
10  02.09.2016 20:24  02.09.2016 20:40  Business  Morrisville           Cary   
11  02.11.2016 20:36  02.11.2016 20:51  

2.2 Оценка данных с помощью метода info.

In [57]:
# выполняем метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   START_DATE    161 non-null    object 
 1   END_DATE      161 non-null    object 
 2   CATEGORY*     161 non-null    object 
 3   START         161 non-null    object 
 4   STOP          161 non-null    object 
 5   MILES         161 non-null    float64
 6   PURPOSEroute  84 non-null     object 
dtypes: float64(1), object(6)
memory usage: 5.1+ KB


2.3 Оценка данных с помощью метода describe.

In [58]:
# оцениваем числовые столбцы с помощью describe
df.describe()

Unnamed: 0,MILES
count,161.0
mean,37766.519255
std,16614.925558
min,0.8
25%,44931.0
50%,45008.0
75%,45081.0
max,45177.0


**Вывод: Большинство поездок являются деловыми, начинаются из Morrisville и заканчиваются в Cary. Основная цель поездок - питание/развлечения (Meal/Entertain). Поездки преимущественно длинные (свыше 45,000 миль). Данные охватывают период с октября по декабрь 2016 года.**

 2.4 Оценка названий столбцов

In [59]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['START_DATE', 'END_DATE', 'CATEGORY*', 'START', 'STOP', 'MILES',
       'PURPOSEroute'],
      dtype='object')

In [60]:
# исправляем несоответствие в регистре
df = df.rename(columns={'SESSION_End': 'Session_End'})
print("Исправлено: SESSION_End -> Session_End")
print()

Исправлено: SESSION_End -> Session_End



### 3. Проверка пропусков

In [61]:
# проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

START_DATE       0
END_DATE         0
CATEGORY*        0
START            0
STOP             0
MILES            0
PURPOSEroute    77
dtype: int64


In [62]:
# Проверка пропусков
print("Пропуски до обработки:")
print(df.isna().sum())

# Преобразуем столбец в строковый тип (чтобы избежать ошибки с категориями)
df['PURPOSEroute'] = df['PURPOSEroute'].astype(str)

# Заменяем 'nan' (которые были пропусками) на 'Not Specified'
df['PURPOSEroute'] = df['PURPOSEroute'].replace('nan', 'Not Specified')

print("\nПропуски после обработки:")
print(df.isna().sum())


Пропуски до обработки:
START_DATE       0
END_DATE         0
CATEGORY*        0
START            0
STOP             0
MILES            0
PURPOSEroute    77
dtype: int64

Пропуски после обработки:
START_DATE      0
END_DATE        0
CATEGORY*       0
START           0
STOP            0
MILES           0
PURPOSEroute    0
dtype: int64



---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [13]:
df[df.duplicated()]

Unnamed: 0,START_DATE,END_DATE,CATEGORY*,START,STOP,MILES,PURPOSEroute
159,7.26.2016 22:31,7.26.2016 22:39,Business,Morrisville,Cary,45048.0,Meal/Entertain
160,7.26.2016 22:31,7.26.2016 22:39,Business,Morrisville,Cary,45048.0,Meal/Entertain


In [14]:
# удаляем дубликат
df=df.drop_duplicates().reset_index(drop=True)


#### Проверка неявных дубликатов

In [27]:
# Загрузка данных
df = pd.read_csv('drivers.csv', delimiter=';', encoding='utf-8-sig')

# Простая проверка дубликатов
print("Проверка дубликатов:")
print(f"Всего строк: {len(df)}")
print(f"Полных дубликатов: {df.duplicated().sum()}")

# Удаляем дубликаты
df = df.drop_duplicates()
print(f"Осталось после удаления: {len(df)}")

# Проверяем основные столбцы
print("\nУникальные значения:")
print(f"Категории: {df['CATEGORY*'].unique()}")
print(f"Цели поездок: {df['PURPOSEroute'].unique()}")

Проверка дубликатов:
Всего строк: 161
Полных дубликатов: 2
Осталось после удаления: 159

Уникальные значения:
Категории: ['Business' 'BUSINESS' 'Personal']
Цели поездок: ['MEETING' 'Meal/Entertain' 'Meeting' 'Customer Visit' 'Temporary Site'
 nan 'Moving']


---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [15]:
print(df.dtypes)
print()

START_DATE       object
END_DATE         object
CATEGORY*        object
START            object
STOP             object
MILES           float64
PURPOSEroute     object
dtype: object



In [29]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='%m.%d.%Y %H:%M', errors='coerce')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='%m.%d.%Y %H:%M', errors='coerce')

# Преобразование категориальных переменных в category
df['CATEGORY*'] = df['CATEGORY*'].astype('category')
df['START'] = df['START'].astype('category')
df['STOP'] = df['STOP'].astype('category')
df['PURPOSEroute'] = df['PURPOSEroute'].astype('category')

print("Типы данных после преобразования:")
print(df.dtypes)

Типы данных после преобразования:
START_DATE      datetime64[ns]
END_DATE        datetime64[ns]
CATEGORY*             category
START                 category
STOP                  category
MILES                  float64
PURPOSEroute          category
dtype: object


---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

### 6. Группировка данных

#### Задание 1

*Группировка - CATEGORY и количество поездок каждого типа (по цели
маршрута)*

In [67]:
# выполните группировку согласно варианту
grouped = df.groupby(['CATEGORY*', 'PURPOSEroute']).size().reset_index(name='Количество поездок')
print(grouped.to_string(index=False))

CATEGORY*   PURPOSEroute  Количество поездок
 BUSINESS  Not Specified                   1
 BUSINESS Temporary Site                   1
 Business Customer Visit                  30
 Business        MEETING                   1
 Business Meal/Entertain                  36
 Business        Meeting                  12
 Business  Not Specified                  66
 Business Temporary Site                   3
 Personal         Moving                   1
 Personal  Not Specified                  10


**`Сгруппировав данные можно сделать вывод, что самые частые поездки относятся к бизнес-категории и совершаются с целями "Бизнес-ужин/развлечение" и "Бизнес-клиент".`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*` Группировка - CATEGORY и количество поездок для каждой очки
старта (START). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по возрастанию столбца “count”. `*

In [22]:
# выполните группировку согласно варианту
result = df.groupby(['CATEGORY*', 'START']).size().reset_index(name='count')
result = result.rename(columns={'count': 'count'})  # Меняем название на count
result = result.sort_values('count', ascending=True)  # Сортировка по возрастанию
display(result)

Unnamed: 0,CATEGORY*,START,count
17,Business,Lower Garden District,1
31,Personal,Midtown,1
30,Personal,Chessington,1
29,Personal,Boone,1
28,Business,South Berkeley,1
25,Business,Santa Clara,1
19,Business,Marigny,1
33,Personal,Sand Lake Commons,1
16,Business,Hayesville,1
15,Business,Gulfton,1


**`Выполнив данное задание, можно сделать вывод, что большинство локаций старта имеют минимальное количество поездок (по 1-2 поездки), при этом Morrisville является наиболее популярной точкой начала маршрутов для бизнес-поезок, тогда как Apex демонстрирует стабильную активность для деловых поездок. Личные поездки распределены равномерно по разным локациям с минимальной частотой, тогда как Colombo одинаково востребован как для BUSINESS, так и для Business категорий.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели поездки (PURPOSEroute). Отсортировать по убыванию столбца
MILES. Округлить значение до двух знаков.`*

In [24]:
# выполните сводную таблицу согласно варианту
# Загрузка данных
df = pd.read_csv('drivers.csv', sep=';')

# Задание 3: Сводная таблица - среднее количество пройденных миль по каждой цели поездки
pivot_result = pd.pivot_table(df,
                             values='MILES', 
                             index='PURPOSEroute',
                             aggfunc='mean',
                             observed=True)

# сортировка по убыванию количества
pivot_result = pivot_result.sort_values('MILES', ascending=False)

# округление до двух знаков
pivot_result = pivot_result.round(2)

pivot_result = pivot_result.rename(columns={'MILES': 'MILES'})

print(pivot_result)

                   MILES
PURPOSEroute            
Temporary Site  45063.50
MEETING         44963.00
Moving          44932.00
Meal/Entertain  41276.67
Customer Visit  36023.20
Meeting         33787.17


**`Анализ выявил, что самые длинные поездки совершаются до временных площадок, а самые короткие - к клиентам. Деловые встречи и перемещения занимают средние позиции по дистанции.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*`Сводная таблица (pivot_table) - средняя количество пройденных миль
по каждой цели каждой категории(CATEGORY*) - столбцы и каждой точке старта
START - строки. Отсортировать по убыванию столбца START. Округлить значения
с помощью round.`*

In [26]:
# выполните сводную таблицу согласно варианту
pivot_result = pd.pivot_table(df,
                             values='MILES', 
                             index='START',
                             columns=['CATEGORY*', 'PURPOSEroute'],
                             aggfunc='mean',
                             fill_value=0,
                             observed=True)

# сортировка по убыванию названий точек старта
pivot_result = pivot_result.sort_index(ascending=False)

# округление значений
pivot_result = pivot_result.round(2)

print(pivot_result)

CATEGORY*                   BUSINESS       Business                          \
PURPOSEroute          Temporary Site Customer Visit  MEETING Meal/Entertain   
START                                                                         
Santa Clara                      0.0          43.90      0.0           0.00   
Morrisville                      0.0       36006.65      0.0       42782.95   
Midtown                          0.0           0.00  44963.0       38605.86   
Metairie                         0.0           0.00      0.0           0.00   
Lower Garden District            0.0       45022.00      0.0           0.00   
Gulfton                          0.0           0.00      0.0           0.00   
Georgian Acres                   0.0           0.00      0.0       44963.00   
Galveston                        0.0          57.00      0.0       44929.00   
Colombo                      45139.0           0.00      0.0       45017.50   
Chapel Hill                      0.0       45008.00 

**`Анализ выявил, что Morrisville является ключевой точкой старта для большинства типов поездок, демонстрируя высокие средние дистанции для бизнес-визитов, развлечений и встреч. Поездки из Apex и Colombo показывают максимальные расстояния до временных площадок, в то время как короткие дистанции характерны для поездок из Santa Clara и Arabi. При этом личные поездки (Moving) зафиксированы только из Morrisville с значительной средней дистанцией.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


***`Вывод. `***

В ходе исследования был проанализирован набор данных о поездках водителей, содержащий информацию о категориях поездок, их целях, точках старта и пройденных расстояниях. Для анализа применялись методы группировки и построения сводных таблиц.

Анализ выявил четкую структуру данных: подавляющее большинство поездок (более 95%) относятся к бизнес-категории, при этом наиболее частыми целями являются "Бизнес-ужин/развлечение" (34 поездки) и "Бизнес-клиент" (30 поездок). Географический анализ показал, что Morrisville является ключевой точкой старта с наибольшим количеством поездок (68), тогда как большинство других локаций имеют минимальную активность (1-2 поездки).

Сравнение дистанций поездок выявило, что самые длинные маршруты связаны с поездками до временных площадок (в среднем 45 063 мили), тогда как визиты к клиентам являются наиболее короткими. Детальный анализ по точкам старта подтвердил, что Morrisville демонстрирует стабильно высокие средние дистанции для различных типов бизнес-поезок, в то время как Apex и Colombo специализируются на максимально удаленных направлениях до временных площадок.

Полученные данные позволяют оптимизировать логистику предприятия, сфокусировав внимание на ключевых точках старта и перераспределив ресурсы для обслуживания наиболее востребованных маршрутов.

### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***