**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 2

Набор данных: drivers.csv

### 1.Чтение файла (набора данных)

In [18]:
# импорт библиотек, чтение файла с помощью pandas

import pandas as pd

pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

df = pd.read_csv('drivers.csv', delimiter=";")

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [19]:
# применить метод head

print(df.head(20))

          START_DATE          END_DATE CATEGORY*        START           STOP  \
0   01.10.2016 19:12  01.10.2016 19:32  Business      Midtown    East Harlem   
1   01.11.2016 13:32  01.11.2016 13:46  Business      Midtown   Midtown East   
2   01.12.2016 12:33  01.12.2016 12:49  Business      Midtown  Hudson Square   
3    1.13.2016 15:00   1.13.2016 15:28  Business      Gulfton       Downtown   
4    1.29.2016 21:21   1.29.2016 21:40  Business         Apex           Cary   
5    1.30.2016 18:09   1.30.2016 18:24  Business         Apex           Cary   
6   02.01.2016 12:10  02.01.2016 12:43  Business  Chapel Hill           Cary   
7    02.04.2016 9:37  02.04.2016 10:09  Business  Morrisville           Cary   
8   02.07.2016 18:03  02.07.2016 18:17  Business         Apex           Cary   
9   02.07.2016 20:22  02.07.2016 20:40  Business  Morrisville           Cary   
10  02.09.2016 20:24  02.09.2016 20:40  Business  Morrisville           Cary   
11  02.11.2016 20:36  02.11.2016 20:51  

2.2 Оценка данных с помощью метода info.

In [20]:
# выполнит метод info

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   START_DATE    161 non-null    object 
 1   END_DATE      161 non-null    object 
 2   CATEGORY*     161 non-null    object 
 3   START         161 non-null    object 
 4   STOP          161 non-null    object 
 5   MILES         161 non-null    float64
 6   PURPOSEroute  84 non-null     object 
dtypes: float64(1), object(6)
memory usage: 8.9+ KB


2.3 Оценка данных с помощью метода describe.

In [21]:
# оцените числовые столбцы с помощью describe

print(df.describe())

              MILES
count    161.000000
mean   37766.519255
std    16614.925558
min        0.800000
25%    44931.000000
50%    45008.000000
75%    45081.000000
max    45177.000000



---

**Итого, я познакомился с ключевыми методами для первичного анализа данных. Метод head() позволяет быстро просмотреть начало датасета и убедиться, что данные загружены корректно. Метод info() даёт общую информацию о структуре DataFrame: количество строк и столбцов, типы данных и наличие пропущенных значений. Метод describe() предоставляет основные статистические характеристики числовых признаков — среднее, стандартное отклонение, минимум, максимум, квартили**


 ---


 2.4 Оценка названий столбцов

In [22]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.

print(df.columns)

Index(['START_DATE', 'END_DATE', 'CATEGORY*', 'START', 'STOP', 'MILES',
       'PURPOSEroute'],
      dtype='object')


Проблем не возникло, но лучше переименовать названия столбцов CATEGORY* -> CATEGORY, PURPOSEroute -> PURPOSE_ROUTE

In [23]:
# переименование при необходимости

df = df.rename(columns={
    'CATEGORY*': 'CATEGORY',
    'PURPOSEroute': 'PURPOSE_ROUTE'
})

### 3. Проверка пропусков

In [24]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).

print(df.isnull().sum())

START_DATE        0
END_DATE          0
CATEGORY          0
START             0
STOP              0
MILES             0
PURPOSE_ROUTE    77
dtype: int64


In [25]:
df['PURPOSE_ROUTE'] = df['PURPOSE_ROUTE'].fillna('Unknown')

print(df.isnull().sum())

START_DATE       0
END_DATE         0
CATEGORY         0
START            0
STOP             0
MILES            0
PURPOSE_ROUTE    0
dtype: int64



---

**Я решил не удалять строки с пропущенными данными, а обозначить их как "неизвестно", тк удаление строк приведет к потере почти половины данных (77 строк из 161), что может сильно исказить анализ данных и снизить статистическую значимость.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [26]:
print("Количество дубликатов:", df.duplicated().sum())

print()
print(df[df.duplicated()])

Количество дубликатов: 2

          START_DATE         END_DATE  CATEGORY        START  STOP    MILES  \
159  7.26.2016 22:31  7.26.2016 22:39  Business  Morrisville  Cary  45048.0   
160  7.26.2016 22:31  7.26.2016 22:39  Business  Morrisville  Cary  45048.0   

      PURPOSE_ROUTE  
159  Meal/Entertain  
160  Meal/Entertain  


In [27]:
# удалите дубликаты, если они есть

print("Строк до удаления:", len(df))
df = df.drop_duplicates()
print("Строк после удаления:", len(df))

Строк до удаления: 161
Строк после удаления: 159


#### Проверка неявных дубликатов

In [28]:
print("=== START_DATE ===\n", sorted(df['START_DATE'].unique()))
print("\n=== END_DATE ===\n", sorted(df['END_DATE'].unique()))
print("\n=== CATEGORY ===\n", sorted(df['CATEGORY'].unique()))
print("\n=== START ===\n", sorted(df['START'].unique()))
print("\n=== STOP ===\n", sorted(df['STOP'].unique()))
print("\n=== PURPOSE_ROUTE ===\n", sorted(df['PURPOSE_ROUTE'].unique()))

=== START_DATE ===
 ['01.10.2016 19:12', '01.11.2016 13:32', '01.12.2016 12:33', '02.01.2016 12:10', '02.04.2016 9:37', '02.07.2016 18:03', '02.07.2016 20:22', '02.09.2016 20:24', '02.11.2016 20:36', '02.12.2016 11:14', '02.12.2016 15:33', '03.04.2016 19:16', '03.05.2016 14:08', '03.05.2016 17:23', '04.12.2016 13:42', '05.03.2016 22:20', '05.04.2016 21:30', '05.06.2016 16:45', '05.06.2016 17:18', '05.06.2016 5:47', '05.11.2016 21:47', '06.01.2016 13:10', '06.05.2016 18:05', '06.06.2016 21:08', '06.11.2016 17:34', '07.06.2016 0:33', '07.06.2016 23:46', '07.07.2016 10:27', '07.09.2016 10:15', '07.12.2016 23:47', '08.01.2016 15:40', '08.01.2016 17:23', '08.02.2016 11:51', '08.05.2016 19:17', '08.06.2016 9:31', '08.07.2016 20:15', '08.08.2016 23:28', '08.10.2016 18:49', '08.10.2016 19:47', '1.13.2016 15:00', '1.29.2016 21:21', '1.30.2016 18:09', '10.15.2016 22:28', '10.16.2016 0:01', '10.16.2016 15:10', '10.16.2016 21:34', '10.17.2016 18:31', '10.17.2016 19:08', '10.19.2016 13:45', '10.20.

Итого, неявные дубликаты есть в столбцах 'CATEGORY', 'START', 'STOP', 'PURPOSE_ROUTE' (из-за регистра). Поэтому ниже я приведу все значения к одному регистру и на всякий случай уберу лишние пробелы

In [18]:
text_columns = ['CATEGORY', 'START', 'STOP', 'PURPOSE_ROUTE']

# Применяем очистку к каждому столбцу
for col in text_columns:
    df[col] = df[col].astype(str).str.strip().str.lower()

In [20]:
# удалите дубликаты, если они есть

print("Строк до удаления:", len(df))
df = df.drop_duplicates()
print("Строк после удаления:", len(df))

Строк до удаления: 159
Строк после удаления: 159


---

**Итого, явных дубликатов оказалось 2 и после их удаления количество строк уменьшилось с 161 до 159. После этого я обнаружил, что в некоторых ячейках могут быть одинаковые значения по смыслу, но по-разному написаны, что может привести к допуску неявных дубликатов. Поэтому я унифицировал такие данные. Но, после этого дубликатов обнаружено не было, поэтому после выполнения кода количество строк так и осталось равно 159.**


 ---

### 5. Провека типов данных

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 159 entries, 0 to 158
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   START_DATE     159 non-null    object 
 1   END_DATE       159 non-null    object 
 2   CATEGORY       159 non-null    object 
 3   START          159 non-null    object 
 4   STOP           159 non-null    object 
 5   MILES          159 non-null    float64
 6   PURPOSE_ROUTE  159 non-null    object 
dtypes: float64(1), object(6)
memory usage: 9.9+ KB


In [31]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.

df['START_DATE'] = pd.to_datetime(df['START_DATE'], format='%m.%d.%Y %H:%M')
df['END_DATE'] = pd.to_datetime(df['END_DATE'], format='%m.%d.%Y %H:%M')

cat_cols = ['CATEGORY', 'PURPOSE_ROUTE']
df[cat_cols] = df[cat_cols].astype('category')

---

**Итого: столбцы с датами (START_DATE, END_DATE) переведены в тип datetime64[ns], что позволяет корректно выполнять временные операции (расчёт длительности поездок, извлечение часа или дня недели и т.д.). Категориальные признаки CATEGORY и PURPOSE_ROUTE преобразованы в тип category, поскольку они содержат небольшое число уникальных значений, что снижает потребление памяти и ускоряет обработку без потери информации.**


 ---

### 6. Группировка данных

#### Задание 1

*` Группировка - CATEGORY  и количество поездок для каждой очки 
старта (START)`*

In [None]:
# выполните группировку согласно варианту

grouped = pd.crosstab(
    index=df['CATEGORY'],    
    columns=df['START'],     
    margins=True             
)

print(grouped)

START     agnew  almond  apex  arabi  arlington  boone  briar meadow  \
CATEGORY                                                               
business      4       1    17      1          1      0             1   
personal      0       0     0      0          0      1             0   
All           4       1    17      1          1      1             1   

START     bryson city  capitol one  chapel hill  chessington  college avenue  \
CATEGORY                                                                       
business            5            2            2            0               1   
personal            0            0            0            1               0   
All                 5            2            2            1               1   

START     colombo  columbia heights  galveston  georgian acres  gulfton  \
CATEGORY                                                                  
business        8                 1          2               1        1   
personal     

**`Для анализа распределения поездок по категориям и точкам старта была построена сводная таблица с использованием pd.crosstab(). В результате получено количество поездок для каждой комбинации категории (CATEGORY) и места начала поездки (START)`**

#### Задание 2

*`Группировка - CATEGORY  и количество поездок каждого типа (по цели 
маршрута). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. 
Отсортировать по убыванию столбца “countˮ`*

In [32]:
# выполните группировку согласно варианту

result_df = df.groupby(['CATEGORY', 'PURPOSE_ROUTE']).size().reset_index(name='count')
result_df = result_df.sort_values(by='count', ascending=False)

print(result_df)

    CATEGORY   PURPOSE_ROUTE  count
5   business         unknown     67
1   business  meal/entertain     34
0   business  customer visit     30
2   business         meeting     13
11  personal         unknown     10
4   business  temporary site      4
9   personal          moving      1
3   business          moving      0
7   personal  meal/entertain      0
6   personal  customer visit      0
8   personal         meeting      0
10  personal  temporary site      0


  result_df = df.groupby(['CATEGORY', 'PURPOSE_ROUTE']).size().reset_index(name='count')


**`Была выполнена группировка данных по категории поездки (CATEGORY) и её цели (PURPOSE_ROUTE). Для каждой комбинации подсчитано количество поездок. Результат представлен в виде датафрейма с переименованным столбцом количества в "count". Данные отсортированы по убыванию частоты встречаемости.`**

#### Задание 3

*`Сводная таблица (pivot_table) - максимальное количество пройденных 
миль по каждой категории(CATEGORY). Отсортировать по убыванию столбца 
MILES.`*

In [33]:
# выполните сводную таблицу согласно варианту

pivot_df = pd.pivot_table(
    data=df,
    index='CATEGORY',        
    values='MILES',          
    aggfunc='max'           
)

pivot_df = pivot_df.sort_values(by='MILES', ascending=False)

print(pivot_df)

            MILES
CATEGORY         
business  45177.0
personal  45161.0


  pivot_df = pd.pivot_table(


**`С помощью сводной таблицы (pd.pivot_table) была определена максимальная величина пройденных миль (MILES) для каждой категории поездок (CATEGORY). Результат отсортирован по убыванию значения MILES.`**

#### Задание 4

*`Сводная таблица (pivot_table) - средняя количество пройденных миль 
по каждой цели поездки (PURPOSEroute) - столбцы и каждой категории - строки. 
Отсортировать по убыванию столбца CATEGORY`*

In [34]:
# выполните сводную таблицу согласно варианту

pivot_df = pd.pivot_table(
    data=df,
    index='CATEGORY',        
    columns='PURPOSE_ROUTE', 
    values='MILES',          
    aggfunc='mean'           
)
pivot_df = pivot_df.sort_index(ascending=False)

print(pivot_df)

PURPOSE_ROUTE  customer visit  meal/entertain       meeting   moving  \
CATEGORY                                                               
personal                  NaN             NaN           NaN  44932.0   
business         36023.196667    41054.823529  34646.846154      NaN   

PURPOSE_ROUTE  temporary site       unknown  
CATEGORY                                     
personal                  NaN  36035.000000  
business              45063.5  36982.219403  


  pivot_df = pd.pivot_table(


**`Сводная таблица показывает, что деловые поездки (business) в среднем длиннее личных (personal), а наибольшие расстояния связаны с целями вроде «customer visit». Отсутствие данных в некоторых ячейках указывает, что отдельные типы поездок (например, «temporary site») встречаются только в бизнес-категории.`**

### Вывод


**В ходе выполнения работы я познакомился с библиотекой pandas и освоил ключевые этапы предварительной обработки и анализа данных. Я научился: загружать данные из CSV-файлов с учётом разделителя; проверять и корректировать названия столбцов; выявлять и обрабатывать пропуски, явные и неявные дубликаты; преобразовывать типы данных (включая даты и категориальные признаки); использовать методы head(), info(), describe() для разведочного анализа; группировать данные и строить сводные таблицы с помощью groupby() и pivot_table().
Эти навыки позволили мне привести сырые данные к чистому и анализируемому виду, а также получить содержательные инсайты о структуре поездок по категориям, целям и пройденным расстояниям.**


### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***