# Лабораторная работа №1. Предварительный анализ данных 2024

### Цель работы

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

### Ход выполнения работы

Для начала работы подключается библиотека `Pandas` и с помощью нее загружается датасет из `csv` файла, с указанием в качестве разделительного знака ";".
Выводятся первые 20 строк датасета с помощью метода `head()`.
Набор данных `drivers.csv` содержит информацию о поездках в такси:
1. Дата и время начала (`START_DATE`)
2. Дата и время окончания (`END_DATE`)
3. Категория (`CATEGORY*`)
4. Место начала (можно не проверять данный столбец на наличие неявных дубликатов) (`START`)
5. Место окончания (можно не проверять данный столбец на наличие неявных дубликатов) (`STOP`)
6. Пройденные мили (`MILES`)
7. Цель поездки (`PURPOSEroute`)

In [1]:
import pandas as pd
drivers = pd.read_csv('datasets/drivers.csv', sep=';')
drivers.head(20)

Unnamed: 0,START_DATE,END_DATE,CATEGORY*,START,STOP,MILES,PURPOSEroute
0,01.10.2016 19:12,01.10.2016 19:32,Business,Midtown,East Harlem,44963.0,MEETING
1,01.11.2016 13:32,01.11.2016 13:46,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,01.12.2016 12:33,01.12.2016 12:49,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,1.13.2016 15:00,1.13.2016 15:28,Business,Gulfton,Downtown,45149.0,Meeting
4,1.29.2016 21:21,1.29.2016 21:40,Business,Apex,Cary,45051.0,Meal/Entertain
5,1.30.2016 18:09,1.30.2016 18:24,Business,Apex,Cary,45112.0,Customer Visit
6,02.01.2016 12:10,02.01.2016 12:43,Business,Chapel Hill,Cary,45008.0,Customer Visit
7,02.04.2016 9:37,02.04.2016 10:09,Business,Morrisville,Cary,45116.0,Meal/Entertain
8,02.07.2016 18:03,02.07.2016 18:17,Business,Apex,Cary,45112.0,Customer Visit
9,02.07.2016 20:22,02.07.2016 20:40,Business,Morrisville,Cary,44932.0,Meeting


С помощью метода `info()` оцениваются данные: есть ли пропуски, сколько всего строк, какие типы данных у столбцов.

In [2]:
drivers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   START_DATE    161 non-null    object 
 1   END_DATE      161 non-null    object 
 2   CATEGORY*     161 non-null    object 
 3   START         161 non-null    object 
 4   STOP          161 non-null    object 
 5   MILES         161 non-null    float64
 6   PURPOSEroute  84 non-null     object 
dtypes: float64(1), object(6)
memory usage: 8.9+ KB


Применяется метод `describe()`, для оценки числовых столбцов, в данном случае столбца `MILES`.

По выводу команды можно определить:
*   `count`: количество заполненных строк;
*   `mean`: среднее значение;
*   `std`: стандартное огтклонение;
*   `min`: минимальное число;
*   `25%`: 25-й процентиль;
*   `50%`: 50-й процентиль;
*   `75%`: 75-й процентиль;
*   `max`: максимальное число.

In [3]:
drivers.describe()

Unnamed: 0,MILES
count,161.0
mean,37766.519255
std,16614.925558
min,0.8
25%,44931.0
50%,45008.0
75%,45081.0
max,45177.0


Выводятся названия столбцов с помощью `columns`.

In [4]:
drivers.columns

Index(['START_DATE', 'END_DATE', 'CATEGORY*', 'START', 'STOP', 'MILES',
       'PURPOSEroute'],
      dtype='object')

Все заголовки переводятся в нижний регистр, с использованием `lower()`. Затем необходимо переименовать заголовки методом `rename()`, чтобы привести их к "верблюжьему" регистру и убрать лишние символы.

Выводятся названия столбцов для проверки.

In [5]:
drivers.columns = drivers.columns.str.lower()

drivers = drivers.rename(columns={
    'start_date':'startDate',
    'end_date':'endDate',
    'category*':'category',
    'purposeroute':'purposeRoute'
})

drivers.columns

Index(['startDate', 'endDate', 'category', 'start', 'stop', 'miles',
       'purposeRoute'],
      dtype='object')

Делается подсчет кол-ва пропусков в каждом столбце. Пропуски имеются только в столбце `purposeRoute`.

In [6]:
drivers.isna().sum()

startDate        0
endDate          0
category         0
start            0
stop             0
miles            0
purposeRoute    77
dtype: int64

Так как в случае анализа оборота заказов в такси и других целей будут необходимы данные строки, будет нерационально удалять их, вместо этого пустые строки заполняются текстом `other`, так как они несущественно влияют на анализ.

Для проверки выводятся первые 20 строк датасета.

In [7]:
drivers['purposeRoute'] = drivers['purposeRoute'].fillna('Other')
drivers.head(20)

Unnamed: 0,startDate,endDate,category,start,stop,miles,purposeRoute
0,01.10.2016 19:12,01.10.2016 19:32,Business,Midtown,East Harlem,44963.0,MEETING
1,01.11.2016 13:32,01.11.2016 13:46,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,01.12.2016 12:33,01.12.2016 12:49,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,1.13.2016 15:00,1.13.2016 15:28,Business,Gulfton,Downtown,45149.0,Meeting
4,1.29.2016 21:21,1.29.2016 21:40,Business,Apex,Cary,45051.0,Meal/Entertain
5,1.30.2016 18:09,1.30.2016 18:24,Business,Apex,Cary,45112.0,Customer Visit
6,02.01.2016 12:10,02.01.2016 12:43,Business,Chapel Hill,Cary,45008.0,Customer Visit
7,02.04.2016 9:37,02.04.2016 10:09,Business,Morrisville,Cary,45116.0,Meal/Entertain
8,02.07.2016 18:03,02.07.2016 18:17,Business,Apex,Cary,45112.0,Customer Visit
9,02.07.2016 20:22,02.07.2016 20:40,Business,Morrisville,Cary,44932.0,Meeting


Производится проверка на наличие пустых ячеек.

In [8]:
drivers.isna().sum()

startDate       0
endDate         0
category        0
start           0
stop            0
miles           0
purposeRoute    0
dtype: int64

Производится проверка на наличие явных дубликатов и выводится их количество.

In [9]:
drivers.duplicated().sum()

2

Дублирующиеся строки удаляются и и проводится проверка правильности удаления.

Чтобы не было пропусков производится обновление индексации, устанавливается аргумент `drop = True`, чтобы не создавался столбец `Index`.

Данные выводятся для проверки.

In [10]:
drivers = drivers.drop_duplicates()
print(drivers.duplicated().sum())

drivers = drivers.reset_index(drop=True)

drivers

0


Unnamed: 0,startDate,endDate,category,start,stop,miles,purposeRoute
0,01.10.2016 19:12,01.10.2016 19:32,Business,Midtown,East Harlem,44963.0,MEETING
1,01.11.2016 13:32,01.11.2016 13:46,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,01.12.2016 12:33,01.12.2016 12:49,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,1.13.2016 15:00,1.13.2016 15:28,Business,Gulfton,Downtown,45149.0,Meeting
4,1.29.2016 21:21,1.29.2016 21:40,Business,Apex,Cary,45051.0,Meal/Entertain
...,...,...,...,...,...,...,...
154,12.09.2016 13:15,12.09.2016 13:43,Business,Apex,Cary,45146.0,Temporary Site
155,12.10.2016 22:09,12.10.2016 22:21,Business,Morrisville,Cary,44929.0,Customer Visit
156,12.12.2016 14:26,12.12.2016 14:39,Business,Apex,Cary,45111.0,Customer Visit
157,12.12.2016 20:48,12.12.2016 20:57,Business,Morrisville,Cary,3.0,Customer Visit


Происходит проверка данных на наличие неявных дубликатов, для этого используется метод `unique()` для столбцов `category` и `purposeRoute`, которые имеют категориальные переменные.

Столбцы `startTime`, `endTime` и `miles` могут повторяться, а `start` и `stop` по условию можно не проверять на неявные дубликаты, поэтому данные столбцы не обрабатываются.

In [11]:
print(drivers['category'].unique())
print(drivers['purposeRoute'].unique())

['Business' 'BUSINESS' 'Personal']
['MEETING' 'Meal/Entertain' 'Meeting' 'Customer Visit' 'Temporary Site'
 'Other' 'Moving']


Наблюдаются повторяющиеся элементы в обоих столбцах. Это исправляется путем задания им одинаковых имен. Код сразу проверяется на правильность.

In [12]:
drivers['category'] = drivers['category'].replace('BUSINESS','Business')
drivers['purposeRoute'] = drivers['purposeRoute'].replace('MEETING','Meeting')

print(drivers['category'].unique())
print(drivers['purposeRoute'].unique())

['Business' 'Personal']
['Meeting' 'Meal/Entertain' 'Customer Visit' 'Temporary Site' 'Other'
 'Moving']


Вывод информации о датасете.

In [13]:
drivers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   startDate     159 non-null    object 
 1   endDate       159 non-null    object 
 2   category      159 non-null    object 
 3   start         159 non-null    object 
 4   stop          159 non-null    object 
 5   miles         159 non-null    float64
 6   purposeRoute  159 non-null    object 
dtypes: float64(1), object(6)
memory usage: 8.8+ KB


По выводу метода `info()` можно понять, что столбцы `startDate` и `endDate` не соотвутствуют своему типу данных. Они записаны в формате срок (`object`), а должны быть в формате даты (`datetime`). Это исправляется с помощью метода `to_datetime()`.

Проверка правильности выполненных действий производится сразу.

In [14]:
drivers['startDate'] = pd.to_datetime(drivers['startDate'], format='%m.%d.%Y %H:%M')
drivers['endDate'] = pd.to_datetime(drivers['endDate'], format='%m.%d.%Y %H:%M')

display(drivers.head(10))
drivers.info()

Unnamed: 0,startDate,endDate,category,start,stop,miles,purposeRoute
0,2016-01-10 19:12:00,2016-01-10 19:32:00,Business,Midtown,East Harlem,44963.0,Meeting
1,2016-01-11 13:32:00,2016-01-11 13:46:00,Business,Midtown,Midtown East,45108.0,Meal/Entertain
2,2016-01-12 12:33:00,2016-01-12 12:49:00,Business,Midtown,Hudson Square,45170.0,Meal/Entertain
3,2016-01-13 15:00:00,2016-01-13 15:28:00,Business,Gulfton,Downtown,45149.0,Meeting
4,2016-01-29 21:21:00,2016-01-29 21:40:00,Business,Apex,Cary,45051.0,Meal/Entertain
5,2016-01-30 18:09:00,2016-01-30 18:24:00,Business,Apex,Cary,45112.0,Customer Visit
6,2016-02-01 12:10:00,2016-02-01 12:43:00,Business,Chapel Hill,Cary,45008.0,Customer Visit
7,2016-02-04 09:37:00,2016-02-04 10:09:00,Business,Morrisville,Cary,45116.0,Meal/Entertain
8,2016-02-07 18:03:00,2016-02-07 18:17:00,Business,Apex,Cary,45112.0,Customer Visit
9,2016-02-07 20:22:00,2016-02-07 20:40:00,Business,Morrisville,Cary,44932.0,Meeting


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   startDate     159 non-null    datetime64[ns]
 1   endDate       159 non-null    datetime64[ns]
 2   category      159 non-null    object        
 3   start         159 non-null    object        
 4   stop          159 non-null    object        
 5   miles         159 non-null    float64       
 6   purposeRoute  159 non-null    object        
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 8.8+ KB


Далее производится группировка и создание сводных таблиц.

**Задание 1:** Группировка - `category` и количество поездок каждого типа (по цели маршрута).

In [15]:
drivers.groupby(['category', 'purposeRoute']).size()

category  purposeRoute  
Business  Customer Visit    30
          Meal/Entertain    34
          Meeting           13
          Other             67
          Temporary Site     4
Personal  Moving             1
          Other             10
dtype: int64

По результатам группировки можно сделать вывод, что больше всего поездок было по цели поездки "Meal/Entertain", а меньше всего по "Moving". Цель поездки "Other" не учитывается при анализе, так как информация по этому типу данных отсутствует.

Также можно понять, что категорию "Business" используют чаще чем "Personal".

**Задание 2:** Группировка - `category` и количество поездок каждого типа (по цели маршрута). Создать датафрейм. Переименовать столбец с количеством в `count`. Отсортировать по убыванию столбца `count`.

In [16]:
df = drivers.groupby(['category', 'purposeRoute']).size().reset_index(name='count')
df_sorted = df.sort_values(by='count', ascending=False)
display(df_sorted)

Unnamed: 0,category,purposeRoute,count
3,Business,Other,67
1,Business,Meal/Entertain,34
0,Business,Customer Visit,30
2,Business,Meeting,13
6,Personal,Other,10
4,Business,Temporary Site,4
5,Personal,Moving,1


По результатам группировки можно сделать те же выводы, что и по прошлой группировке, но здесь наглядно отображается список от больнего кол-ва поездок по конкретной цели до меньшего.

**Задание 3:** Сводная таблица (`pivot_table`) - среднее количество пройденных миль по каждой цели поездки (`purposeRoute`). Отсортировать по убыванию столбца `miles`. Округлить значение до двух знаков.

In [17]:
drivers.pivot_table(index=['purposeRoute'],
                    values='miles',
                    aggfunc='mean').sort_values(by='miles', ascending=False)['miles'].round(2)


purposeRoute
Temporary Site    45063.50
Moving            44932.00
Meal/Entertain    41054.82
Other             36859.20
Customer Visit    36023.20
Meeting           34646.85
Name: miles, dtype: float64

По результатам сводной таблицы можно сделать вывод, что в среднем больше всего миль занимают поездки по цели "Temporary Site", а меньше всего "Meeting".

**Задание 4:** Сводная таблица (`pivot_table`) - среднее количество пройденных миль по каждой цели поездки (`purposeRoute`) - столбцы, и каждой категории - строки. Отсортировать по убыванию столбца `category`.

In [18]:
drivers.pivot_table(index=['category'],
                    columns='purposeRoute',
                    values='miles',
                    aggfunc='mean').sort_values(by='category', ascending=False)

purposeRoute,Customer Visit,Meal/Entertain,Meeting,Moving,Other,Temporary Site
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Personal,,,,44932.0,36035.0,
Business,36023.196667,41054.823529,34646.846154,,36982.219403,45063.5


По результатам сводной таблицы можно сделать те же выводы, что и по прошлой сводной таблице. "NaN" означает, что у данной категории не было поездок по данной цели.

### Вывод по работе


В ходе выполнения лабораторной работы прошло ознакомление с интерфейсом `Google Colllab`, освоение основ обработки данных “csv”-файла посредством `Jupiter Notebook`. Были получены навыки выявления и устранения проблемы и ошибки в данных, добавления, удаления, изменения, сортировки и группировки данных, а также многое другое.

По результатам проделанной работы можно сделать следующие выводы:
- всего было обработано 169 заказов;
- всего категорий поездок 2: "Business", "Personal";
- чаще всего целью поездки является "Meal/Entertain" (34 поездки), после него по популярности идет "Customer Visit" (30 поездок), а меньше всего по "Moving" (не учитывалась цель "Other", потому что нет более подробной информации по этой цели);
- категорию "Bisness" используют чаще чем "Personal";
- большке всего миль было проехано на цель поездки "Temporary Site";
- в среднем больше всего миль занимают поездки по цели "Temporary Site", а меньше всего "Meeting";
- все поездки категории "Personal" имеют причины только "Moving" или "Other";
- нет поездорк по причине "Moving" в категории "Besiness".


### Дополнительное задание

Поиск разницы между "endDate" и "startDate" и вывод продолжительности каждой поездки в минутах в отдельном столбце.

Для этого из столбца "endDate" вычитается столбец "startDate" и результат приводится к минутам, новый столбец именуется как "time".

In [20]:
drivers ['time'] = (drivers['endDate'] - drivers['startDate']).dt.components.minutes
drivers

Unnamed: 0,startDate,endDate,category,start,stop,miles,purposeRoute,time
0,2016-01-10 19:12:00,2016-01-10 19:32:00,Business,Midtown,East Harlem,44963.0,Meeting,20
1,2016-01-11 13:32:00,2016-01-11 13:46:00,Business,Midtown,Midtown East,45108.0,Meal/Entertain,14
2,2016-01-12 12:33:00,2016-01-12 12:49:00,Business,Midtown,Hudson Square,45170.0,Meal/Entertain,16
3,2016-01-13 15:00:00,2016-01-13 15:28:00,Business,Gulfton,Downtown,45149.0,Meeting,28
4,2016-01-29 21:21:00,2016-01-29 21:40:00,Business,Apex,Cary,45051.0,Meal/Entertain,19
...,...,...,...,...,...,...,...,...
154,2016-12-09 13:15:00,2016-12-09 13:43:00,Business,Apex,Cary,45146.0,Temporary Site,28
155,2016-12-10 22:09:00,2016-12-10 22:21:00,Business,Morrisville,Cary,44929.0,Customer Visit,12
156,2016-12-12 14:26:00,2016-12-12 14:39:00,Business,Apex,Cary,45111.0,Customer Visit,13
157,2016-12-12 20:48:00,2016-12-12 20:57:00,Business,Morrisville,Cary,3.0,Customer Visit,9


Теперь в имеющихся данных можно без труда проанализировать информацию о времени каждой поездки.