
# Проект: «Анализ данных о поездках на такси в Нью-Йорке»

## Шаг 1

В этом проекте будет работа с реальным набором данных о поездках на такси в Нью-Йорке. Датасет включает в себя информацию о датах и времени поездок, метеорологических условиях в это время, а также о том, является день праздничным или выходным. Описание колонок:
* pickup_dt – период с точностью до часа
* pickup_month – месяц
* borough – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)
* pickups – число поездок за период (час)
* hday – является ли день праздничным/выходным; Y — да,  N — нет
* spd – скорость ветра в милях в час
* vsb – видимость
* temp – температура в градусах Фаренгейта
* dewp – точка росы по Фаренгейту
* slp – давление
* pcp_01 – количество осадков за час
* pcp_06 – количество осадков за 6 часов
* pcp_24 – количество осадков за 24 часа
* sd – глубина снега в дюймах

Каждая строка в датасете — запись не об одной конкретной поездке, а о всех поездках, сделанных за определенный час из того или иного района Нью-Йорка, и о том, какие были показатели погоды в этот час.  

Задача — применить навыки работы с библиотекой pandas для анализа и обработки данных. Полученные знания после реализации проекта: умения загружать данные, проверять их структуру, обрабатывать и анализировать, используя различные методы и функции pandas.
Конечная цель — не только успешно выполнить все задачи, но и получить ценные инсайты из анализируемого датасета.

## Шаг 2

Откроем датасет с данными о поезках такси в Нью-Йорке и сохраним его в переменную `taxi`.

In [2]:
import pandas as pd

In [3]:
taxi = pd.read_csv("taxi_nyc.csv")


Выведем первые строки датафрейма, чтобы посмотреть на данные и узнать индекс самой верхней строки

In [7]:
taxi.head()



Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


## Шаг 4

После загрузки данных полезно получить базовое представление об их структуре и содержании. Для этого сначала **узнаем количество строк и столбцов в датафрейме.**

In [9]:
taxi.shape



(29101, 14)

## Шаг 5

**Цель этого задания — проверить типы данных в столбцах датафрейма и определить, какой тип данных преобладает.**

In [15]:
taxi.dtypes


pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object

## Шаг 6

В названиях трех столбцов встречается пробел: это столбцы `pcp 01`, `pcp 06` и `pcp 24`. Заменим пробел на знак нижнего подчеркивания, чтобы было удобно обращаться к этим столбцам: через точку, без использования кавычек и скобок. Результат сохраним в тот же датафрейм `taxi`.

In [17]:
col_names = {'pcp 01': 'pcp_01', 'pcp 06': 'pcp_06', 'pcp 24': 'pcp_24'}
taxi = taxi.rename(columns=col_names)


Убедимся, что названия столбцов были успешно изменены и результат сохранен в датафрейм `taxi`, выведя обновлённый список названий столбцов

In [18]:
taxi.columns



Index(['pickup_dt', 'pickup_month', 'borough', 'pickups', 'hday', 'spd', 'vsb',
       'temp', 'dewp', 'slp', 'pcp_01', 'pcp_06', 'pcp_24', 'sd'],
      dtype='object')

## Шаг 7

Проверим, все ли районы встречаются в данных одинаково часто. **Используя метод `value_counts()` из библиотеки pandas, определим число записей по каждому району Нью-Йорка.**

In [19]:
taxi.borough.value_counts()



Manhattan        4343
Bronx            4343
Staten Island    4343
EWR              4343
Brooklyn         4343
Queens           4343
Name: borough, dtype: int64

## Шаг 8

**В этом задании посчитаем общее количество поездок,** чтобы узнать, насколько было востребовано такси в Нью-Йорке за период наблюдений. Для этого суммируем все значения в столбце `pickups` с помощью метода [sum()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sum.html)

In [20]:
taxi.pickups.sum()


14265773

## Шаг 9

**Используя возможности группировки данных в pandas, определим район Нью-Йорка, из которого было совершено наибольшее количество поездок.** Такая информация может понадобиться, чтобы принять бизнес-решение о том, в каком районе увеличить количество машин такси.

In [36]:
taxi.groupby('borough').pickups.sum()

borough
Bronx              220047
Brooklyn          2321035
EWR                   105
Manhattan        10367841
Queens            1343528
Staten Island        6957
Name: pickups, dtype: int64

In [38]:
taxi.sort_values('pickups', ascending=True)



Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
17076,2015-04-18 03:00:00,Apr,EWR,0,N,0.00,10.0,66.00,51.00,1014.7,0.000000,0.00,0.00,0.0
25194,2015-06-07 02:00:00,Jun,EWR,0,N,6.00,10.0,67.00,34.00,1017.7,0.000000,0.22,0.00,0.0
5765,2015-02-06 11:00:00,Feb,EWR,0,N,7.00,10.0,12.00,-3.00,1024.9,0.000000,0.00,0.00,8.0
19830,2015-05-05 05:00:00,May,EWR,0,N,7.00,10.0,71.00,44.00,1021.3,0.000000,0.00,0.00,0.0
13210,2015-03-24 21:00:00,Mar,Staten Island,0,N,0.00,10.0,44.00,10.00,1025.9,0.000000,0.00,0.00,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21739,2015-05-16 23:00:00,May,Manhattan,7271,N,0.00,9.1,71.00,60.00,1019.2,0.000000,0.00,0.00,0.0
28590,2015-06-27 20:00:00,Jun,Manhattan,7512,N,9.00,8.0,65.00,55.00,1018.2,0.010000,0.00,0.25,0.0
28611,2015-06-27 23:00:00,Jun,Manhattan,7711,N,10.25,3.2,60.75,57.25,1015.7,0.076667,0.01,0.00,0.0
28597,2015-06-27 21:00:00,Jun,Manhattan,7801,N,8.00,3.5,61.50,56.00,1017.0,0.045000,0.00,0.00,0.0


## Шаг 10

Чтобы ускорить процесс аналитической работы, в примененим методы: `idxmin()` и `idxmax()` для определения индексов минимального и максимального значения в наборе данных.

[idxmin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmin.html) – возвращает индекс минимального значения (не само значение, а индекс строки, в которой находится это значение)  
[idxmax()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmax.html) – возвращает индекс максимального значения

Методы применяются к той колонке, по которой он определит максимальное или минимальное значение и вернет его индекс. Пример синтаксиса:

```python
df.column_name.idxmax()
```

Эти методы заменяют следующую цепочку действий: применить метод `sort_values()`, взять только первую строку, обратиться к её индексу. Обратим внимание, что оба метода помогут вернуть только одно значение индекса, даже если в данных максимальных или минимальных значений несколько.

**Чтобы потренироваться использовать новые методы, сохраним название района с наименьшим числом поездок в переменную `min_pickups`, применив подходящий метод**.

In [39]:
taxi.groupby('borough').pickups.sum()

borough
Bronx              220047
Brooklyn          2321035
EWR                   105
Manhattan        10367841
Queens            1343528
Staten Island        6957
Name: pickups, dtype: int64

In [41]:
min_pickups = taxi.groupby('borough').pickups.sum().idxmin()
print(min_pickups)


EWR


## Шаг 11

**Теперь наша задача определить, из каких районов по праздникам и выходным дням в среднем поступает больше заказов, чем в обычные дни.** Такие расчеты помогут компании оптимизировать предложение машин такси и понять, в каких районах в выходные дни нужно дополнительно стимулировать водителей выходить на смену, чтобы машин хватало.

In [46]:
taxi.groupby(['borough', 'hday'], as_index=False).pickups.mean()


Unnamed: 0,borough,hday,pickups
0,Bronx,N,50.771073
1,Bronx,Y,48.065868
2,Brooklyn,N,534.727969
3,Brooklyn,Y,527.011976
4,EWR,N,0.023467
5,EWR,Y,0.041916
6,Manhattan,N,2401.302921
7,Manhattan,Y,2035.928144
8,Queens,N,308.899904
9,Queens,Y,320.730539


## Шаг 12

**Цель в этом задании — определить число поездок в каждом районе по месяцам.** Эти расчеты помогут проследить динамику числа поездок, выявить закономерности и сезонность.  

**Результаты отсортируем по убыванию количества поездок и сохраним в новый датафрейм `pickups_by_mon_bor`.**
Итоговый датафрейм должен состоять из 3-х колонок — `pickup_month`, `borough`, `pickups`.

In [48]:
taxi.groupby(['borough', 'pickup_month'], as_index=False).pickups.sum()



Unnamed: 0,borough,pickup_month,pickups
0,Bronx,Apr,34617
1,Bronx,Feb,28694
2,Bronx,Jan,22461
3,Bronx,Jun,49006
4,Bronx,Mar,32232
5,Bronx,May,53037
6,Brooklyn,Apr,378095
7,Brooklyn,Feb,328650
8,Brooklyn,Jan,309011
9,Brooklyn,Jun,482466


Отсортируем результаты по убыванию количества поездок, чтобы определить наиболее активные месяцы для каждого района

In [49]:
taxi.groupby(['borough', 'pickup_month'], as_index=False).pickups.sum().sort_values('pickups', ascending=False)



Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278
20,Manhattan,Jan,1455543
9,Brooklyn,Jun,482466
11,Brooklyn,May,476087
6,Brooklyn,Apr,378095
10,Brooklyn,Mar,346726


Сохраним результат в новый датафрейм `pickups_by_mon_bor`. Проверим, что он состоит из 3-х колонок - `pickup_month`, `borough`, `pickups`

In [55]:
pickups_by_mon_bor = taxi.groupby(['borough', 'pickup_month'], as_index=False).pickups.sum().sort_values('pickups', ascending=False)

# pickups_by_mon_bor.columns
pickups_by_mon_bor

Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278
20,Manhattan,Jan,1455543
9,Brooklyn,Jun,482466
11,Brooklyn,May,476087
6,Brooklyn,Apr,378095
10,Brooklyn,Mar,346726


## Итоги

В этом проекте были проанализированны данные о поездках на такси в Нью-Йорке, получены инсайты для бизнес-решений и усвоены следующие навыки работы с библиотекой pandas:

- Чтение данных в формате csv
- Определение размера датафрейма и типов данных в его столбцах
- Переименование колонок
- Группировка и агрегация данных
- Сортировка данных
- Получение индексов с минимальными и максимальными значениями
- Группировка по нескольким колонкам
- Сохранение результата в новый датафрейм