# Проект урока 1. Знакомство с библиотекой Pandas
# «Анализ данных о поездках на такси в Нью-Йорке»

## Шаг 1

В первом проекте вы будете работать с реальным набором данных о поездках на такси в Нью-Йорке. Датасет включает в себя информацию о датах и времени поездок, метеорологических условиях в это время, а также о том, является день праздничным или выходным. Описание колонок:
* pickup_dt – период с точностью до часа
* pickup_month – месяц
* borough – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)
* pickups – число поездок за период (час)
* hday – является ли день праздничным/выходным; Y — да,  N — нет
* spd – скорость ветра в милях в час
* vsb – видимость
* temp – температура в градусах Фаренгейта
* dewp – точка росы по Фаренгейту
* slp – давление
* pcp_01 – количество осадков за час
* pcp_06 – количество осадков за 6 часов
* pcp_24 – количество осадков за 24 часа
* sd – глубина снега в дюймах

Каждая строка в датасете — запись не об одной конкретной поездке, а о всех поездках, сделанных за определенный час из того или иного района Нью-Йорка, и о том, какие были показатели погоды в этот час.  

Ваша задача в этом уроке — применить навыки работы с библиотекой pandas для анализа и обработки данных. Вы научитесь загружать данные, проверять их структуру, обрабатывать и анализировать, используя различные методы и функции pandas.
Ваша конечная цель — не только успешно выполнить все задачи, но и получить ценные инсайты из анализируемого датасета.

## Шаг 2

Перед открытием датасета нужно импортировать библиотеку pandas. Начнем с простого вопроса: **что произойдет в результате выполнения следующей команды?**

```python
import pandas as pnds
```

## Шаг 3

В этом задании вы потренируетесь читать данные из csv файла. Откройте датасет с данными о поезках такси в Нью-Йорке и сохраните его в переменную `taxi`. **Определите, какой индекс имеет самая верхняя строка?**

In [4]:
import pandas as pd

In [7]:
path = 'taxi_nyc.csv'
taxi = pd.read_csv(path)



In [8]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


## Шаг 4

После загрузки данных полезно получить базовое представление об их структуре и содержании. Для этого сначала **узнайте количество строк и столбцов в датафрейме.**

In [10]:
taxi.shape

(29101, 14)

## Шаг 5

**Цель этого задания — проверить типы данных в столбцах датафрейма и определить, какой тип данных преобладает.**

In [12]:
taxi.dtypes

pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object

## Шаг 6

В названиях трех столбцов встречается пробел: это столбцы `pcp 01`, `pcp 06` и `pcp 24`. Замените пробел на знак нижнего подчеркивания, чтобы было удобно обращаться к этим столбцам: через точку, без использования кавычек и скобок. Результат сохраните в тот же датафрейм `taxi`.

In [19]:
taxi = taxi.rename(columns={'pcp 01':'pcp_01', 'pcp 06':'pcp_06', 'pcp 24':'pcp_24'})


In [20]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


## Шаг 7

Проверьте, все ли районы встречаются в данных одинаково часто. **Используя метод `value_counts()` из библиотеки pandas, определите число записей по каждому району Нью-Йорка. Сколько раз в данных встречается район Манхэттен (Manhattan)?**

In [26]:
taxi.borough.value_counts()

borough
Bronx            4343
Brooklyn         4343
EWR              4343
Manhattan        4343
Queens           4343
Staten Island    4343
Name: count, dtype: int64

## Шаг 8

**В этом задании посчитайте общее количество поездок,** чтобы узнать, насколько было востребовано такси в Нью-Йорке за период наблюдений. Для этого суммируйте все значения в столбце `pickups` с помощью метода [sum()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sum.html)

In [27]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [28]:
taxi.pickups.sum()

14265773

## Шаг 9

**Используя возможности группировки данных в pandas, определите район Нью-Йорка, из которого было совершено наибольшее количество поездок.** Такая информация может понадобиться, чтобы принять бизнес-решение о том, в каком районе увеличить количество машин такси.

In [29]:
taxi.head()



Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [35]:
pickups_by_brough = taxi.groupby('borough', as_index=False)\
    .agg({'pickups':'sum'})
pickups_by_brough

Unnamed: 0,borough,pickups
0,Bronx,220047
1,Brooklyn,2321035
2,EWR,105
3,Manhattan,10367841
4,Queens,1343528
5,Staten Island,6957


In [37]:
pickups_by_brough.sort_values('pickups', ascending=False)

Unnamed: 0,borough,pickups
3,Manhattan,10367841
1,Brooklyn,2321035
4,Queens,1343528
0,Bronx,220047
5,Staten Island,6957
2,EWR,105


## Шаг 10

⭐️Задание со звёздочкой!⭐️

Чтобы ускорить процесс аналитической работы, в этом задании вы изучите применение новых методов: `idxmin()` и `idxmax()` для определения индексов минимального и максимального значения в наборе данных.

[idxmin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmin.html) – возвращает индекс минимального значения (не само значение, а индекс строки, в которой находится это значение)  
[idxmax()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmax.html) – возвращает индекс максимального значения

Методы применяются к той колонке, по которой он определит максимальное или минимальное значение и вернет его индекс. Пример синтаксиса:

```python
df.column_name.idxmax()
```

Эти методы заменяют следующую цепочку действий: применить метод `sort_values()`, взять только первую строку, обратиться к её индексу. Обратите внимание, что оба метода помогут вернуть только одно значение индекса, даже если в данных максимальных или минимальных значений несколько.

**Чтобы потренироваться использовать новые методы, сохраните название района с наименьшим числом поездок в переменную `min_pickups`, применив подходящий метод**.

In [44]:
pickups_by_brough_2 = taxi.groupby('borough')\
    .agg({'pickups':'sum'})
pickups_by_brough_2

Unnamed: 0_level_0,pickups
borough,Unnamed: 1_level_1
Bronx,220047
Brooklyn,2321035
EWR,105
Manhattan,10367841
Queens,1343528
Staten Island,6957


In [48]:
pickups_by_brough_2.pickups.idxmin()


'EWR'

## Шаг 11

**Теперь ваша задача определить, из каких районов по праздникам и выходным дням в среднем поступает больше заказов, чем в обычные дни.** Такие расчеты помогут компании оптимизировать предложение машин такси и понять, в каких районах в выходные дни нужно дополнительно стимулировать водителей выходить на смену, чтобы машин хватало.

In [50]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [59]:
taxi.groupby(['borough','hday'])\
    .agg({'pickups':'mean'})\
    .sort_values(['pickups'], ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,hday,Unnamed: 2_level_1
Manhattan,N,2401.302921
Manhattan,Y,2035.928144
Brooklyn,N,534.727969
Brooklyn,Y,527.011976
Queens,Y,320.730539
Queens,N,308.899904
Bronx,N,50.771073
Bronx,Y,48.065868
Staten Island,N,1.606082
Staten Island,Y,1.497006


## Шаг 12

**Ваша цель в этом задании — определить число поездок в каждом районе по месяцам.** Эти расчеты помогут проследить динамику числа поездок, выявить закономерности и сезонность.  

**Результаты необходимо отсортировать по убыванию количества поездок и сохранить в новый датафрейм `pickups_by_mon_bor`.**
Обратите внимание, что итоговый датафрейм должен состоять из 3-х колонок — `pickup_month`, `borough`, `pickups`.

In [61]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [66]:
pickups_by_mon_bor  = taxi.groupby(['borough', 'pickup_month'])\
    .agg({'pickups':'sum'})
pickups_by_mon_bor 

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,pickup_month,Unnamed: 2_level_1
Bronx,Apr,34617
Bronx,Feb,28694
Bronx,Jan,22461
Bronx,Jun,49006
Bronx,Mar,32232
Bronx,May,53037
Brooklyn,Apr,378095
Brooklyn,Feb,328650
Brooklyn,Jan,309011
Brooklyn,Jun,482466


In [73]:
pickups_by_mon_bor.sort_values('pickups', ascending=False)

Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278
20,Manhattan,Jan,1455543
9,Brooklyn,Jun,482466
11,Brooklyn,May,476087
6,Brooklyn,Apr,378095
10,Brooklyn,Mar,346726


In [72]:
pickups_by_mon_bor  = taxi \
    .groupby(['borough', 'pickup_month'], as_index=False)\
    .agg({'pickups':'sum'})\
    .sort_values('pickups', ascending=False)
pickups_by_mon_bor

Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278
20,Manhattan,Jan,1455543
9,Brooklyn,Jun,482466
11,Brooklyn,May,476087
6,Brooklyn,Apr,378095
10,Brooklyn,Mar,346726


## Итоги

В первом проекте вы проанализировали данные о поездках на такси в Нью-Йорке, получили инсайты для бизнес-решений и потренировали следующие навыки работы с библиотекой pandas:

- Чтение данных в формате csv
- Определение размера датафрейма и типов данных в его столбцах
- Переименование колонок
- Группировка и агрегация данных
- Сортировка данных
- Получение индексов с минимальными и максимальными значениями
- Группировка по нескольким колонкам
- Сохранение результата в новый датафрейм