In [1]:
import pandas as pd

### Описание данных

```pickup_dt``` – период с точностью до часа  
```pickup_month``` – месяц  
```borough``` – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)  
```pickups``` – число поездок за период (час)  
```hday``` – является ли день праздничным/выходным; Y - да,  N - нет  
```spd``` – скорость ветра в милях в час  
```vsb``` – видимость  
```temp``` – температура в градусах Фаренгейта  
```dewp``` – точка росы по Фаренгейту  
```slp``` – давление  
```pcp_01``` – количество осадков за час  
```pcp_06``` – количество осадков за 6 часов  
```pcp_24``` – количество осадков за 24 часа  
```sd``` – глубина снега в дюймах

### Задание 1
Проверьте, сколько всего строк и столбцов имеется в датасете.

In [6]:
taxi = pd.read_csv('2_taxi_nyc.csv')

In [7]:
taxi.shape

(29101, 14)

### Задание 2

Давайте посмотрим на типы колонок. Все ли из них считались правильно? В качестве ответа выберите тип, преобладающий в датасете.

In [8]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [9]:
taxi.dtypes

pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object

### Задание 3

В названиях столбцов ```pcp 01```, ```pcp 06```, ```pcp 24``` встречается пробел. Это не очень удобно, если в дальнейшем вы планируете обращаться к колонкам через точку, без использования кавычек и скобочек. 

Замените пробел в названиях на знак нижнего подчеркивания. 

In [10]:
taxi = taxi.rename(columns = {"pcp 01": "pcp_01", "pcp 06": "pcp_06", "pcp 24" : "pcp_24"})

### Задание 4

Вас попросили узнать, сколько записей (строк) в датафрейме относятся к району Манхэттен (Manhattan). Получить ответ на данный вопрос можно было бы, например, с помощью следующей команды:

```taxi.query("borough == 'Manhattan'").shape[0]```

Сколько раз в данных встречается район Бруклин (Brooklyn)?

In [12]:
taxi.borough.value_counts()

Queens           4343
Manhattan        4343
Bronx            4343
EWR              4343
Brooklyn         4343
Staten Island    4343
Name: borough, dtype: int64

### Задание 5

Следующая задача: выяснить, из какого района было совершено наибольшее количество поездок за весь период. Для начала, посчитайте общее количество поездок (```pickups```), без группировки.

In [17]:
taxi.pickups.sum()

14265773

### Задание 6

А теперь сгруппируйте данные по району (borough) и укажите, из какого пункта было совершено больше всего поездок.

In [25]:
taxi.groupby('borough', as_index=False).agg({'pickups':'sum'}).sort_values(by=['pickups'], ascending=False)

Unnamed: 0,borough,pickups
3,Manhattan,10367841
1,Brooklyn,2321035
4,Queens,1343528
0,Bronx,220047
5,Staten Island,6957
2,EWR,105


### Задание 7

Еще несколько полезных методов в ```pandas```! Возможно, в предыдущем степе вы просто посмотрели на данные или отсортировали значения. Ускорить данный процесс в дальнейшем помогут методы ```idxmin()``` и ```idxmax()```, которые возвращают индекс минимального или максимального значения.

```idxmin``` – индекс минимального значения  
```idxmax``` – индекс максимального значения  

Сохраните название района с наименьшим числом поездок в переменную ```min_pickups```, применив подходящий метод.

In [26]:
min_pickups = taxi.groupby('borough').agg({'pickups' : 'sum'}).sort_values('pickups').idxmin()

In [27]:
min_pickups

pickups    EWR
dtype: object

### Задание 8

Продолжим изучение данных и посмотрим на число поездок в выходные дни. Сгруппируйте данные по двум признакам: району города и является ли день выходным (колонки ```borough``` и ```hday```). Сравните среднее число поездок, и выберите районы, из которых по праздникам в среднем поступает больше заказов, чем в обычные дни. 

In [28]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [33]:
taxi.groupby(['borough', 'hday'], as_index=False) \
    .agg({'pickups':'mean'}) \
    .sort_values(by=['pickups'], ascending=False)

Unnamed: 0,borough,hday,pickups
6,Manhattan,N,2401.302921
7,Manhattan,Y,2035.928144
2,Brooklyn,N,534.727969
3,Brooklyn,Y,527.011976
9,Queens,Y,320.730539
8,Queens,N,308.899904
0,Bronx,N,50.771073
1,Bronx,Y,48.065868
10,Staten Island,N,1.606082
11,Staten Island,Y,1.497006


### Задание 9

Для каждого района посчитайте число поездок по месяцам. Отсортируйте полученные значения по убыванию и сохраните результирующий датафрейм в ```pickups_by_mon_bor```.

Обратите внимание, что итоговый датасет должен состоять из 3-х колонок - ```pickup_month```, ```borough```, ```pickups```.

In [34]:
pickups_by_mon_bor = taxi.groupby(['borough', 'pickup_month'], as_index=False)\
    .agg({'pickups' : 'sum'})\
    .sort_values('pickups', ascending=False)

In [36]:
pickups_by_mon_bor.head()

Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278


### Задание 10

Теперь задача посложнее! Попрактикуемся в написании собственных функций и их применении к датафрейму. Поскольку данные о поездках в Нью-Йорке, температура представлена в градусах Фаренгейта. 

Напишите функцию ```temp_to_celcius```, которая получает на вход колонку с температурой в °F, и возвращает значения, переведенные в градусы Цельсия.

In [37]:
def temp_to_celcius(temp):
    return ((temp - 32) * 5) / 9