In [1]:
import pandas as pd

## Анализ данных о поездках на такси в Нью-Йорке

#### Структура данных 
**pickup_dt** – период с точностью до часа <br/>
**pickup_month** – месяц <br/>
**borough** – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт) <br/>
**pickups** – число поездок за период (час) <br/>
**hday** – является ли день праздничным/выходным; Y - да,  N - нет <br/>
**spd** – скорость ветра в милях в час <br/>
**vsb** – видимость <br/>
**temp** – температура в градусах Фаренгейта <br/>
**dewp** – точка росы по Фаренгейту <br/>
**slp** – давление <br/>
**pcp_01** – количество осадков за час <br/>
**pcp_06** – количество осадков за 6 часов <br/>
**pcp_24** – количество осадков за 24 часа <br/>
**sd** – глубина снега в дюймах <br/>

In [3]:
taxi = pd.read_csv('2_taxi_nyc.csv', 
            encoding='windows-1251', sep=',')

In [4]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [6]:
#для удобства меняем пробелы в названиях колонок на нижнее подчеркивание
taxi = taxi.rename(columns={'pcp 01':'pcp_01', 'pcp 06':'pcp_06','pcp 24':'pcp_24'})

In [7]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


In [11]:
print('В датасете данные о',taxi.shape[0], 'поездках')

В датасете данные о 29101 поездках


In [15]:
taxi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29101 entries, 0 to 29100
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   pickup_dt     29101 non-null  object 
 1   pickup_month  29101 non-null  object 
 2   borough       26058 non-null  object 
 3   pickups       29101 non-null  int64  
 4   hday          29101 non-null  object 
 5   spd           29101 non-null  float64
 6   vsb           29101 non-null  float64
 7   temp          29101 non-null  float64
 8   dewp          29101 non-null  float64
 9   slp           29101 non-null  float64
 10  pcp_01        29101 non-null  float64
 11  pcp_06        29101 non-null  float64
 12  pcp_24        29101 non-null  float64
 13  sd            29101 non-null  float64
dtypes: float64(9), int64(1), object(4)
memory usage: 3.1+ MB


#### Проверим, из какого района было совершено наибольшее количество поездок за весь период

In [29]:
print('Общее количество поездок за всё время :',taxi.pickups.sum())

Общее количество поездок за всё время : 14265773


In [34]:
taxi.groupby('borough', as_index=False) \
    .agg({'pickups': 'sum'})\
    .sort_values('pickups', ascending=False)

Unnamed: 0,borough,pickups
3,Manhattan,10367841
1,Brooklyn,2321035
4,Queens,1343528
0,Bronx,220047
5,Staten Island,6957
2,EWR,105


**Вывод** Больше всего поездок было совершено из Манхэттена

#### Посмотрим на среднее количество поездок в выходные и будние дни (с группировкой по району)

In [42]:
taxi.groupby(['borough','hday']) \
    .agg({'pickups': 'mean'})\
#hd: y - выходной день, n - будний

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,hday,Unnamed: 2_level_1
Bronx,N,50.771073
Bronx,Y,48.065868
Brooklyn,N,534.727969
Brooklyn,Y,527.011976
EWR,N,0.023467
EWR,Y,0.041916
Manhattan,N,2401.302921
Manhattan,Y,2035.928144
Queens,N,308.899904
Queens,Y,320.730539


**Вывод**  Районы, из которых по выходным в среднем поступает больше заказов, чем в обычные дни : **Queens и EWR**. В остальных районах больше заказов поступает в будние дни

#### Для каждого района посчитаем число поездок по месяцам

In [44]:
taxi.groupby(['borough','pickup_month'])\
    .aggregate({'pickups' : 'sum'})\
    .sort_values('pickups', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,pickup_month,Unnamed: 2_level_1
Manhattan,Jun,1995388
Manhattan,May,1888800
Manhattan,Feb,1718571
Manhattan,Mar,1661261
Manhattan,Apr,1648278
Manhattan,Jan,1455543
Brooklyn,Jun,482466
Brooklyn,May,476087
Brooklyn,Apr,378095
Brooklyn,Mar,346726
