# Данные:

1. pickup_dt – период с точностью до часа
2. pickup_month – месяц
3. borough – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)
4. pickups – число поездок за период (час)
5. hday – является ли день праздничным/выходным; Y - да,  N - нет
6. spd – скорость ветра в милях в час
7. vsb – видимость
8. temp – температура в градусах Фаренгейта
9. dewp – точка росы по Фаренгейту
10. slp – давление
11. pcp_01 – количество осадков за час
12. pcp_06 – количество осадков за 6 часов
13. pcp_24 – количество осадков за 24 часа
14. sd – глубина снега в дюймах

In [15]:
# импортируем библиотеку
import pandas as pd
from datetime import datetime

In [4]:
# считываем данные из файла
taxi = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-i-evsa-22/lesson_2/2_taxi_nyc.csv')

In [5]:
# исследуем полученные данные
taxi.shape
taxi.dtypes

pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object

In [6]:
# переименуем колонки
taxi = taxi.rename(columns={'pcp 01':'pcp_01', 'pcp 06': 'pcp_06', 'pcp 24':'pcp_24'})
taxi.columns

Index(['pickup_dt', 'pickup_month', 'borough', 'pickups', 'hday', 'spd', 'vsb',
       'temp', 'dewp', 'slp', 'pcp_01', 'pcp_06', 'pcp_24', 'sd'],
      dtype='object')

In [9]:
# смотрим количество данных по районам
taxi['borough'].value_counts()

Bronx            4343
Brooklyn         4343
Manhattan        4343
Queens           4343
Staten Island    4343
EWR              4343
Name: borough, dtype: int64

In [10]:
# суммируем количество всех поездок
taxi.pickups.sum()

14265773

In [11]:
# определяем среднее количество поездок по райнам в будние и выходные дни
taxi.groupby(['borough','hday'], as_index=False).agg({'pickups':'mean'}).sort_values('pickups')

Unnamed: 0,borough,hday,pickups
4,EWR,N,0.023467
5,EWR,Y,0.041916
11,Staten Island,Y,1.497006
10,Staten Island,N,1.606082
1,Bronx,Y,48.065868
0,Bronx,N,50.771073
8,Queens,N,308.899904
9,Queens,Y,320.730539
3,Brooklyn,Y,527.011976
2,Brooklyn,N,534.727969


In [14]:
# определяем район с минимальным количеством поездок
df = taxi.groupby('borough').agg({'pickups':'sum'}).sort_values(by ='pickups', ascending=False )
min_pickups = df.idxmin()
min_pickups

pickups    EWR
dtype: object

In [16]:
# рассчитываем количество поездок по месяцам
pickups_by_mon_bor = taxi.groupby(['pickup_month','borough'], as_index=False).agg({'pickups':'sum'}).sort_values(by='pickups', ascending=False)
pickups_by_mon_bor

Unnamed: 0,pickup_month,borough,pickups
21,Jun,Manhattan,1995388
33,May,Manhattan,1888800
9,Feb,Manhattan,1718571
27,Mar,Manhattan,1661261
3,Apr,Manhattan,1648278
15,Jan,Manhattan,1455543
19,Jun,Brooklyn,482466
31,May,Brooklyn,476087
1,Apr,Brooklyn,378095
25,Mar,Brooklyn,346726


In [17]:
# функция temp_to_celcius получает на вход колонку с температурой в °F, и возвращает значения, переведенные в градусы Цельсия.

def temp_to_celcius(a):
    new_temp = ((a-32)*5.0)/9.0
    return new_temp

temp_to_celcius(taxi.temp)
    

0        -1.111111
1        -1.111111
2        -1.111111
3        -1.111111
4        -1.111111
           ...    
29096    23.888889
29097    23.888889
29098    23.888889
29099    23.888889
29100    23.888889
Name: temp, Length: 29101, dtype: float64