In [1]:

import pandas as pd

taxi = pd.read_csv("https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/taxi.csv")
taxi

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29096,2015-06-30 23:00:00,Jun,EWR,0,N,7.0,10.0,75.0,65.0,1011.8,0.0,0.0,0.0,0.0
29097,2015-06-30 23:00:00,Jun,Manhattan,3828,N,7.0,10.0,75.0,65.0,1011.8,0.0,0.0,0.0,0.0
29098,2015-06-30 23:00:00,Jun,Queens,580,N,7.0,10.0,75.0,65.0,1011.8,0.0,0.0,0.0,0.0
29099,2015-06-30 23:00:00,Jun,Staten Island,0,N,7.0,10.0,75.0,65.0,1011.8,0.0,0.0,0.0,0.0


In [2]:

rows, columns = taxi.shape
print("Количество строк:", rows)
print("Количество столбцов:", columns)

Количество строк: 29101
Количество столбцов: 14


In [3]:

column_types = taxi.dtypes
print(column_types)


pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object


Основной тип данных в наборе данных - строковый (object), который используется для представления текстовой информации. Из списка столбцов pickup_dt, pickup_month, borough и hday кажется, что они содержат текстовые данные, что соответствует типу данных object. Эти столбцы, вероятно, содержат даты, названия месяцев, районы и информацию о праздниках.

По остальным столбцам (pickups, spd, vsb, temp, dewp, slp, pcp_01, pcp_06, pcp_24, sd) можно сказать, что они содержат числовые значения, такие как количество поездок, скорость ветра, видимость, температура и т.д. Однако, если они были идентифицированы как тип object, возможно, что у pandas возникли затруднения с определением их как числовых значений из-за определенных причин.

In [4]:

taxi.rename(columns=lambda x: x.replace(' ', '_'), inplace=True)
print(taxi.head())


             pickup_dt pickup_month    borough  pickups hday  spd   vsb  temp  \
0  2015-01-01 01:00:00          Jan      Bronx      152    Y  5.0  10.0  30.0   
1  2015-01-01 01:00:00          Jan   Brooklyn     1519    Y  5.0  10.0  30.0   
2  2015-01-01 01:00:00          Jan        EWR        0    Y  5.0  10.0  30.0   
3  2015-01-01 01:00:00          Jan  Manhattan     5258    Y  5.0  10.0  30.0   
4  2015-01-01 01:00:00          Jan     Queens      405    Y  5.0  10.0  30.0   

   dewp     slp  pcp_01  pcp_06  pcp_24   sd  
0   7.0  1023.5     0.0     0.0     0.0  0.0  
1   7.0  1023.5     0.0     0.0     0.0  0.0  
2   7.0  1023.5     0.0     0.0     0.0  0.0  
3   7.0  1023.5     0.0     0.0     0.0  0.0  
4   7.0  1023.5     0.0     0.0     0.0  0.0  


In [5]:

manhattan_count = taxi[taxi['borough'] == 'Manhattan'].shape[0]
print("Количество записей, относящихся к Манхэттену:", manhattan_count)


Количество записей, относящихся к Манхэттену: 4343


In [6]:

borough_counts = taxi['borough'].value_counts()
print("Частота встречаемости каждого района:")
print(borough_counts)
brooklyn_count = borough_counts.get('Brooklyn', 0)
print("Количество записей, относящихся к Бруклину:", brooklyn_count)

Частота встречаемости каждого района:
borough
Bronx            4343
Brooklyn         4343
EWR              4343
Manhattan        4343
Queens           4343
Staten Island    4343
Name: count, dtype: int64
Количество записей, относящихся к Бруклину: 4343


In [7]:

borough_pickups = taxi.groupby('borough')['pickups'].sum()
max_pickups_borough = borough_pickups.idxmax()
max_pickups_count = borough_pickups.max()
print("Район с наибольшим количеством поездок:", max_pickups_borough)
print("Количество поездок из этого района:", max_pickups_count)

Район с наибольшим количеством поездок: Manhattan
Количество поездок из этого района: 10367841


In [8]:

min_pickups = taxi.groupby('borough')['pickups'].sum().idxmin()
print("Район с наименьшим числом поездок:", min_pickups)

Район с наименьшим числом поездок: EWR


In [9]:

avg_pickups_by_borough_hday = taxi.groupby(['borough', 'hday'])['pickups'].mean().unstack()
boroughs_with_more_pickups_on_holidays = avg_pickups_by_borough_hday[avg_pickups_by_borough_hday['Y'] > avg_pickups_by_borough_hday['N']]
print("Районы, из которых по выходным в среднем поступает больше заказов, чем в обычные дни:")
print(boroughs_with_more_pickups_on_holidays)

Районы, из которых по выходным в среднем поступает больше заказов, чем в обычные дни:
hday              N           Y
borough                        
EWR        0.023467    0.041916
Queens   308.899904  320.730539


In [10]:

pickups_by_month_borough = taxi.groupby(['borough', 'pickup_month'])['pickups'].sum().reset_index()
pickups_by_month_borough.rename(columns={'pickups': 'pickups'}, inplace=True)
pickups_by_mon_bor = pickups_by_month_borough.sort_values(by=['pickups'], ascending=False)
print(pickups_by_mon_bor.head())

      borough pickup_month  pickups
21  Manhattan          Jun  1995388
23  Manhattan          May  1888800
19  Manhattan          Feb  1718571
22  Manhattan          Mar  1661261
18  Manhattan          Apr  1648278


In [11]:

def temp_to_celsius(temp_f):

    temp_c = ((temp_f - 32) * 5.0) / 9.0
    return temp_c


taxi['temp_celsius'] = temp_to_celsius(taxi['temp'])

print(taxi[['temp', 'temp_celsius']].head())


   temp  temp_celsius
0  30.0     -1.111111
1  30.0     -1.111111
2  30.0     -1.111111
3  30.0     -1.111111
4  30.0     -1.111111
