## Продолжаем обрабатывать данные NHL с помощью Pandas

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime, date
# Задаём количество выводимых колонок
pd.set_option('display.max_columns', 12)
import matplotlib.pyplot as plt

Загружаем данные из CSV-файла и «превращаем» колонку `birthDate` в «настоящие» даты:

In [2]:
path = 'player_info.csv'
t = pd.read_csv(path, sep = ",", parse_dates = ["birthDate"])

Теперь мы можем отсортировать данные по убыванию даты рождения (для записей с одинаковыми датами рождения выполним лексикографическую сортировку по фамилии и имени). Параметр `inplace` позволяет изменить исходную таблицу
(точнее, объект DataFrame), а не создавать новую.

In [3]:
t.sort_values(by=['birthDate', 'lastName', 'firstName'], ascending=[False, True, True], inplace = True)
t

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,birthStateProvince,height,height_cm,weight,shootsCatches
3868,8481582,Nicholas,Robertson,USA,Pasadena,LW,2001-09-11 01:00:00,CA,"5' 9""",175.26,164.0,L
3878,8481581,Thomas,Harley,USA,Syracuse,D,2001-08-19 01:00:00,NY,"6' 3""",190.50,190.0,L
3847,8481598,Philip,Broberg,SWE,Orebro,D,2001-06-25 01:00:00,,"6' 3""",190.50,199.0,L
3866,8481524,Bowen,Byram,CAN,Cranbrook,D,2001-06-13 01:00:00,BC,"6' 1""",185.42,190.0,L
3681,8481559,Jack,Hughes,USA,Orlando,C,2001-05-14 01:00:00,FL,"5' 11""",180.34,170.0,L
...,...,...,...,...,...,...,...,...,...,...,...,...
3276,8449745,Larry,Murphy,CAN,Scarborough,D,1961-03-08 00:00:00,ON,"6' 1""",185.42,215.0,R
2689,8449573,Mark,Messier,CAN,Edmonton,C,1961-01-18 00:00:00,AB,"6' 2""",187.96,211.0,L
3284,8445621,Ray,Bourque,CAN,Montreal,D,1960-12-28 00:00:00,QC,"6' 0""",182.88,223.0,L
2773,8448669,Igor,Larionov,RUS,Voskresensk,C,1960-12-03 00:00:00,,"5' 11""",180.34,170.0,L


Мы уже знаем, как выбрать только игроков из России и Финляндии:

In [4]:
t[(t['nationality'] == 'RUS') | (t['nationality'] == 'FIN')]

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,birthStateProvince,height,height_cm,weight,shootsCatches
3653,8481572,Ville,Heinola,FIN,Honkajoki,D,2001-03-02 00:00:00,,"5' 11""",180.34,178.0,L
3654,8481554,Kaapo,Kakko,FIN,Turku,RW,2001-02-13 00:00:00,,"6' 3""",190.50,199.0,L
3663,8480829,Jesperi,Kotkaniemi,FIN,Pori,C,2000-07-06 01:00:00,,"6' 2""",187.96,198.0,L
3864,8481178,Egor,Zamula,RUS,Chelyabinsk,D,2000-03-30 01:00:00,,"6' 3""",190.50,177.0,L
3665,8480830,Andrei,Svechnikov,RUS,Barnaul,RW,2000-03-26 00:00:00,,"6' 2""",187.96,195.0,L
...,...,...,...,...,...,...,...,...,...,...,...,...
3406,8458672,Dmitri,Mironov,RUS,Moscow,D,1965-12-25 00:00:00,,"6' 4""",193.04,227.0,R
3286,8459672,German,Titov,RUS,Moscow,C,1965-10-16 01:00:00,,"6' 1""",185.42,203.0,L
3395,8447363,Alexei,Gusarov,RUS,Moscow,D,1964-07-08 01:00:00,,"6' 2""",187.96,200.0,L
3312,8457491,Sergei,Nemchinov,RUS,Moscow,LW,1964-01-14 00:00:00,,"6' 1""",185.42,205.0,L


Благодаря наличию в колонке birthDate «настоящих» дат можно найти всех несовершеннолетних игроков (совершеннолетие в США наступает в 21 год):

In [5]:
d = datetime.now()
d = d.replace(year=d.year-21)
display(d)
t[t['birthDate'] > d]

datetime.datetime(2000, 12, 18, 15, 40, 52, 968769)

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,birthStateProvince,height,height_cm,weight,shootsCatches
3868,8481582,Nicholas,Robertson,USA,Pasadena,LW,2001-09-11 01:00:00,CA,"5' 9""",175.26,164.0,L
3878,8481581,Thomas,Harley,USA,Syracuse,D,2001-08-19 01:00:00,NY,"6' 3""",190.5,190.0,L
3847,8481598,Philip,Broberg,SWE,Orebro,D,2001-06-25 01:00:00,,"6' 3""",190.5,199.0,L
3866,8481524,Bowen,Byram,CAN,Cranbrook,D,2001-06-13 01:00:00,BC,"6' 1""",185.42,190.0,L
3681,8481559,Jack,Hughes,USA,Orlando,C,2001-05-14 01:00:00,FL,"5' 11""",180.34,170.0,L
3706,8481600,Tobias,Bjornfot,SWE,Upplands Vasby,D,2001-04-06 01:00:00,,"6' 0""",182.88,202.0,L
3653,8481572,Ville,Heinola,FIN,Honkajoki,D,2001-03-02 00:00:00,,"5' 11""",180.34,178.0,L
3862,8481599,Victor,Soderstrom,SWE,Gavle,D,2001-02-26 00:00:00,,"5' 11""",180.34,179.0,R
3654,8481554,Kaapo,Kakko,FIN,Turku,RW,2001-02-13 00:00:00,,"6' 3""",190.5,199.0,L
3877,8481522,Peyton,Krebs,CAN,Calgary,C,2001-01-26 00:00:00,AB,"5' 11""",180.34,180.0,L


Метод `loc` позволяет выбирать строки с заданными значениями индекса:

In [6]:
t.loc[[1300,1206]]

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,birthStateProvince,height,height_cm,weight,shootsCatches
1300,8479138,Scott,Foster,,,G,1982-01-17,,,,,
1206,8479969,Griffen,Molino,USA,Trenton,C,1994-01-21,MI,"5' 11""",180.34,171.0,L


С помощью `loc` можно получить и значение конкретной ячейки DataFrame (или нескольких ячеек):

In [22]:
display(t.loc[[3711], ['firstName']])
t.loc[[3711], ['firstName', 'lastName', 'weight']]

Unnamed: 0,firstName
3711,Julien


Unnamed: 0,firstName,lastName,weight
3711,Julien,Gauthier,227.0


Метод `at` позволяет получить значение одной конкретной ячейки, но делает это гораздо быстрее, чем `loc`:

In [23]:
t.at[3711, 'firstName']

'Julien'

С помощью этого метода можно и изменить значение величины, содержащейся в ячейке:    

In [27]:
t.at[3711 ,'firstName'] = 'asKirby'
t.loc[[3711]]

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,birthStateProvince,height,height_cm,weight,shootsCatches
3711,8479328,asKirby,Gauthier,CAN,Pointe-aux-Trembles,RW,1997-10-15 01:00:00,QC,"6' 4""",193.04,227.0,R


Найти средний рост всех игроков NHL можно так:

In [32]:
t["height_cm"].mean()

185.72438551759308

Если нас интересует средний рост только российских игроков, то можно выполнить следующую команду:

In [33]:
t[t['nationality'] == 'RUS']["height_cm"].mean()

186.25457142857138

Очень часто полезно использовать фильтрацию колонок:

In [8]:
t2=t[['firstName', 'lastName', 'nationality', 'birthDate']]
t2

Unnamed: 0,firstName,lastName,nationality,birthDate
3868,Nicholas,Robertson,USA,2001-09-11 01:00:00
3878,Thomas,Harley,USA,2001-08-19 01:00:00
3847,Philip,Broberg,SWE,2001-06-25 01:00:00
3866,Bowen,Byram,CAN,2001-06-13 01:00:00
3681,Jack,Hughes,USA,2001-05-14 01:00:00
...,...,...,...,...
3276,Larry,Murphy,CAN,1961-03-08 00:00:00
2689,Mark,Messier,CAN,1961-01-18 00:00:00
3284,Ray,Bourque,CAN,1960-12-28 00:00:00
2773,Igor,Larionov,RUS,1960-12-03 00:00:00


Одна из статистических операций — частотный анализ. Выполним его для колонки `nationality`:

In [9]:
t3 = t2['nationality'].value_counts()
display(t3)
type(t3)

CAN    1896
USA     907
SWE     280
RUS     210
CZE     201
FIN     184
SVK      76
CHE      39
DEU      31
LVA      20
DNK      15
BLR       9
FRA       8
NOR       7
AUT       7
UKR       6
GBR       4
KAZ       4
LTU       2
SVN       2
POL       2
AUS       1
HRV       1
NGA       1
NLD       1
BHS       1
JPN       1
ITA       1
Name: nationality, dtype: int64

pandas.core.series.Series

Превращаем получившийся `Series` в `DataFrame`

In [10]:
t3.rename_axis('country').reset_index(name='count')

Unnamed: 0,country,count
0,CAN,1896
1,USA,907
2,SWE,280
3,RUS,210
4,CZE,201
5,FIN,184
6,SVK,76
7,CHE,39
8,DEU,31
9,LVA,20
