## Обработка данных Scottish Hill Races средствами библиотеки pandas

Исходные данные - массив `NumPy` из файла `"arr_pandas.npy"`, который содержит данные по результатам соревнований Scottish Hill Races в 2000 году (полное описание на английском языке можно посмотреть на [странице](https://vincentarelbundock.github.io/Rdatasets/doc/DAAG/races2000.html) с документацией по исходному файлу с данными).

In [None]:
import pandas as pd
import numpy as np

In [None]:
### Для загрузки файла массива с компьютера на Colab (предварительно его можно закачать по ссылке:
### https://drive.google.com/file/d/1-kjAdMXlcLuGHWcOA0WReCvJw-U9lj-F/view):
# from google.colab import files
# files.upload()

In [None]:
arr = np.load("arr_pandas.npy", allow_pickle=True)
dat = pd.DataFrame(arr)
print('Массив, преобразованный в датафрейм pandas:')
dat

Массив, преобразованный в датафрейм pandas:


Unnamed: 0,0,1,2,3,4,5
0,Aonach Mor Gondola,2.0,2000,0.403611,0.518889,uphill
1,Broughton Brewery,2.0,650,0.254444,0.316667,other
2,El-Brim-Ick,3.0,750,0.485833,0.389167,other
3,The Devils Burdens,21.0,4100,2.399722,3.093333,relay
4,Tiso Carnethy,6.0,2500,0.782222,0.919167,hill
...,...,...,...,...,...,...
72,Tinto,4.5,1500,0.499444,0.581111,hill
73,Druim Fada,6.5,1000,0.751111,0.972222,other
74,Elrick,3.6,650,0.358056,0.4425,relay
75,Gondola,2.5,2000,0.387222,0.518889,uphill


In [None]:
print(f'В датафрейме {dat.shape[0]} строк и {dat.shape[1]} столбцов')

В датафрейме 77 строк и 6 столбцов


In [None]:
dat.columns = ['id', 'dist', 'climb', 'time', 'timef', 'type']
print('Датафрейм с новыми названиями столбцов:')
dat

Датафрейм с новыми названиями столбцов:


Unnamed: 0,id,dist,climb,time,timef,type
0,Aonach Mor Gondola,2.0,2000,0.403611,0.518889,uphill
1,Broughton Brewery,2.0,650,0.254444,0.316667,other
2,El-Brim-Ick,3.0,750,0.485833,0.389167,other
3,The Devils Burdens,21.0,4100,2.399722,3.093333,relay
4,Tiso Carnethy,6.0,2500,0.782222,0.919167,hill
...,...,...,...,...,...,...
72,Tinto,4.5,1500,0.499444,0.581111,hill
73,Druim Fada,6.5,1000,0.751111,0.972222,other
74,Elrick,3.6,650,0.358056,0.4425,relay
75,Gondola,2.5,2000,0.387222,0.518889,uphill


Пояснения по названиям столбцов:
* `id`: id участника
* `dist`: расстояние в милях (по карте)
* `climb`: высота, достигнутая на маршруте (в сумме за весь маршрут, в футах)
* `time`: время (в часах)
* `timef`: время для женщин (в часах)
* `type`: тип гонки (*hill*, *marathon*, *relay*, *uphill* or *other*)

In [None]:
dat.index = dat['id']
name = "Norman's Law"
print(f'Высота, достигнутая участником {name}, равна {dat.loc[name, "climb"]} футов')

Высота, достигнутая участником Norman's Law, равна 700 футов


In [None]:
print('Значения показателей расстояния, высоты и времени для первых 10 участников:')
dat.loc[dat.iloc[:10, 0], ['dist', 'climb', 'time']]

Значения показателей расстояния, высоты и времени для первых 10 участников:


Unnamed: 0_level_0,dist,climb,time
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aonach Mor Gondola,2.0,2000,0.403611
Broughton Brewery,2.0,650,0.254444
El-Brim-Ick,3.0,750,0.485833
The Devils Burdens,21.0,4100,2.399722
Tiso Carnethy,6.0,2500,0.782222
Criffel,7.0,1800,0.793333
Chapelgill,1.5,1400,0.314444
Norman's Law,5.0,700,0.464167
Craig Dunain,6.0,900,0.546111
Knockfarrel,5.0,1200,0.623333


In [None]:
print('Сводная информация по датафрейму:')
dat.info()

Сводная информация по датафрейму:
<class 'pandas.core.frame.DataFrame'>
Index: 77 entries, Aonach Mor Gondola to Greenmantle
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      77 non-null     object
 1   dist    77 non-null     object
 2   climb   77 non-null     object
 3   time    77 non-null     object
 4   timef   75 non-null     object
 5   type    77 non-null     object
dtypes: object(6)
memory usage: 6.3+ KB


В коде нет ни одного столбца типа float

In [None]:
print('Показатели участников эстафеты (relay):')
dat[dat['type'] == 'relay']

Показатели участников эстафеты (relay):


Unnamed: 0_level_0,id,dist,climb,time,timef,type
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
The Devils Burdens,The Devils Burdens,21.0,4100,2.399722,3.093333,relay
Ben Rha,Ben Rha,7.5,800,0.738056,0.997222,relay
Elrick,Elrick,3.6,650,0.358056,0.4425,relay


### Задание 8

Выбрать строки, которые соответствуют участникам гонки в холмах (*hill*), которые в сумме достигли высоты более 1000 футов. Посчитать, сколько таких участников.

In [None]:
height = 1000
hh = dat[(dat['type'] == 'hill') & (dat['climb'] > height)]
print(f'На гонке в холмах (hill) {hh.shape[0]} участников достигли высоты более {height} футов')

На гонке в холмах (hill) 39 участников достигли высоты более 1000 футов


In [None]:
height1 = 4000
time1 = 0.5
print(f'Показатели участников, которые либо достигли высоты более {height1} футов либо потратили менее {time1} часов:')
dat[(dat['climb'] > height1) | (dat['time'] < time1)]

Показатели участников, которые либо достигли высоты более 4000 футов либо потратили менее 0.5 часов:


Unnamed: 0_level_0,id,dist,climb,time,timef,type
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Aonach Mor Gondola,Aonach Mor Gondola,2.0,2000,0.403611,0.518889,uphill
Broughton Brewery,Broughton Brewery,2.0,650,0.254444,0.316667,other
El-Brim-Ick,El-Brim-Ick,3.0,750,0.485833,0.389167,other
The Devils Burdens,The Devils Burdens,21.0,4100,2.399722,3.093333,relay
Chapelgill,Chapelgill,1.5,1400,0.314444,0.376667,hill
Norman's Law,Norman's Law,5.0,700,0.464167,0.609167,hill
Screel,Screel,4.0,1300,0.458889,0.543611,hill
Hunters Bog,Hunters Bog,4.5,800,0.409444,0.477778,other
Aberfoyle Dash,Aberfoyle Dash,3.0,1000,0.3375,0.381389,uphill
Manx Mountain,Manx Mountain,30.5,8000,4.469722,5.523333,marathon


In [None]:
dat['time_min'] = dat['time'] * 60
print('Датафрейм с новым столбцом \'time_min\', который содержит время маршрута, измеренное в минутах:')
dat

Датафрейм с новым столбцом 'time_min', который содержит время маршрута, измеренное в минутах:


Unnamed: 0_level_0,id,dist,climb,time,timef,type,time_min
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aonach Mor Gondola,Aonach Mor Gondola,2.0,2000,0.403611,0.518889,uphill,24.216667
Broughton Brewery,Broughton Brewery,2.0,650,0.254444,0.316667,other,15.266667
El-Brim-Ick,El-Brim-Ick,3.0,750,0.485833,0.389167,other,29.15
The Devils Burdens,The Devils Burdens,21.0,4100,2.399722,3.093333,relay,143.983333
Tiso Carnethy,Tiso Carnethy,6.0,2500,0.782222,0.919167,hill,46.933333
...,...,...,...,...,...,...,...
Tinto,Tinto,4.5,1500,0.499444,0.581111,hill,29.966667
Druim Fada,Druim Fada,6.5,1000,0.751111,0.972222,other,45.066667
Elrick,Elrick,3.6,650,0.358056,0.4425,relay,21.483333
Gondola,Gondola,2.5,2000,0.387222,0.518889,uphill,23.233333


In [None]:
dat['year'] = 2000
print('Датафрейм с новым столбцом \'year\' с годом соревнований:')
dat

Датафрейм с новым столбцом 'year' с годом соревнований:


Unnamed: 0_level_0,id,dist,climb,time,timef,type,time_min,year
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Aonach Mor Gondola,Aonach Mor Gondola,2.0,2000,0.403611,0.518889,uphill,24.216667,2000
Broughton Brewery,Broughton Brewery,2.0,650,0.254444,0.316667,other,15.266667,2000
El-Brim-Ick,El-Brim-Ick,3.0,750,0.485833,0.389167,other,29.15,2000
The Devils Burdens,The Devils Burdens,21.0,4100,2.399722,3.093333,relay,143.983333,2000
Tiso Carnethy,Tiso Carnethy,6.0,2500,0.782222,0.919167,hill,46.933333,2000
...,...,...,...,...,...,...,...,...
Tinto,Tinto,4.5,1500,0.499444,0.581111,hill,29.966667,2000
Druim Fada,Druim Fada,6.5,1000,0.751111,0.972222,other,45.066667,2000
Elrick,Elrick,3.6,650,0.358056,0.4425,relay,21.483333,2000
Gondola,Gondola,2.5,2000,0.387222,0.518889,uphill,23.233333,2000
