# Ранжирование данных о росте и весе студентов

Импортируем данные в таблице на странице в интернете.

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sex</th>
      <th>weight</th>
      <th>height</th>
      <th>repwt</th>
      <th>repht</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>1</th>
      <td>M</td>
      <td>77</td>
      <td>182</td>
      <td>77.0</td>
      <td>180.0</td>
    </tr>
    <tr>
      <th>2</th>
      <td>F</td>
      <td>58</td>
      <td>161</td>
      <td>51.0</td>
      <td>159.0</td>
    </tr>
    <tr>
      <th>3</th>
      <td>F</td>
      <td>53</td>
      <td>161</td>
      <td>54.0</td>
      <td>158.0</td>
    </tr>
    <tr>
      <th>4</th>
      <td>M</td>
      <td>68</td>
      <td>177</td>
      <td>70.0</td>
      <td>175.0</td>
    </tr>
    <tr>
      <th>5</th>
      <td>F</td>
      <td>59</td>
      <td>157</td>
      <td>59.0</td>
      <td>155.0</td>
    </tr>
  </tbody>
</table>

In [1]:
%pylab inline
import pandas as pd
from io import StringIO

Populating the interactive namespace from numpy and matplotlib


In [2]:
# Выделяем/копируем текст таблицы и превращаем его в буфер, из которого создаем DataFrame
D = pd.read_table(StringIO('''
sex	m, kg	h, cm
F	59	166
F	43	154
M	85	191
F	54	171
F	54	164
F	56	162
M	69	174
F	68	178
F	56	165

'''))
D

Unnamed: 0,sex,"m, kg","h, cm"
0,F,59,166
1,F,43,154
2,M,85,191
3,F,54,171
4,F,54,164
5,F,56,162
6,M,69,174
7,F,68,178
8,F,56,165


Две последние колонки - субъективные данные. Там встречаются пропуски - `NaN`.

Посмотрим описательную статистику по колонкам и распределение значений.

In [None]:
massa = D['m, kg']
rost = D['h, cm']
# D['bmi'] = 
massa / (rost/100.) ** 2

Если результат добавить в таблицу в виде новой колонки, то результат расчета по каждой записи будет располагаться в соответствующей строке, что поможет сопоставить значения из разных колонок.

При выборе любой колонки из таблицы значения в этой колонке сопровождаются индексами строк. Если нас интересует номер строки с наименьшим значением, то вместо `min` используем `argmin`. По-умолчанию индексом служит порядковый номер строки, начиная с 0. 

In [8]:
D['bmi'].argmin()

1

Тот же эффект можно получить записью через точку, но только если в названии колонки нет пробелов и русских букв.

In [9]:
i_samyj_tyazh = D.bmi.argmax()
i_samyj_tyazh

2

По индексу можно посмотреть всю информацию для этого субъекта.

In [17]:
D.loc[i_samyj_tyazh]

sex            M
m, kg         85
h, cm        191
bmi      23.2998
Name: 2, dtype: object

Для отбора по условию можно применять те же методы к подвыборке.

In [18]:
D[D.sex=='F']['h, cm'].rank()

0    5.0
1    1.0
3    6.0
4    3.0
5    2.0
7    7.0
8    4.0
Name: h, cm, dtype: float64

Ранг - порядковый номер данного значения в отсортированном по возрастанию ряду.
Например, девушка с индексом 0, имеет ранг 5, если считать от самой маленькой, и она же 3-я по росту, если считать, как это принято, от самой высокой.

То есть, если в вопросе указано - "4-я по росту девушка", а всего девушек 7, то значит имеется в виду девушка с рангом 4. Чтобы получить ее индекс вычтем ранг из общего количества и прибавим 1  (так ранг 7 - это первая по росту).

In [21]:
nDevu = D[D.sex=='F'].shape[0]  #отбираем только девушек и сохраняем количество строк
(nDevu+1) - D[D.sex=='F']['h, cm'].rank()

0    3.0
1    7.0
3    2.0
4    5.0
5    6.0
7    1.0
8    4.0
Name: h, cm, dtype: float64

В реальных задачах все значения, "привязанные" к отдельным строкам, удобнее добавить в таблицу в виде новой колонки.

In [None]:
# D["по росту девушка"] = ...
# D