# Ранжирование данных о росте и весе студентов

Импортируем табличные данные из страницы в интернете.

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sex</th>
      <th>weight</th>
      <th>height</th>
      <th>repwt</th>
      <th>repht</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>1</th>
      <td>M</td>
      <td>77</td>
      <td>182</td>
      <td>77.0</td>
      <td>180.0</td>
    </tr>
    <tr>
      <th>2</th>
      <td>F</td>
      <td>58</td>
      <td>161</td>
      <td>51.0</td>
      <td>159.0</td>
    </tr>
    <tr>
      <th>3</th>
      <td>F</td>
      <td>53</td>
      <td>161</td>
      <td>54.0</td>
      <td>158.0</td>
    </tr>
    <tr>
      <th>4</th>
      <td>M</td>
      <td>68</td>
      <td>177</td>
      <td>70.0</td>
      <td>175.0</td>
    </tr>
    <tr>
      <th>5</th>
      <td>F</td>
      <td>59</td>
      <td>157</td>
      <td>59.0</td>
      <td>155.0</td>
    </tr>
  </tbody>
</table>

In [None]:
%pylab inline
import pandas as pd
from io import StringIO

In [None]:
# Выделяем/копируем текст таблицы и превращаем его в буфер, из которого создаем DataFrame
D = pd.read_table(StringIO('''
sex	m, kg	h, cm
F	59	166
F	43	154
M	85	191
F	54	171
F	54	164
F	56	162
M	69	174
F	68	178
F	56	165

'''))
D

В качестве упражнения можете скопировать табличку, расположенную в начале блокнота, сразу под заголовком, и вставить содержимое в предыдущую ячейку между тройными кавычками. Тройные кавычки позволяют задавать многострочные строки. Символы табуляции, разделяющие ячейки таблицы, выглядят как бледно-серые стрелочки. Если удалить стрелочку перед первым заголовком, то первая колонка чисел станет индексом. В противном случае будет создан автоматический индекс, начиная с 0, а исходные индексы будут вставлены как колонка без названия. 

Теперь, когда мы овладели приемом импорта табличных данных, скопированных в буфер в виде текста,
чтобы код в ячейках дальше работал без ошибок, верните исходное содержимое с помощью `Ctrl-Z`.
Убедитесь, что в переменной `D` находится набор данных из девяти строк и трех колонок.

In [None]:
massa = D['m, kg']
rost = D['h, cm']
# D['bmi'] = ...
massa / (rost/100.) ** 2

Если результат добавить в таблицу в виде новой колонки, то результат расчета по каждой записи будет располагаться в соответствующей строке, что поможет сопоставить значения из разных колонок. 

> <div style="color:rgba(0,0,0,0.2);">Для вставки новой колонки слева от знака равно указываем название колонки, а справа выражение для расчета значений, которые мы хотим в эту колонку поместить.
<tt>D['новая колонка'] = выражение</tt>
    Для отображения результата добавьте команду <tt>D</tt>, чтобы посмотреть текущее состояние переменной D.
</div>

Теперь, когда у нас есть колонка `bmi`, мы можем ее визуализировать для наглядности. При выборе любой колонки из таблицы значения в этой колонке сопровождаются индексами строк. По-умолчанию индексом служит порядковый номер строки, начиная с 0. 

При визуализации одной серии значений, в качестве аргумента функции (x) выступает индекс (номер строки), а в качестве значения функции (y) - само это значение.

In [None]:
D['bmi'].plot(style='o-');

Значения откладываются по оси ординат, а по оси абсцисс - соответствующие индексы или порядковые номера значений.
Из рисунка ясно, что значения не упорядочены. Чтобы выстроить значения по возрастанию, мы двигаемся по рисунку вдоль оси ординат снизу вверх. 

Ранжирование - расположение данных от наименьшего к наибольшему. Наименьшее значение получаем с помощью функции `min`.

In [None]:
min(D['bmi'])

In [None]:
(D['bmi']).min()

Таким образом, на вход функции `min` мы подаем серию значений, а на выходе получаем одно значение - самое маленькое. 

На графике наименьшему значению соответствует точка, расположенная ниже всех, и минимум - это ее координата по оси ординат. Аргументом функции визуализации всей серии, т.е. координатами по оси абсцисс, служили индексы. Соответственно, координата той же точки по оси абсцисс будет аргументом функции в точке, где она минимальна.

Если нас интересует индекс наименьшего значения, то вместо `min` используем `argmin`. 

In [None]:
D['bmi'].argmin()

Обращаться к колонке можно записью через точку, но только если в названии колонки нет пробелов и русских букв. Это бывает удобно, если у вас много колонок, и вы, начиная вводить название, используете клавишу `TAB` для подсказки.

In [None]:
i_samyj_tyazh = D.bmi.argmax()
i_samyj_tyazh

По индексу можно посмотреть всю информацию для этого субъекта.

In [None]:
D.loc[i_samyj_tyazh]

Для ранжирования удобно использовать метод `rank`.
Для отбора по условию можно применять те же методы к подвыборке.

```py
D                        # полный набор данных
D[D.sex=='F']            # подвыборка, в которой только девушки
D[D.sex=='F']['h, cm']   # только рост девушек
```

In [None]:
D[D.sex=='F']['h, cm'].rank()

Ранг - порядковый номер соответствующего значения в отсортированном по возрастанию ряду.
Например, девушка с индексом 0, имеет ранг 5, если считать от самой маленькой, и она же 3-я по росту, если считать, как это принято, от самой высокой.

То есть, если в вопросе указано - "4-я по росту девушка", а всего девушек 7, то значит имеется в виду девушка с рангом 4. Чтобы получить ее индекс вычтем ранг из общего количества и прибавим 1  (так ранг 7 - это первая по росту).

In [None]:
nDevu = D[D.sex=='F'].shape[0]  #отбираем только девушек и сохраняем количество строк
(nDevu+1) - D[D.sex=='F']['h, cm'].rank()

В реальных задачах все значения, "привязанные" к отдельным строкам, удобнее добавить в таблицу в виде новой колонки.

In [None]:
# D["по росту девушка"] = ...
# D