In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

# Индексация DataFrame и Series и анализ данных
Ранее мы говорили, что главная особенность типов данных Pandas заключается в индексах у строк и столбцов. Теперь рассмотрим вытекающие из этого преимущества. Но для этого лучше всего воспользоваться осмысленными наборами данных.

# Датасеты
В качестве осмысленных наборов данных воспользуемся классическими ML-датасетами. Загрузить их можно при помощи функции `seaborn.load_dataset(имядатасета)` из пакета `seaborn`, который вообще-то, используется для построения графиков. Полный список датасетов из `seaborn` можно [посмотреть здесь](https://github.com/mwaskom/seaborn-data).

Возьмём в качестве примера датасет Planets, который содержит информацию об известных на данный момент экзопланетах:

In [2]:
planets = sns.load_dataset('planets')

# Посмотрим, что у нас в нём:
planets.head(5)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Описание колонок:
* method - способ детектирования
* number - количество планет в системе
* orbital_period - время обращения в сутках
* mass - масса в земных массах
* distance - расстояние в парсеках
* year - год обнаружения

## Индексация по значению признака
Допустим, нас не интересуют все планеты из списка, а лишь те, которые были открыты позже 2010 года. Для этого мы можем профильтровать исходный `DataFrame` по значению признака `year`.

Вспомним, что каждая колонка это самостоятельный объект `Series`, который, в свою очередь, является обёрткой для `ndarray`. Значит, мы можем применить многие операции, применимые к `ndarray`. Например, посмотрим на результат операции сравнения:

In [3]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
recently_discovered.head()

0    False
1    False
2     True
3    False
4    False
Name: year, dtype: bool

Результатом окажется `Series`, наполненные булевыми значениями. Очень кстати, что порядок и индексы сохраняют своё соответствие записям в исходном `DataFrame`. Стало быть, такой `Series` можно использовать как маску для исходного `DataFrame`:

In [4]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
recently_discovered_planets = planets[recently_discovered]
recently_discovered_planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
2,Radial Velocity,1,763.0,2.6,19.84,2011
20,Radial Velocity,5,0.73654,,12.53,2011
26,Radial Velocity,1,691.9,,81.5,2012
28,Radial Velocity,1,181.4,3.2,45.52,2013
34,Imaging,1,,,145.0,2013


Мы получили новый объект `DataFrame`, содержащий информацию только о планетах, обнаруженых после 2010 года. 
Обратите внимание на получившийся индекс. Они соответствуют индексам записей исходного `DataFrame` 

Можно сделать то же самое даже не создавая новый `DataFrame` и немного компактнее:

In [5]:
planets = sns.load_dataset('planets')
planets[planets['year'] > 2010].head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
2,Radial Velocity,1,763.0,2.6,19.84,2011
20,Radial Velocity,5,0.73654,,12.53,2011
26,Radial Velocity,1,691.9,,81.5,2012
28,Radial Velocity,1,181.4,3.2,45.52,2013
34,Imaging,1,,,145.0,2013


Разумеется, можно комбинировать условия:

In [6]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
by_imaging = planets['method'] == 'Imaging'

targets = planets[recently_discovered & by_imaging]
targets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
34,Imaging,1,,,145.0,2013
54,Imaging,1,,,52.03,2012
70,Imaging,1,,,36.0,2013
89,Imaging,1,10037.5,,23.1,2011
124,Imaging,1,,,17.95,2013
