In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

# Индексация DataFrame и Series и анализ данных
Ранее мы говорили, что главная особенность типов данных Pandas заключается в индексах у строк и столбцов. Теперь рассмотрим вытекающие из этого преимущества. Но для этого лучше всего воспользоваться осмысленными наборами данных.

# Датасеты
В качестве осмысленных наборов данных воспользуемся классическими ML-датасетами. Загрузить их можно при помощи функции `seaborn.load_dataset(имядатасета)` из пакета `seaborn`, который вообще-то, используется для построения графиков. Полный список датасетов из `seaborn` можно [посмотреть здесь](https://github.com/mwaskom/seaborn-data).

Возьмём в качестве примера датасет Planets, который содержит информацию об известных на данный момент экзопланетах:

In [None]:
planets = sns.load_dataset('planets')

# Посмотрим, что у нас в нём:
planets.head(5)

Описание колонок:
* method - способ детектирования
* number - количество планет в системе
* orbital_period - время обращения в сутках
* mass - масса в земных массах
* distance - расстояние в парсеках
* year - год обнаружения

## Индексация по значению признака
Допустим, нас не интересуют все планеты из списка, а лишь те, которые были открыты позже 2010 года. Для этого мы можем профильтровать исходный `DataFrame` по значению признака `year`.

Вспомним, что каждая колонка это самостоятельный объект `Series`, который, в свою очередь, является обёрткой для `ndarray`. Значит, мы можем применить многие операции, применимые к `ndarray`. Например, посмотрим на результат операции сравнения:

In [None]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
recently_discovered.head()

Результатом окажется `Series`, наполненные булевыми значениями. Очень кстати, что порядок и индексы сохраняют своё соответствие записям в исходном `DataFrame`. Стало быть, такой `Series` можно использовать как маску для исходного `DataFrame`:

In [None]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
recently_discovered_planets = planets[recently_discovered]
recently_discovered_planets.head()

Мы получили новый объект `DataFrame`, содержащий информацию только о планетах, обнаруженых после 2010 года. 
Обратите внимание на получившийся индекс. Они соответствуют индексам записей исходного `DataFrame` 

Можно сделать то же самое даже не создавая новый `DataFrame` и немного компактнее:

In [None]:
planets = sns.load_dataset('planets')
planets[planets['year'] > 2010].head()

Разумеется, можно комбинировать условия:

In [None]:
planets = sns.load_dataset('planets')

recently_discovered = planets['year'] > 2010
by_imaging = planets['method'] == 'Imaging'

targets = planets[recently_discovered & by_imaging]
targets.head()