In [1]:
import pandas as pd
import numpy as np
import seaborn

# Анализ данных при помощи Pandas
Помимо манипулций с таблицами, Pandas предоставляет широкие возможности для статистического анализа рядов и таблиц. 

Освежим в памяти содержимое датасета planets.

In [2]:
planets = seaborn.load_dataset('planets')
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


## Series.describe()
У объектов `Series` существует замечательный метод `Series.describe()`. Он выдаёт основную информацию о распределении величины, представленной этим рядом:

In [3]:
planets = seaborn.load_dataset('planets')

print('Взглянем на года открытия экзопланет: ')
planets['year'].describe()

Взглянем на года открытия экзопланет: 


count    1035.000000
mean     2009.070531
std         3.972567
min      1989.000000
25%      2007.000000
50%      2010.000000
75%      2012.000000
max      2014.000000
Name: year, dtype: float64

Метод `describe` вернул информацию о 
* Количестве записей 
* Среднем значении года открытия
* Среднеквадратичном отклонение значения
* Год старейшей записи
* Первый квартиль
* Медиана
* Третий квартиль
* Год новейшей записи

По этим данным можно сделать вывод, например, что за последние 4 года было открыто столько же планет, сколько за предыдущие 20. А так же данные о начале миссии.

## Series.unique()
Для первичного анализа датасета полезно узнать все значения категориальных признаков. Для этого можно воспользоваться методом `Series.unique()`, который вернёт множество значений:

In [4]:
planets = seaborn.load_dataset('planets')
planets['method'].unique()

array(['Radial Velocity', 'Imaging', 'Eclipse Timing Variations',
       'Transit', 'Astrometry', 'Transit Timing Variations',
       'Orbital Brightness Modulation', 'Microlensing', 'Pulsar Timing',
       'Pulsation Timing Variations'], dtype=object)

## Series.value_counts()

Ещё один полезный для анализа данных метод объекта `Series`, который позволяет подсчитать количество значений признака:

In [5]:
planets = seaborn.load_dataset('planets')
planets['method'].value_counts()

Radial Velocity                  553
Transit                          397
Imaging                           38
Microlensing                      23
Eclipse Timing Variations          9
Pulsar Timing                      5
Transit Timing Variations          4
Orbital Brightness Modulation      3
Astrometry                         2
Pulsation Timing Variations        1
Name: method, dtype: int64

Теперь мы знаем не только какие методы используются, но и какие из них самые популярные или продуктивные

# Группировка
Важная часть анализа данных - это их грамотное обобщение. При помощи аггрегирующих функций можно понять природу огромных массивов данных. 
Для обощения используется функция `DataFrame.groupby()` в качестве которой передаются колонка или `list` колонок, по которым делается группировка

In [6]:
planets = seaborn.load_dataset('planets')
grouped = planets.groupby('year')

print(f'grouped: {grouped}')
print(f'type(grouped): {type(grouped)}')

grouped: <pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f08e2f34b00>
type(grouped): <class 'pandas.core.groupby.groupby.DataFrameGroupBy'>


Обратите внимание, что возвращаемое — не набор объектов `DataFrame` , а объект `DataFrameGroupBy`. 
Этот объект можно рассматривать как специальное представление объекта `DataFrame`, готовое к группировке, но не выполняющее никаких фактических вычислений до этапа применения агрегирования.

Чтобы получить результат, функция `DataFrame.groupby()` применяется с аггрегирующими функциями:
* count - подсчёт элементов
* min / max - минимальный/максимальный элемент
* mean / median / mode - среднее/медиана/мода
* std / var - среднеквадратичное отклонение / дисперсия

In [7]:
planets = seaborn.load_dataset('planets')
planets.groupby('year').count().head(20)

Unnamed: 0_level_0,method,number,orbital_period,mass,distance
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1989,1,1,1,1,1
1992,2,2,2,0,0
1994,1,1,1,0,0
1995,1,1,1,1,1
1996,6,6,6,4,6
1997,1,1,1,1,1
1998,5,5,5,5,5
1999,15,15,15,14,15
2000,16,16,16,14,16
2001,12,12,12,11,12


Теперь попробуем по паре индексов:

In [8]:
planets = seaborn.load_dataset('planets')

planets.groupby(['year', 'method']).count().head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,number,orbital_period,mass,distance
year,method,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1989,Radial Velocity,1,1,1,1
1992,Pulsar Timing,2,2,0,0
1994,Pulsar Timing,1,1,0,0
1995,Radial Velocity,1,1,1,1
1996,Radial Velocity,6,6,4,6
1997,Radial Velocity,1,1,1,1
1998,Radial Velocity,5,5,5,5
1999,Radial Velocity,15,15,14,15
2000,Radial Velocity,16,16,14,16
2001,Radial Velocity,12,12,11,12


Порядок колонок важен:

In [9]:
planets = seaborn.load_dataset('planets')

planets.groupby(['method', 'year']).count().head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,number,orbital_period,mass,distance
method,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,2010,1,1,0,1
Astrometry,2013,1,1,0,1
Eclipse Timing Variations,2008,2,2,0,2
Eclipse Timing Variations,2009,1,1,1,0
Eclipse Timing Variations,2010,2,2,0,2
Eclipse Timing Variations,2011,3,3,0,0
Eclipse Timing Variations,2012,1,1,1,0
Imaging,2004,3,0,0,3
Imaging,2005,1,0,0,1
Imaging,2006,4,1,0,2


In [10]:
Смена порядка в аргументе `DataFrame.groupby()` приводит к разным результатам, изменяя порядок группировки.

Однако, обратите внимание на индекс получившегося `DataFrame`. Он оказывается двухуровневым. И вообще оказывается объектом типа `MultiIndex`: 

SyntaxError: invalid syntax (<ipython-input-10-da70a46bf085>, line 1)

In [None]:
planets = seaborn.load_dataset('planets')

grouped = planets.groupby(['method', 'year']).count()
print(f'grouped.index = {grouped.index}')
print(f'\ntype(grouped.index) = {type(grouped.index)}',)

В обращении `MultiIndex` примерно такой же, как и знакомый нам ранее `Index`:

In [None]:
planets = seaborn.load_dataset('planets')

grouped = planets.groupby(['method', 'year']).count()
print("grouped.loc['Microlensing'] = ")
grouped.loc['Microlensing']

In [None]:
planets = seaborn.load_dataset('planets')

grouped = planets.groupby(['method', 'year']).count()
print("grouped.loc['Microlensing', 2004] = ")
grouped.loc['Microlensing', 2004]

Так же пытливый ум может заметить, что вроде как для аггрегации мы пользовались функцией `count()`, которая считает количество значений. 
Количество значений, по идее, должно совпадать с количеством записей, однако посмотрим ещё раз:

In [None]:
planets = seaborn.load_dataset('planets')

grouped = planets.groupby(['method', 'year']).count()
grouped.loc['Microlensing']

Проверим, что же там такое:

In [None]:
planets = seaborn.load_dataset('planets')
planets[planets['method'] == 'Microlensing'].head()

Делаем вывод, что count() не учитывает `NaN`

Так же помимо колонок, по которым происходит группировка, можно указывать колонки, по которым интересна аггрегация. 

Например, попытаемся извлечь информацию о том, на каких расстояниях работают те или иные методы обнаружения экзопланет. Выведем средние расстояния до звёздных систем для каждого из методов обнаружения:

In [None]:
planets = seaborn.load_dataset('planets')
planets.groupby('method')['distance'].mean()

Для получения более развёрнутой информации можем воспользоваться набором аггрегационных функций. Для этого применяется фукнция `.agg()` в которой перечисляются аггрегирующие функции:

In [None]:
planets = seaborn.load_dataset('planets')
planets.groupby('method')['distance'].agg(['min', 'mean', 'max'])

## Series.sort_values()
Так же для анализа бывает полезно упорядочить значения. Например, мы хотим знать о физических границах применимости методов:

In [None]:
planets = seaborn.load_dataset('planets')
grouped = planets.groupby('method')['distance'].agg(['min', 'mean', 'max'])

grouped.sort_values('max')

Теперь мы знаем, что предел для астрометрии всего 20 парсек, а транзитный метод может обнаружить на расстоянии 8500 парсек. А это, на минуточку, 27 тысяч световых лет.