Muslimov Arthur, Last Checkpoint: 04/08/2020

Важная часть анализа данных - это их эффективное обобщение.       <br/>
Одно число может сказать о природе огромнейшего набора данных.    <br/>
Здесь ты научишся получать сводные данные инструментами Pandas,   <br/>
начиная от простых операций, подобных тем, что ты видел в NumPy,  <br/>
заканчивая более сложными видами на основе понятия groupby.

In [2]:
import numpy as np
import pandas as pd

%xmode Minimal
%autosave 0

rng = np.random.RandomState(42)  # для одинакового рандома

class display(object):  # посмотри, что я нашёл в блокноте автора
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

Exception reporting mode: Minimal


Autosave disabled


# Данные о планетах

Воспользуемся набором данных "Планеты" (Planets) из пакета          <br/>
Seaborn (о нём в следующей главе). Набор включает в себя            <br/>
информацию об открытых астрономами планетах, вращающихся            <br/>
вокруг других звёзв, известных под названием ***внесолнечных        <br/>
планет*** или ***эксопланет*** (exoplanets). Скачать их можно так:

In [3]:
import seaborn as sns  # видимо, это традицинный импорт Seaborn
planets = sns.load_dataset('planets')  # Seaborn выдаст нам DataFrame
planets.shape

(1035, 6)

In [4]:
planets.head()  # взглянем на планеты

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Этот набор данных содержит определённую информацию  <br/>
о более чем 100 экзопланет, открытых до 2014 года.

# Простое агрегирование в библиотеке Pandas

Ты уже видел несколько возможностей NumPy в сфере агрегирования.    <br/>
Как и для одномерных массивов NumPy, для Series эти агрегирующие    <br/>
функции возвращают одно значение. Там мы это ещё называли сводкой.

In [5]:
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [6]:
ser.sum()  # наши старые знакомые. Ты помнишь их по массивам NumPy

2.811925491708157

In [7]:
ser.mean()

0.5623850983416314

В случае DataFrame, как и полагается, агрегирующие функции  <br/>
ведут себя в точности, как с двумерным массивом NumPy.

In [8]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [9]:
df.mean()  # тут также по умолчиню схлопывается первое измерение. Остаётся сводка по столбцам

A    0.477888
B    0.443420
dtype: float64

Но они также, как и все другие перекачивавшие в Pandas  <br/>
функции, заточены под нужды местных объектов.

In [10]:
df.mean(axis='columns')  # схлопываем второе измерение, т.е. столбцы

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

Объекты Series и DataFrame содержат в себе наверняка все    <br/>
методы, которые мы разбирали в прошлой главе. У них есть    <br/>
даже небольшой бонус - метод `describe()`, выдающий сразу   <br/>
несколько самых популярных сводных показателей для каждого  <br/>
столбца. Давай посмотрим, что он выдаст по планетам

In [11]:
planets.dropna().describe()  # dropna(): лучше сразу сбросим не до конца изученные планеты

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


Эта возможность очень удобна для первоначального знакомства        <br/>
с набором данных. Например, мы видим, что первая экзопланета       <br/>
была открыта в далёком 1989 году, а половина всех известных        <br/>
экзопланет не ранее 2010 года. В значительно степени мы обязаны    <br/>
этим миссии *"Кеплер"*, представляющей собой космический           <br/>
телескоп, специально разработанный для поиска затмений от планет,  <br/>
вращающихся вокруг других звёзд.

А вот и таблица основных встроенных агрегирующих методов Pandas:

**Агрегирующая функция** | **Описание**
:------------------------|:-----------------------------------------------
`count()`                | Общее количество элементов (как атрибут `size`)
`first(), last()`        | Первый и последний элемент
`mean(), median()`       | Среднее значение и медиана
`min(), max()`           | Минимум и максимум
`std(), var()`           | Стандартное отклонение и дисперсия
`mad()`                  | Среднее абсолютное отклонение
`prod()`                 | Произведение всех элементов
`sum()`                  | Сумма всех элементов

Как говорит автор, это все методы объектов DataFrame и Series.

Более глубокого анализа данных простые сводные функции не вывозят.  <br/>
Следующий уровень - это groupby, позвяляющий быстро и эффективно    <br/>
вычислять сводные показатели по подмножествам данных.

# GroupBy: разбиение, применение, объединение

Простое агрегирование даёт возможность прочувствовать данные,        <br/>
но этого может быть мало. Иногда нужно выполнить агрегирование       <br/>
по какой-либо метке или индексу. Это и даёт операция GroupBy.        <br/>
Название group by (что означает "сгруппировать по") берёт начало     <br/>
от одноимённой команды в языке SQL баз данных, но, возмножно,        <br/>
будет понятнее говорить о ней терминами, придуманными новозеландцем  <br/>
Хендли Викхемом, известным по своим библиотекам языка R:             <br/>
***разбиение***, ***применение***, ***объединение***.

### Разбиение, применение и объединение

- Шаг ***разбиения*** - ... разбиение на части и группировка объекта           <br/>
  DataFrame на основе значений заданного ключа.                                <br/>
- Шаг ***применения*** - это вычисление какой-либо функции, обычно             <br/>
  агрегирующей, преобразование или фильтрацию в пределах отдельных групп       <br/>
- На шаге ***обхединения*** выполняется слияние результатов в выходной массив

А вот и канонический пример (тут мы складываем):
![Визуальное представление операции GroupBy](./groupby-mode.jpg)

Да, суть очень проста. Мы могли бы сделать это вручную, для этого             <br/>
мы знаем достаточно, но важно понимать, что ***не обязательно создавать       <br/>
объекты для промежуточных разбиений***. Операция GroupBy может сделать        <br/>
всё это за один проход по данным, вычилсяя сумму, среднее, количество,        <br/>
минимум и другие сводные показатели для каждой группы. Мощь GroupBy           <br/>
в абстрагировании от этих шагов. Тебе не нужно заботиться о том, ***как***    <br/>
выполняются вычисления. Вместо этого можно думать об ***операции в целом***.

В качестве примера, давай повторим то, что показано на рисунке.

In [12]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])  # columns можно было не задавать
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


Операци GroupBy делается методом ... `groupby()` объекта DataFrame.

In [13]:
df.groupby('key')  # ему передаётся имя ключевого столбца

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7faa940d0f50>

Заметь, мы получили не набор объектов DataFrame, а кое-что        <br/>
лучше - объект DataFrameGroupBy. Можешь считать, что это          <br/>
DataFrame, готовый к группировке. Метод "отложенного вычисления"  <br/>
даёт возможность очень эффективной реализации агрегирующих        <br/>
функций, причём, он довольно прозрачный для пользователя.

Чтобы всё-таки получить результат, можно просто вызвать  <br/>
какую-нибудь агрегирующую функцию этого объекта.

In [14]:
df.groupby('key').sum()  # тут уже происходит применение и объединение

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


Заметь, выбранный столбец стал индексом.

Метод `sum()` - лишь один из возможных вариантов. Тебе доступны  <br/>
почти все известные тебе агрегирующие методы как Pandas, так и NumPy.

### Объект GroupBy

Это очень удобная штука. С ней можно обращаться как с коллекцией  <br/>
DataFrame объектов. Рассматривать мы будем всё те же планеты.

Вероятно, самые важные из доступных благодарся GroupBy операций -  
это ***агрегирование***, ***фильтрация***, ***преобразование*** и ***применение***.  
Мы обсудим здесь каждую из них, но сначала познакомимся с другими  
возможностями, которую можно использовать вместе с GroupBy.

**Индексация по столбцам.** Объект GroupBy, также как и классический  <br/>
DataFrame поддерживает индексацию по столбцам.

In [15]:
planets.head(3)  # напоминалка

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011


In [16]:
planets.groupby('method')  # группировать мы будет по столбцу method

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7faa68677f90>

In [17]:
planets.groupby('method')['orbital_period']  # только мы получаем не Series, а модифицированный GroupBy

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7faa686aef50>

Здесь мы выбрали уже конкретный Series. Как и в случае  <br/>
с объектом GroubBy, ничего не вычисляется до вызова     <br/>
для этого объекта какого-нибудь агрегирующего метода.

In [18]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

Заметь, всё отсортировано по имена групп.

Теперь мы знаем средние показатели чувствительности  <br/>
по каждому из методов наблюдения за планетами.

**Цикл по группам.** Объект GroupBy способен итерироваться по циклу,     <br/>
выдавая первым имя группы, а затем и Series или DataFrame объект.

In [19]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))  # ~си-стайл форматированного вывода

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


Это может пригодится, если ты хочешь сделать что-то вручную, хотя  <br/>
быстрее будет воспользоваться методом `apply()` (об этом позже).

**Методы диспетчеризации.** Тут, насколько я понял, методы,         <br/>
которых нет у объекта GroupBy, передаются ему от объектов Series    <br/>
или DataFrame с помощью магии наследования. Выполняются   они       <br/>
будут уже с его группами. Например, мы можем вызвать `describe()`.

In [20]:
planets.groupby('method')['year'].describe()  # у GroubBy нет метода describe(), а у SeriesGroubBy есть

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


Теперь у нас есть удобный вид показателей каждого метода.          <br/>
Мы легко можем увидеть, что большинство экзопланет было            <br/>
открыто методом измерения лучевой скорости (radial velocity        <br/>
method) и транзитным методом (transit method), хотя последний      <br/>
получил распространёние благодаря новым более точным телескопам    <br/>
только в последнее десятилетие. Похоже, что новейшими методами     <br/>
в 2014 году были метод вариации времени транзитов (transit timing  <br/>
variation) и метод модуляции орбитальной яркости (orbital          <br/>
brightness modulation), которые до 2011 года не использовались.

### Агрегирование, фильтрация, преобразование, применение

Пока что из агрегирования ты видел только операцию объединения,  <br/>
но тут есть ещё много вкусного. В частности, GroupBy обладает    <br/>
такими методами, как `aggregate()`, `fitler()`, `transform()`    <br/>
и `apply()`, и все они эффективно выполняют множество полезных   <br/>
операций до объединения сгруппированных данных.

Представляю нашего нового подопытного на ближайшее время:

In [21]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                    columns=['key', 'data1', 'data2'])  # columns: задавать необязательно, но автор задаёт
df  # с ним произойдёт много интересного

Unnamed: 0,key,data1,data2
0,A,0,4
1,B,1,0
2,C,2,9
3,A,3,5
4,B,4,8
5,C,5,0


**Агрегирование.** Мы уже знакомы со стандартными          <br/>
сводными   методами, такими как `sum()` или `median()`,   <br/>
но метод   `aggregate()` обеспечивает ещё большую         <br/>
гибкость. На вход   он может принимать строку, функцию,   <br/>
и даже список, вычисляя всё сразу. Вот как это делается:

In [22]:
df.groupby('key').agg(['min', np.median, max])  # agg(): это такой псевдоним у aggregate()

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,4,4.5,5
B,1,2.5,4,0,4.0,8
C,2,3.5,5,0,4.5,9


Для удобства, ты так же можешь передать словарь,    <br/>
связывающий столбец и операции для этого столбца.

In [23]:
df.groupby('key').agg({'data1': min,
                       'data2': [np.median, 'max']})

Unnamed: 0_level_0,data1,data2,data2
Unnamed: 0_level_1,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,0,4.5,5
B,1,4.0,8
C,2,4.5,9


Этот метод доступен также из обычного Series и DataFrame.

**Фильтрация.** Эта операция опускает группы, не прошедшие проверку.  <br/>
Например, тебе могут быть нужны группы с большим разбросом по значениям.

In [24]:
def filter_func(x):  # наш фильтр
    return x['data2'].std() > 4  # возвращает True или False

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

Unnamed: 0,key,data1,data2
0,A,0,4
1,B,1,0
2,C,2,9
3,A,3,5
4,B,4,8
5,C,5,0

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,0.707107
B,2.12132,5.656854
C,2.12132,6.363961

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,9
4,B,4,8
5,C,5,0


Как мы видим, группа `A` не прошла фильтрацию.

Тут не стоит путать с методом `filter()` обычных Series и  <br/>
DataFrame, который фильтрует, скорее, по именам индексов.

**Преобразование.** Это тоже не агрегирующая функция.  <br/>
Она лишь трансоформирует, т.е. изменяет значения       <br/>
входного объекта. Автор чётко акцентирует на том,      <br/>
что выходной объект будет иметь форму входного.

In [25]:
df.groupby('key').transform(lambda x: x - x.mean())  # помнишь про лямбда выражения? И я не помню,
                                                     # т.к. никогда в деле их не использовал.
                                                     # Если кратко, это такая минифункция. 
                                                     # (lambda x: x - 1)(4) == 3

Unnamed: 0,data1,data2
0,-1.5,-0.5
1,-1.5,-4.0
2,-1.5,4.5
3,1.5,0.5
4,1.5,4.0
5,1.5,-4.5


Кажется мы потеряли столбец `key`... ну, может потому что   <br/>
он был чем-то вроде индекса для групп, а группы сложились.

У простых Series и DataFrame этот метод тоже есть,  <br/>
правда, он наверное там бесполезен, т.к. там всё    <br/>
можно сделать стандартными методами.

In [26]:
display("df[['data1', 'data2']] - 1", "df[['data1', 'data2']].transform(lambda x: x - 1)")

Unnamed: 0,data1,data2
0,-1,3
1,0,-1
2,1,8
3,2,4
4,3,7
5,4,-1

Unnamed: 0,data1,data2
0,-1,3
1,0,-1
2,1,8
3,2,4
4,3,7
5,4,-1


Да, они одинаковы. Может, это пригодится, если   <br/>
ты захочешь сделать что-то своё, более сложное.

Замечено, что метод обычного Series или DataFrame способен  <br/>
принимать список функций и выдавать объект другой формы.    <br/>
Ещё интересно то, что столбец строк `key` тоже здесь есть,  <br/>
но только после обработки лямбда выражением. Наверное это   <br/>
связано с тем, что там попросту не происходит исключения.

In [27]:
def myfunc(x):
    return x - 1

df.transform([myfunc, lambda x: x])

Unnamed: 0_level_0,key,data1,data1,data2,data2
Unnamed: 0_level_1,<lambda>,myfunc,<lambda>,myfunc,<lambda>
0,A,-1,0,3,4
1,B,0,1,-1,0
2,C,1,2,8,9
3,A,2,3,4,5
4,B,3,4,7,8
5,C,4,5,-1,0


**Метод apply().** 

Эта функция уже без ограничений. Она может как сжимать данные,       <br/>
так и наращивать. Но для Series её лучше не использовать, т.к.       <br/>
для одного измерения есть функции быстрее (так написано в мануале).

Например, вот как можно нормировать первый  <br/>
столбец на сумму значений второго.

In [28]:
def norm_by_data2(x):
    # x здесь будет одна из групп
    x['data1'] /= x['data2'].sum()
    return x
display('df', "df.groupby('key').apply(norm_by_data2)")

Unnamed: 0,key,data1,data2
0,A,0,4
1,B,1,0
2,C,2,9
3,A,3,5
4,B,4,8
5,C,5,0

Unnamed: 0,key,data1,data2
0,A,0.0,4
1,B,0.125,0
2,C,0.222222,9
3,A,0.333333,5
4,B,0.5,8
5,C,0.555556,0


Автор также пишет, что на вход `apply()` принимает только DataFrame,  <br/>
но этот метод есть также и у обычного Series, и у модифицированного,  <br/>
хоть и с указанием о неэффективности.

### Задание ключа разбиения

Ранее мы разбивли объекты DataFrame по одному столбцу. Это  <br/>
один из многих вариантов формирования групп. Здесь ты       <br/>
увидишь некоторые другие возможности этой операции.

**Список, массив, объект Series и индекс как ключи группировки.** Любой  <br/>
список может стать ключом, если его длина совпадает с длиной DataFrame.

In [29]:
L = [0, 1, 0, 1, 2, 0]
display('df', "df.groupby(L).sum()")
#                              key	data1	data2
#    Ты попадёшь в группу 0    0	A	0	4
#    Ты в 1                    1	B	1	0
#    Ты тоже в 0               2	C	2	9
#    А ты в 1                  3	A	3	5
#    Тебя отправят в группу 2  4	B	4	8
#    А тебя с теми в группу 0  5	C	5	0

Unnamed: 0,key,data1,data2
0,A,0,4
1,B,1,0
2,C,2,9
3,A,3,5
4,B,4,8
5,C,5,0

Unnamed: 0,data1,data2
0,7,13
1,4,5
2,4,8


Это значчит, что можно делать даже так.

In [30]:
display('df', "df.groupby(df['key']).sum()")  # это, наверное, даже не прилично

Unnamed: 0,key,data1,data2
0,A,0,4
1,B,1,0
2,C,2,9
3,A,3,5
4,B,4,8
5,C,5,0

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,9
B,5,8
C,7,9


**Словарь или объект Series, связывающий индекс и группу.**  <br/>
Да, именно индекс с группой, а не наоборот, хотя было бы проще.

In [31]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}  # vovew: гласный звук, consonant: согласный

display('df2', "df2.groupby(mapping).sum()")

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,0
C,2,9
A,3,5
B,4,8
C,5,0

Unnamed: 0,data1,data2
consonant,12,17
vowel,3,9


**Любая функция языка Python.** Да, можно даже так:  <br/>
ты передаёшь функцию, которая принимает индекс, и    <br/>
она возращает группу.

In [32]:
display('df2', "df2.groupby(str.lower).mean()")  # str.lower(): возвращает копию строки, но в нижнем регистре
                                                 # Например, 'MusYa' -> 'musya'

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,0
C,2,9
A,3,5
B,4,8
C,5,0

Unnamed: 0,data1,data2
a,1.5,4.5
b,2.5,4.0
c,3.5,4.5


**Список допустимых ключей.** Эти варианты можно даже  <br/>
комбинировать, получая в результате мультииндекс!

In [33]:
df2.groupby([str.lower, mapping]).mean()  # если ситуация до такого дошла, то тебе не позавидуешь

Unnamed: 0,Unnamed: 1,data1,data2
a,vowel,1.5,4.5
b,consonant,2.5,4.0
c,consonant,3.5,4.5


### Пример группировки

Давай применим то, что ты узнал в последних   <br/>
подразделах и подсчитаем количество открытых  <br/>
планет по методу открытия и десятилетию.

In [35]:
planets.head(3)  # напиминаем вид нашего набора

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011


In [34]:
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


Просто вау. Вроде бы мы всё знаем и видели, но, когда       <br/>
пытаемся всё связать, возникает довольно приятное ощущение  <br/>
того, что ты довольно тупенький ... мне нравится!

И таким образом буквально в нескольких строчках мы     <br/>
получили представление о том, когда и как открывались  <br/>
экзопланеты в последние несколько десятилетий!

> Теперь же я предложил бы углубиться в эти несколько строк кода      <br/>
> и выполнить их пошагово, чтобы убедиться, что вы действительно      <br/>
> понимаете, какой вклад в результат они вносят. Это в чем-то         <br/>
> непростой пример, но благодаря хорошему пониманию элементов кода    <br/>
> у вас появятся средства для исследования ваших собственных данных.