# Современные методы анализа данных и машинного обучения, БИ

## НИУ ВШЭ, 2024-25 учебный год

# Семинар 1-2. Библиотека Pandas

*   [Полный User Guide по библиотеке Pandas](https://pandas.pydata.org/docs/user_guide/index.html)
*   [Куча полезных рецептов и хороших практик](https://pandas.pydata.org/docs/user_guide/cookbook.html)

Как мы уже с вами знаем, библиотека Pandas используется для обработки, преобразования данных на языке программирования Python. По сути, Pandas представляет собой аналог Excel'я, только умеющий делать гораздо больше, гораздо эффективнее и использующий гораздо более высокоуровневый функционал.

В Pandas существует два основных типа объектов: Pandas DataFrame и Pandas Series. Если продолжать аналогию с Excel'ем, то первый тип — это, по сути, Excel'евская таблица, — то есть двумерный объект, — тогда как второй тип — одномерный срез этой двумерной таблицы: вектор-столбец или (реже) вектор-строка из матрицы. Таким образом, Pandas DataFrame состоит из наборов Pandas Series.

## Создание объекта



### Pandas Series
Итак, начнем с Pandas Series. Так же, как и в Numpy-массивах, для этого одномерного объекта мы можем задать тип данных, хранящихся в нем. Доступны все те же типы данных, что и в Numpy, плюс есть возможность конвертировать одни типы данных в другие с помощью `astype`, плюс можно даже указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [51]:
import numpy as np
import pandas as pd

In [52]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers')
s

Unnamed: 0,numbers
0,1
1,2
2,3


Интересный вопрос заключается в том, зачем мы отдельно прописали `name` у серии, если у переменной, в которую мы ее записываем, и так есть свое название.

Теперь давайте обратим внимание на колонку слева, выделяемую при выводе жирным. Это так называемый именнованный индекс, работающий по похожему принципу, что и ключи в словаре. Если не указано обратное, подобный индекс будет создаваться автоматически на основе классического целочисленного индекса. К слову, наличие при выводе объекта Pandas Series двух колонок не делает данный объект двумерным — это всё ещё одномерный вектор, в котором индекс просто отображается для наглядности, позволяя лучше осуществлять выравнивание данных.

Вообще, очень скоро мы увидим, что и в Pandas Series, и в Pandas DataFrame присутствует одновременная двойная индексация: имея у каждой строки (а в случае с Pandas DataFrame — еще и у каждого столбца) именнованный индекс, мы в то же время не лишаемся возможности получать доступ и по целочисленному индексу, который работает в точности, как мы привыкли. По сути, первый стиль индексации роднит объекты Pandas с уже упоминавшимися выше словарями — и те, и другие будут даже генерить одинаковую ошибку при отсутствии искомого ключа: KeyError — тогда как второй стиль индексации больше похож на списки и Numpy-массивы. Всё это в совокупности делает Pandas Series и Pandas DataFrame довольно сложно внутренне устроенными объектами, комбинирующими несколько известных нам по другим коллекциям подходов.

Но вернемся к именнованной индексации. Зачем же она нужна при работе с данными?

Аналогия здесь может быть такая же, как и с телефонным справочником. Подобные индексы позволяют более логично категоризировать информацию, а также более оптимально делать некоторые операции над сериями (Pandas Series) и датафреймами (Pandas DataFrame). Вкратце, можно отметить, что индексы

1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли;
2. Включают автоматическое и явное выравнивание данных;
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Всё это, конечно, крайне важно в анализе и работает отчасти похожим образом, как, например, ключи в базах данных, хотя имеется и ряд отличий, про что тоже обязательно следует помнить.

Давайте попробуем для наших данных задать произвольный индекс с помощью букв a, b, c.

In [53]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

Unnamed: 0,numbers
a,1
b,2
c,3


Теперь, как мы видим, именнованный индекс совершенно никак не связан с целочисленной индексацией и, более того, полностью скрыл её в интерфейсе отображения. Впрочем, как и было указано раннее, мы все равно сможем получить доступ к элементам по целочисленным индексам, если того захотим. К тому, как это реализовать в коде, давайте вернемся чуточку позже.

А пока — просто обратим внимание на то, что взять объект по  именнованному индексу теперь совсем просто — это можно сделать точно так же, как в словарях:

In [54]:
s['b']

2

И даже добавить новый элемент:

In [55]:
s['u'] = 6
s

Unnamed: 0,numbers
a,1
b,2
c,3
u,6


При необходимости мы всегда сможем получить доступ к заданному именнованному индексу серии — вне зависимости от того, каким образом он был сформирован. Просто используйте свойство `.index`

In [56]:
s.index

Index(['a', 'b', 'c', 'u'], dtype='object')

### Pandas DataFrame

Pandas DataFrame представляет из себя уже двумерный объект, таблицу: аналог двумерного Numpy-массива — матрицы.

Давайте создадим датафрейм из случайной Numpy-матрицы:

In [57]:
m = np.random.rand(5,3)
df = pd.DataFrame(m)
df

Unnamed: 0,0,1,2
0,0.359672,0.824379,0.170468
1,0.234214,0.001413,0.554272
2,0.23549,0.736114,0.616232
3,0.009643,0.096806,0.151597
4,0.522413,0.696615,0.598074


Здесь мы видим строковый именнованный индекс, который был создан автоматически на основе целочисленного, а также колоночный именнованный индекс, который также был задан автоматически. У нас получился не совсем привычный вид таблицы, — по крайней мере, исходя из того, что мы ожидали бы увидеть по программам типа Excel, — поэтому давайте присвоим колонкам более понятные имена.

In [58]:
m = np.random.rand(5,3)
df = pd.DataFrame(data=m, columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
0,0.021514,0.136091,0.044457
1,0.050848,0.678479,0.745375
2,0.550911,0.911376,0.46339
3,0.478402,0.383475,0.633574
4,0.874435,0.780632,0.803319


Отлично! Теперь давайте добавим ещё какую-нибудь текстовую колонку. Как вы уже поняли, делается это с помощью синтаксиса, крайне похожего на словари:

In [59]:
df['name'] = ['Dima', 'Ivan', 'Nikolay', 'Dima', 'Pavel']
df

Unnamed: 0,first,second,third,name
0,0.021514,0.136091,0.044457,Dima
1,0.050848,0.678479,0.745375,Ivan
2,0.550911,0.911376,0.46339,Nikolay
3,0.478402,0.383475,0.633574,Dima
4,0.874435,0.780632,0.803319,Pavel


Как можно догадаться из примера выше, в Pandas DataFrame выборка квадратными скобками происходит именно по колонкам.

In [60]:
df['second']

Unnamed: 0,second
0,0.136091
1,0.678479
2,0.911376
3,0.383475
4,0.780632


Впрочем, есть и другой — я бы сказал, крайне неожиданный — способ получения доступа к колонке:

In [61]:
df.second

Unnamed: 0,second
0,0.136091
1,0.678479
2,0.911376
3,0.383475
4,0.780632


Как вы думаете, есть ли разница между этими способами, и если да, то в чем она?

Помимо доступа к столбцу, используя квадратные скобки, вы можете также получить доступ к сразу нескольким столбцам датафрейма — для этого нужно просто передать некую коллекцию (чаще всего список) из тех столбцов, которые вас интересуют. Причем именно в том порядке, в каком хотите, чтобы они были отображены.

In [62]:
df[['name', 'second']]

Unnamed: 0,name,second
0,Dima,0.136091
1,Ivan,0.678479
2,Nikolay,0.911376
3,Dima,0.383475
4,Pavel,0.780632


Обратите внимание, что на выходе в таком случае получается именно Pandas DataFrame.

На всякий случай, еще раз отдельно подчеркнем, что Pandas DataFrame и Pandas Series — это совсем разные объекты. И доказать это можно довольно легко с помощью примера ниже.

In [63]:
type(df['name'])

In [64]:
df['name'].unique()

array(['Dima', 'Ivan', 'Nikolay', 'Pavel'], dtype=object)

In [65]:
type(df[['name']])

In [66]:
df[['name']].unique()

AttributeError: 'DataFrame' object has no attribute 'unique'

Как можно видеть, метод `unique` — возвращающий все уникальные значения серии — работает только с объектом Pandas Series и не может быть никак применен к объекту Pandas DataFrame.

#### Вопрос

Что, по вашему мнению, произойдет, если запустить код ниже?

In [None]:
df[0]

#### Пояснение

Как вы видите, появляется ошибка, связанная с тем, что Pandas пытается найти в датафрейме столбец с именнованным колоночным индексом равным 0; не находит его; и, как следствие, выдаёт ошибку вида KeyError отсутствия запрашиваемого нами ключа.

То есть, как уже неоднократно обсуждалось выше, доступ с помощью целочисленной индексации не может быть осуществлен таким образом и реализуется по-другому, отдельными командами, которые мы еще пока не рассматривали.

Однако. Несмотря на всё вышеобсужденное. Внезапно. Если мы с вами попробуем в квадратных скобках осуществить доступ не по одному элементу или списку элементов, а слайсинг с использованием двоеточий, — прямо как в обычных массивах Numpy или списках, — в этом случае выборка будет происходить уже не по столбцам, а **по строкам**; причем не по именнованным, а **по целочисленным индексам**.

Это, к сожалению или к счастью, особенность, которую умом познать невозможно и нужно просто запомнить. Такова жизнь...

In [67]:
df[:2]

Unnamed: 0,first,second,third,name
0,0.021514,0.136091,0.044457,Dima
1,0.050848,0.678479,0.745375,Ivan


In [68]:
df[::-1]

Unnamed: 0,first,second,third,name
4,0.874435,0.780632,0.803319,Pavel
3,0.478402,0.383475,0.633574,Dima
2,0.550911,0.911376,0.46339,Nikolay
1,0.050848,0.678479,0.745375,Ivan
0,0.021514,0.136091,0.044457,Dima


Помимо создания Pandas DataFram'а, используя способы, разобранные выше, существует удобный способ инициализировать его с помощью словаря. Ключи станут названиями колонок, а значения по ключам — столбцами.

In [69]:
d = {
    'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
    'age': [24, 25, 30, 40]
}
pd.DataFrame(d)

Unnamed: 0,name,age
0,Dmitry,24
1,Alexey,25
2,Vladimir,30
3,Elena,40


Ещё один интересный способ:

In [70]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
           {'a': 100, 'b': 200, 'c': 300, 'd': 400},
           {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
pd.DataFrame(mydict)

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


Подобные способы в очередной раз доказывают родственность данных структур: объектов Pandas и словарей — между собой.

## Просмотр таблицы

По умолчанию, Google Colab (или Jupyter Notebook) будут "обрезать" отображение больших табличек, так как, если в них много строк, они могут начать занимать обширное пространство и привести ваш браузер в замешательство, а компьютер в полный аут.

Посмотрим на то, как происходит отображение:

In [71]:
pd.DataFrame(np.random.rand(100,2))

Unnamed: 0,0,1
0,0.309606,0.853261
1,0.931347,0.694148
2,0.731666,0.624957
3,0.763712,0.476480
4,0.957299,0.817465
...,...,...
95,0.248285,0.880731
96,0.654154,0.236942
97,0.922982,0.092985
98,0.517534,0.289318


Однако, справедливости ради, навряд ли вам понадобится отсматривать вручную для какой-нибудь таблицы, скажем, 100000 строк — если так всё-таки происходит, возможно, самое время задуматься над тем, не делаете ли вы в этой жизни что-то не так... 🤔)

Если серьёзно — всё же, как правило, нам достаточно посмотреть всего на несколько строк таблицы, чтобы понять, что в ней находится, как она устроена и правильно ли мы прочитали её из файла.

Для того, чтобы посмотреть X первых строк, можно воспользоваться командой `df.head(X)`:

In [72]:
df.head(2)

Unnamed: 0,first,second,third,name
0,0.021514,0.136091,0.044457,Dima
1,0.050848,0.678479,0.745375,Ivan


Командой `df.tail(X)` — для последних Х строк датафрейма:

In [73]:
df.tail(2)

Unnamed: 0,first,second,third,name
3,0.478402,0.383475,0.633574,Dima
4,0.874435,0.780632,0.803319,Pavel


И командой `df.sample(X)` — для случайных Х строк:

In [74]:
df.sample(2)

Unnamed: 0,first,second,third,name
0,0.021514,0.136091,0.044457,Dima
1,0.050848,0.678479,0.745375,Ivan


При необходимости, мы всегда можем отдельно посмотреть на строковый именнованный индекс с помощью уже известного нам метода:

In [75]:
df.index

RangeIndex(start=0, stop=5, step=1)

Или же на колоночный именнованный индекс с помощью соответствующего метода:

In [76]:
df.columns

Index(['first', 'second', 'third', 'name'], dtype='object')

Для данных объектов доступны привычная индексация и срезы:

In [77]:
df.columns[1]

'second'

In [78]:
df.columns[1:3]

Index(['second', 'third'], dtype='object')

Кроме того, можно всегда узнать форму нашей таблицы:

In [79]:
df.shape

(5, 4)

In [80]:
df.shape[0]

5

In [81]:
df.shape[1]

4

Типы данных, хранящихся в различных столбцах датафрейма, можно посмотреть с помощью нескольких полезных функций:

In [82]:
df.dtypes

Unnamed: 0,0
first,float64
second,float64
third,float64
name,object


In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      object 
dtypes: float64(3), object(1)
memory usage: 288.0+ bytes


Кстати, что за тип объекта был перед нами в первом случае с методом `dtypes`?

А также можно менять (приводить) типы в датафрейме с помощью метода `astype`.

Обратите внимание, что мы можем передать целый словарь, в котором ключами будут названия колонок, а значениями по ключу — типы данных, к которым мы хотим привести соответствующие колонки.

In [84]:
df = df.astype({'first': np.float32})

In [85]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float32
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      object 
dtypes: float32(1), float64(2), object(1)
memory usage: 268.0+ bytes


Мы можем даже отказаться от всех метаданных и перейти к Numpy-матрице, чтобы работать с ней, используя методы из библиотеки Numpy:

In [86]:
df.to_numpy()

array([[0.02151397056877613, 0.13609142260377372, 0.04445693416312091,
        'Dima'],
       [0.05084800720214844, 0.6784794933318826, 0.7453749105781226,
        'Ivan'],
       [0.550911009311676, 0.911376246402665, 0.46339016444045,
        'Nikolay'],
       [0.47840166091918945, 0.38347510385097117, 0.6335738706180895,
        'Dima'],
       [0.8744348883628845, 0.780631894739221, 0.8033189752144613,
        'Pavel']], dtype=object)

В чем проблема нашего перехода к матрице Numpy в примере, представленном выше?

Ещё одним очень полезным методом является метод `.describe()`, который выводит для нас дескриптивную статистику по всему нашему датафрейму.

In [87]:
df.describe()

Unnamed: 0,first,second,third
count,5.0,5.0,5.0
mean,0.395222,0.578011,0.538023
std,0.360227,0.314412,0.30483
min,0.021514,0.136091,0.044457
25%,0.050848,0.383475,0.46339
50%,0.478402,0.678479,0.633574
75%,0.550911,0.780632,0.745375
max,0.874435,0.911376,0.803319


Во-первых, опять-таки, что это за тип данных? Во-вторых, что означают названия различных строк в данной получившейся таблице? Как её читать?

В свою очередь, метод `info()` — который мы уже упоминали выше — позволяет нам также проверить наличие пропусков (графа Non-Null Count), а ещё — посмотреть, какой объем памяти занимает наша табличка — разумеется, тут чем меньше, тем лучше.

In [88]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float32
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      object 
dtypes: float32(1), float64(2), object(1)
memory usage: 268.0+ bytes


In [89]:
df.astype({'first': np.float16}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float16
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      object 
dtypes: float16(1), float64(2), object(1)
memory usage: 258.0+ bytes


По большому счету, колоночный именнованный индекс — это тот же самый строковый именнованный индекс, только по горизонтальной оси (axis = 1). Они легко могут заменять друг друга в рамках датафрейма, и давайте наглядно продемонстрируем это с помощью операции транспонирования.

In [90]:
df.T

Unnamed: 0,0,1,2,3,4
first,0.021514,0.050848,0.550911,0.478402,0.874435
second,0.136091,0.678479,0.911376,0.383475,0.780632
third,0.044457,0.745375,0.46339,0.633574,0.803319
name,Dima,Ivan,Nikolay,Dima,Pavel


### Сортировки

Ещё одной важной операцией, которую мы часто выполняем в том же Excel'е, является сортировка.

Мы можем сортировать в Pandas строки таблицы по значениям колонок. Обратите внимание, что индекс остался прежним — то есть он привязан именно к объекту, а не к фактическому номеру строки.

In [91]:
df.sort_values('first', ascending=False) # ascending=False по убыванию

Unnamed: 0,first,second,third,name
4,0.874435,0.780632,0.803319,Pavel
2,0.550911,0.911376,0.46339,Nikolay
3,0.478402,0.383475,0.633574,Dima
1,0.050848,0.678479,0.745375,Ivan
0,0.021514,0.136091,0.044457,Dima


Сделайте предположение, как можно сортировать строки сразу по нескольким столбцам?

А как сделать, чтобы по одному столбцу сортировка была, например, по возрастанию, а по другому — по убыванию — так вообще можно?

Помимо сортировок по столбцам, можно сортировать именно по индексу. Для этого используется другой метод:

In [92]:
df.sort_index(ascending=False)

Unnamed: 0,first,second,third,name
4,0.874435,0.780632,0.803319,Pavel
3,0.478402,0.383475,0.633574,Dima
2,0.550911,0.911376,0.46339,Nikolay
1,0.050848,0.678479,0.745375,Ivan
0,0.021514,0.136091,0.044457,Dima


Можно сортировать и сами столбцы, а не по столбцам. Для этого воспользуемся параметром `axis`:

In [93]:
df.sort_index(ascending=False, axis = 1)

Unnamed: 0,third,second,name,first
0,0.044457,0.136091,Dima,0.021514
1,0.745375,0.678479,Ivan,0.050848
2,0.46339,0.911376,Nikolay,0.550911
3,0.633574,0.383475,Dima,0.478402
4,0.803319,0.780632,Pavel,0.874435


Как была произведена сортировка в этом случае?

## Выборки и срезы
Подробная информация по выборкам данных представлена [тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

### Квадратные скобки

Давайте для начала попробуем проагреггировать всю информацию, которую мы уже знаем про выборки данных с помощью простых квадратных скобок, и посмотрим на эти способы ещё раз немного под другим углом.

Как уже отмечалось, для датафреймов выборка с помощью элементов в квадратных скобках происходит по столбцам и с учетом именнованной индексации.

In [94]:
df['third']

Unnamed: 0,third
0,0.044457
1,0.745375
2,0.46339
3,0.633574
4,0.803319


In [95]:
df[['third', 'first']]

Unnamed: 0,third,first
0,0.044457,0.021514
1,0.745375,0.050848
2,0.46339,0.550911
3,0.633574,0.478402
4,0.803319,0.874435


При этом, в случае если в квадратных скобках присутствуют двоеточия, — то есть, иными словами, осуществляется слайсинг, — выборка автоматически трансформируется в выборку по строкам, причем с целочисленной индексацией.

In [96]:
df[1:4] # слайсинг по сквозному целочисленному индексу как в массиве

Unnamed: 0,first,second,third,name
1,0.050848,0.678479,0.745375,Ivan
2,0.550911,0.911376,0.46339,Nikolay
3,0.478402,0.383475,0.633574,Dima


Но как же быть, если мы хотим, допустим, сделать выборку по целочисленной индексации для стобцов? Или выборку по именнованной индексации для строк? Или слайсинг по столбцам? И так далее.

### Выборка с использованием loc

Крайне важной операцией, напрямую связанной с именнованной индексацией и позволяющей осуществлять всевозможные выборки данных именно в привязке к именнованной индексации, является команда `loc`.

Давайте добавим столбец в нашу таблицу и сделаем его новым индексом с помощью метода .set_index()

In [97]:
df['new_index'] = pd.Series(['a', 'b', 'e', 'c', 'g'])
df

Unnamed: 0,first,second,third,name,new_index
0,0.021514,0.136091,0.044457,Dima,a
1,0.050848,0.678479,0.745375,Ivan,b
2,0.550911,0.911376,0.46339,Nikolay,e
3,0.478402,0.383475,0.633574,Dima,c
4,0.874435,0.780632,0.803319,Pavel,g


In [98]:
df = df.set_index('new_index')
df

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,0.021514,0.136091,0.044457,Dima
b,0.050848,0.678479,0.745375,Ivan
e,0.550911,0.911376,0.46339,Nikolay
c,0.478402,0.383475,0.633574,Dima
g,0.874435,0.780632,0.803319,Pavel


Теперь с помощью метода `.loc` мы можем производить навигацию по этому именнованному индексу.

In [99]:
df.loc['b']

Unnamed: 0,b
first,0.050848
second,0.678479
third,0.745375
name,Ivan


В примере выше мы взяли конкретную строчку датафрейма с именнованным индексом равным b.

Несмотря на то, что `loc` — это метод, он почему-то использует квадратные скобки, а не круглые, как все остальные методы. Вероятнее всего, разработчики пошли на это, чтобы синтаксис был максимально приближен к тому, как мы обычно используем слайсинги и выборки данных в других коллекциях.

Теперь, с появлением в нашем арсенале команды `loc`, мы готовы к невозможному — приготовьтесь — использовать (буквенные) слайсинги по именнованным индексам (!)

In [100]:
df.loc['b':'c']

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
b,0.050848,0.678479,0.745375,Ivan
e,0.550911,0.911376,0.46339,Nikolay
c,0.478402,0.383475,0.633574,Dima


Стоит обратить внимание на то, что, в отличие от слайсинга по целым числам, здесь берётся **и левая, и правая граница включительно**. Это опять же из серии "невозможно понять, поэтому просто запоминаем, как оно работает".

Помимо этого, вы также всегда можете указать через запятую выборку еще и по столбцам: в виде одного конкретного столбца, списка нужных столбцов или, опять же, именнованного слайсинга по ним.

In [101]:
df.loc['b':'c', ['second', 'third']]

Unnamed: 0_level_0,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.678479,0.745375
e,0.911376,0.46339
c,0.383475,0.633574


In [102]:
df.loc[:, 'name':'first':-2]

Unnamed: 0_level_0,name,second
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,Dima,0.136091
b,Ivan,0.678479
e,Nikolay,0.911376
c,Dima,0.383475
g,Pavel,0.780632


### Выборка с использованием iloc

Команда `iloc` является братом-близнецом разобранного нами выше `loc`. По сути, она работает идентично `loc`, только не с именнованной, а с целочисленной индексацией. На этом их различия заканчиваются. Скобки также квадратные.

In [103]:
df

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,0.021514,0.136091,0.044457,Dima
b,0.050848,0.678479,0.745375,Ivan
e,0.550911,0.911376,0.46339,Nikolay
c,0.478402,0.383475,0.633574,Dima
g,0.874435,0.780632,0.803319,Pavel


In [104]:
df.iloc[1:3]

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
b,0.050848,0.678479,0.745375,Ivan
e,0.550911,0.911376,0.46339,Nikolay


Происходит выборка именно по **номеру** строки и **номеру** столбца (начиная с нуля)

In [105]:
df.iloc[1:3, [0,2]]

Unnamed: 0_level_0,first,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.050848,0.745375
e,0.550911,0.46339


## Чтение и запись данных

В библиотеке pandas присутствует огромное кол-во возможностей для чтения и записи данных.

Например, в методе pd.read_csv доступны специфичные опции для формата (например, разделитель колонок sep), но и также можно, например, дополнить список значений, которые pandas по умолчанию считает пропусками, задав явно параметр na_values.

Более подробную информацию про чтение и запись данных можно найти [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

В этом разделе и далее мы будем работать с датасетом iris.csv

Сами данные можно скачать отсюда https://drive.google.com/file/d/1fjyopp9FZ-g6KIsIE8vPX2r62A43h2XI/view?usp=sharing

А чтобы подгрузить файл в хранилище ноутбука можно использовать поле ниже:

In [106]:
from google.colab import files
uploaded = files.upload()

Saving iris.csv to iris.csv


Загрузим и откроем сам датасет:

In [107]:
iris = pd.read_csv('iris.csv', header='infer', sep=',')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
pd.read_ # доступно очень большое кол-во форматов для чтения

In [None]:
# запись to_csv() и другие

In [108]:
iris.to_csv('iris_test.csv', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [109]:
!ls

iris.csv  iris_test.csv  sample_data


Давайте теперь потренируемся на реальном датасете и повторим на нем выборки и срезы, которые мы совсем недавно разобрали!

### Задания для самостоятельного решения (на выборку данных)

1. Выведите первые 4 строки и первые 2 столбца с помощью метода .iloc
2. Выведите только колонки sepal.length и petal.length с помощью loc и/или квадратных скобок
3. Сделайте индексом колонку variety с помощью метода .set_index(), и выберите с помощью .loc только вид 'Setosa'

In [None]:
# 1. your code here

In [None]:
# 2. your code here

In [None]:
# 3. your code here

## Фильтрация данных (выборка по маске)
Так же, как и в numpy, в pandas присутствует возможность делать выборки по маске. Но здесь механизм несколько отличается. Если в numpy мы получали матрицу из True и False и каждому элементу было сопоставлено значение True (брать в выборку) или False (не брать в выборку), то в pandas маска это pandas Series **с такой же индексацией** что и исходный датафрейм или серия, состоящий из значений True или False. Т.е мы указываем какие строчки идут в результирующую выборку, а какие нет.

In [110]:
# получаем маску в которой у каждого индекса (!!!) указано оставлять его в наборе данных или нет
iris['sepal.length'] > 5.0

Unnamed: 0,sepal.length
0,True
1,False
2,False
3,False
4,False
...,...
145,True
146,True
147,True
148,True


Конечно, мы можем выстраивать условия в логические цепочки

In [111]:
iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
53,5.5,2.3,4.0,1.3,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
55,5.7,2.8,4.5,1.3,Versicolor
58,6.6,2.9,4.6,1.3,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
...,...,...,...,...,...
142,5.8,2.7,5.1,1.9,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica


Мы можем даже перемешать значения, но выборка все равно останется той же за счет соответствия по индексу!

In [112]:
iris.sort_values(['sepal.length', 'petal.length'])[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

  iris.sort_values(['sepal.length', 'petal.length'])[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
98,5.1,2.5,3.0,1.1,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
84,5.4,3.0,4.5,1.5,Versicolor
81,5.5,2.4,3.7,1.0,Versicolor
80,5.5,2.4,3.8,1.1,Versicolor
...,...,...,...,...,...
130,7.4,2.8,6.1,1.9,Virginica
105,7.6,3.0,6.6,2.1,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica


Для того, чтобы сделать фильтрацию по значениям в колонке, используйте метод .isin()

In [113]:
iris['variety']

Unnamed: 0,variety
0,Setosa
1,Setosa
2,Setosa
3,Setosa
4,Setosa
...,...
145,Virginica
146,Virginica
147,Virginica
148,Virginica


In [114]:
iris['variety'].isin(['Setosa', 'Virginica']) # проверка по множеству
# ((iris['variety'] == 'Setosa') | (iris['variety'] == 'Virginica'))
# (iris['variety'] in ['Setosa', 'Virginica'])

Unnamed: 0,variety
0,True
1,True
2,True
3,True
4,True
...,...
145,True
146,True
147,True
148,True


## Вставка значений
Вставку значений можно производить методами доступа .loc и .iloc, а также методом .at. Разница в том, что .loc и .iloc чуть более универсальны, и позволяют изменить сразу целый диапазон, при этом важно соблюсти размерности вставляемых данных. .at в свою очередь дает нам точечную вставку "на место", и лучше подходит с точки зрения чтения кода.

In [115]:
df = pd.DataFrame(np.random.rand(6,3),
                  index=['a','b','c','d','e','f'],
                  columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
a,0.241227,0.663642,0.725025
b,0.035308,0.674023,0.306517
c,0.845979,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,0.068098,0.178163
f,0.528447,0.470139,0.252354


In [116]:
df.loc['b','first'] = 1.0
df

Unnamed: 0,first,second,third
a,0.241227,0.663642,0.725025
b,1.0,0.674023,0.306517
c,0.845979,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,0.068098,0.178163
f,0.528447,0.470139,0.252354


In [117]:
df.loc['a':'c', 'first'] = [0.5, 1.5, 2.0]
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,0.068098,0.178163
f,0.528447,0.470139,0.252354


In [118]:
df.at['e', 'second'] = 100
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,100.0,0.178163
f,0.528447,0.470139,0.252354


## Пропущенные значения
По умолчанию пропущенные значения не участвуют в вычислениях, и чаще всего на месте пропусков можно встретить значение np.nan (Not a Number), либо None (для нечисловых типов)

In [119]:
# сделаем специально несколько пропущенных значений
df.at['e', 'second'] = np.nan
df.at['e', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,,
f,0.528447,0.470139,0.252354


Метод .isna() возвращает нам карту с пропусками. Пропуск там, где значение True.

In [120]:
df.isna()

Unnamed: 0,first,second,third
a,False,False,False
b,False,False,False
c,False,False,False
d,False,False,False
e,False,True,True
f,False,False,False


Напоминаю, что в принципе количественную информацию о пропусках можно получить с помощью метода .info()

In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 364.0+ bytes


Для удаления пропусков используется метод .dropna().

По умолчанию .dropna() удалит те строки, в которых есть хотя бы один пропуск в строке.

In [122]:
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,,
f,0.528447,0.470139,0.252354


In [123]:
df.dropna()

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
f,0.528447,0.470139,0.252354


In [124]:
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,,
f,0.528447,0.470139,0.252354


А с помощью транспонирования можно удалять целые столбцы

In [125]:
df.T.dropna().T

Unnamed: 0,first
a,0.5
b,1.5
c,2.0
d,0.129126
e,0.673015
f,0.528447


Или использовать параметр axis=1

In [126]:
df.dropna(axis=1)

Unnamed: 0,first
a,0.5
b,1.5
c,2.0
d,0.129126
e,0.673015
f,0.528447


Но все же часто нам все-таки интересны данные с пропусками. Для работы с ними можно использовать метод .fillna()

Вот так мы заполним все пропуски одним и тем же значением

In [127]:
df.fillna(0)

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,0.0,0.0
f,0.528447,0.470139,0.252354


Но обычно мы все же хотим заполнять разные столбцы разными значениями

In [128]:
df.fillna({'second': 0, 'third': 1.0})

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.193756,0.670187
e,0.673015,0.0,1.0
f,0.528447,0.470139,0.252354


Есть и более продвинутые методы заполнения, сделаем несколько пропусков подряд

In [129]:
df.at['d', 'second'] = np.nan
df.at['d', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,,
e,0.673015,,
f,0.528447,0.470139,0.252354


Метод bfill заполняет серию пропусков последним корректным (non Null) значением, итерируясь по таблице с конца.

In [130]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.470139,0.252354
e,0.673015,0.470139,0.252354
f,0.528447,0.470139,0.252354


Метод ffill делает то же самое, но итерация происходит с начала таблицы

In [131]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,first,second,third
a,0.5,0.663642,0.725025
b,1.5,0.674023,0.306517
c,2.0,0.4801,0.13738
d,0.129126,0.4801,0.13738
e,0.673015,0.4801,0.13738
f,0.528447,0.470139,0.252354


bfill и ffill особенно полезны при заполнении пропусков во временном ряду. Более подробно данный функционал описан [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html).

[Интерполяция](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html), увы делается отдельными методами.

## Статистики
Конечно, в pandas реализовано куча методов для подсчета различных статистик.
Полный список методов можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats)

In [132]:
# mean, std, var, value_counts, df +- series

Вот так мы можем посчитать средние значения для всех колонок сразу

In [133]:
df.mean()

Unnamed: 0,0
first,0.888431
second,0.571976
third,0.355319


А так посчитать среднее лишь для одной колонки

In [134]:
df['first'].mean()

0.8884314117119555

То же для [стандартного отклонения](https://berg.com.ua/indicators-overlays/stdev/#:~:text=%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%BE%D0%B5%20%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%20%D0%B2%D1%8B%D1%80%D0%B0%D0%B7%D0%B8%D1%82%D1%8C%20%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%BE%D0%B9,%D0%BD%D0%B0%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE%20%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B2%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B5.)

In [135]:
df.std() # стандартное

Unnamed: 0,0
first,0.708945
second,0.111995
third,0.256361


Или [дисперсии](https://ru.qwe.wiki/wiki/Variance)

In [136]:
df.var() # дисперсию

Unnamed: 0,0
first,0.502603
second,0.012543
third,0.065721


А с помощью .value_counts() можно посчитать кол-во вхождений уникальных значений

In [137]:
df['second'].value_counts()

Unnamed: 0_level_0,count
second,Unnamed: 1_level_1
0.663642,1
0.674023,1
0.4801,1
0.470139,1


## Применение функций к данным (apply)
И все же иногда в pandas требуются новые функции со своей логикой обработки. Тогда на помощью приходит метод .apply

Он работает следующим образом. Мы передаем первым аргументом функцию, которая отвечает за логику, а вторым передаем axis, т.е мы указываем производить обработку по колонкам или по строкам.

В самой функции, задающей логику, нужно не забыть вернуть строку или столбец обратно в таблицу (return).

Полное описание функции доступно [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [138]:
def my_function(row):
  row['first'] = row['first']**2
  row['second'] = row['second'] - 1
  return row

print("begin")
df.apply(my_function, axis=1) # тогда в my_function будут отправляться строки, в параметр r
# for *итерация по строчкам*
#.  применить к строке функцию my_function и перезаписать строчку

begin


Unnamed: 0,first,second,third
a,0.25,-0.336358,0.725025
b,2.25,-0.325977,0.306517
c,4.0,-0.5199,0.13738
d,0.016674,,
e,0.45295,,
f,0.279256,-0.529861,0.252354


In [139]:
def my_function(column):
  if column.name == 'first':
    column = column**2
  if column.name == 'second':
    column = column - 1
  return column

print("begin")
df.apply(my_function, axis=0) # тогда в my_function будут отправляться столбцы, в параметр c
# for *итерация по колонкам*
#.  применить к колонке функцию my_function и перезаписать колонку

begin


Unnamed: 0,first,second,third
a,0.0625,-1.336358,0.725025
b,5.0625,-1.325977,0.306517
c,16.0,-1.5199,0.13738
d,0.000278,,
e,0.205163,,
f,0.077984,-1.529861,0.252354


## Методы для работы со строками
Есть приятная возможность работы с векторизованными копиями функций для стандартного [типа данных str](https://pyprog.pro/python/py/str/str_methods.html). Например, мы можем перевести все строки в верхний регистр или нижний, посчитать кол-во определенных символов и т.д. Если у вас есть объект pandas.Series на который ссылается переменная s, то получить доступ к этим методам можно если вызвать свойство s.str.<название метода для работы со строками>.

[pandas.Series.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html)

[Руководство по работе со строковыми колонками.](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Зададим еще одну строковую колонку в нашем датафрейме

In [140]:
df['fourth'] = pd.Series(['abc', 'def', 'xyz dsad', 'dweq', 'dsad', 'dsad'], index=df.index)
df

Unnamed: 0,first,second,third,fourth
a,0.25,-0.336358,0.725025,abc
b,2.25,-0.325977,0.306517,def
c,4.0,-0.5199,0.13738,xyz dsad
d,0.016674,,,dweq
e,0.45295,,,dsad
f,0.279256,-0.529861,0.252354,dsad


Приведем всю колонку к верхнему регистру

In [141]:
df['fourth'].str.upper()

Unnamed: 0,fourth
a,ABC
b,DEF
c,XYZ DSAD
d,DWEQ
e,DSAD
f,DSAD


Или разобьем все строкипо определенному символу

In [142]:
df['fourth'].str.split('d')

Unnamed: 0,fourth
a,[abc]
b,"[, ef]"
c,"[xyz , sa, ]"
d,"[, weq]"
e,"[, sa, ]"
f,"[, sa, ]"


Можно также указать вторым аргументом максимальное кол-во разбиений, и создать из полученных массивов новый датафрейм, где в каждую колонку будет записан элемент разбиения (expand=True).

Описание метода [pandas.Series.str.split()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html )

In [144]:
df['fourth'].str.split('d', n = 1, expand=True)

Unnamed: 0,0,1
a,abc,
b,,ef
c,xyz,sad
d,,weq
e,,sad
f,,sad


## Соединение датафреймов

[Руководство по методам pd.merge, pd.join и pd.concat](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

### Метод pd.concat

Рассмотрим применение метода pd.concat для конкатенации (соединения по осям) на основе датафрейма iris.

In [145]:
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


pd.concat принимает на вход последовательность датафреймов или серий для соединения. По умолчанию соединение происходит по axis=0, но, конечно, можно произвести и горизонтальное соединение.

In [146]:
vertical_concat = pd.concat([iris, iris])
vertical_concat

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Обратите внимание, что индексы не сбрасываются, и теперь мы видим две записи по одному индексу. Чтобы создать новый индекс, необходимо указать параметр ignore_index=True.

In [147]:
vertical_concat.loc[110] # индексы не сбрасываются, если нужно сбросить, используем метод reset_index()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
110,6.5,3.2,5.1,2.0,Virginica
110,6.5,3.2,5.1,2.0,Virginica


Либо сбросить индекс уже после соединения

In [148]:
vertical_concat.reset_index()

Unnamed: 0,index,sepal.length,sepal.width,petal.length,petal.width,variety
0,0,5.1,3.5,1.4,0.2,Setosa
1,1,4.9,3.0,1.4,0.2,Setosa
2,2,4.7,3.2,1.3,0.2,Setosa
3,3,4.6,3.1,1.5,0.2,Setosa
4,4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...
295,145,6.7,3.0,5.2,2.3,Virginica
296,146,6.3,2.5,5.0,1.9,Virginica
297,147,6.5,3.0,5.2,2.0,Virginica
298,148,6.2,3.4,5.4,2.3,Virginica


In [149]:
vertical_concat.reset_index().loc[110]

Unnamed: 0,110
index,110
sepal.length,6.5
sepal.width,3.2
petal.length,5.1
petal.width,2.0
variety,Virginica


Аналогично, соединение по горизонтали

In [150]:
horizontal_concat = pd.concat([iris, iris], axis=1)
horizontal_concat

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica,6.2,3.4,5.4,2.3,Virginica


In [151]:
horizontal_concat['sepal.length']

Unnamed: 0,sepal.length,sepal.length.1
0,5.1,5.1
1,4.9,4.9
2,4.7,4.7
3,4.6,4.6
4,5.0,5.0
...,...,...
145,6.7,6.7
146,6.3,6.3
147,6.5,6.5
148,6.2,6.2


Стоит также отметить важный параметр join, который по умолчанию выставлен в 'outer', но может быть выставлен в 'inner'. Этот параметр указывает как поступить с теми индексами, которых нет в одном из датафреймов, участвующих в соединении.

'outer' объединяет (union) датафреймы.

'inner' оставляет только пересечения по индексу.

См. примеры

In [152]:
pd.concat([iris, iris[:50]], join='outer', axis=1)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,,,,,
146,6.3,2.5,5.0,1.9,Virginica,,,,,
147,6.5,3.0,5.2,2.0,Virginica,,,,,
148,6.2,3.4,5.4,2.3,Virginica,,,,,


In [153]:
pd.concat([iris, iris[:50]], join='inner', axis=1)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa,4.9,3.1,1.5,0.1,Setosa


In [154]:
pd.concat([iris, iris[['sepal.length', 'petal.length']]], join='outer', axis=0)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,,5.2,,
146,6.3,,5.0,,
147,6.5,,5.2,,
148,6.2,,5.4,,


In [155]:
pd.concat([iris, iris[['sepal.length', 'petal.length']]], join='inner', axis=0)

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


### Метод pd.merge (и pd.join)

pandas имеет полнофункциональные, высокопроизводительные операции соединения в памяти, идиоматически очень похожие на реляционные базы данных, такие как SQL.

Вообще говоря, существует 3 типа соединений
1. внутреннее соединение (inner)
2. левое соединение (left), так остаются строки из левой таблицы, а для неизвестных значений правой выставляется значение NaN
3. правое соеденине (т.е right) так остаются строки из правой таблицы, а для неизвестных значений левой выставляется значение NaN
4. внешнее соединение (т.е outer). кобминация из левого и правого соединения

Для запоминания можно вспоользовать вот этой картинкой. Нужно подчеркнуть, что пересечение и объединение происходит в множестве ключей (колонок), по которым происходит соединение. Так, например, для inner join мы оставляем в результирующей выборке подмножество всевозможных попарных комбинаций строк, с условием, что значения в колонках (ключах) по которым происходит соединение, совпадают.

![joins](https://i.stack.imgur.com/VQ5XP.png)

[Сравнение использования с sql join-ами](https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html#compare-with-sql-join)


Мы будем работать с методом pd.merge(), так как он является более универсальным, хотя иногда короче использовать метод pd.join()

In [156]:
# разберемся на примере задач
import pandas as pd
import numpy as np

df_left = pd.DataFrame({
    'name': ['Dmitry', 'Sergey', 'Anna'],
    'age': [20, 30, 40]
}, index=['a', 'a', 'b'])

df_right = pd.DataFrame({
    'name': ['Dmitry', 'Sergey', 'Anna', 'Vasiliy'],
    'second_name': ['Petrov', 'Ivanov', 'Smirnova', 'Alexandrov']
}, index=['a', 'b', 'c', 'b'])

In [157]:
df_left

Unnamed: 0,name,age
a,Dmitry,20
a,Sergey,30
b,Anna,40


In [158]:
df_right

Unnamed: 0,name,second_name
a,Dmitry,Petrov
b,Sergey,Ivanov
c,Anna,Smirnova
b,Vasiliy,Alexandrov


У pd.merge есть довольно много параметров, увидев которые в первый раз можно немного *выпасть в осадок* :). Давайте разберемся по порядку.

Первые 2 параметра: left и right. Это левый и правый датафрейм (таблицы), которые будут участвовать в соединении.

left_index и right_index принимают значения True или False. Указывают, использовать ли для левой таблицы индекс в качестве ключа и то же самое для правой. Так, вызов pd.merge(left, right, left_index=True, right_index=True) произведет соединение, где будет происходить проверка на равенство индексов в левой и правой таблице

left_on и right_on используются, когда мы хотим произвести соединение не по индексу, а по колонкам, принимают в качестве значения соответственно названия колонок из левой таблицы и из правой, можно передать сразу несколько названий колонок в списке, но кол-во колонок слева и справа должно совпадать. Таким образом pd.merge(left, right, left_on='A', right_on='B') произведет соединение в котором будет происходить проверка на равенство значений в колонке 'A' левой таблицы и колонки 'B' правой таблицы.

Мы можем комбинировать left_index, right_index и left_on, right_on. Например, использовать в левой таблице в качестве ключа индекс, а в правой колонку 'B': pd.merge(left, right, left_index=True, right_on='B').

Если названия колонок для соединения в обеих таблицах совпадают, то вместо передачи идентичных значений в left_on и right_on, можно просто указать параметр on='<название колонки>'.

Параметр how указывает тип соединения, и может принимать значения 'inner' (по умолчанию), 'outer', 'left' и 'right'.

Любопытно также наличие параметра validate, который делает проверку результирующего датафрейма в зависимости от наших ожиданий результата. Принимает следующие значения:
- “one_to_one” или “1:1”: проверяет, что ключи, использованные в соединении уникальны в левой и правой таблице

- “one_to_many” или “1:m”: Проверяет, что ключи уникальны в левой таблице

- “many_to_one” или “m:1”: Проверяет, что ключи уникальны в правой таблице

- “many_to_many” или “m:m”: можно указать, но при этом не происходит никаких проверок. Ключи могут быть неуникальны в обеих таблицах.

### Задания для самостоятельного решения (на pd.merge)
1. Соедините строки первой таблицы со второй по индексу (внутреннее соединение)
2. Соедините строки первой таблицы со второй по индексу (левое соединение)
3. Соедините строки первой таблицы со второй по индексу (правое соединение)
4. Соедините строки первой таблицы со второй по колонке name (внутреннее соединение)
5. Соедините строки первой таблицы со второй по колонке name (правое соединение)

In [None]:
# 1. your code here

In [None]:
# 2. your code here

In [None]:
# 3. your code here

In [None]:
# 4. your code here

In [None]:
# 5. your code here

## Группировка
Очень часто нам необходимо подсчитывать различные параметры и строить графики по группам. Для всего этого существует операция groupby в pandas, и она работает по существу также, как и в SQL.

Руководство по [группировке](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) и [еще одно на хабре](https://habr.com/ru/post/501214/).

In [159]:
# groupby, max, min, describe, agg, apply

Вот так мы можем произвести группировку по колнке variety и посчитать среднее значения в каждой колонке по группам

In [160]:
iris.groupby('variety').mean()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.006,3.428,1.462,0.246
Versicolor,5.936,2.77,4.26,1.326
Virginica,6.588,2.974,5.552,2.026


Или максимальные

In [161]:
iris.groupby('variety').max()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.8,4.4,1.9,0.6
Versicolor,7.0,3.4,5.1,1.8
Virginica,7.9,3.8,6.9,2.5


Или минимальные

In [162]:
iris.groupby('variety').min()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,4.3,2.3,1.0,0.1
Versicolor,4.9,2.0,3.0,1.0
Virginica,4.9,2.2,4.5,1.4


Иногда необходимо посчитать разные метрики для разных колонок, используйте для этого метод .agg()

In [163]:
iris.groupby('variety').agg({
    'sepal.length': ['max', 'min'],
    'petal.length': ['mean', 'median'],
    'petal.width': 'max'
    })

Unnamed: 0_level_0,sepal.length,sepal.length,petal.length,petal.length,petal.width
Unnamed: 0_level_1,max,min,mean,median,max
variety,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Setosa,5.8,4.3,1.462,1.5,0.6
Versicolor,7.0,4.9,4.26,4.35,1.8
Virginica,7.9,4.9,5.552,5.55,2.5


Есть даже .describe(), но его вывод выглядит несколько громоздко

In [164]:
iris.groupby('variety').describe()

Unnamed: 0_level_0,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.width,sepal.width,...,petal.length,petal.length,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
variety,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
Versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
Virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


Обратите внимание, что после того как мы вызвали метод .groupby(), нам возвращается специальный объект DataFrameGroupBy. Для него есть отдельная страничка с доступными методами. После применения одной из агрегирующих функций мы получаем новый датафрейм с которым мы уже умеем работать.

In [165]:
iris.groupby('variety')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x780a7a328370>

Для DataFrameGroupBy есть также и метод apply, по своему поведению похожий на apply для DataFrame

In [166]:
def my_function(gr):
  # смотрю значение колонки varitety в первой строке группы, и в зависимости от этого делаю что-то...
  if gr.iloc[0]['variety'] == 'Setosa':
    gr['sepal.width'] = gr['sepal.width']**2
  if gr.iloc[0]['variety'] == 'Virginica':
    gr['sepal.width'] = gr['sepal.width']**3
  return gr

iris.groupby('variety', group_keys = False).apply(my_function)
# для каждой подгруппы:
#   положить подгруппу в переменную gr
#   применить преобразования в my_function
#   преобразованную группу вернуть обратно в таблицу (return)

  iris.groupby('variety', group_keys = False).apply(my_function)


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,12.250,1.4,0.2,Setosa
1,4.9,9.000,1.4,0.2,Setosa
2,4.7,10.240,1.3,0.2,Setosa
3,4.6,9.610,1.5,0.2,Setosa
4,5.0,12.960,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,27.000,5.2,2.3,Virginica
146,6.3,15.625,5.0,1.9,Virginica
147,6.5,27.000,5.2,2.0,Virginica
148,6.2,39.304,5.4,2.3,Virginica


### Заданиe для самостоятельного решения (на df.groupby.apply)

Напишите агреггирующую функцию, которая осуществляла бы подсчет среднего квадратического по каждому столбцу для каждой группы. Заполните ячейку с кодом ниже

In [None]:
def my_function(gr):
  return '''your code here'''

iris.groupby('variety').apply(my_function)

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.018147,3.448478,1.472073,0.267208
Versicolor,5.957953,2.787364,4.285324,1.340373
Virginica,6.618006,2.991087,5.578817,2.044162


### Другие агреггирующие функции для группировки

Есть также ряд любопытных методов типа кумулятивной суммы (cumsum) или ранга (rank). Так мы можем присвоить в каждой группе порядковые значения объектам в зависимости от одной из колонок. Бывает очень полезно, например, если вам нужно проследить эволюцию какого-нибудь из параметров в зависимости от номера события во времени.

In [167]:
iris['sepal.length.rank'] = iris.groupby('variety')['sepal.length'].rank(method='dense')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.rank
0,5.1,3.5,1.4,0.2,Setosa,9.0
1,4.9,3.0,1.4,0.2,Setosa,7.0
2,4.7,3.2,1.3,0.2,Setosa,5.0
3,4.6,3.1,1.5,0.2,Setosa,4.0
4,5.0,3.6,1.4,0.2,Setosa,8.0
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,12.0
146,6.3,2.5,5.0,1.9,Virginica,9.0
147,6.5,3.0,5.2,2.0,Virginica,11.0
148,6.2,3.4,5.4,2.3,Virginica,8.0


## Мультииндекс
По-другому называется многоуровневый, многомерный индекс. Возникает тогда, когда группировка происходит по нескольким колонкам. Рассмотрим как мы можем работать с ним.

In [168]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                             'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                             'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,0.82993,-0.527671
1,bar,one,2.060914,-1.310094
2,foo,two,1.322977,2.294558
3,bar,three,1.566231,0.14901
4,foo,two,-0.823005,0.774989
5,bar,two,0.506204,-1.720654
6,foo,one,-1.389515,-0.088187
7,foo,three,-1.867801,-0.413801


In [169]:
df.groupby(['A','B']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2.060914,-1.310094
bar,three,1.566231,0.14901
bar,two,0.506204,-1.720654
foo,one,-0.279793,-0.307929
foo,three,-1.867801,-0.413801
foo,two,0.249986,1.534774


In [170]:
df.groupby(['A','B']).mean().index

MultiIndex([('bar',   'one'),
            ('bar', 'three'),
            ('bar',   'two'),
            ('foo',   'one'),
            ('foo', 'three'),
            ('foo',   'two')],
           names=['A', 'B'])

In [171]:
multi_gr = df.groupby(['A','B']).mean()
multi_gr

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2.060914,-1.310094
bar,three,1.566231,0.14901
bar,two,0.506204,-1.720654
foo,one,-0.279793,-0.307929
foo,three,-1.867801,-0.413801
foo,two,0.249986,1.534774


В навигации по loc мы теперь можем передавтаь по строкам 2 значения в кортеже, которые представляют уровни индекса.

In [172]:
multi_gr.loc[('foo', 'three')]

Unnamed: 0_level_0,foo
Unnamed: 0_level_1,three
C,-1.867801
D,-0.413801


Без изменений по колонкам, а если бы и там у нас был мультииндекс, то мы тоже могли бы делать выборки, передавая кортежи

In [173]:
multi_gr.loc[('foo', 'three'), 'C']

-1.8678012582879373

Однако, pandas не поймет запись типа ('foo', 'one':'three'), поэтому если нас интересует слайсинг по мультииндексу, нужно явно задавать срез с помощью функции [slice()](https://www.programiz.com/python-programming/methods/built-in/slice). На самом деле при указании срезов через двоеточие, происходит инициализация того же самого объекта slice, что и с использованием функции slice(). : является своего рода синтаксическим сахаром.

In [174]:
multi_gr.loc[('foo', slice('one','three')), ['C', 'D']]

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,-0.279793,-0.307929
foo,three,-1.867801,-0.413801


.iloc тоже работает!

In [175]:
multi_gr.iloc[1:3]

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,three,1.566231,0.14901
bar,two,0.506204,-1.720654


С помощью методов unstack и stack мы можем распаковывать уровни индекса в колонки и упаковывать обратно в строки

In [176]:
multi_gr.unstack(level=1) # распакован первый уровень индекса

Unnamed: 0_level_0,C,C,C,D,D,D
B,one,three,two,one,three,two
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
bar,2.060914,1.566231,0.506204,-1.310094,0.14901,-1.720654
foo,-0.279793,-1.867801,0.249986,-0.307929,-0.413801,1.534774


In [177]:
multi_gr.unstack(level=0) # распакован нулевой уровень индекса

Unnamed: 0_level_0,C,C,D,D
A,bar,foo,bar,foo
B,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
one,2.060914,-0.279793,-1.310094,-0.307929
three,1.566231,-1.867801,0.14901,-0.413801
two,0.506204,0.249986,-1.720654,1.534774


In [178]:
multi_gr.unstack(level=0).stack(level=0)

  multi_gr.unstack(level=0).stack(level=0)


Unnamed: 0_level_0,A,bar,foo
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,C,2.060914,-0.279793
one,D,-1.310094,-0.307929
three,C,1.566231,-1.867801
three,D,0.14901,-0.413801
two,C,0.506204,0.249986
two,D,-1.720654,1.534774


In [179]:
multi_gr.unstack(level=0).stack(level=1) # по сути обратная операция

  multi_gr.unstack(level=0).stack(level=1) # по сути обратная операция


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
B,A,Unnamed: 2_level_1,Unnamed: 3_level_1
one,bar,2.060914,-1.310094
one,foo,-0.279793,-0.307929
three,bar,1.566231,0.14901
three,foo,-1.867801,-0.413801
two,bar,0.506204,-1.720654
two,foo,0.249986,1.534774


In [180]:
multi_gr.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,C,2.060914
bar,one,D,-1.310094
bar,three,C,1.566231
bar,three,D,0.14901
bar,two,C,0.506204
bar,two,D,-1.720654
foo,one,C,-0.279793
foo,one,D,-0.307929
foo,three,C,-1.867801
foo,three,D,-0.413801


## Сводные таблицы ([pivot table](http://datareview.info/article/svodnyie-tablitsyi-v-python/))

Возможность создавать сводные таблицы присутствует в электронных таблицах и других программах, оперирующих табличными данными. Сводная таблица принимает на входе данные из отдельных столбцов и группирует их, формируя двумерную таблицу, реализующую многомерное обобщение данных. Чтобы ощутить разницу между сводной таблицей и операцией GroupBy, можно представить себе сводную таблицу, как многомерный вариант агрегации посредством GroupBy. То есть данные разделяются, преобразуются и объединяются, но при этом разделение и объединение осуществляются не по одномерному индексу, а по двумерной сетке.

In [181]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                      'B': ['A', 'B', 'C'] * 4,
                       'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                       'D': np.random.randn(12),
                       'E': np.random.randn(12)})

In [182]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.878204,-0.54932
1,one,B,foo,-0.26839,-0.09004
2,two,C,foo,-0.761895,0.6954
3,three,A,bar,0.040087,-1.407505
4,one,B,bar,1.085495,-0.374013
5,one,C,bar,0.298702,-1.507486
6,two,A,foo,-0.839448,0.648488
7,three,B,foo,-0.870968,0.611624
8,one,C,foo,0.435173,-1.056262
9,one,A,bar,-1.566791,-1.240468


In [183]:
# pivot(values, index, columns, margins)

Есть следующие параметры
- values значения для агрегации
- index строковый индекс (одна из колонок для группировки)
- columns колоночный индекс (одна из колонок для группировки)
- aggfunc аггрегационная функция

In [184]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='mean')

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.894894,-0.232027,-1.281874
three,-1.407505,0.611624,0.368244
two,0.648488,-0.938456,0.6954


margins дает нам дополнительную сводку по всем группам

In [185]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='mean', margins=True)

B,A,B,C,All
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,-0.894894,-0.232027,-1.281874,-0.802932
three,-1.407505,0.611624,0.368244,-0.142546
two,0.648488,-0.938456,0.6954,0.135144
All,-0.637201,-0.197721,-0.375026,-0.403316


In [186]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='max')

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.54932,-0.09004,-1.056262
three,-1.407505,0.611624,0.368244
two,0.648488,-0.938456,0.6954


 К сожалению, нельзя применить при агрегации одну функцию, а при своде применить другую. Но мы можем обойти это ограничение вручную.

In [187]:
pvt = pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='max')
pvt['All_mean'] = pvt.mean(axis=1)
pvt.loc['All_mean'] = pvt.mean(axis=0)
pvt

B,A,B,C,All_mean
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,-0.54932,-0.09004,-1.056262,-0.565207
three,-1.407505,0.611624,0.368244,-0.142546
two,0.648488,-0.938456,0.6954,0.135144
All_mean,-0.436112,-0.138957,0.002461,-0.19087


Можно в индекс или колонки передать и более одной колонки

In [188]:
pd.pivot_table(df, values='E' , index=['A','C'], columns='B', aggfunc='mean', margins=True)

Unnamed: 0_level_0,B,A,B,C,All
A,C,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,bar,-1.240468,-0.374013,-1.507486,-1.040656
one,foo,-0.54932,-0.09004,-1.056262,-0.565207
three,bar,-1.407505,,0.368244,-0.519631
three,foo,,0.611624,,0.611624
two,bar,,-0.938456,,-0.938456
two,foo,0.648488,,0.6954,0.671944
All,,-0.637201,-0.197721,-0.375026,-0.403316


С помощью crosstab мы можем делать сводные таблицы из колонок разных датафреймов

In [189]:
pd.crosstab(df['A'], df['B'], values=df['E'], aggfunc='max')

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.54932,-0.09004,-1.056262
three,-1.407505,0.611624,0.368244
two,0.648488,-0.938456,0.6954


*Важно помнить, что все приведенные выше команды и функции это далеко не все возможности Pandas - их существует гораздо, гораздо больше! Однако мы по крайней мере постарались собрать вместе и продемонстрировать вам самые важные и наиболее часто используемые инструменты этой библиотеки. Поэтому приведенное выше руководство поможет вам освоиться и начать ваш первичный путь знакомства с данной прекрасной библиотекой! :)*