<a href="https://colab.research.google.com/github/ti-molodykh/colab/blob/main/python%E2%84%968_pandas_%D0%BE%D0%B1%D1%89%D0%B8%D0%B5_%D0%BC%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%B0%D0%BB%D1%8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Занятие 6
*   [Полный User Guide по библиотеке pandas](https://pandas.pydata.org/docs/user_guide/index.html)
*   [Куча полезных рецептов и хороших практик](https://pandas.pydata.org/docs/user_guide/cookbook.html)

Данные iris.csv можно скачать отсюда https://drive.google.com/file/d/1fjyopp9FZ-g6KIsIE8vPX2r62A43h2XI/view?usp=sharing

In [None]:
from google.colab import files
uploaded = files.upload()

Saving iris.csv to iris.csv


In [None]:
import pandas as pd
import numpy as np

## Pandas
В pandas существует два основных объекта: pandas Series и pandas DataFrame. Первая это по сути асбтракция над одномерным массивом данных с дополнительными метаданными, а вторая абстракция это по сути "таблица", состоящая из наборов pandas Series.

### Создание объекта
Начнем с pd.Series. Также, как и для numpy массива мы можем задать тип данных. Доступны все те же типы данных, что и в numpy + есть возможность конвертировать одни типы данных в другие с помощью astype + можно указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [None]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers') # pd.Series
s

0    1
1    2
2    3
Name: numbers, dtype: int32

Обратите внимание на колонку слева, это индекс, и если не указано обратное, он создается автоматически. Индексы мы будем встречать как для pd.Series, так и для pd.DataFrame. Что же он дает? Аналогия здесь такая же, что с телефонным справочником. Индексы позволяют более логично категоризовать информацию, а также более оптимально делать некоторые операции над сериями (pd.Series) и датафреймами (pd.DataFrame). Вкратце, можно отметить, что индексы
1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли
2. Включают автоматическое и явное выравнивание данных.
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Помимо этого обратите внимание, что у серии также есть имя. Это полезно, когда нам нужно вставить новую колонку в DataFrame без явного указания имени.

Следующим образом мы можем задать произвольный индекс, теперь наши записи идентифицируют буквы a b c

In [None]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

a    1
b    2
c    3
Name: numbers, dtype: int32

Помимо индекса (свойства s.index) также сохраняется сквозняется целочисленная индексация.

Ниже выборка просто по целочисленному индексу (сквозному), как будто мы работаем с обычным списком

In [None]:
s[0] # 

1

Метод доступа .loc позволяет делать выборку именно по индексу.
Обратите внимание, что здесь используются именно квадратные скобки. Скорее всего так сделано, чтобы такая выборка была похоже на выборку из обычного списка.

In [None]:
s.loc['b']

2

Посмотреть отдельно на индекс можно с помощью свойства .index

In [None]:
s.index

Index(['a', 'b', 'c'], dtype='object')

Создадим pandas DataFrame из случайной numpy матрицы

In [None]:
m = np.random.rand(5,3)
df = pd.DataFrame(m)
df

Unnamed: 0,0,1,2
0,0.82656,0.606992,0.046158
1,0.128247,0.478177,0.378184
2,0.921544,0.402228,0.845925
3,0.669504,0.813911,0.717915
4,0.64728,0.753927,0.802768


Мы видим строковый индекс, который был создан автоматически, а также колоночный (или просто колонки), которые также были заданы автоматически. У нас получился не совсем привычный вид таблицы, давайте зададим колонкам более понятные имена.

In [None]:
df = pd.DataFrame(data=m, columns=['first', 'second', 'third'],)
df

Unnamed: 0,first,second,third
0,0.82656,0.606992,0.046158
1,0.128247,0.478177,0.378184
2,0.921544,0.402228,0.845925
3,0.669504,0.813911,0.717915
4,0.64728,0.753927,0.802768


В pandas DataFrame выборка квадратными скобками происходит по колонкам

In [None]:
df['first']

0    0.379692
1    0.553500
2    0.379066
3    0.435112
4    0.275009
Name: first, dtype: float64

In [None]:
df[0] # такой колонки нет, будет ошибка

KeyError: ignored

Но ВНЕЗАПНО, если мы попробуем применить слайсинг как в обычных массивах numpy или списках, выборка будет происходить по строкам. Эта та особенность, которую мы вынуждены просто запомнить. Выборка при этом происходит по целочисленной сквозной индексации (0,1,2,3,4,...).

In [None]:
df[:2]

Unnamed: 0,first,second,third
0,0.82656,0.606992,0.046158
1,0.128247,0.478177,0.378184


Есть удобный способ инициализировать новый DataFrame с помощью словаря. Ключи станут названиями колонок, а значения по ключам столбцами.

In [None]:
# pd.DataFrame через словарь
d = {
    'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
    'age': [24, 25, 30, 40]
}
pd.DataFrame(d)

Unnamed: 0,name,age
0,Dmitry,24
1,Alexey,25
2,Vladimir,30
3,Elena,40


### Просмотр 

По умолчанию colab notebook (или jupyter notebook) будет "обрезать" отображение табличек, так как если там много строк, они могут занимать много места, и привести ваш браузер в замешательство, а компьютер в полный аут.

In [None]:
df

Unnamed: 0,first,second,third
0,0.379692,0.641827,0.763283
1,0.5535,0.453616,0.89201
2,0.379066,0.308578,0.669392
3,0.435112,0.179256,0.506263
4,0.275009,0.878521,0.38251


In [None]:
pd.DataFrame(np.random.rand(100,2)) # так будет пропущено несколько строчек в целях экономии места

Unnamed: 0,0,1
0,0.827194,0.141254
1,0.964985,0.029540
2,0.551814,0.922230
3,0.789391,0.391745
4,0.959257,0.072854
...,...,...
95,0.378144,0.088427
96,0.979382,0.776132
97,0.632351,0.867668
98,0.958864,0.450978


Впрочем, вряд ли вам понадобится отсматривать, скажем, 100000 строк какой-нибудь таблицы вручную. Как правило, нам достаточно посмотреть первые несколько строк таблицы, чтобы понять что там находится, и правильно ли мы прочитали нашу таблицу из файла.

In [None]:
df.head(2) # покажем первые две строки датафрейма

Unnamed: 0,first,second,third
0,0.379692,0.641827,0.763283
1,0.5535,0.453616,0.89201


In [None]:
df.tail(2) # последние две строчки с конца

Unnamed: 0,first,second,third
3,0.435112,0.179256,0.506263
4,0.275009,0.878521,0.38251


Мы можем отдельно посмотреть строковый индекс и колонки с помощью соответствующих свойств объекта

In [None]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
df.columns

Index(['first', 'second', 'third'], dtype='object')

In [None]:
df.columns[1]

'second'

Узнать форму нашей таблицы

In [None]:
df.shape

(5, 3)

In [None]:
df.shape[0]

5

In [None]:
df.shape[1]

3

Посмотреть типы данных

In [None]:
df.dtypes

first     float64
second    float64
third     float64
dtype: object

И менять их с помощью метода astype. Обратите внимание, что мы можем передать целый словарь в котором ключи это названия колонок, а значения по ключу это тип данных к которому мы хотим преобразовать соответствующую колонку.

In [None]:
df.astype({'first': np.float32}).dtypes

first     float32
second    float64
third     float64
dtype: object

Мы можем отказаться от всех метаданных и перейти к numpy матрице, чтобы работать с ней с помощью методов из библиотеки numpy

In [None]:
df.to_numpy()

array([[0.37969151, 0.64182666, 0.76328264],
       [0.55349974, 0.4536163 , 0.89200988],
       [0.37906648, 0.30857808, 0.66939211],
       [0.43511226, 0.17925616, 0.50626252],
       [0.27500895, 0.87852117, 0.38251001]])

Крайне полезен метод .describe(), который выводит нам дескриптивную статистику по нашему датафрейму.

In [None]:
df.describe()

Unnamed: 0,first,second,third
count,5.0,5.0,5.0
mean,0.404476,0.49236,0.642691
std,0.10145,0.276031,0.202313
min,0.275009,0.179256,0.38251
25%,0.379066,0.308578,0.506263
50%,0.379692,0.453616,0.669392
75%,0.435112,0.641827,0.763283
max,0.5535,0.878521,0.89201


А в методе info мы можем сразу проверить наличие пропусков (графа Non-Null Count), а также посмотреть какой объем памяти занимает наша табличка (чем меньше, тем, конечно, лучше).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 248.0 bytes


In [None]:
df.astype({'first': np.float32}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float32
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float32(1), float64(2)
memory usage: 228.0 bytes


По большому счету колонки это тот же индекс, только по горизонтальной оси (axis = 1). Строковый и столбцовый индексы могут заменять друг друга, давайте продемонстрируем это с помощью операции транспонирования.

Кстати, ниже напоминание об осях из прошлой лекции.

![axes](https://railsware.com/blog/wp-content/uploads/2018/11/data-frame-axes.png)

![axes](https://i.stack.imgur.com/FzimB.png)

In [None]:
df.T

Unnamed: 0,0,1,2,3,4
first,0.379692,0.5535,0.379066,0.435112,0.275009
second,0.641827,0.453616,0.308578,0.179256,0.878521
third,0.763283,0.89201,0.669392,0.506263,0.38251


Мы можем сортировать строки таблицы по значениям колонок. Обратите внимание, что индекс остался прежним.

In [None]:
df.sort_values('first', ascending=False) # ascending=False по убыванию

Unnamed: 0,first,second,third
1,0.5535,0.453616,0.89201
3,0.435112,0.179256,0.506263
0,0.379692,0.641827,0.763283
2,0.379066,0.308578,0.669392
4,0.275009,0.878521,0.38251


А можем сортировать именно индекс.

In [None]:
df.T.sort_index(axis=0, ascending=False)

Unnamed: 0,0,1,2,3,4
third,0.763283,0.89201,0.669392,0.506263,0.38251
second,0.641827,0.453616,0.308578,0.179256,0.878521
first,0.379692,0.5535,0.379066,0.435112,0.275009


### Выборка
Подробная информация по выборкам данных представлена [тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

#### Квадратные скобки
Как уже отмечалось выше, для датафреймов выборка происходит по столбцам.

In [None]:
df['third']

0    0.763283
1    0.892010
2    0.669392
3    0.506263
4    0.382510
Name: third, dtype: float64

In [None]:
df[['third', 'first']]

Unnamed: 0,third,first
0,0.763283,0.379692
1,0.89201,0.5535
2,0.669392,0.379066
3,0.506263,0.435112
4,0.38251,0.275009


In [None]:
df[1:4] # слайсинг по сквозному целочисленному индексу как в массиве

Unnamed: 0,first,second,third
1,0.5535,0.453616,0.89201
2,0.379066,0.308578,0.669392
3,0.435112,0.179256,0.506263


#### Выборка по метке (лейблу)
Добавим новый столбец в нашу таблицу и сделаем его новым индексом с помощью метода .set_index()

In [None]:
df['new_index'] = pd.Series(['a', 'b', 'e', 'c', 'g'])
df

Unnamed: 0,first,second,third,new_index
0,0.43485,0.331159,0.386165,a
1,0.726613,0.231609,0.472886,b
2,0.286445,0.235704,0.081039,e
3,0.090312,0.872867,0.521625,c
4,0.27895,0.613056,0.548749,g


In [None]:
df = df.set_index('new_index')
df

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.43485,0.331159,0.386165
b,0.726613,0.231609,0.472886
e,0.286445,0.235704,0.081039
c,0.090312,0.872867,0.521625
g,0.27895,0.613056,0.548749


Теперь с помощью .loc мы можем производить навигацию по этому индексу

In [None]:
df.loc['b']

first     0.553500
second    0.453616
third     0.892010
Name: b, dtype: float64

И даже использовать диапазоны (слайсы) по индексу

In [None]:
df.loc['b':'c']

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.5535,0.453616,0.89201
e,0.379066,0.308578,0.669392
c,0.435112,0.179256,0.506263


Через запятую мы можем указать также и фильтр по столбцам

In [None]:
df.loc['b':'c', ['second', 'third']]

Unnamed: 0_level_0,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.231609,0.472886
e,0.235704,0.081039
c,0.872867,0.521625


#### Выборка по позиции в таблице
Сохраняется сквозная целочисленная индексация, и она доступна с помощью метода .iloc. Скобки также квадратные

In [None]:
df

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.379692,0.641827,0.763283
b,0.5535,0.453616,0.89201
e,0.379066,0.308578,0.669392
c,0.435112,0.179256,0.506263
g,0.275009,0.878521,0.38251


In [None]:
df.iloc[1:3]

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.5535,0.453616,0.89201
e,0.379066,0.308578,0.669392


Происходит выборка именно по **номеру** строки и **номеру** столбца (начиная с нуля)

In [None]:
df.iloc[1:3, [0,2]]

Unnamed: 0_level_0,first,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.726613,0.472886
e,0.286445,0.081039


### Чтение и запись данных

В pandas присутствует огромное кол-во возможностей для чтения записи данных.

Например, в методе pd.read_csv доступны специфичные опции для формата (например, разделитель колонок sep), но и также можно, например, дополнить список значений, которые pandas по умолчанию считает пропусками, задав явно параметр na_values.

Более подробную информацию про чтение запись данных можно найти [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

In [None]:
iris = pd.read_csv('iris.csv', header='infer', sep=',')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
pd.read_ # доступно очень большое кол-во форматов для чтения

In [None]:
# запись to_csv() и другие

In [None]:
iris.to_csv('iris_test.csv', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [None]:
!ls

iris.csv  iris_test.csv  sample_data


Загрузим набор данных iris.csv, и потренируемся делать выборки на нем.

In [None]:
import numpy as np
import pandas as pd

iris = pd.read_csv('iris.csv', header='infer')
iris.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


##### Задачи на выборку данных
1. выведите первые 4 строки и первые 2 столбца с помощью метода .iloc
2. выведите только колонки sepal.length и petal.length с помощью loc и/или квадратных скобок
3. сделайте индексом колонку variety с помощью метода .set_index(), и выберите с помощью .loc только вид 'Setosa'

In [None]:
iris.iloc[:4, :2] # 1.

Unnamed: 0,sepal.length,sepal.width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1


In [None]:
iris.loc[:, ['sepal.length', 'petal.length']] # 2.

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [None]:
iris.set_index('variety').loc['Setosa'] # 3. 

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.1,3.5,1.4,0.2
Setosa,4.9,3.0,1.4,0.2
Setosa,4.7,3.2,1.3,0.2
Setosa,4.6,3.1,1.5,0.2
Setosa,5.0,3.6,1.4,0.2
Setosa,5.4,3.9,1.7,0.4
Setosa,4.6,3.4,1.4,0.3
Setosa,5.0,3.4,1.5,0.2
Setosa,4.4,2.9,1.4,0.2
Setosa,4.9,3.1,1.5,0.1


#### Выборка по маске
Также как и в numpy присутствует возможность делать выборки по маске. Но здесь механизм несколько отличается. Если в numpy мы получали матрицу из True и False, и у каждому элементу было сопоставлено значение True (брать в выборку) или False (не брать в выборку), то в pandas маска это pandas Series **с такой же индексацией** что и исходный датафрейм или серия, состоящий из значений True или False. Т.е мы указываем какие строчки идут в результирующую выборку, а какие нет.

In [None]:
# получаем маску в которой у каждого индекса (!!!) указано оставлять его в наборе данных или нет
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

Конечно, мы можем выстраивать условия в логические цепочки

In [None]:
iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
53,5.5,2.3,4.0,1.3,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
55,5.7,2.8,4.5,1.3,Versicolor
58,6.6,2.9,4.6,1.3,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
...,...,...,...,...,...
142,5.8,2.7,5.1,1.9,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica


Мы можем даже перемешать значения, но выборка все равно останется той же за счет соответствия по индексу!

In [None]:
iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

  """Entry point for launching an IPython kernel.


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
98,5.1,2.5,3.0,1.1,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
84,5.4,3.0,4.5,1.5,Versicolor
90,5.5,2.6,4.4,1.2,Versicolor
53,5.5,2.3,4.0,1.3,Versicolor
...,...,...,...,...,...
130,7.4,2.8,6.1,1.9,Virginica
105,7.6,3.0,6.6,2.1,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


In [None]:
# получим уникальные значения индексов в каждой выборке
# если множество ключей в первом случае совпадает со множеством во втором случае, то 
# в обоих случаях мы сделали одинаковую выборку
set(iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index) \
 - set(iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index)

  """Entry point for launching an IPython kernel.


set()

Для того, чтобы сделать фильтрацию по значениям в колонке, используйте метод .isin()

In [None]:
iris['variety'].isin(['Setosa', 'Virginica']) # проверка по множеству

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal.length, Length: 150, dtype: bool

#### Вставка значений
Вставку значений можно производить методами доступа .loc и .iloc, а также методом .at. Разница в том, что .loc и .iloc чуть более универсальны, и позволяют изменить сразу целый диапазон, при этом важно соблюсти размерности вставляемых данных. .at в свою очередь дает нам точечную вставку "на место", и лучше подходит с точки зрения чтения кода.

In [None]:
df = pd.DataFrame(np.random.rand(6,3), 
                  index=['a','b','c','d','e','f'], 
                  columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
a,0.845152,0.384299,0.089012
b,0.58196,0.323776,0.045295
c,0.181871,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,0.80516,0.150216
f,0.371478,0.318323,0.975843


In [None]:
df.loc['b','first'] = 1.0
df

Unnamed: 0,first,second,third
a,0.845152,0.384299,0.089012
b,1.0,0.323776,0.045295
c,0.181871,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,0.80516,0.150216
f,0.371478,0.318323,0.975843


In [None]:
df.loc['a':'c', 'first'] = [0.5, 1.5, 2.0]
df

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,0.80516,0.150216
f,0.371478,0.318323,0.975843


In [None]:
df.at['e', 'second'] = 100
df

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,100.0,0.150216
f,0.371478,0.318323,0.975843


### Пропущенные значения
По умолчанию не участвуют в вычислениях, и чаще всего на месте пропусков можно встретить значение np.nan (Not a Number), либо None (для нечисловых типов)

In [None]:
# сделаем специально несколько пропущенных значений
df.at['e', 'second'] = np.nan
df.at['e', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,,
f,0.371478,0.318323,0.975843


Метод .isna() возвращает нам карту с пропусками. Пропуск там, где значение True.

In [None]:
df.isna()

Unnamed: 0,first,second,third
a,False,False,False
b,False,False,False
c,False,False,False
d,False,False,False
e,False,True,True
f,False,False,False


Напоминаю, что в принципе количественную информацию о пропусках можно получить с помощью метода .info()

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 352.0+ bytes


Для удаления пропусков используется метод .dropna().

По умолчанию .dropna() удалит те строки в которых есть хотя бы один пропуск в строке.

In [None]:
df.dropna()

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
f,0.371478,0.318323,0.975843


А с помощью транспонирования можно удалять целые столбцы

In [None]:
df.T.dropna().T

Unnamed: 0,first
a,0.5
b,1.5
c,2.0
d,0.064578
e,0.800549
f,0.371478


Или использовать параметр axis=1

In [None]:
df.dropna(axis=1)

Unnamed: 0,first
a,0.5
b,1.5
c,2.0
d,0.064578
e,0.800549
f,0.371478


Но все же часто нам все-таки интересны данные с пропусками. Для работы с ними можно использовать метод .fillna()

Вот так мы заполним все пропуски одним и тем же значением

In [None]:
df.fillna(0)

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,0.0,0.0
f,0.371478,0.318323,0.975843


Но обычно мы все же хотим заполнять разные столбцы разными значениями

In [None]:
df.fillna({'second': 0, 'third': 1.0})

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.435754,0.118551
e,0.800549,0.0,1.0
f,0.371478,0.318323,0.975843


Есть и более продвинутые методы заполнения, сделаем несколько пропусков подряд

In [None]:
df.at['d', 'second'] = np.nan
df.at['d', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,,
e,0.800549,,
f,0.371478,0.318323,0.975843


Метод bfill заполняет серию пропусков последним корректным (non Null) значением, итерируясь по таблице с конца.

In [None]:
df.fillna(method='bfill')

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.318323,0.975843
e,0.800549,0.318323,0.975843
f,0.371478,0.318323,0.975843


Метод ffill делает то же самое, но итерация происходит с начала таблицы

In [None]:
df.fillna(method='ffill')

Unnamed: 0,first,second,third
a,0.5,0.384299,0.089012
b,1.5,0.323776,0.045295
c,2.0,0.372784,0.365997
d,0.064578,0.372784,0.365997
e,0.800549,0.372784,0.365997
f,0.371478,0.318323,0.975843


bfill и ffill особенно полезны при заполнении пропусков во временном ряду. Более подробно данный функционал описан [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html).

[Интерполяция](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html), увы делается отдельными методами.

### Статистики
Конечно, в pandas реализовано куча методов для подсчета различных статистик. 
Полный список методов можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats) 

In [None]:
# mean, std, var, value_counts, df +- series

Вот так мы можем посчитать средние значения для всех колонок сразу

In [None]:
df.mean()

first     0.872768
second    0.349796
third     0.369037
dtype: float64

А так посчитать среднее лишь для одной колонки

In [None]:
df['first'].mean()

0.8727675477330439

То же для [стандартного отклонения](https://berg.com.ua/indicators-overlays/stdev/#:~:text=%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%BE%D0%B5%20%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%20%D0%B2%D1%8B%D1%80%D0%B0%D0%B7%D0%B8%D1%82%D1%8C%20%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%BE%D0%B9,%D0%BD%D0%B0%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE%20%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B2%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B5.)

In [None]:
df.std() # стандартное

first     0.736574
second    0.033598
third     0.428736
dtype: float64

Или [дисперсии](https://ru.qwe.wiki/wiki/Variance)

In [None]:
df.var() # дисперсию

first     0.542541
second    0.001129
third     0.183815
dtype: float64

А с помощью .value_counts() можно посчитать кол-во вхождений уникальных значений

In [None]:
df['second'].value_counts()

0.318323    1
0.323776    1
0.372784    1
0.384299    1
Name: second, dtype: int64

### Применение функций к данным (apply)
И все же иногда в pandas требуются новые функции со своей логикой обработки. Тогда на помощью приходит метод .apply

Он работает следующим образом. Мы передаем первым аргументом функцию, которая отвечает за логику, а вторым передаем axis, т.е мы указываем производить обработку по колонкам или по строкам.

В самой функции, задающей логику, нужно не забыть вернуть строку или столбец обратно в таблицу (return).

Полное описание функции доступно [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [None]:
def my_function(r): 
  r['first'] = r['first']**2
  r['second'] = r['second'] - 1
  return r

print("begin")
df.apply(my_function, axis=1) # тогда в my_function будут отправляться строки, в параметр r
# for *итерация по строчкам*
#.  применить к строке функцию my_function и перезаписать строчку

begin


Unnamed: 0,first,second,third
a,1.5e-05,-3.615701,0.089012
b,5.0625,-1.676224,0.045295
c,16.0,-1.627216,0.365997
d,1.7e-05,,
e,0.410725,,
f,0.019043,-1.681677,0.975843


In [None]:
def my_function(c):
  if c.name == 'first':
    c = c**2
  if c.name == 'second':
    c = c - 1
  return c

print("begin")
df.apply(my_function, axis=0) # тогда в my_function будут отправляться столбцы, в параметр c
# for *итерация по колонкам*
#.  применить к колонке функцию my_function и перезаписать колонку

begin


Unnamed: 0,first,second,third
a,2.328306e-10,-4.615701,0.089012
b,25.62891,-2.676224,0.045295
c,256.0,-2.627216,0.365997
d,3.024847e-10,,
e,0.1686951,,
f,0.0003626307,-2.681677,0.975843


### Методы для работы со строками
Есть приятная возможность работы с векторизованными копиями функций для стандартного [типа данных str](https://pyprog.pro/python/py/str/str_methods.html). Например, мы можем перевести все строки в верхний регистр или нижний, посчитать кол-во определенных символов и т.д. Если у вас есть объект pandas.Series на который ссылается переменная s, то получить доступ к этим методам можно если вызвать свойство s.str.<название метода для работы со строками>.

[pandas.Series.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html)

[Руководство по работе со строковыми колонками.](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Зададим еще одну строковую колонку в нашем датафрейме

In [None]:
df['fourth'] = pd.Series(['abc', 'def', 'xyz dsad', 'dweq', 'dsad', 'dsad'], index=df.index)
df

Unnamed: 0,first,second,third,fourth
a,1.5e-05,-3.615701,0.089012,abc
b,5.0625,-1.676224,0.045295,def
c,16.0,-1.627216,0.365997,xyz dsad
d,1.7e-05,,,dweq
e,0.410725,,,dsad
f,0.019043,-1.681677,0.975843,dsad


Приведем всю колонку к верхнему регистру

In [None]:
df['fourth'].str.upper()

a         ABC
b         DEF
c    XYZ DSAD
d        DWEQ
e        DSAD
f        DSAD
Name: fourth, dtype: object

Или разобьем все строкипо определенному символу

In [None]:
df['fourth'].str.split('d')

a           [abc]
b          [, ef]
c    [xyz , sa, ]
d         [, weq]
e        [, sa, ]
f        [, sa, ]
Name: fourth, dtype: object

Можно также указать вторым аргументом максимальное кол-во разбиений, и создать из полученных массивов новый датафрейм, где в каждую колонку будет записан элемент разбиения (expand=True).

Описание метода [pandas.Series.str.split()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html )

In [None]:
df['fourth'].str.split('d', 1, expand=True)

Unnamed: 0,0,1
a,abc,
b,,ef
c,xyz,sad
d,,weq
e,,sad
f,,sad


### Соединение датафреймов

[Руководство по методам pd.merge, pd.join и pd.concat](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

In [None]:
# pd.concat, pd.merge

Рассмотрим применение метода pd.concat для конкатенации (соединения по осям) на основе датафрейма iris.

In [None]:
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


pd.concat принимает на вход последовательность датафреймов или серий для соединения. По умолчанию соединение происходит по axis=0, но, конечно, можно произвести и горизонтальное соединение.

In [None]:
vertical_concat = pd.concat([iris, iris])
vertical_concat

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Обратите внимание, что индексы не сбрасываются, и теперь мы видим две записи по одному индексу. Чтобы создать новый индекс, необходимо указать параметр ignore_index=True. 

In [None]:
vertical_concat.loc[110] # индексы не сбрасываются, если нужно сбросить, используем метод reset_index()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
110,6.5,3.2,5.1,2.0,Virginica
110,6.5,3.2,5.1,2.0,Virginica


Либо сбросить индекс уже после соединения

In [None]:
vertical_concat.reset_index()

Unnamed: 0,index,sepal.length,sepal.width,petal.length,petal.width,variety
0,0,5.1,3.5,1.4,0.2,Setosa
1,1,4.9,3.0,1.4,0.2,Setosa
2,2,4.7,3.2,1.3,0.2,Setosa
3,3,4.6,3.1,1.5,0.2,Setosa
4,4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...
295,145,6.7,3.0,5.2,2.3,Virginica
296,146,6.3,2.5,5.0,1.9,Virginica
297,147,6.5,3.0,5.2,2.0,Virginica
298,148,6.2,3.4,5.4,2.3,Virginica


In [None]:
vertical_concat.reset_index().loc[110]

index                 110
sepal.length          6.5
sepal.width           3.2
petal.length          5.1
petal.width             2
variety         Virginica
Name: 110, dtype: object

Аналогично, соединение по горизонтали

In [None]:
horizontal_concat = pd.concat([iris, iris], axis=1)
horizontal_concat

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica,6.2,3.4,5.4,2.3,Virginica


In [None]:
horizontal_concat['sepal.length']

Unnamed: 0,sepal.length,sepal.length.1
0,5.1,5.1
1,4.9,4.9
2,4.7,4.7
3,4.6,4.6
4,5.0,5.0
...,...,...
145,6.7,6.7
146,6.3,6.3
147,6.5,6.5
148,6.2,6.2


Стоит также отметить важный параметр join, который по умолчанию выставлен в 'outer', но может быть выставлен в 'inner'. Этот параметр указывает как поступить с теми индексами, которых нет в одном из датафреймов, участвующих в соединении.

'outer' объединяет (union) датафреймы.

'inner' оставляет только пересечения по индексу.

См. примеры

In [None]:
pd.concat([iris, iris[:50]], join='outer', axis=1)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,,,,,
146,6.3,2.5,5.0,1.9,Virginica,,,,,
147,6.5,3.0,5.2,2.0,Virginica,,,,,
148,6.2,3.4,5.4,2.3,Virginica,,,,,


In [None]:
pd.concat([iris, iris[:50]], join='inner', axis=1)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.1,sepal.width.1,petal.length.1,petal.width.1,variety.1
0,5.1,3.5,1.4,0.2,Setosa,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa,4.9,3.1,1.5,0.1,Setosa


In [None]:
pd.concat([iris, iris[['sepal.length', 'petal.length']]], join='outer', axis=0)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,,5.2,,
146,6.3,,5.0,,
147,6.5,,5.2,,
148,6.2,,5.4,,


In [None]:
pd.concat([iris, iris[['sepal.length', 'petal.length']]], join='inner', axis=0)

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


#### pd.merge

pandas имеет полнофункциональные, высокопроизводительные операции соединения в памяти, идиоматически очень похожие на реляционные базы данных, такие как SQL.

Вообще говоря, существует 3 типа соединений
1. внутреннее соединение (inner)
2. левое соединение (left), так остаются строки из левой таблицы, а для неизвестных значений правой выставляется значение NaN
3. правое соеденине (т.е right) так остаются строки из правой таблицы, а для неизвестных значений левой выставляется значение NaN
4. внешнее соединение (т.е outer). кобминация из левого и правого соединения

Для запоминания можно вспоользовать вот этой картинкой. Нужно подчеркнуть, что пересечение и объединение происходит в множестве ключей (колонок), по которым происходит соединение. Так, например, для inner join мы оставляем в результирующей выборке подмножество всевозможных попарных комбинаций строк, с условием, что значения в колонках (ключах) по которым происходит соединение, совпадают.

![joins](https://i.stack.imgur.com/VQ5XP.png)

[Сравнение использования с sql join-ами](https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html#compare-with-sql-join)


Мы будем работать с методом pd.merge(), так как он является более универсальным, хотя иногда короче использовать метод pd.join()

In [None]:
# разберемся на примере задач
import pandas as pd
import numpy as np

df_left = pd.DataFrame({
    'name': ['Dmitry', 'Sergey', 'Anna'],
    'age': [20, 30, 40]
}, index=['a', 'a', 'b'])

df_right = pd.DataFrame({
    'name': ['Dmitry', 'Sergey', 'Anna', 'Vasiliy'],
    'second_name': ['Petrov', 'Ivanov', 'Smirnova', 'Alexandrov']
}, index=['a', 'b', 'c', 'b'])

In [None]:
df_left

Unnamed: 0,name,age
a,Dmitry,20
a,Sergey,30
b,Anna,40


In [None]:
df_right

Unnamed: 0,name,second_name
a,Dmitry,Petrov
b,Sergey,Ivanov
c,Anna,Smirnova
b,Vasiliy,Alexandrov


У pd.merge есть довольно много параметров, увидев которые в первый раз можно немного выпасть в осадок. Давайте разберемся по порядку.

Первые 2 параметра: left и right. Это левый и правый датафрейм (таблицы), которые будут участвовать в соединении.

left_index и right_index принимают значения True или False. Указывают, использовать ли для левой таблицы индекс в качестве ключа и то же самое для правой. Так, вызов pd.merge(left, right, left_index=True, right_index=True) произведет соединение, где будет происходить проверка на равенство индексов в левой и правой таблице

left_on и right_on используются, когда мы хотим произвести соединение не по индексу, а по колонкам, принимают в качестве значения соответственно названия колонок из левой таблицы и из правой, можно передать сразу несколько названий колонок в списке, но кол-во колонок слева и справа должно совпадать. Таким образом pd.merge(left, right, left_on='A', right_on='B') произведет соединение в котором будет происходить проверка на равенство значений в колонке 'A' левой таблицы и колонки 'B' правой таблицы.

Мы можем комбинировать left_index, right_index и left_on, right_on. Например, использовать в левой таблице в качестве ключа индекс, а в правой колонку 'B': pd.merge(left, right, left_index=True, right_on='B').

Если названия колонок для соединения в обеих таблицах совпадают, то вместо передачи идентичных значений в left_on и right_on, можно просто указать параметр on='<название колонки>'.

Параметр how указывает тип соединения, и может принимать значения 'inner' (по умолчанию), 'outer', 'left' и 'right'.

Любопытно также наличие параметра validate, который делает проверку результирующего датафрейма в зависимости от наших ожиданий результата. Принимает следующие значения:
- “one_to_one” или “1:1”: проверяет, что ключи, использованные в соединении уникальны в левой и правой таблице

- “one_to_many” или “1:m”: Проверяет, что ключи уникальны в левой таблице

- “many_to_one” или “m:1”: Проверяет, что ключи уникальны в правой таблице

- “many_to_many” или “m:m”: можно указать, но при этом не происходит никаких проверок. Ключи могут быть неуникальны в обеих таблицах.

#### Задачи на pd.merge
1. соедините строки первой таблицы со второй по индексу (внутреннее соединение)
2. соедините строки первой таблицы со второй по индексу (левое соединение)
3. соедините строки первой таблицы со второй по индексу (правое соединение)
4. соедините строки первой таблицы со второй по колонке name (внутреннее соединение)
5. соедините строки первой таблицы со второй по колонке name (правое соединение)

In [None]:
# 1. соедините строки первой таблицы со второй по индексу (внутреннее соединение)
# если не указываем left_index=True и right_index=True, то соединение происходит по целочисленному сквозному индексу
pd.merge(df_left, df_right, left_index=True, right_index=True, how='inner')

Unnamed: 0,name_x,age,name_y,second_name
a,Dmitry,20,Dmitry,Petrov
a,Sergey,30,Dmitry,Petrov
b,Anna,40,Sergey,Ivanov
b,Anna,40,Vasiliy,Alexandrov


In [None]:
# прочувствуйте разницу
pd.merge(df_left, df_right)

Unnamed: 0,name,age,second_name
0,Dmitry,20,Petrov
1,Sergey,30,Ivanov
2,Anna,40,Smirnova


In [None]:
# 2. соедините строки первой таблицы со второй по индексу (левое соединение)
pd.merge(df_left, df_right, how='left', left_index=True, right_index=True)

Unnamed: 0,name_x,age,name_y,second_name
a,Dmitry,20,Dmitry,Petrov
a,Sergey,30,Dmitry,Petrov
b,Anna,40,Sergey,Ivanov
b,Anna,40,Vasiliy,Alexandrov


In [None]:
# 3. соедините строки первой таблицы со второй по индексу (правое соединение)
pd.merge(df_left, df_right, how='right', left_index=True, right_index=True)

Unnamed: 0,name_x,age,name_y,second_name
a,Dmitry,20.0,Dmitry,Petrov
a,Sergey,30.0,Dmitry,Petrov
b,Anna,40.0,Sergey,Ivanov
b,Anna,40.0,Vasiliy,Alexandrov
c,,,Anna,Smirnova


In [None]:
# 4. соедините строки первой таблицы со второй по колонке name (внутреннее соединение)
pd.merge(df_left, df_right, how='inner', left_on='name', right_on='name')

Unnamed: 0,name,age,second_name
0,Dmitry,20,Petrov
1,Sergey,30,Ivanov
2,Anna,40,Smirnova


In [None]:
# 5. соедините строки первой таблицы со второй по колонке name (правое соединение)
pd.merge(df_left, df_right, how='right', left_on='name', right_on='name')

Unnamed: 0,name,age,second_name
0,Dmitry,20.0,Petrov
1,Sergey,30.0,Ivanov
2,Anna,40.0,Smirnova
3,Vasiliy,,Alexandrov


In [None]:
pd.merge(df_left, df_right, how='right', on='name') # если название колонки в левой таблице совподает с названием колонки в правой таблице, 
# то можно опустить параметры left_on и right_on, и использовать просто параметр on.

Unnamed: 0,name,age,second_name
0,Dmitry,20.0,Petrov
1,Sergey,30.0,Ivanov
2,Anna,40.0,Smirnova
3,Vasiliy,,Alexandrov


### Группировка
Очень часто нам необходимо подсчитывать различные параметры и строить графики по группам. Для всего этого существует операция groupby в pandas, и она работает по существу также, как и в SQL.

Руководство по [группировке](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) и [еще одно на хабре](https://habr.com/ru/post/501214/).

In [None]:
# groupby, max, min, describe, agg, apply

pandas.core.groupby.generic.DataFrameGroupBy

Вот так мы можем произвести группировку по колнке variety и посчитать среднее значения в каждой колонке по группам

In [None]:
iris.groupby('variety').mean()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.006,3.428,1.462,0.246
Versicolor,5.936,2.77,4.26,1.326
Virginica,6.588,2.974,5.552,2.026


Или максимальные

In [None]:
iris.groupby('variety').max()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width,sepal.length.rank
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Setosa,5.8,4.4,1.9,0.6,15.0
Versicolor,7.0,3.4,5.1,1.8,21.0
Virginica,7.9,3.8,6.9,2.5,21.0


Или минимальные

In [None]:
iris.groupby('variety').min()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width,sepal.length.rank
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Setosa,4.3,2.3,1.0,0.1,1.0
Versicolor,4.9,2.0,3.0,1.0,1.0
Virginica,4.9,2.2,4.5,1.4,1.0


Иногда необходимо посчитать разные метрики для разных колонок, используйте для этого метод .agg()

In [None]:
iris.groupby('variety').agg({
    'sepal.length': ['max', 'min'], 
    'petal.length': ['mean', 'median'],
    'petal.width': 'max'
    })

Unnamed: 0_level_0,sepal.length,sepal.length,petal.length,petal.length,petal.width
Unnamed: 0_level_1,max,min,mean,median,max
variety,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Setosa,5.8,4.3,1.462,1.5,0.6
Versicolor,7.0,4.9,4.26,4.35,1.8
Virginica,7.9,4.9,5.552,5.55,2.5


Есть даже .describe(), но его вывод выглядит несколько громоздко

In [None]:
iris.groupby('variety').describe()

Unnamed: 0_level_0,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.length,sepal.width,sepal.width,sepal.width,sepal.width,sepal.width,sepal.width,sepal.width,sepal.width,petal.length,petal.length,petal.length,petal.length,petal.length,petal.length,petal.length,petal.length,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width,petal.width,sepal.length.rank,sepal.length.rank,sepal.length.rank,sepal.length.rank,sepal.length.rank,sepal.length.rank,sepal.length.rank,sepal.length.rank
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
variety,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2,Unnamed: 33_level_2,Unnamed: 34_level_2,Unnamed: 35_level_2,Unnamed: 36_level_2,Unnamed: 37_level_2,Unnamed: 38_level_2,Unnamed: 39_level_2,Unnamed: 40_level_2
Setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,0.379064,2.3,3.2,3.4,3.675,4.4,50.0,1.462,0.173664,1.0,1.4,1.5,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6,50.0,8.0,3.404679,1.0,6.0,8.0,10.0,15.0
Versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,0.313798,2.0,2.525,2.8,3.0,3.4,50.0,4.26,0.469911,3.0,4.0,4.35,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8,50.0,10.46,4.990644,1.0,7.0,10.0,14.0,21.0
Virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,0.322497,2.2,2.8,3.0,3.175,3.8,50.0,5.552,0.551895,4.5,5.1,5.55,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5,50.0,11.18,5.069678,1.0,8.25,11.0,14.0,21.0


Обратите внимание, что после того как мы вызвали метод .groupby(), нам возвращается специальный объект DataFrameGroupBy. Для него есть отдельная страничка с доступными методами. После применения одной из агрегирующих функций мы получаем новый датафрейм с которым мы уже умеем работать.

In [None]:
iris.groupby('variety')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc743fa7be0>

Для DataFrameGroupBy есть также и метод apply, по своему поведению похожий на apply для DataFrame

In [None]:
def my_function(gr):
  print(gr)
  return gr

iris.groupby('variety').apply(my_function)

    sepal.length  sepal.width  ...  variety  sepal.length.rank
0            5.1          3.5  ...   Setosa                9.0
1            4.9          3.0  ...   Setosa                7.0
2            4.7          3.2  ...   Setosa                5.0
3            4.6          3.1  ...   Setosa                4.0
4            5.0          3.6  ...   Setosa                8.0
5            5.4          3.9  ...   Setosa               12.0
6            4.6          3.4  ...   Setosa                4.0
7            5.0          3.4  ...   Setosa                8.0
8            4.4          2.9  ...   Setosa                2.0
9            4.9          3.1  ...   Setosa                7.0
10           5.4          3.7  ...   Setosa               12.0
11           4.8          3.4  ...   Setosa                6.0
12           4.8          3.0  ...   Setosa                6.0
13           4.3          3.0  ...   Setosa                1.0
14           5.8          4.0  ...   Setosa            

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.rank
0,5.1,3.5,1.4,0.2,Setosa,9.0
1,4.9,3.0,1.4,0.2,Setosa,7.0
2,4.7,3.2,1.3,0.2,Setosa,5.0
3,4.6,3.1,1.5,0.2,Setosa,4.0
4,5.0,3.6,1.4,0.2,Setosa,8.0
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,12.0
146,6.3,2.5,5.0,1.9,Virginica,9.0
147,6.5,3.0,5.2,2.0,Virginica,11.0
148,6.2,3.4,5.4,2.3,Virginica,8.0


In [None]:
def my_function(gr):
  # смотрю значение колонки varitety в первой строке группы, и в зависимости от этого делаю что-то...
  if gr.iloc[0]['variety'] == 'Setosa':
    gr['sepal.width'] = gr['sepal.width']**2
  if gr.iloc[0]['variety'] == 'Virginica':
    gr['sepal.width'] = gr['sepal.width']**3
  return gr

iris.groupby('variety').apply(my_function)
# для каждой подгруппы:
#   положить подгруппу в переменную gr
#   применить преобразования в my_function
#   преобразованную группу вернуть обратно в таблицу (return)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.rank
0,5.1,12.250,1.4,0.2,Setosa,9.0
1,4.9,9.000,1.4,0.2,Setosa,7.0
2,4.7,10.240,1.3,0.2,Setosa,5.0
3,4.6,9.610,1.5,0.2,Setosa,4.0
4,5.0,12.960,1.4,0.2,Setosa,8.0
...,...,...,...,...,...,...
145,6.7,27.000,5.2,2.3,Virginica,12.0
146,6.3,15.625,5.0,1.9,Virginica,9.0
147,6.5,27.000,5.2,2.0,Virginica,11.0
148,6.2,39.304,5.4,2.3,Virginica,8.0


Есть также ряд любопытных методов типа кумулятивной суммы (cumsum) или ранга (rank). Так мы можем присвоить в каждой группе порядковые значения объектам в зависимости от одной из колонок. Бывает очень полезно, например, если вам нужно проследить эволюцию какого-нибудь из параметров в зависимости от номера события во времени.

In [None]:
iris['sepal.length.rank'] = iris.groupby('variety')['sepal.length'].rank(method='dense')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,sepal.length.rank
0,5.1,3.5,1.4,0.2,Setosa,9.0
1,4.9,3.0,1.4,0.2,Setosa,7.0
2,4.7,3.2,1.3,0.2,Setosa,5.0
3,4.6,3.1,1.5,0.2,Setosa,4.0
4,5.0,3.6,1.4,0.2,Setosa,8.0
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,12.0
146,6.3,2.5,5.0,1.9,Virginica,9.0
147,6.5,3.0,5.2,2.0,Virginica,11.0
148,6.2,3.4,5.4,2.3,Virginica,8.0


#### Мультииндекс
Или многоуровневый индекс. Возникает тогда, когда группировка происходит по нескольким колонкам. Рассмотрим как мы можем работать с ним.

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                             'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                             'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,0.939651,-0.62287
1,bar,one,0.122211,1.065539
2,foo,two,-0.322199,-0.372915
3,bar,three,0.17792,0.659108
4,foo,two,-1.661777,-1.465987
5,bar,two,0.697635,0.545542
6,foo,one,0.88925,-0.265164
7,foo,three,0.621654,0.643246


In [None]:
df.groupby(['A','B']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.392033,-0.654149
bar,three,-1.849145,1.277071
bar,two,1.703279,-0.260835
foo,one,-0.182899,0.544938
foo,three,-0.00447,-2.053619
foo,two,0.488338,-1.274763


In [None]:
df.groupby(['A','B']).mean().index

MultiIndex([('bar',   'one'),
            ('bar', 'three'),
            ('bar',   'two'),
            ('foo',   'one'),
            ('foo', 'three'),
            ('foo',   'two')],
           names=['A', 'B'])

In [None]:
multi_gr = df.groupby(['A','B']).mean()
multi_gr

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.392033,-0.654149
bar,three,-1.849145,1.277071
bar,two,1.703279,-0.260835
foo,one,-0.182899,0.544938
foo,three,-0.00447,-2.053619
foo,two,0.488338,-1.274763


В навигации по loc мы теперь можем передавтаь по строкам 2 значения в кортеже, которые представляют уровни индекса.

In [None]:
multi_gr.loc[('foo', 'three')]

C   -0.004470
D   -2.053619
Name: (foo, three), dtype: float64

Без изменений по колонкам, а если бы и там у нас был мультииндекс, то мы тоже могли бы делать выборки, передавая кортежи

In [None]:
multi_gr.loc[('foo', 'three'), 'C']

-0.004470138281119544

Однако, pandas не поймет запись типа ('foo', 'one':'three'), поэтому если нас интересует слайсинг по мультииндексу, нужно явно задавать срез с помощью функции [slice()](https://www.programiz.com/python-programming/methods/built-in/slice). На самом деле при указании срезов через двоеточие, происходит инициализация того же самого объекта slice, что и с использованием функции slice(). : является своего рода синтаксическим сахаром.

In [None]:
multi_gr.loc[('foo', slice('one','three')), ['C', 'D']]

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,-0.182899,0.544938
foo,three,-0.00447,-2.053619


.iloc тоже работает!

In [None]:
multi_gr.iloc[1:3]

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,three,-1.849145,1.277071
bar,two,1.703279,-0.260835


С помощью методов unstack и stack мы можем распаковывать уровни индекса в колонки и упаковывать обратно в строки

In [None]:
multi_gr.unstack(level=1) # распакован первый уровень индекса

Unnamed: 0_level_0,C,C,C,D,D,D
B,one,three,two,one,three,two
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
bar,-0.392033,-1.849145,1.703279,-0.654149,1.277071,-0.260835
foo,-0.182899,-0.00447,0.488338,0.544938,-2.053619,-1.274763


In [None]:
multi_gr.unstack(level=0) # распакован нулевой уровень индекса

Unnamed: 0_level_0,C,C,D,D
A,bar,foo,bar,foo
B,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
one,-0.392033,-0.182899,-0.654149,0.544938
three,-1.849145,-0.00447,1.277071,-2.053619
two,1.703279,0.488338,-0.260835,-1.274763


In [None]:
multi_gr.unstack(level=0).stack(level=0) 

Unnamed: 0_level_0,A,bar,foo
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,C,-0.392033,-0.182899
one,D,-0.654149,0.544938
three,C,-1.849145,-0.00447
three,D,1.277071,-2.053619
two,C,1.703279,0.488338
two,D,-0.260835,-1.274763


In [None]:
multi_gr.unstack(level=0).stack(level=1) # по сути обратная операция

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
B,A,Unnamed: 2_level_1,Unnamed: 3_level_1
one,bar,-0.392033,-0.654149
one,foo,-0.182899,0.544938
three,bar,-1.849145,1.277071
three,foo,-0.00447,-2.053619
two,bar,1.703279,-0.260835
two,foo,0.488338,-1.274763


In [None]:
multi_gr.stack()

A    B       
bar  one    C   -0.392033
            D   -0.654149
     three  C   -1.849145
            D    1.277071
     two    C    1.703279
            D   -0.260835
foo  one    C   -0.182899
            D    0.544938
     three  C   -0.004470
            D   -2.053619
     two    C    0.488338
            D   -1.274763
dtype: float64

### Сводные таблицы ([pivot table](http://datareview.info/article/svodnyie-tablitsyi-v-python/))

Возможность создавать сводные таблицы присутствует в электронных таблицах и других программах, оперирующих табличными данными. Сводная таблица принимает на входе данные из отдельных столбцов и группирует их, формируя двумерную таблицу, реализующую многомерное обобщение данных. Чтобы ощутить разницу между сводной таблицей и операцией GroupBy, можно представить себе сводную таблицу, как многомерный вариант агрегации посредством GroupBy. То есть данные разделяются, преобразуются и объединяются, но при этом разделение и объединение осуществляются не по одномерному индексу, а по двумерной сетке.

In [None]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                      'B': ['A', 'B', 'C'] * 4,
                       'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                       'D': np.random.randn(12),
                       'E': np.random.randn(12)})

In [None]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,1.748456,-1.280594
1,one,B,foo,-0.952571,0.480647
2,two,C,foo,-0.028244,-0.164021
3,three,A,bar,0.198041,0.862456
4,one,B,bar,-0.991828,1.464386
5,one,C,bar,1.539108,-1.425546
6,two,A,foo,0.444687,0.168076
7,three,B,foo,-0.200666,-0.03895
8,one,C,foo,-0.228845,0.641402
9,one,A,bar,-1.031769,0.181076


In [None]:
# pivot(values, index, columns, margins)

Есть следующие параметры
- values значения для агрегации
- index строковый индекс (одна из колонок для группировки)
- columns колоночный индекс (одна из колонок для группировки)
- aggfunc аггрегационная функция

In [None]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='mean')

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.549759,0.972516,-0.392072
three,0.862456,-0.03895,-0.845265
two,0.168076,1.454556,-0.164021


margins дает нам дополнительную сводку по всем группам

In [None]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='mean', margins=True)

B,A,B,C,All
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,0.292829,0.415391,0.570029,0.426083
three,-2.102132,0.709072,0.604248,-0.262937
two,-0.751736,-0.4035,-0.055246,-0.403494
All,-0.567053,0.284089,0.422265,0.046434


In [None]:
pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='max')

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0.181076,1.464386,0.641402
three,0.862456,-0.03895,-0.845265
two,0.168076,1.454556,-0.164021


 К сожалению, нельзя применить при агрегации одну функцию, а при своде применить другую. Но мы можем обойти это ограничение вручную.

In [None]:
pvt = pd.pivot_table(df, values='E', index='A', columns='B', aggfunc='max')
pvt['All_mean'] = pvt.mean(axis=1)
pvt.loc['All_mean'] = pvt.mean(axis=0)
pvt

B,A,B,C,All_mean
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,0.181076,1.464386,0.641402,0.762288
three,0.862456,-0.03895,-0.845265,-0.007253
two,0.168076,1.454556,-0.164021,0.486204
All_mean,0.403869,0.959997,-0.122628,0.413746


Можно в индекс или колонки передать и более одной колонки

In [None]:
pd.pivot_table(df, values='E' , index=['A','C'], columns='B', aggfunc='mean', margins=True) 

Unnamed: 0_level_0,B,A,B,C,All
A,C,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,bar,0.983633,0.307633,0.974285,0.755184
one,foo,-0.397975,0.52315,0.165774,0.096983
three,bar,-2.102132,,0.604248,-0.748942
three,foo,,0.709072,,0.709072
two,bar,,-0.4035,,-0.4035
two,foo,-0.751736,,-0.055246,-0.403491
All,,-0.567053,0.284089,0.422265,0.046434


С помощью crosstab мы можем делать сводные таблицы из колонок разных датафреймов

In [None]:
pd.crosstab(df['A'], df['B'], values=df['E'], aggfunc='max') 

B,A,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0.181076,1.464386,0.641402
three,0.862456,-0.03895,-0.845265
two,0.168076,1.454556,-0.164021
