![pandas_logo](./images/pandas_logo.png)

# Введение в Pandas. 

**Pandas** (*от англ. PANel DAtaS* - панельные данные) - пакет для работы с табличными данными, надстроенный над библиотекой NumPy. 

Содержание семинара:

- Объекты библиотеки Pandas;  
- Индексация и выборка данных;  
- Операции над данными;  
- Обработка отсутствующих данных;  
- Объединение наборов данных;  
- Агрегирование и группировка;  

___

In [1]:
import pandas as pd
import numpy as np

## 1. Объекты библиотеки Pandas.

### 1.1. Series.

Объект **Series** библиотеки Pandas - одномерный массив индексированных данных. Ключевое отличие pd.Series от np.ndarray состоит в том, что pd.Series позволяет явно задать индексы. В качестве индексов могут выступать любые значения одного типа данных.

Объект pd.Series можно рассматривать как специализированный словарь, задающий соответствие набора типизированных ключей набору типизированных значений. Типизация делает объект pd.Series гораздо более быстродейственным в сравнении с обычными словарями Python. 

Синтаксис создания объекта pd.Series выглядит следующим образом:
```Python
>>> pd.Series(data, index=index)
```

In [2]:
data = pd.Series(map(lambda x: x * 0.25, range(5)))
data

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [3]:
data.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
pd.Series(
    map(lambda x: x * 0.25, range(5)),
    index=list('abcde')
)

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [6]:
pd.Series({i: chr(i + ord('a')) for i in range(5)})

0    a
1    b
2    c
3    d
4    e
dtype: object

In [7]:
pd.Series(
    {i: chr(i + ord('a')) for i in range(5)},
    index=[2, 3]
)

2    c
3    d
dtype: object

### 1.2. DataFrame.

Объект **DataFrame** библиотеки Pandas - аналог двумерного массива из библиотеки NumPy, обладающий гибкими индексами столбцов и гибкими индексами строк. 

Объект pd.DataFrame можно рассматривать в качестве упорядоченной последовательности объектов pd.Series, использующих один и тот же индекс. Также pd.DataFrame можно рассматривать как специализированный словарь, задающий соответствие имени столбца объекту pd.Series.

Синтаксис создания объекта pd.DataFrame выглядит следующим образом:
```Python
>>> pd.DataFrame(data, index=index, columns=columns)
```

In [8]:
population_data = {
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
}
population = pd.Series(population_data)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [9]:
area_dict = {
    'California': 423967,
    'Texas': 695662,
    'New York': 141297,
    'Florida': 170312,
    'Illinois': 149995
}
areas = pd.Series(area_dict)
areas

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

**Создание из словаря объектов Series:**

In [10]:
states = pd.DataFrame({
    'population': population,
    'area': areas
})

states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [11]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

In [12]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [13]:
states.columns

Index(['population', 'area'], dtype='object')

**Создание из одного объекта pd.Series:**

In [14]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


**Создание из списка словарей:**

In [15]:
dicts = [
    {'x2': 2 * i, 'x3': 3 * i, 'x4': i * 4, 'x5': i * 5,
     'x6': 6 * i, 'x7': 7 * i, 'x8': i * 8, 'x9': i * 9}
    for i in range(1, 10)
]

pd.DataFrame(dicts, index=list(range(1, 10)))

Unnamed: 0,x2,x3,x4,x5,x6,x7,x8,x9
1,2,3,4,5,6,7,8,9
2,4,6,8,10,12,14,16,18
3,6,9,12,15,18,21,24,27
4,8,12,16,20,24,28,32,36
5,10,15,20,25,30,35,40,45
6,12,18,24,30,36,42,48,54
7,14,21,28,35,42,49,56,63
8,16,24,32,40,48,56,64,72
9,18,27,36,45,54,63,72,81


**Создание из двумерного массива NumPy:**

In [16]:
pd.DataFrame(
    np.random.normal(size=(5, 4)),
    index=[f'row {i}' for i in range(5)],
    columns=[f'col {i}' for i in range(4)]
)

Unnamed: 0,col 0,col 1,col 2,col 3
row 0,0.058353,0.040092,-3.045955,2.830316
row 1,1.721292,-0.725829,0.084188,-0.828653
row 2,-0.597884,0.171867,-0.597977,-1.542798
row 3,0.438674,0.387275,-0.608033,-1.785233
row 4,1.060759,0.231696,-1.185039,0.619013


## 2. Индексация и выборка данных.

### 2.1. Series.

In [17]:
data_dict = {f"{chr(i + ord('a'))}": i + ord('a') for i in range(26)}

ascii_codes = pd.Series(data_dict)
ascii_codes

a     97
b     98
c     99
d    100
e    101
f    102
g    103
h    104
i    105
j    106
k    107
l    108
m    109
n    110
o    111
p    112
q    113
r    114
s    115
t    116
u    117
v    118
w    119
x    120
y    121
z    122
dtype: int64

In [18]:
ascii_codes.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
       'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'],
      dtype='object')

In [19]:
list(ascii_codes.items())

[('a', 97),
 ('b', 98),
 ('c', 99),
 ('d', 100),
 ('e', 101),
 ('f', 102),
 ('g', 103),
 ('h', 104),
 ('i', 105),
 ('j', 106),
 ('k', 107),
 ('l', 108),
 ('m', 109),
 ('n', 110),
 ('o', 111),
 ('p', 112),
 ('q', 113),
 ('r', 114),
 ('s', 115),
 ('t', 116),
 ('u', 117),
 ('v', 118),
 ('w', 119),
 ('x', 120),
 ('y', 121),
 ('z', 122)]

**Индексация по ключу:**

In [20]:
ascii_codes['b']

98

In [21]:
ascii_codes['A'] = ord('A')
ascii_codes

a     97
b     98
c     99
d    100
e    101
f    102
g    103
h    104
i    105
j    106
k    107
l    108
m    109
n    110
o    111
p    112
q    113
r    114
s    115
t    116
u    117
v    118
w    119
x    120
y    121
z    122
A     65
dtype: int64

**Срез по явному индексу:**

In [22]:
ascii_codes['i':'p']

i    105
j    106
k    107
l    108
m    109
n    110
o    111
p    112
dtype: int64

In [23]:
ascii_codes[8:15]

i    105
j    106
k    107
l    108
m    109
n    110
o    111
dtype: int64

**Маскирование:**

In [24]:
ascii_codes[(99 < ascii_codes) & (ascii_codes < 111)]

d    100
e    101
f    102
g    103
h    104
i    105
j    106
k    107
l    108
m    109
n    110
dtype: int64

**Прихотливая индексация:**

In [25]:
ascii_codes[['w', 'a', 's', 'd']]

w    119
a     97
s    115
d    100
dtype: int64

**Индексаторы:**

In [26]:
data = pd.Series(
    list('abcdefg'),
    index=[i * 2 + 1 for i in range(7)]
)

data

1     a
3     b
5     c
7     d
9     e
11    f
13    g
dtype: object

В случае целочисленных индексов может возникать потенциальная путаница при попытке индексации по явным индексам:

In [27]:
# использован явный индекс
data[1]

'a'

In [28]:
# использован неявный индекс
data[1:3]

3    b
5    c
dtype: object

На этот случай объекты Pandas были оснащены специальными атрибутами-индикаторами, позволяющие явным образом указать, какой индекс мы хотим использовать. 

In [29]:
data.loc[1]

'a'

In [30]:
data.loc[1:3]

1    a
3    b
dtype: object

In [31]:
data.iloc[1]

'b'

In [32]:
data.iloc[1:3]

3    b
5    c
dtype: object

Для обеспечения читабельности и чистоты кода при индексации объектов рекомендуется использовать атрибуты-индекаторы, позволяющие явно обозначить тип индексации.

### 2.2. DataFrame.

In [33]:
data = [{"lower": i + ord('a'), 'upper': i + ord('A')} for i in range(26)]
ascii_codes = pd.DataFrame(
    data, 
    index=[chr(i + ord('a')) for i in range(26)]
)

**Индексация по ключу:**

In [34]:
ascii_codes['lower']

a     97
b     98
c     99
d    100
e    101
f    102
g    103
h    104
i    105
j    106
k    107
l    108
m    109
n    110
o    111
p    112
q    113
r    114
s    115
t    116
u    117
v    118
w    119
x    120
y    121
z    122
Name: lower, dtype: int64

**Столбцы, как атрибуты:**

In [35]:
ascii_codes.upper

a    65
b    66
c    67
d    68
e    69
f    70
g    71
h    72
i    73
j    74
k    75
l    76
m    77
n    78
o    79
p    80
q    81
r    82
s    83
t    84
u    85
v    86
w    87
x    88
y    89
z    90
Name: upper, dtype: int64

**Индексация двумерных массивов:**

In [36]:
ascii_codes.values

array([[ 97,  65],
       [ 98,  66],
       [ 99,  67],
       [100,  68],
       [101,  69],
       [102,  70],
       [103,  71],
       [104,  72],
       [105,  73],
       [106,  74],
       [107,  75],
       [108,  76],
       [109,  77],
       [110,  78],
       [111,  79],
       [112,  80],
       [113,  81],
       [114,  82],
       [115,  83],
       [116,  84],
       [117,  85],
       [118,  86],
       [119,  87],
       [120,  88],
       [121,  89],
       [122,  90]], dtype=int64)

In [37]:
ascii_codes.values[1:6]

array([[ 98,  66],
       [ 99,  67],
       [100,  68],
       [101,  69],
       [102,  70]], dtype=int64)

**Индексаторы:**

In [38]:
ascii_codes.loc['m':'t', :'upper']

Unnamed: 0,lower,upper
m,109,77
n,110,78
o,111,79
p,112,80
q,113,81
r,114,82
s,115,83
t,116,84


In [39]:
ascii_codes.loc[ascii_codes.lower <= 100, ['lower', 'upper']]

Unnamed: 0,lower,upper
a,97,65
b,98,66
c,99,67
d,100,68


In [40]:
ascii_codes.iloc[1:8, :1]

Unnamed: 0,lower
b,98
c,99
d,100
e,101
f,102
g,103
h,104


In [41]:
ascii_codes.iloc[1:8, :1] = 55
ascii_codes

Unnamed: 0,lower,upper
a,97,65
b,55,66
c,55,67
d,55,68
e,55,69
f,55,70
g,55,71
h,55,72
i,105,73
j,106,74


## 3. Операции над данными. 

Pandas наследует быстродействие поэлиментных арифметических и логический операций от библиотеки NumPy. Однако, помимо этого, в Pandas происходит выравнивание данных по индексам, что помогает предотвратить большое количество ошибок.

### 3.1. Арифметические и логические операции.

In [42]:
data = pd.Series(
    np.random.randint(1, 11, size=5),
    index=list('abcde')
)
data

a    10
b     9
c     4
d     4
e     1
dtype: int32

In [43]:
np.exp(data)

a    22026.465795
b     8103.083928
c       54.598150
d       54.598150
e        2.718282
dtype: float64

In [44]:
np.cos(data)

a   -0.839072
b   -0.911130
c   -0.653644
d   -0.653644
e    0.540302
dtype: float64

In [45]:
data = pd.DataFrame(
    np.random.normal(size=(5, 4)),
    columns=list('ABCD')
)

data

Unnamed: 0,A,B,C,D
0,0.043154,-0.09385,-0.224093,-0.453466
1,1.444614,-1.050521,0.821757,0.716022
2,0.965451,-1.064411,0.174321,0.838338
3,0.687836,0.193492,-1.60192,0.087276
4,1.447811,-0.545875,1.466392,0.693458


In [46]:
np.exp(data)

Unnamed: 0,A,B,C,D
0,1.044099,0.910419,0.799241,0.635422
1,4.240217,0.349756,2.274492,2.046277
2,2.625972,0.344931,1.190438,2.31252
3,1.989407,1.21348,0.201509,1.091198
4,4.253793,0.579335,4.333572,2.000621


In [47]:
np.sin(np.pi * data)

Unnamed: 0,A,B,C,D
0,0.135158,-0.290585,-0.647278,-0.989333
1,-0.9849,0.158049,0.531159,0.778419
2,0.108325,0.200975,0.520679,0.486323
3,0.830882,0.571124,0.949175,0.270765
4,-0.986589,-0.989633,-0.994431,0.820926


In [48]:
data > 0

Unnamed: 0,A,B,C,D
0,True,False,False,False
1,True,False,True,True
2,True,False,True,True
3,True,True,False,True
4,True,False,True,True


### 3.2. Выравнивание индексов.

**Series:**

In [49]:
areas = pd.Series(
    {'Alaska': 1723337, 'Texas': 695662, 
     'California': 423967}, name='area' 
)

populations = pd.Series(
    {'California': 38332521, 'Texas': 26448193,
     'New York': 19651127}, name='population'
)

In [50]:
populations / areas

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [51]:
areas.index.union(populations.index)

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

In [52]:
ser1 = pd.Series([2, 4, 6], index=[0, 1, 2])
ser2 = pd.Series([1, 3, 5], index=[1, 2, 3])

ser1 + ser2

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [53]:
ser1.add(ser2, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

**Таблица соответствий специальных методов Pandas и операторов Python:**

![table1](./images/table1.png)

**DataFrame:**

In [54]:
df1 = pd.DataFrame(
    np.random.randint(1, 21, size=(2, 2)),
    columns=list('AB')
)
df2 = pd.DataFrame(
    np.random.randint(1, 11, size=(3, 3)),
    columns=list('BAC')
)

In [55]:
df1

Unnamed: 0,A,B
0,16,2
1,1,8


In [56]:
df2

Unnamed: 0,B,A,C
0,10,2,2
1,4,4,3
2,6,9,1


In [57]:
df1 - df2

Unnamed: 0,A,B,C
0,14.0,-8.0,
1,-3.0,4.0,
2,,,


In [58]:
df1.sub(df2, fill_value=20)

Unnamed: 0,A,B,C
0,14.0,-8.0,18.0
1,-3.0,4.0,17.0
2,11.0,14.0,19.0


### 3.3. Трансляция. 

In [59]:
data = pd.DataFrame(
    np.random.randint(1, 11, size=(3, 5)),
    columns=list('ABCDE')
)

data

Unnamed: 0,A,B,C,D,E
0,4,2,1,2,3
1,3,3,1,4,3
2,10,5,10,6,2


In [60]:
data - data.iloc[0]

Unnamed: 0,A,B,C,D,E
0,0,0,0,0,0
1,-1,1,0,2,0
2,6,3,9,4,-1


In [61]:
data.subtract(data.B, axis=0)

Unnamed: 0,A,B,C,D,E
0,2,0,-1,0,1
1,0,0,-2,1,0
2,5,0,5,1,-3


## 4. Обработка отсутствующих данных.

### 4.1. NaN-значение

NaN (от английского *Not A Number* - не число) - специальное значение, сигнализируещее о пропуске в данных. Pandas обрабатывает None и np.nan как NaN значения, и осуществляет повышающее приведение типов, когда встречает их в полученных данных. 

In [62]:
pd.Series([1, None, 3, np.nan])

0    1.0
1    NaN
2    3.0
3    NaN
dtype: float64

### 4.2. Выявление пустых значений. 

In [63]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [64]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [65]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

In [66]:
data[data.isnull()]

1     NaN
3    None
dtype: object

In [67]:
data[data.notnull()]

0        1
2    hello
dtype: object

### 4.3. Удаление пустых значений.

In [68]:
data.dropna()

0        1
2    hello
dtype: object

In [69]:
data = pd.DataFrame([
    [1, np.nan, 2],
    [2, 3, 5],
    [np.nan, 4, 6]
])

data

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


Из pd.DataFrame нельзя удлить отдельные значения, возможно удаление или строки, содержащей NaN, или столбца, содержащего NaN.

In [70]:
data.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [71]:
data.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


Также в Pandas реализован функционал для удаления строк и столбцов, примущественно состоящих из NaN-значений.

In [72]:
data[3] = np.nan
data

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [73]:
data.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [74]:
data.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### 4.4. Заполнение пустых значений.

In [75]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [76]:
data.fillna(5)

a    1.0
b    5.0
c    2.0
d    5.0
e    3.0
dtype: float64

In [77]:
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [78]:
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [79]:
data = pd.DataFrame(
    np.random.randint(0, 10, size=(3, 4)),
    columns=[f'col_{i}' for i in range(4)]
)
data.iloc[0, 1] = np.nan
data.iloc[2, 0] = np.nan
data['col_4'] = np.nan

data

Unnamed: 0,col_0,col_1,col_2,col_3,col_4
0,7.0,,0,2,
1,3.0,2.0,0,5,
2,,7.0,3,1,


In [80]:
data.fillna(method='ffill', axis=1)

Unnamed: 0,col_0,col_1,col_2,col_3,col_4
0,7.0,7.0,0.0,2.0,2.0
1,3.0,2.0,0.0,5.0,5.0
2,,7.0,3.0,1.0,1.0


In [81]:
data.fillna(method='bfill', axis=1)

Unnamed: 0,col_0,col_1,col_2,col_3,col_4
0,7.0,0.0,0.0,2.0,
1,3.0,2.0,0.0,5.0,
2,7.0,7.0,3.0,1.0,


## 5. Объединение наборов данных.

### 5.1. Конкатенация.

In [82]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

In [83]:
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [84]:
df1 = pd.DataFrame(
    np.random.normal(size=(3, 3)),
    index=list(range(3)),
    columns=list('abc')
)

df2 = pd.DataFrame(
    np.random.normal(size=(3, 3)),
    index=list(range(3, 6)),
    columns=list('abc')
)

In [85]:
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,-0.150444,-0.302165,-0.838359
1,0.430279,-0.414553,1.090624
2,-0.977342,0.831435,0.501749
3,0.297253,-0.910257,-0.658235
4,-2.169929,-0.70359,-0.925566
5,-1.925026,-0.9898,-0.905868


**Обработка одинаковых индексов:**

In [86]:
df1 = pd.DataFrame(
    np.random.normal(size=(3, 3)),
    columns=list('abc')
)

df2 = pd.DataFrame(
    np.random.normal(size=(3, 3)),
    columns=list('abc')
)

In [87]:
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,0.033857,0.123308,0.117883
1,-0.079371,0.958069,-0.127986
2,-0.508513,-0.416492,-3.579334
0,-1.695965,-0.357604,0.993436
1,-0.620316,-0.221045,-0.196252
2,-1.180194,0.586005,-0.079115


In [88]:
try:
    pd.concat([df1, df2], verify_integrity=True)
except Exception as e:
    print(f'{type(e).__name__}: {e}')

ValueError: Indexes have overlapping values: Int64Index([0, 1, 2], dtype='int64')


In [89]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,a,b,c
0,0.033857,0.123308,0.117883
1,-0.079371,0.958069,-0.127986
2,-0.508513,-0.416492,-3.579334
3,-1.695965,-0.357604,0.993436
4,-0.620316,-0.221045,-0.196252
5,-1.180194,0.586005,-0.079115


In [90]:
pd.concat([df1, df2], keys=['df1', 'df2'])

Unnamed: 0,Unnamed: 1,a,b,c
df1,0,0.033857,0.123308,0.117883
df1,1,-0.079371,0.958069,-0.127986
df1,2,-0.508513,-0.416492,-3.579334
df2,0,-1.695965,-0.357604,0.993436
df2,1,-0.620316,-0.221045,-0.196252
df2,2,-1.180194,0.586005,-0.079115


In [91]:
df1 = pd.DataFrame(
    np.random.normal(size=(2, 3)),
    index=[1, 2],
    columns=list('ABC')
)
df2 = pd.DataFrame(
    np.random.normal(size=(2, 3)),
    index=[3, 4],
    columns=list('BCD')
)

In [92]:
pd.concat([df1, df2], join='outer')

Unnamed: 0,A,B,C,D
1,0.067451,-0.448948,0.734182,
2,2.879729,-0.378046,1.097833,
3,,0.850111,0.911038,1.141896
4,,-1.339264,-0.239748,-0.650942


In [93]:
pd.concat([df1, df2], join='inner')

Unnamed: 0,B,C
1,-0.448948,0.734182
2,-0.378046,1.097833
3,0.850111,0.911038
4,-1.339264,-0.239748


### 5.2. Реляционная алгебра.

**Отношение "один к одному":**

In [94]:
df1 = pd.DataFrame({
    'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']
})

df2 = pd.DataFrame({
    'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'hire_date': [2008, 2012, 2004, 2014]
})

In [95]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [96]:
df2

Unnamed: 0,employee,hire_date
0,Bob,2008
1,Jake,2012
2,Lisa,2004
3,Sue,2014


In [97]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


**Отношение "один ко многим":**

In [98]:
df4 = pd.DataFrame({
    'group': ['Accounting', 'Engineering', 'HR'],
    'supervisor': ['Carly', 'Guido', 'Steve']
})

df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [99]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


**Отношение "многие ко многим":**

In [100]:
df5 = pd.DataFrame({
    'group': ['Accounting', 'Accounting', 'Engineering',
              'Engineering', 'HR', 'HR'],
    'skills': ['math', 'spreadsheets', 'coding', 'linux',
               'spreadsheets', 'organization']
})

In [101]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


**Ключевое слово ON:**

In [102]:
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [103]:
df1 = pd.DataFrame({
    'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']
})

df2 = pd.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'hire_date': [2008, 2012, 2004, 2014]
})

In [104]:
pd.merge(df1, df2, left_on='employee', right_on='name')

Unnamed: 0,employee,group,name,hire_date
0,Bob,Accounting,Bob,2008
1,Jake,Engineering,Jake,2012
2,Lisa,Engineering,Lisa,2004
3,Sue,HR,Sue,2014


In [105]:
pd.merge(df1, df2, left_on='employee', right_on='name').drop(columns='name')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [106]:
df1.join(df2).drop(columns='name')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


**Виды соединений:**

In [107]:
food_preference = pd.DataFrame({
    'name': ['Peter', 'Paul', 'Mary'],
    'food': ['fish', 'beans', 'bread']
})
drink_preference = pd.DataFrame({
    'name': ['Mary', 'Joseph'],
    'drink': ['wine', 'beer']
})

In [108]:
food_preference

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread


In [109]:
drink_preference

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


In [110]:
pd.merge(food_preference, drink_preference, how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [111]:
pd.merge(food_preference, drink_preference, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [112]:
pd.merge(food_preference, drink_preference, how='left')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


In [113]:
pd.merge(food_preference, drink_preference, how='right')

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer


## 6. Агрегирование и группировка.

![scheme1](./images/scheme1.png)

### 6.1. Агрегирующие функции.

In [114]:
data = pd.DataFrame(
    np.random.normal(size=(100, 10)),
    columns=[f'col_{i + 1}' for i in range(10)]
)

In [115]:
data.max()

col_1     1.771868
col_2     2.081829
col_3     2.671605
col_4     2.379288
col_5     3.643624
col_6     2.312970
col_7     2.415536
col_8     2.581969
col_9     2.923903
col_10    1.769543
dtype: float64

In [116]:
data.max(axis=1)

0     1.200238
1     1.758062
2     0.852112
3     3.643624
4     1.789156
        ...   
95    0.474943
96    2.671605
97    2.379288
98    0.578538
99    1.332178
Length: 100, dtype: float64

In [117]:
data.min()

col_1    -2.362716
col_2    -2.442060
col_3    -1.975832
col_4    -2.553790
col_5    -3.121810
col_6    -2.166397
col_7    -2.492407
col_8    -3.379604
col_9    -2.142674
col_10   -2.381530
dtype: float64

In [118]:
data.mean()

col_1    -0.054872
col_2     0.113240
col_3    -0.049597
col_4    -0.005243
col_5    -0.039900
col_6     0.146698
col_7     0.038110
col_8     0.007044
col_9    -0.102745
col_10   -0.049991
dtype: float64

In [119]:
data.median()

col_1    -0.029551
col_2     0.027202
col_3    -0.032125
col_4     0.193807
col_5    -0.070160
col_6     0.249117
col_7     0.065000
col_8     0.083922
col_9    -0.123775
col_10   -0.044852
dtype: float64

In [120]:
data.std()

col_1     0.929201
col_2     0.946121
col_3     0.957692
col_4     1.076038
col_5     1.137563
col_6     1.034360
col_7     1.044059
col_8     1.149673
col_9     1.059509
col_10    0.842080
dtype: float64

In [121]:
data.var()

col_1     0.863414
col_2     0.895145
col_3     0.917175
col_4     1.157857
col_5     1.294049
col_6     1.069901
col_7     1.090059
col_8     1.321749
col_9     1.122559
col_10    0.709098
dtype: float64

In [122]:
data.sum()

col_1     -5.487207
col_2     11.323967
col_3     -4.959722
col_4     -0.524319
col_5     -3.990039
col_6     14.669806
col_7      3.811017
col_8      0.704382
col_9    -10.274487
col_10    -4.999112
dtype: float64

In [123]:
data.describe()

Unnamed: 0,col_1,col_2,col_3,col_4,col_5,col_6,col_7,col_8,col_9,col_10
count,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
mean,-0.054872,0.11324,-0.049597,-0.005243,-0.0399,0.146698,0.03811,0.007044,-0.102745,-0.049991
std,0.929201,0.946121,0.957692,1.076038,1.137563,1.03436,1.044059,1.149673,1.059509,0.84208
min,-2.362716,-2.44206,-1.975832,-2.55379,-3.12181,-2.166397,-2.492407,-3.379604,-2.142674,-2.38153
25%,-0.635981,-0.561785,-0.641205,-0.723136,-0.637979,-0.551156,-0.758067,-0.742615,-0.921577,-0.654611
50%,-0.029551,0.027202,-0.032125,0.193807,-0.07016,0.249117,0.065,0.083922,-0.123775,-0.044852
75%,0.579475,0.862556,0.523451,0.818078,0.705876,0.796375,0.776727,0.657963,0.579461,0.493514
max,1.771868,2.081829,2.671605,2.379288,3.643624,2.31297,2.415536,2.581969,2.923903,1.769543


### 6.2. Группировка.

In [124]:
df = pd.DataFrame(
    {'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data': range(6)},
    columns=['key', 'data']
)

df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [125]:
df.groupby('key').max()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,4
C,5


In [126]:
df.groupby('key').min()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,0
B,1
C,2


In [127]:
df.groupby('key').median()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,1.5
B,2.5
C,3.5


In [128]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


In [129]:
df.groupby('key').mean()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,1.5
B,2.5
C,3.5


In [130]:
df.groupby('key').std()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,2.12132
B,2.12132
C,2.12132


**Агрегирование:**

In [131]:
df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': range(6),
    'data2': np.random.randint(0, 100, size=6)
})

df

Unnamed: 0,key,data1,data2
0,A,0,74
1,B,1,42
2,C,2,10
3,A,3,31
4,B,4,61
5,C,5,29


In [132]:
df.groupby('key').aggregate(['min', 'mean', 'max', 'std'])

Unnamed: 0_level_0,data1,data1,data1,data1,data2,data2,data2,data2
Unnamed: 0_level_1,min,mean,max,std,min,mean,max,std
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,0,1.5,3,2.12132,31,52.5,74,30.405592
B,1,2.5,4,2.12132,42,51.5,61,13.435029
C,2,3.5,5,2.12132,10,19.5,29,13.435029


**Фильтрация:**

In [133]:
def filter_factory(thresh: float):
    def filter_std(df: pd.DataFrame) -> bool:
        return df['data2'].std() > thresh
    
    return filter_std

In [134]:
filter1 = filter_factory(thresh=20)

df.groupby('key').filter(filter1)

Unnamed: 0,key,data1,data2
0,A,0,74
3,A,3,31


In [135]:
filter2 = filter_factory(thresh=40)

df.groupby('key').filter(filter2)

Unnamed: 0,key,data1,data2


**Трансформация:**

In [136]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,21.5
1,-1.5,-9.5
2,-1.5,-9.5
3,1.5,-21.5
4,1.5,9.5
5,1.5,9.5


In [137]:
df

Unnamed: 0,key,data1,data2
0,A,0,74
1,B,1,42
2,C,2,10
3,A,3,31
4,B,4,61
5,C,5,29
