# Семинар 1. Знакомство с numpy и pandas.

По мотивам семинаров $№2$ и $№8$, читавшихся в `OzonMasters` в 2021 году. 

`Numpy` и `pandas` - два популярных инстурмента для анализа данных. В данном ноутбуке мы познакомимся с их основными функциями и особенностями.

## Работа с массивами в Python

In [1]:
# многомерный массив в Python

m = [[0, 1, 2, 3, 4],
     [5, 6, 7, 8, 9],
     [10, 11, 12, 13, 14],
     [15, 16, 17, 18, 19]]

m

[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14], [15, 16, 17, 18, 19]]

Попробуем решить две довольно простые задачи:

**Задача 1.**

Реализуйте тело функции `get_column(matrix, index)`, которая по переданной матрице `matrix` и номеру столбца `index` возвращает соответсвующий столбец переданной матрицы.

In [3]:
from typing import List

def get_column(matrix: List[List[float]], index: int):
    return [row[index] for row in matrix]

In [4]:
assert get_column(m, 0) == [0, 5, 10, 15]
assert get_column(m, 2) == [2, 7, 12, 17]
assert get_column(m, -1) == [4, 9, 14, 19]

b = [[ 1,  3],
     [ 6,  8],
     [11, 13],
     [16, 18]] 

assert get_column(m, slice(1, None, 2)) == b

In [None]:
%%timeit

get_column(m, 1)

**Задача 2.**

Реализуйте тело функции `transpose(matrix)`,  которая по переданной матрице matrix возвращает транспонированную матрицу `matrix`$^T$.

In [24]:
def transpose(matrix: List[List[float]]):
    # res = []
    # for col_idx in range(len(matrix[0])):
    #     res.append([matrix[row_idx][col_idx] for row_idx in range(len(matrix))])
    # return res
    return [get_column(matrix, col_idx) for col_idx in range(len(matrix[0]))]

In [25]:
b = [[0, 5, 10, 15],
     [1, 6, 11, 16],
     [2, 7, 12, 17],
     [3, 8, 13, 18],
     [4, 9, 14, 19]]

assert transpose(m) == b

In [None]:
%%timeit

transpose(m)

Создадим матрицу $M$ размером $500 \times 10$, в которой ij-ый элемент будет равен 10 * i + j. 

In [29]:
M = [[10 * i + j for j in range(10)] for i in range(500)]

Реализуем поэлементное умножение матрицы $M$ на $2$.

In [None]:
# первый способо через list.append

def matrix_multiply_list(matrix: List[List[float]]):
    A_new = []

    for x_row in matrix:
        x_row_new = []
        for xy_elem in x_row:
            x_row_new.append(2 * xy_elem)
        A_new.append(x_row_new)
    
    return A_new

In [None]:
%%timeit

matrix_multiply_list(M)

In [None]:
# второй способ через list comprehension

def matrix_multiply_list_comp(matrix: List[List[float]]):
    A_new = [[2 * e for e in row] for row in matrix]
    return A_new

In [None]:
%%timeit

matrix_multiply_list_comp(M)

In [26]:
# реализуем то же самое через numpy
import numpy as np

In [27]:
%%timeit

M_np = np.zeros((500, 10))

for row_i in range(500):
    for col_i in range(10):
        M_np[row_i][col_i] = col_i + 10 * row_i

510 µs ± 1.5 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [30]:
M_np = np.asarray(M, dtype=int)

- сравним скорость работы рассмотренных реализаций c `numpy`

In [None]:
%%timeit

M_np * 2

Основное преимущество numpy - высокая скорость работы.

|Type| time|
|-----------------|---------|
| lists           | 149 μs  |
| lists generator | 123 μs  |
| numpy           | 1.32 μs |

### [Создание массивов](https://numpy.org/doc/stable/reference/routines.array-creation.html)

In [None]:
np.zeros((5, )) # создание матрицы из нулей
np.ones((5, )) # создание матрицы из единиц
np.eye(5) # создание единичной матрицы

In [42]:
np.array([np.arange(0, 10, 1) == np.arange(0, 10)])

array([[ True,  True,  True,  True,  True,  True,  True,  True,  True,
         True]])

In [47]:
assert np.array([np.arange(0, 10, 1) == np.arange(0, 10)]).all()

print(np.arange(10))

[0 1 2 3 4 5 6 7 8 9]


In [44]:
np.arange(0, 5, 0.2)

array([0. , 0.2, 0.4, 0.6, 0.8, 1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4,
       2.6, 2.8, 3. , 3.2, 3.4, 3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8])

In [43]:
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [48]:
m_np = np.asarray(m)

m_np

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### Поэлементные операции

In [49]:
m_np + 10

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [50]:
m_np * 10

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140],
       [150, 160, 170, 180, 190]])

In [51]:
m_np / 10

array([[0. , 0.1, 0.2, 0.3, 0.4],
       [0.5, 0.6, 0.7, 0.8, 0.9],
       [1. , 1.1, 1.2, 1.3, 1.4],
       [1.5, 1.6, 1.7, 1.8, 1.9]])

In [52]:
m_np // 10

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [None]:
m_np ** 2

In [None]:
m_np >= 10

#### [Математические операции](https://numpy.org/doc/stable/reference/routines.math.html)

In [53]:
np.sqrt(m_np ** 2)

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.]])

In [54]:
np.sin(m_np)

array([[ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849],
       [-0.54402111, -0.99999021, -0.53657292,  0.42016704,  0.99060736],
       [ 0.65028784, -0.28790332, -0.96139749, -0.75098725,  0.14987721]])

- Теперь сравним скорость работы для функции получения стобца, а также транспонирования:

In [None]:
%%timeit

m_np[:, 2]

In [55]:
np_b = np.asarray(b)

In [None]:
%%timeit

np.transpose(np_b) #np_b.T

|столбец по индексу| time|
|-----------------|---------|
| python           | 171 ns  |
| numpy           | 78.5 ns |


|транспонирование| time|
|-----------------|---------|
| python           | 1.32 μs  |
| numpy           | 241 ns |

В основе массива `np.array` лежат обычные массивы фиксированного размера, они хранятся как один последовательный блок памяти.

In [None]:
m_np.data

In [None]:
m_np.dtype # по атрибуту dtype можно задать или посмотреть информацию о типе данных, хранимых в массиве

In [None]:
m_np.dtype.itemsize

In [None]:
# c помощью метода `astype` можно поменять тип данных
m_np.astype(float).dtype

In [57]:
m_np

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### [Манипулирования массивами](https://numpy.org/doc/stable/reference/routines.array-manipulation.html)

In [None]:
# с помощью метода shape можно узнать текущий размер массива
m_np.shape

In [None]:
# а с помощью метода reshape изменить размер
m_np.reshape(5, 4)

In [None]:
# также можно использовать значение параметра -1
# тогда размер по этой оси будет вычислен автоматически
m_np.reshape(-1, 2)

In [56]:
# также можно вытянуть массив
m_np.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [58]:
# несколькими способами
m_np.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

В результате метода `reshape` возвращается новый объект, который имеет тот же атрибут `data`, что и исходный массив, то есть не происходит копирование данных.

#### *

У `numpy.ndarray` есть атрибут `strides`, который регулирует порядок обхода массива (атрибут `data`). Этот атрибут очень важен для многомерных массивов.

Рассмотрим простейший двумерный случай:

In [None]:
m_np.strides

- Первое число показывает, сколько байт нужно прочитать, чтобы переместиться на следующую строку и остаться в том же столбце.

- Второе число показывает, сколько байт нужно прочитать, чтобы переместиться на следующий столбец и остаться в той же строке.

In [None]:
assert m_np.strides == (m_np.dtype.itemsize * m_np.shape[1], np.dtype(int).itemsize)

# чтобы перейти к следующей строке нужно прочитать size_of_one_element * num_of_element_in_a_row
# чтобы перейти к следующему столбцу нужно прочитать size_of_one_element

In [None]:
m_np.reshape(5, 4).strides

Так операции `transpose`, `reshape` не приводят к копированию данных, они меняют атрибут `strides`, который регулирует порядок обхода массива.

### Бинарные операции

- массивы одинакового размера

In [None]:
a = np.ones((2, 5))
a

In [None]:
b = np.arange(0, 10).reshape(2, 5)
b

In [None]:
a + b

In [None]:
a * b

In [None]:
(b <= 5).astype(int)

In [None]:
b[a == (b <= 5).astype(int)]

In [None]:
a @ b.T # np.matmul(a, b.T)

In [None]:
np.dot(a, b.T) # a.dot(b.T)

[np.matmul vs np.dot](https://stackoverflow.com/a/34142617)

### [Broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)

Рассмотрим следующий случай: нам дана матрица $X$ размером $5 \times 10$ и вектор $y$ длины 10, попробуем прибавить вектор $y$ к каждой строке матрицы $X$.

In [59]:
X = np.random.randint(-5, 5, (5, 10))
X

array([[ 0,  0, -5, -4, -4, -1,  1, -5, -3, -4],
       [-4,  4, -3, -2, -2, -5, -3,  1, -4,  1],
       [ 0, -2,  1,  3, -4, -3, -3, -2, -3,  0],
       [ 3,  2,  0,  3,  3, -5, -4, -2,  1, -4],
       [ 2,  0, -5,  3,  4,  4,  0,  0,  1,  1]])

In [None]:
y = np.random.randint(-5, 5, 10)
y

In [None]:
X + y

In [None]:
y_ = np.random.randint(-5, 5, 5)
y_

In [None]:
X + y_

- Воспользуемся приведением размерности

- Фиктивная размерность – размерность длины 1. Фиктивная размерность нужна для того, чтобы совершать матричные операции, например, умножение вектора на матрицу.

In [None]:
y_[:,np.newaxis]

In [None]:
X + y_[:,np.newaxis]

#### [Правило приведения размерностей](https://numpy.org/doc/stable/user/basics.broadcasting.html#general-broadcasting-rules)

1. Предположим, что `a.shape = (a_1, a_2, ..., a_n)` и `b.shape = (b_1, b_2, ..., b_n)`. Над `a` и `b` можно произвести поэлементую бинарную операцию, если $\forall \; i \in \overline{1..n}$ выполнено хотя бы одно из условий:
    * $a_i == b_i$
    * $a_i == 1$
    * $b_i == 1$


2. Если размерности не совпадают, то к массиву меньшей размерности добавляются ведущие фиктивные размерности. 

**Задача 3.** 

Какие из этих команд будут выполняться с ошибкой?

1. `np.ones((2, 3)) + np.ones(3)`

2. `np.ones(2) + np.ones((2, 3))`

3. `np.zeros((4, 3)) + np.ones((4, 1))`

4. `np.zeros((3, 4)) + np.ones((4, 3))`

5. `np.zeros((1, 3, 5)) + np.zeros((1, 3))` 

6. `np.zeros((5, 3, 1)) + np.zeros((1, 5))`

**Задача 4.** 

Таблица умножения. Создайте массив $9 \times 9$, элементы которого являются произведениями индексов столбца и строки. Индексы нумеруются с 1.

In [None]:
#############################
### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
#############################

mult_table = None

In [None]:
assert mult_table.shape == (9, 9)

for i in range(mult_table.shape[0]):
    for j in range(mult_table.shape[0]):
        assert mult_table[i, j] == (i + 1) * (j + 1)

**Задача 5.** 

Даны матрицы $A$ размера $(n \times d)$ и $B$ размера $(m \times d)$. Напишите функцию `find_equal_lines(A, B)`, которая найдет в A все строки, содержащиеся в B. Не используйте циклы!

In [None]:
A = np.array([
    [1, 2, 3],
    [1, 2, 1],
    [4, 5, 6],
    [1, 2, 1],
])

B = np.array([
    [4, 5, 6],
    [4, 5, 6],
    [1, 2, 3],
])

In [None]:
def find_equal_lines(A, B):
    #############################
    ### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
    #############################
    pass

In [None]:
indices = find_equal_lines(A, B)

assert (indices == [0, 2]).all()

### Агрегирующие операции

In [None]:
np.random.seed(5555)

a = np.random.randint(0, 10, size=(3, 7))
a[1, 3] = 15

a

Для `numpy.ndarray` есть поддержка аггрегирующих операций: `min`, `max`, `argmin`, `argmax`, `sum`, `prod`, `mean`, `std`, `var` и др.

In [None]:
a.min(), a.max(), a.sum(), a.prod(), a.mean()

In [None]:
np.min(a), np.max(a), np.sum(a), np.prod(a), np.mean(a)

<img src="./src/axis.png" width="350px">

`a.agg(axis=axis)` – агрегирующая операция вдоль размерности (оси) `axis`:
* выполняет редукцию (агрегирующую операцию) по размерности (оси) `axis`;
* удаляет размерности (ось) `axis` из исходного массива (аргумент `keep_dims=False`).

`axis=0` – размерность строк, `axis=1` – размерность столбцов.

In [None]:
a.min(axis=0)

In [None]:
a.sum(axis=1)

### [Индексация](https://numpy.org/doc/stable/user/basics.indexing.html)

In [None]:
a = np.arange(12).reshape(3, -1)
a

`numpy.ndarray` поддерживает все те же способы индексации, что и обычный список. Сначала указываются строки, затем столбцы. При индексации исключительно по строкам, индексацию по столбцам можно опустить.

In [None]:
a[0]  # a[0,:]

In [None]:
a[:2]  # a[:2, :]

In [None]:
a[:, 0]  # и здесь тоже исчезла фиктивная размерность

In [None]:
a[:2, ::2]

Булевы массивы также можно использовать для индексации. Такие массивы называются масками.

In [None]:
np.random.seed(7964)

A = np.random.randint(0, 8, size=(5, 5))
A[2, 3] = 10
A

In [None]:
A[A < 4]

In [None]:
A[A[:,0] < 3,:]

**Задача 7.** 

Дана матрица $B$ размера $(5 \times 5)$. Получите столбцы, в которых число положительных элементов больше числа отрицательных. Результат сохраните в переменную `B_masked`. Используйте индексацию с использованием булевых массивов.

In [None]:
np.random.seed(2238)

B = np.random.randint(-5, 5, size=(5, 5))
B

In [None]:
#############################
### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
#############################

B_masked = # your code here

In [None]:
assert (B_masked == B[:, [0, 1, -1]]).all()

Для получения индексов, где выполнено условие (значение истино) используеттся функция `np.where`. Результат этой функции можно использовать для индексации.

In [None]:
np.where(A < 4)

In [None]:
A[np.where(A < 4)]

## [Pandas](https://pandas.pydata.org/docs/getting_started/overview.html)

- основная библиотека для работы с табличными данными

- Основными сущностями в `pandas`, с которыми нам придется работать – [`pandas.Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) и [`pandas.DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

### [pandas.Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

- `pd.Series` – одномерный массив специального вида (смесь обычного массива и ассоциативного массива), аналог столбца и строчки в таблице.

In [None]:
np.random.seed(9872)

num = 10
data = np.random.randint(0, 5, size=(num, ))
data

In [None]:
import pandas as pd

s = pd.Series(data)
s

Как и `np.ndarray` у `pd.Series` есть атрибут `shape`, отвечающий за размер массива.

In [None]:
s.shape # 

In [None]:
s.index # Набор меток (ключей) связанных с pd.Series называется индексом.

Под `pd.Series` скрывается `np.ndarray`. Чтобы получить прямой доступ к данным, нужно обратиться к атрибуту `values`.

In [None]:
s.values

`pd.Series` с заданным индексом можно задать несколькими способами:

In [None]:
# указать значения и соответсвующие индексы
s = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
s

In [None]:
# создать из словаря
s = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8, 'e': 9, 'f': 10})
s

In [None]:
s['a'] # обращение по индексу

`pd.Series` умеет выполнять операции со скалярами и агрегатные операции

In [None]:
s + 10

In [None]:
s.min(), s.max(), s.sum(), s.mean()

### [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

Объект `pd.DataFrame` лучше всего представлять себе в виде обычной таблицы. Столбцами в объекте `pd.DataFrame` выступают объекты `pd.Series`, строки которых являются их непосредственными элементами.

Для создания датафрейма руками есть два удобных способа. Первый – передать словарь вида `column_name: [column_values]`.

In [None]:
data = {
    'index': ['KZ', 'RU', 'BY', 'UA'],
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [18.04, 144.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
}

df = pd.DataFrame(data)
df

In [None]:
# второй - со словарем следующего вида
data = [
    { 'index': 'KZ', 'country': 'Kazakhstan', 'population': 18.04, 'square':  2724902 },
    { 'index': 'RU', 'country': 'Russia',     'population': 144.5, 'square': 17125191 },
    { 'index': 'BY', 'country': 'Belarus',    'population':   9.5, 'square':   207600 },
    { 'index': 'UA', 'country': 'Ukraine',    'population':  45.5, 'square':   603628 },
]

df = pd.DataFrame(data)
df

In [None]:
# установим индекс у таблицы
df.set_index('index', inplace=True)
df.head()

In [None]:
# изучение столбца
df['population']

`pd.DataFrame` можно индексировать по имени и по позиции

In [None]:
df.loc['KZ'] # индексация по имени 

In [None]:
df.iloc[3] # индексация по позиции

In [None]:
# сложная индексация
df.iloc[[2, 3], 1]

In [None]:
# сложная индексация
df.loc[["KZ", "RU"], "population",]

C помощью индексации можно моделировать сложные запросы

In [None]:
df.loc[df['population'] > 10, ['country', 'square']]

In [None]:
df.loc[(df.square > 70000) & (df.country == 'Russia'), ['country','square']]

In [None]:
# на ходу можно создавать дополнительные столбцы
df['density'] = df["population"] / df["square"] * 1_000_000
df

In [None]:
# также столбцы можно удалять
df.drop(['density'], axis=1, inplace=True)
df

Также `pd.DataFrame` поддерживает аггрегатные функции.

In [None]:
df[['population', 'square']].min()

In [None]:
df.nsmallest(3, 'square')

### Пример

- считаем данные в формате `csv`
- c полным списком поддерживаемах форматов можно ознакомиться по [ссылке](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

In [None]:
df = pd.read_csv('src/cars_info.csv', sep=',')
df.head()

- Изучим основным параметры датасета:

In [None]:
df.shape

In [None]:
df.describe()

In [None]:
df.describe(include=['object'])

In [None]:
df["Origin"].unique()

In [None]:
df.isna().sum(axis=0)

In [None]:
df.drop_duplicates(subset=['Model']).shape

Категории – отдельный тип данных в `pandas`, которому стоит уделить внимание, так как он позволяет более эффективно работать с категориальными признаками. Выделим группу категориальных признаков.

Плюсы использования типа категорий:
* позволяют более эффективно обрабатывать категориальные признаки (внутри просто `int`);
* многие питоновские библиотеки имеют встроенные методы по работе с категориальными признаками;
* такие признаки занимают меньше места, что также положительно сказываются на производительности.

Подробнее о возможностях работы с категориальными признаками:

https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html

In [None]:
df.info()

In [None]:
df[['Make', 'Type', 'Origin', 'DriveTrain']] = \
    df[['Make', 'Type', 'Origin', 'DriveTrain']].astype('category')

Совместное распределение между признаками можно исследовать с помощью сводных таблиц.

In [None]:
pd.crosstab(df['Origin'], df['Type'])

In [None]:
pd.crosstab(df['Origin'], df['Type'], normalize=True)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 3))
sns.heatmap(pd.crosstab(df['Origin'], df['Type']), cmap="jet", annot=False, cbar=True)
plt.show()

In [None]:
_ = sns.pairplot(vars=["Horsepower", "MPG_City", "MPG_Highway"], data=df, hue="Type", height=5)

Метод `groupby` один из самых распространенных и полезных методов `pd.DataFrame` является аналогом `GROUP BY` в `SQL`, и используется для подсчета агрегированных статистик внутри групп.

Посчитаем среднюю длину автомобиля в группах вида `(страна производства; тип)`. Обратите внимание на вовзращаемый тип.

In [None]:
df.groupby(by=["Origin", "Type"], observed=True)["Length"].mean()

In [None]:
df.groupby(by=["Origin", "Type"], observed=True)["Length"].mean().reset_index()

In [None]:
# Можно считать группу статистик одновременно
df.groupby(by=["Origin", "Type"], observed=True)["Length"].agg(["mean", "std", "max", "min", 'count'])

**Задача 8.** 

Выведите топ-3 дорогих автомобилей ( `Invoice` ) каждого типа `Type`.

In [None]:
#############################
### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
#############################

**Задача 9.**

Выведите среднее число лошадиных сил для автомобилей, у которых число цилиндров больше 9, по каждой из стран производителей.

In [None]:
#############################
### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
#############################

**Задача 10.**

Выведите количество автомобилей, у которых длина автомобиля больше 90% автомобилей, производимых в этой стране.

In [None]:
#############################
### ╰( ͡° ͜ʖ ͡° )つ──────☆*:・ﾟ
#############################

#### [Объединение таблиц](https://pandas.pydata.org/docs/user_guide/merging.html)

In [None]:
raw_data = {
    'subject_id': ['1', '2', '3', '4', '5'],
    'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
    'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches'],
}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a.index = [0, 1, 2, 3, 4]
df_a

In [None]:
raw_data = {
    'subject_id': ['4', '5', '6', '7', '8'],
    'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
    'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan'],
}
df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_b.index = [2,3,4,5,6]
df_b

In [None]:
df_new = pd.concat([df_a, df_b], axis=0)
df_new

In [None]:
df_new_ = pd.concat([df_a, df_b], axis=1)
df_new_

<img src="./src/sql_joins.jpg" width="950px">

In [None]:
raw_data = {
    'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16],
}
df_n = pd.DataFrame(raw_data, columns = ['subject_id','test_id'])
df_n

In [None]:
pd.merge(df_new, df_n, on='subject_id')

In [None]:
pd.merge(df_a, df_b, on='subject_id', how='left')

In [None]:
pd.merge(df_a, df_b, on='subject_id', how='right')