In [2]:
import numpy as np
import pandas as pd

---

# Базовый Numpy

### Базовые операции

In [3]:
# В нампай и пандас работа ведется с векторами

x = np.array([1, 2, 3, 4, 5])
y = np.array([-2, 0, 10, 100, 4])

In [4]:
# Все операции поэлементные


x + y

array([ -1,   2,  13, 104,   9])

In [5]:
x * y

array([ -2,   0,  30, 400,  20])

In [6]:
x - y

array([  3,   2,  -7, -96,   1])

In [7]:
x - 3

array([-2, -1,  0,  1,  2])

In [8]:
# Эквивалентно предыдущей записи
# На самом деле, нампай, когда вы делаете операции
# Numpy.Array и какая-то константа - numpy неявно приводит эту константу к массиву такой же размерности
# Состоящим из этой константы:

x - np.array([3] * x.size)

array([-2, -1,  0,  1,  2])

---

### Прикольные операции с матрицами:

In [9]:
A = np.array([
    [1, 2, 3, 4, 5],
    [5, 6, 7, 8, 9],
    [10, 11, 12, 13, 14],
])

In [10]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [11]:
A.shape # Размерность

(3, 5)

In [12]:
A.flatten() # равзернули матрицу в вектор

array([ 1,  2,  3,  4,  5,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [13]:
# Матрицы тоже Numpy.Array и тоже поддерживают поэлементные векторные операции

A + A

array([[ 2,  4,  6,  8, 10],
       [10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [14]:
A * 5

array([[ 5, 10, 15, 20, 25],
       [25, 30, 35, 40, 45],
       [50, 55, 60, 65, 70]])

---

In [15]:
A.diagonal(0) # Можно извлекать диагональ из матрицы

array([ 1,  6, 12])

In [16]:
# Можно матрицы склеивать по вертикали

np.vstack((
    A,
    A + 10
))

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [11, 12, 13, 14, 15],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [17]:
# Можно матрицы склеивать по горизонтали

np.hstack((
    A,
    A + 10
))

array([[ 1,  2,  3,  4,  5, 11, 12, 13, 14, 15],
       [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14, 20, 21, 22, 23, 24]])

---

In [18]:
# Создать матрицу определенной размерности из около-нулевых элементов


tmp = np.empty(A.shape)
tmp

array([[5.43e-323, 5.93e-323, 6.42e-323, 6.92e-323, 7.41e-323],
       [7.41e-323, 7.91e-323, 8.40e-323, 8.89e-323, 9.39e-323],
       [9.88e-323, 1.04e-322, 1.09e-322, 1.14e-322, 1.19e-322]])

In [19]:
# Заполнить всю матрицу каким-то значением

tmp.fill(5)

In [20]:
tmp

array([[5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.]])

### Broadcasting Numpy

In [21]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [22]:
# Две эквивалентные операции:


print(
    A + 3.0, # Вот тут неявно происходит тоже, что и ниже
    end='\n---\n'
)

# ------
tmp = np.empty(A.shape)
tmp.fill(3.0)
print(
    A + tmp,
    end='\n---\n'    
)

[[ 4.  5.  6.  7.  8.]
 [ 8.  9. 10. 11. 12.]
 [13. 14. 15. 16. 17.]]
---
[[ 4.  5.  6.  7.  8.]
 [ 8.  9. 10. 11. 12.]
 [13. 14. 15. 16. 17.]]
---


In [23]:
x = np.array([3, 4, 5, 6, 7])
print(np.repeat(x, 3), end='\n---\n') # Продублировали каждый элемент исходного массива 3 раза
print(np.repeat(x, 3).reshape(5, 3), end='\n---\n') # Развернули в матрицу, так чтобы каждая колонка - дубль массива
print(np.repeat(x, 3).reshape(5, 3).T, end='\n---\n') # транспонировали полученную матрицу

# По факту получили матрицу из трех одинаковых строк исходного массива (broadcast на размерность (3, 5))

[3 3 3 4 4 4 5 5 5 6 6 6 7 7 7]
---
[[3 3 3]
 [4 4 4]
 [5 5 5]
 [6 6 6]
 [7 7 7]]
---
[[3 4 5 6 7]
 [3 4 5 6 7]
 [3 4 5 6 7]]
---


In [24]:
# Аналогично бродкастятся и вектора к нужной размерности матрицы:

print(A, end='\n---\n')


print(
    A + x,
    end='\n---\n'
)

print(
    A + np.repeat(x, 3).reshape(5, 3).T # Сами забродкастили массив и получили то же самое
)

[[ 1  2  3  4  5]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
---
[[ 4  6  8 10 12]
 [ 8 10 12 14 16]
 [13 15 17 19 21]]
---
[[ 4  6  8 10 12]
 [ 8 10 12 14 16]
 [13 15 17 19 21]]


In [25]:
# Это все важно понимать, чтобы знать, что происходит когда вы делаете простые операции с добавлением
# констант к векторам/матрицам
# векторов к матрицам и тп


# Самим бродкастить - НЕ НУЖНО

---

### Индексация (очень важно)

In [26]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [27]:
print(A[0], end='\n---\n') # Нулевая строчка
print(A[:, 0], end='\n---\n') # Нулевая колонка
print(A[:2], end='\n---\n') # Первые две строчки
print(A[:, :2], end='\n---\n') # Первые две колонки
print(A[:2, :2], end='\n---\n') # Левый-верхний угол (2х2) из 4х элементов

[1 2 3 4 5]
---
[ 1  5 10]
---
[[1 2 3 4 5]
 [5 6 7 8 9]]
---
[[ 1  2]
 [ 5  6]
 [10 11]]
---
[[1 2]
 [5 6]]
---


---

In [28]:
x

array([3, 4, 5, 6, 7])

In [29]:
# Можно в качестве индексов передать список индексов
# Результат - в порядке переданных индексов соответствующие индексам исходные значения

x[[0, 3, 4]] # Нулевой, Третий и Четвертый элементы x в порядке следования

array([3, 6, 7])

In [30]:
# Список индексов можно давать любого размера, произвольного характера


x[[0, 0, 0, 0, 0, 1, 4, 4, 0, 1, 2]]

array([3, 3, 3, 3, 3, 4, 7, 7, 3, 4, 5])

In [31]:
y = np.array([100, -4, 101, 13, 8, 19])

### Парные сортировки (тоже важно)

In [32]:
# Отсюда можно делать крутые хаки:


np.argsort(y) # Индексы в исходном массиве в порядке сортировки
# То есть:
# на 1ом индексе - самый маленький
# на 4ом индексе - второй по меньшинству
# на 3м индексе - третий ...
# на 5м индексе - четвертый
# на 0ом индексе - пятый ...
# на 2ой позиции в исходном массиве - самый большой элемент

array([1, 4, 3, 5, 0, 2])

In [33]:
print(y[1])
print(y[4])
print(y[3])
print(y[5])
print(y[0])
print(y[2])

# Вывели в отсортированном порядке

-4
8
13
19
100
101


In [34]:
# А можно красиво в numpy-style сделать то же самое:


sorted_idxs = np.argsort(y)
print(sorted_idxs, end='\n---\n')

print(y[sorted_idxs]) # Проиндексировали как уже умеем по отсортированным индексам и получили отсортированный массив

[1 4 3 5 0 2]
---
[ -4   8  13  19 100 101]


In [35]:
# Когда это полезно:


costs = np.array([500, 4, 300, 2, 99, 100]) # Стоимости товаров
products = np.array(['Milk', 'Molk', 'Bread', 'Bruuuh', 'TV', 'TOVU']) # Сами товары

# Причем массивы созданы так, что
# costs[i] - цена products[i]

# Хотим: найти K товаров с самой высокой стоимостью

In [36]:
K = 2 # например 2 товара

sorted_idxs = np.argsort(costs) # Получили отсортированные индексы цен
print(sorted_idxs[-K:], end='\n---\n') # Вывели два последних индекса, они соответствуют самым большим стоимостям в costs
# И они так же соответствуют, соответствующим товарам в products

# А значит:
print(products[sorted_idxs[-K:]]) # Два самых дорогих товара в порядке увеличения цены

[2 0]
---
['Bread' 'Milk']


# Маскирование (ультра-важно)

In [38]:
x

array([3, 4, 5, 6, 7])

In [40]:
x == 5 # Получили новый массив, элементы которого - это значения True/False (Равна чиселка 5 или нет)


# Обратим внимание, что тут по факту произошел broadcasting 5ки в вектор из пятерок той же размерности
# После чего произошло поэлементное сравнение x и [5, 5, 5, 5, 5]
# В результате чего получили такой массив:

array([False, False,  True, False, False])

In [42]:
# И теперь ультра трюк 
# Такие массивы из True/False (такой же размерности как и исходный массив)
# Будем называть МАСКАМИ

# Масками можно индексировать (как индексами исходный массив)

print(x, end='\n---\n')
print(x[x == 5], end='\n---\n') # Только те значения x, которые == 5
print(x[[True, False, True, True, False]]) # Только те значения x, на позиция которых в маске стоит True

[3 4 5 6 7]
---
[5]
---
[3 5 6]


In [43]:
# Зачем это нужно?

costs = np.array([500, 4, 300, 2, 99, 100]) # Стоимости товаров
products = np.array(['Milk', 'Molk', 'Bread', 'Bruuuh', 'TV', 'TOVU']) # Сами товары

# Причем массивы созданы так, что
# costs[i] - цена products[i]

# Хотим: найти все товары стоимости более 10

In [46]:
mask = costs > 10 # Маска для costs, где True там, где цена на позиции больше 10
print(mask, end='\n---\n')

print(products[mask], end='\n---\n') # И на самом деле из-за соответствия позиций costs и products
# mask - тоже маска для products. Причем мы буквально выведем именно те продукты, у которых соответствующий cost 
# больше 10

print(costs[mask]) # для само-проверки

[ True False  True False  True  True]
---
['Milk' 'Bread' 'TV' 'TOVU']
---
[500 300  99 100]


# Базовый Pandas

In [47]:
# К счастью для нас Pandas безумно похож на Numpy
# И нового особо изучать не придется

# Просто немного нужно адаптироваться с синтаксисом

In [48]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [50]:
# Теперь обзовем наши колонки именами:


df_A = pd.DataFrame(data=A, columns=['a', 'b', 'c', 'd', 'e'])

In [51]:
df_A

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,5,6,7,8,9
2,10,11,12,13,14


In [52]:
# Продолжают работать абсолютно те же базовые операции, как и раньше:

df_A + 3

Unnamed: 0,a,b,c,d,e
0,4,5,6,7,8
1,8,9,10,11,12
2,13,14,15,16,17


In [54]:
df_A * 10

Unnamed: 0,a,b,c,d,e
0,10,20,30,40,50
1,50,60,70,80,90
2,100,110,120,130,140


In [55]:
df_A + df_A

Unnamed: 0,a,b,c,d,e
0,2,4,6,8,10
1,10,12,14,16,18
2,20,22,24,26,28


In [56]:
# Более того, можно откусывать отдельную колонку и работать с ней как с вектором:


df_A['a'] # Получился новый объект pandas.Series  (по факту это именнованный numpy-вектор, который мы видели до этого)

0     1
1     5
2    10
Name: a, dtype: int64

In [58]:
# С ними так же можно работать:

df_A['a'] + 100

0    101
1    105
2    110
Name: a, dtype: int64

In [59]:
df_A['a'] + df_A['b'] # даже две колонки можно сложить

0     3
1    11
2    21
dtype: int64

---

### Датафреймы тоже можно склеивать

In [61]:
df_A

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,5,6,7,8,9
2,10,11,12,13,14


In [62]:
# Склеили по вертикали

pd.concat(
    (df_A, df_A + 10)
)

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,5,6,7,8,9
2,10,11,12,13,14
0,11,12,13,14,15
1,15,16,17,18,19
2,20,21,22,23,24


In [64]:
# Склеили по горизонтали

pd.concat(
    (df_A, df_A + 10),
    axis=1
)
# Заметим, что в этом случае колонки продублировались
# Лучше не клеить датасеты с одинаковыми колонками
# Лучше пользоваться методом Join

Unnamed: 0,a,b,c,d,e,a.1,b.1,c.1,d.1,e.1
0,1,2,3,4,5,11,12,13,14,15
1,5,6,7,8,9,15,16,17,18,19
2,10,11,12,13,14,20,21,22,23,24


### Broadcasting абсолютно аналогично работает и в пандасе

---

### Индексация в Pandas

In [69]:
print(df_A['a'], end='\n---\n') # Колонка а
print(df_A[['a', 'd']], end='\n---\n') # Колонки a и d

0     1
1     5
2    10
Name: a, dtype: int64
---
    a   d
0   1   4
1   5   8
2  10  13
---


In [70]:
# Если хотим проиндексировать строк:

# Новый оператор для индексации: .loc

df_A.loc[[0, 2]] # Строки с индексами 0 и 2

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
2,10,11,12,13,14


In [71]:
# Если хотим просто строку 1:

df_A.loc[1]

a    5
b    6
c    7
d    8
e    9
Name: 1, dtype: int64

In [73]:
# Можно даже так:

df_A.loc[:1]

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,5,6,7,8,9


In [74]:
# Можно даже одновременно и колонки и строки отобрать:


df_A.loc[[0, 2], ['a', 'e']] # Колонки a и е для строк 0 и 2

Unnamed: 0,a,e
0,1,5
2,10,14


## Индексная колонка в Pandas

In [76]:
df_A

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,5,6,7,8,9
2,10,11,12,13,14


In [79]:
# В самом левом крае датафрейма видим неименованную колонку (из 0, 1, 2)
# Это особая индексная колонка без имени

# Ее можно вывести особым образом:

df_A.index.values # Значения индексной колонки

array([0, 1, 2])

In [80]:
# Индексы в датафрейме можно переопределить абсолютно любым образом

df_A.index = [10, 20, 30]

In [81]:
df_A

Unnamed: 0,a,b,c,d,e
10,1,2,3,4,5
20,5,6,7,8,9
30,10,11,12,13,14


In [83]:
# Теперь нужно будет индексироваться по новым индексам, будьте внимательны!!!


df_A.loc[[10, 30]] # Не, 0 и 2

Unnamed: 0,a,b,c,d,e
10,1,2,3,4,5
30,10,11,12,13,14


In [86]:
# Если хотим 0ую и 2ую строки по порядку, то пользуемся еще одной индексацией:

# .iloc[]


df_A.iloc[[0, 2]] # Вывела 0ую и 2ую строки по порядку

Unnamed: 0,a,b,c,d,e
10,1,2,3,4,5
30,10,11,12,13,14


In [87]:
# Индексы можно даже строками сделать:


df_A.index = ['first', 'second', 'third']
df_A

Unnamed: 0,a,b,c,d,e
first,1,2,3,4,5
second,5,6,7,8,9
third,10,11,12,13,14


In [89]:
# И соответственно по таким индексам обращаться:


df_A.loc[['first', 'third']] # Это не колонки! Это именно индексы

Unnamed: 0,a,b,c,d,e
first,1,2,3,4,5
third,10,11,12,13,14


In [91]:
# Пушто вот можем еще и по колонкам отобрать:

df_A.loc[['first', 'second'], ['c', 'e']] # c и е колонки для строк с индексами first, second

Unnamed: 0,c,e
first,3,5
second,7,9


### Маскирование в Pandas (крайне-важно!)