# Знайомство з jupyter

Документ jupyter notebook має розширення .ipynb, складається з багатьох полів. У полях можна писати програмний код, робити розмічені та нерозмічені нотатки. Цим функціям відповідає три типи полів:
    
    1. code
    2. markdown
    3. raw

Для роботи з вмістом поля використовується *режим редагування* (*Edit mode*, включається натисканням клавіші **Enter** після вибору поля), а для навігації між полями використовується *командний режим* (*Command mode*, включається натисканням клавіші ** Esc**).

Тип поля можна задати в командному режимі або за допомогою гарячих клавіш (** y ** to code, ** m ** to markdown, ** r ** to edit raw text), або в меню *Cell -> Cell type* .

In [200]:
# поле з кодом
a = 1

## Поле з розміченим текстом

Після заповнення поля потрібно натиснути *Shift + Enter*, ця команда обробить вміст поля: проінтерпретує код або зверстає розмічений текст.

Поле з програмним кодом поділяють область видимості:

In [201]:
a = 1

In [202]:
print(a)

1


# NumPy

In [203]:
import numpy as np

Основним типом даних NumPy є багатовимірний масив елементів одного типу - [numpy.ndarray] (http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.array.html). Кожен подібний масив має кілька вимірювань або осей - зокрема, вектор (у класичному розумінні) є одномірним масивом і має 1 вісь, матриця є двовимірним масивом і має 2 осі і т.д.

In [204]:
vec = np.array([1, 2, 3])
vec.ndim # кількість осей

1

In [205]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

Щоб дізнатися довжину масиву по кожній осі, можна скористатися атрибутом shape:

In [206]:
vec.shape

(3,)

Щоб дізнатися тип елементів та їх розмір у байтах:

In [207]:
mat.dtype.name

'int64'

In [208]:
mat.itemsize

8

## Створення масивів

* Передати об'єкт, що ітерується, як параметр функції array (можна також явно вказати тип елементів):

In [209]:
A = np.array([1, 2, 3])
A

array([1, 2, 3])

In [210]:
A = np.array([1, 2, 3], dtype = float)
A

array([1., 2., 3.])

In [211]:
B = np.array([(1, 2, 3), (4, 5, 6)])
B

array([[1, 2, 3],
       [4, 5, 6]])

* Створення масивів спеціального виду за допомогою функцій zeros, ones, empty, identity:

In [212]:
np.zeros((3,))

array([0., 0., 0.])

In [213]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [214]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [215]:
np.empty((2, 5))

array([[   0.,    0.,  368.,    0.,  648.],
       [   0., 1088.,    0., 1368.,    0.]])

Зверніть увагу, що вміст масиву, створеного за допомогою функції empty, **не ініціалізується**, тобто як значення він може містити "сміття"**.

* Створення послідовностей за допомогою функцій arange (як парметрів приймає ліву та праву межі послідовності та **крок**) та linspace (приймає ліву та праву межі та **кількість елементів**):

In [216]:
np.arange(2, 20, 2) # аналогічно до стандартної функції range python, права межа не включається

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [217]:
np.arange(2.5, 8.7, 0.9) # але може працювати і з речовими числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [218]:
np.linspace(2, 18, 14) # правий кордон включається (за замовчуванням)

array([ 2.        ,  3.23076923,  4.46153846,  5.69230769,  6.92307692,
        8.15384615,  9.38461538, 10.61538462, 11.84615385, 13.07692308,
       14.30769231, 15.53846154, 16.76923077, 18.        ])

* Для зміни розмірів існуючого масиву можна скористатися функцією reshape (при цьому кількість елементів має залишатися незмінною):

In [219]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Замість значення довжини масиву по одному з вимірів можна вказати -1 - у цьому випадку значення буде розраховане автоматично:

In [220]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

* Транспонування існуючого масиву:

In [221]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [222]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

* Об'єднання існуючих масивів по заданій осі:

In [223]:
A = np.arange(6).reshape(2, -1)
np.hstack((A, A**2))

array([[ 0,  1,  2,  0,  1,  4],
       [ 3,  4,  5,  9, 16, 25]])

In [224]:
np.vstack((A, A**2))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 0,  1,  4],
       [ 9, 16, 25]])

In [225]:
np.concatenate((A, A**2), axis = 0)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 0,  1,  4],
       [ 9, 16, 25]])

* Повторення існуючого масиву

In [226]:
a = np.arange(3)
np.tile(a, (2, 2))

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [227]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

## Базові операції

* Базові арифметичні операції над масивами виконуються поелементно:

In [228]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [229]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [230]:
B

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [231]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [232]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [233]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [234]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [235]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Окремо звернемо увагу на те, що множення масивів також є **поелементним**, а не матричним:

In [236]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

Для виконання матричного множення необхідно використати функцію dot:

In [237]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

## Індексація

* Для індексації можуть використовуватись конкретні значення індексів та зрізи (slice), як і в стандартних типах Python. Для багатовимірних масивів індекси різних осей поділяються комою. Якщо для багатовимірного масиву вказані індекси не для всіх вимірювань, відсутні заповнюються повним зрізом (:).

In [238]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [239]:
a[2:5]

array([2, 3, 4])

In [240]:
a[3:8:2]

array([3, 5, 7])

In [241]:
A = np.arange(81).reshape(9,-1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [242]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [243]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [244]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [245]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

* Також може використовуватися індексація за допомогою списків індексів (по кожній осі):

In [246]:
A = np.arange(81).reshape(9,-1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [247]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

* Може також застосовуватись логічна індексація (за допомогою логічних масивів):

In [248]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [249]:
A[A % 3 != 0]

array([ 1,  2,  4,  5,  7,  8, 10])

## Приклади

In [250]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

1. Вибрати усі парні рядки матриці A.
2. Скласти одновимірний масив із усіх, що не поділяються на 3 елементи непарних стовпців А.

In [251]:
B = A[::2,:]
B

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [252]:
C = A[:,1::2]
C[C % 3 != 0]

array([ 1,  5,  7, 10, 14, 16, 19, 23, 25, 28, 32, 34, 37, 41, 43, 46, 50,
       52, 55, 59, 61, 64, 68, 70, 73, 77, 79])

## Навіщо?

Навіщо потрібно використовувати NumPy, якщо існують стандартні списки/кортежі та цикли?

Причина полягає у швидкості роботи. Спробуємо порахувати суму поелементних творів 2 великих векторів:

In [253]:
import time

A_quick_arr = np.random.normal(size = (1000000,))
B_quick_arr = np.random.normal(size = (1000000,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [254]:
start = time.process_time()
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]
print(time.process_time()-start) # время выполнения в секундах
ans

0.4342877329999979


1900.8215629557894

In [255]:
start = time.process_time()
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(1000000)])
print(time.process_time() - start)
ans

0.2732485259999997


1900.8215629557894

In [256]:
start = time.process_time()
ans = np.sum(A_quick_arr * B_quick_arr)
print(time.process_time() - start)
ans

0.004557489999996278


1900.8215629557017

In [257]:
start = time.process_time()
ans = A_quick_arr.dot(B_quick_arr)
print(time.process_time() - start)
ans

0.004957830000002161


1900.8215629557058

## Pandas. Структура даних.

In [258]:
import pandas as pd
from pandas import Series, DataFrame

## Створення та індексування серії

In [259]:
obj = pd.Series([4, 7, -5, 3])
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [260]:
obj.values

array([ 4,  7, -5,  3])

In [261]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [262]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

Unnamed: 0,0
d,4
b,7
a,-5
c,3


In [263]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [264]:
obj2['a']

-5

In [265]:
obj2[['c', 'a', 'd']]

Unnamed: 0,0
c,3
a,-5
d,4


In [266]:
obj2[obj2 > 0]

Unnamed: 0,0
d,4
b,7
c,3


In [267]:
obj2 * 2

Unnamed: 0,0
d,8
b,14
a,-10
c,6


In [268]:
np.exp(obj2)

Unnamed: 0,0
d,54.59815
b,1096.633158
a,0.006738
c,20.085537


In [269]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
sdata

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [270]:
obj3 = pd.Series(sdata)
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [271]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [272]:
pd.isnull(obj4)

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [273]:
pd.notnull(obj4)

Unnamed: 0,0
California,False
Ohio,True
Oregon,True
Texas,True


In [274]:
obj4.isnull()

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [275]:
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [276]:
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


## Об'єднання серій

In [277]:
obj3 + obj4

Unnamed: 0,0
California,
Ohio,70000.0
Oregon,32000.0
Texas,142000.0
Utah,


In [278]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [279]:
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [280]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Unnamed: 0,0
Bob,4
Steve,7
Jeff,-5
Ryan,3


## DataFrame.

In [281]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [282]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [283]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four','five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [284]:
frame2[['state','pop']]

Unnamed: 0,state,pop
one,Ohio,1.5
two,Ohio,1.7
three,Ohio,3.6
four,Nevada,2.4
five,Nevada,2.9
six,Nevada,3.2


In [285]:
frame2.year

Unnamed: 0,year
one,2000
two,2001
three,2002
four,2001
five,2002
six,2003


In [286]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [287]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [288]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [289]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [290]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [291]:
index[1:]

Index(['b', 'c'], dtype='object')

## Для практики
1) Реалізуйте функцію, яка повертає максимальний елемент у векторі x серед елементів, перед якими стоїть нульовий. Для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) відповіддю є 5. Якщо нульових елементів немає, функція повинна повертати None.

2) Реалізуйте функцію, що приймає на вхід матрицю і деяке число і повертає найближчий до елемента матриці. Наприклад: для X = np.arange(0,10).reshape((2, 5)) та v = 3.6 відповіддю буде 4.

3) Реалізуйте функцію, яка приймає на вхід матрицю і масштабує кожен її стовпець (знайти максимальний елемент у стовпці та розділити на нього всі елементи стовпця). Додати перевірку поділу на 0.

4) використовувати будь-які цикли забороняється
