# Семинар 1 - numpy, pandas

## 1. Numpy

- документация: http://www.numpy.org/

Библиотека numpy является удобным инструментом для работы с многомерными массивами с возможностью векторизации вычислений. Рассмотрим базовые вещи, которые можно делать с помощью нее.

In [1]:
import numpy as np

In [8]:
vec = np.array([[1., 2.], [3., 4.], [5, 6]])
vec

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

С чем мы работаем?

In [9]:
vec.dtype

dtype('float64')

In [10]:
type(vec)

numpy.ndarray

Размер массива и число осей:

In [11]:
vec.shape

(3, 2)

In [12]:
vec.ndim

2

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

In [13]:
np.sum(vec)

21.0

In [16]:
vec

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

In [14]:
np.sum(vec, axis=0)

array([ 9., 12.])

In [15]:
np.sum(vec, axis=1)

array([ 3.,  7., 11.])

In [20]:
vec.max(axis=0)

array([5., 6.])

Транспонируем массив:

In [21]:
vec.T

array([[1., 3., 5.],
       [2., 4., 6.]])

In [22]:
vec.transpose()

array([[1., 3., 5.],
       [2., 4., 6.]])

Обратите внимание, что переменная `vec` не поменялась!

In [23]:
vec

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

Индексирование:

In [24]:
vec[:, 1]

array([2., 4., 6.])

In [25]:
vec[2, :]

array([5., 6.])

In [28]:
vec[:2, 1]

array([2., 4.])

In [29]:
vec[::2, :]

array([[1., 2.],
       [5., 6.]])

In [31]:
vec[vec % 2 == 0]

array([2., 4., 6.])

Иногда бывает полезно создавать специфичные массивы:

In [None]:
np.array([[0,0,0], [0,0,0]])

In [32]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [33]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [35]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

И, наконец - арифметические операции!

In [36]:
vec + 1

array([[2., 3.],
       [4., 5.],
       [6., 7.]])

In [37]:
vec * 2

array([[ 2.,  4.],
       [ 6.,  8.],
       [10., 12.]])

In [38]:
vec ** 2

array([[ 1.,  4.],
       [ 9., 16.],
       [25., 36.]])

In [39]:
vec + vec ** 2

array([[ 2.,  6.],
       [12., 20.],
       [30., 42.]])

In [40]:
vec * vec ** 2

array([[  1.,   8.],
       [ 27.,  64.],
       [125., 216.]])

In [41]:
np.sin(vec)

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ]])

**Задание 1.** Напишите функцию `matrix_mult` (не используя `np.dot` или `np.matmul`)
$$
[AB]_{ij} = \sum\limits_{k}A_{ik} B_{kj}
$$

In [44]:
def matrix_mult(A, B):
    # YOUR CODE HERE
    C = np.zeros((A.shape[0], B.shape[1]))
    for i in range(A.shape[0]):
    for j in range(B.shape[1]):
        C[i, j] = np.sum(A[i, :] * B[:, j])
    return C

In [45]:
# Test
A = np.array(range(10)).reshape(2,5)
B = np.array(range(10)).reshape(5,2)
assert (matrix_mult(A, B) == np.dot(A, B)).all()

In [46]:
A @ B == np.dot(A, B)

array([[ True,  True],
       [ True,  True]])

**Задание 2.** Напишите функцию `negative_maker`, которая принимает на вход 2 числа `a`, `b` и массив `X` и умножает все элементы `X` котрые лежат в интервале `[a, b]` на `-1`

In [58]:
def negative_maker(X, a, b):
    # YOUR CODE HERE
    ind = (X >= a) & (X <= b)
    X[ind] *= -1
    # the same as X[ind] = -1*X[ind]
    return X

In [59]:
# test
test = np.array(range(9)).reshape(3,3)
assert (negative_maker(test, -1, 3) == np.array([[ 0, -1, -2], [-3,  4,  5], [ 6,  7,  8]]).all()

Почему вообще используют `numpy`?

In [60]:
%%time
C = matrix_mult(A, B)

CPU times: user 164 µs, sys: 12 µs, total: 176 µs
Wall time: 197 µs


In [61]:
%%time
C = A @ B

CPU times: user 25 µs, sys: 3 µs, total: 28 µs
Wall time: 31.2 µs


### Задания для самостоятельного решения

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).
2. Найти максимальный нечетный элемент в массиве.
3. Замените все нечетные элементы массива на ваше любимое число.
4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если `n=5`, то ответом будет `array([9, 7, 5, 3, 1])`. *Функции, которые могут пригодиться при решении: `.arange()`*
5. Вычислите самое близкое и самое дальнее числа к данному в рассматриваемом массиве чисел. Например, если на вход поступают массив `array([0, 1, 2, 3, 4])` и число 1.33, то ответом будет `(1, 4)`. _Функции, которые могут пригодиться при решении: `.abs()`, `.argmax()`, `.argmin()`_
6. Вычисляющую первообразную заданного полинома (в качестве константы возьмите ваше любимое число). Например, если на вход поступает массив коэффициентов `array([4, 6, 0, 1])`, что соответствует полиному $4x^3 + 6x^2 + 1$, на выходе получается массив коэффициентов `array([1, 2, 0, 1, -2])`, соответствующий полиному $x^4 + 2x^3 + x - 2$. _Функции, которые могут пригодиться при решении: `.append()`_
7. Пользуясь пунктом 6, посчитайте первую производную для заданного полинома в заданной точке.

## 2. Pandas
![alt text](https://media0.giphy.com/media/fAaBpMgGuyf96/giphy.gif)

- документация: http://pandas.pydata.org/pandas-docs/stable/
- 10 minutes to pandas: https://pandas.pydata.org/pandas-docs/stable/10min.html
- Pandas Tutorial: DataFrames in Python: https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
- Cheet Sheet: https://www.analyticsvidhya.com/blog/2015/07/11-steps-perform-data-analysis-pandas-python/
- Visualization: http://pandas.pydata.org/pandas-docs/stable/visualization.html

Будем работать с данными, собранными благодаря опросу студентов математического курса средней школы в Португалии (возраст - от 15 до 22 лет). Они находятся в файле ["math_students.csv"](https://drive.google.com/file/d/1RuzDsF8YKCDMVmpkBfjudHd9JALUp3yc/view?usp=sharing). 

 Целевой переменной является итоговая оценка студента за курс.

In [62]:
import matplotlib.pyplot as plt
import pandas as pd

# магическая функция, позволяющая выводить графики прямо в ноутбук
%matplotlib inline

In [63]:
# если данные и ноутбук находятся в разных папках, то для загрузки файла помимо названия необходимо также прописать путь к нему
# .csv - текстовый файл для представления табличных данных, разделенных каким-то символом. В данном случае - запятой
data = pd.read_csv('math_students.csv', delimiter=',')

# функция .head(n) выводит первые n строк таблицы (по умолчанию n=5)
data.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10


Итак, всего объектов 395, а признаков - 32 (учитываем, что один из столбцов - это целевая переменная). Все признаки имеют разную природу. Вот их более подробная расшифровка:

 - school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
 - sex - пол ("F" - female или "M" - male)
 - age - возраст (от 15 до 22)
 - address - откуда студент ("U" - urban или "R" - rural)
 - famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
 - Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
 - Medu - образование матери (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Fedu - образование отца (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", предпочтение некоторым предметам - "course" или "other")
 - guardian - опекун ("mother", "father" или "other")
 - traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
 - studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
 - failures - количество ранее не сданных предметов (n if 1 <= n < 3, else 4)
 - schoolsup - дополнительные занятия (yes or no)
 - famsup - помощь от семьи при выполнении заданий (yes or no)
 - paid - дополнительные платные занятия (yes or no)
 - activities - внеклассная деятельность (yes or no)
 - nursery - посещал детский сад (yes or no)
 - higher - желание высшего образования (yes or no)
 - internet - домашний интернет (yes or no)
 - romantic - состоит в романтических отношениях (yes or no)
 - famrel - насколько хороши отношения в семье (от 1 - очень плохие до 5 - превосходные)
 - freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
 - goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
 - Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
 - Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
 - health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
 - absences - количество школьных пропусков (от 0 до 93)
 - G1 - оценка за первый семестр (от 0 до 20)
 - G2 - оценка за второй семестр (от 0 до 20)
 - G3 - итоговая оценка (от 0 до 20)

 ---

 Для вывода названий всех признаков есть специальная функция:

In [64]:
data.columns

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

 Как обращаться к колонкам?
* "dot" `data.G3` 
* "brackets" `data['G3']`. 
* "list in the bracket" `data[['G3', 'G2']]` 
* "index" `data.iloc[:, -1]`


In [65]:
data.G3 

0       6
1       6
2      10
3      15
4      10
       ..
390     9
391    16
392     7
393    10
394     9
Name: G3, Length: 395, dtype: int64

In [None]:
data['G3']

0       6
1       6
2      10
3      15
4      10
       ..
390     9
391    16
392     7
393    10
394     9
Name: G3, Length: 395, dtype: int64

In [67]:
data[['G3']]

Unnamed: 0,G3
0,6
1,6
2,10
3,15
4,10
...,...
390,9
391,16
392,7
393,10


In [69]:
data.iloc[:10, 10]

0        course
1        course
2         other
3          home
4          home
5    reputation
6          home
7          home
8          home
9          home
Name: reason, dtype: object