# Семинар 1. Основные библиотеки для работы с данными в Python

Список основных библиотек:
* __numpy__ -- линейная алгебра, математические операции над матрицами и векторами ([сайт](https://docs.scipy.org/doc/numpy/reference/)).
* __scipy__ -- научные вычисления ([сайт](https://docs.scipy.org/doc/scipy/reference/)).
* __pandas__ -- табличные данные ([сайт](https://pandas.pydata.org/docs/)).
* __scikit-learn aka sklean__ -- алгоритмы машинного обучения ([сайт](https://scikit-learn.org/)).
* __statsmodels__ -- прикладная статистика, статистические тесты, анализ временных рядов ([сайт](https://www.statsmodels.org)).
* __matplotlib + pyplot__ -- визуализация ([сайт](https://matplotlib.org/)).
* __seaborn__ -- продвинутая статистическая визуализация ([сайт](https://seaborn.pydata.org/)).

Примеры и туториалы по этим библиотекам:
* [Отличные уроки по визуализации в matplotlib](https://nbviewer.jupyter.org/github/whitehorn/Scientific_graphics_in_python/blob/master/P1%20Chapter%201%20Pyplot.ipynb)
* [Лекции по scipy и numpy](http://scipy-lectures.org/index.html)
* [Шпаргалка по pandas](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

## Работа в Jupyter Notebook

Jupyter Notebook является удобной средой для проведения экспериментов и выполнения кода в интерактивном режиме. Код в ноутбуке поделен на ячейки. Выполнять их можно в любом порядке, каждое выполнение вносит изменения в рабочую среду.

У ноутбука есть два режима:
1. командный режим -- синий контур у ячейки;
2. режим редактирования -- зеленый контур для ячейки.

Ячейки бывают 3 типов:
1. `Code` -- при выполнении ячейки выполняется соответствующий код (`In []:` слева от ячейки).
2. `Markdown` -- при выполнении ячейки, текст оформляется красивенько (текущая ячейка имеет такой тип).
3. `Raw` -- сырые данные, которые никак не используются.

Краткий справочник команд для командного режима:
1. `Escape` --  перейти в командный режим.
2. `A` -- добавить ячейку перед текущей;
3. `B` -- добавить ячейку после текущей;
4. `d-d` -- удалить текущую ячейку;
5. `C` -- скопировать текущую ячейку;
6. `X` -- вырезать текущую ячейку;
7. `V` -- вставить скопированную ячейку после текущей;
8. `Z` -- отменить удаление ячейки;
9. `Y` -- назначить тип ячейки *code*;
10. `M` -- назначить тип ячейки *markdown*;
11. `R` -- назначить тип ячейки *raw*;
12. `Ctrl+Enter` -- выполнить текущую ячейку (доступно в режиме редактирования);
13. `Shift+Enter` -- выполнить текущую ячейку и перейти к следующей (доступно в режиме редактирования).

В дополнение несколько полезных ссылок:
* [Markdown Cheat Sheet](http://nestacms.com/docs/creating-content/markdown-cheat-sheet)
* [Advanced Jupyter Notebook Tricks](https://blog.dominodatalab.com/lesser-known-ways-of-using-notebooks/)

## 1. Библиотека NumPy

In [None]:
import numpy as np

np.__version__

## 1.1. Векторы 

In [None]:
# создание вектора
x = np.array([1, 2, 4]) 
y = np.array([0.5, 1.0, -0.5])

# можно создавать из листа
l = [1, 2, 3.0, 5, 6]
l = np.array(l)

# вектор со случайных чисел
z = np.random.normal(size=3)

In [None]:
a = 0.1

print('x =', x)
print('y =', y)
print('z =', z)
print('l =', l)
print('Размерность x:', x.shape)

In [None]:
# вектор из нулей
print('np.zeros(3) =', np.zeros(3))

# вектор из единиц
print('np.ones(shape=4) =', np.ones(shape=4))

# сетка с шагом
print('np.arange(1, 2, 0.25) =', np.arange(1, 2, 0.25)) # правая точка не включается

# сетка с n узлами
print('np.linspace(1, 2, 5) =', np.linspace(1, 2, 5)) # а здесь включается

In [None]:
# вектор и число: +, -, *, /
print('x * a =', x * a)
print('a / x =', a / x)

In [None]:
# вектор и вектор
# покомпонентно +, -, *, /
print('x + y =', x + y)
print('x * y =', x * y)
print('x / y =', x / y)

In [None]:
# скалярное произведение
print('np.dot(x, y) =', np.dot(x, y))
print('x @ y =', x @ y)

In [None]:
# склейка векторов
# сюда надо передать лист из векторов, которые будут склеены
print('np.concatenate([x, y]) =', np.concatenate([x, y]))
print('np.concatenate([x, y, x]) =', np.concatenate([x, y, x]))

## 1.2. Матрицы

In [None]:
# матрица
A = np.array([[1,2],[0,1]])
B = np.array([[2, 3, 0], [0, 1, 1]])
C = np.random.normal(size=(2, 3))

In [None]:
print('A, размерность:', A.shape); print(A)
print('B, размерность:', B.shape); print(B)
print('C, размерность:', C.shape); print(C)

In [None]:
# матрица из нулей
zeros = np.zeros(shape=(4,3))
print('zeros, размерность:', zeros.shape); print(zeros)

# матрица из единиц
ones = np.ones(shape=(4,3))
print('ones, размерность:', ones.shape); print(ones)

# единичная матрица
eye = np.eye(4, 3)
print('eye, размерность:', eye.shape); print(eye)

# создание матрицы нулей или единиц по аналогу с существующей
zeros_like_B = np.zeros_like(B)
print('zeros_like_B, размерность:', zeros_like_B.shape); print(zeros_like_B)

In [None]:
# матрица и число аналогично векторам
# матрица и вектор
print('B @ x =', B @ x)

In [None]:
# матрица и матрица
print('A @ B:'); print(A @ B)
print('np.matmul(A, B):'); print(np.matmul(A, B))

In [None]:
# транспонирование
print('B.T, размерность:', B.T.shape); print(B.T)
print('np.transpose(B), размерность:', np.transpose(B).shape)
print(np.transpose(B))

In [None]:
# определитель и обращение матриц
print('np.linalg.det(A) =', np.linalg.det(A))
print('np.linalg.inv(A) =', np.linalg.inv(A))

## 1.3. Покомпонентные операции над векторами и матрицами

In [None]:
print('x =', x)
print('y =', y)

In [None]:
print('np.sin(x) =', np.sin(x))
print('np.cos(x) =', np.cos(x))
print('np.tan(x) =', np.tan(x))

In [None]:
print('np.exp(x) =', np.exp(x))
print('np.log(x) =', np.log(x)) # натуральный логарифм
print('np.log2(x) =', np.log2(x)) # натуральный логарифм

In [None]:
print('np.abs(y) =', np.abs(y))
print('np.sqrt(x) =', np.sqrt(x))
print('np.power(x, 2) =', np.power(x, 2))
print('np.power(10, x) =', np.power(10, x))

In [None]:
# усечение значений и округление
print('np.clip(y, 0, 1) =', np.clip(y, 0, 1))
print('np.round(z, decimals=2) =', np.round(z, decimals=2))
print('np.floor(z, decimals=2) =', np.floor(z))
print('np.ceil(z, decimals=2) =', np.ceil(z))

## 1.4. Редукция

In [None]:
print(x)

In [None]:
# суммирование компонентов матриц и векторов
print('x.sum() =', x.sum())

In [None]:
print('A:\n', A)
print('B:\n', B)

In [None]:
# суммирование вдоль оси
print('B.sum(axis=0) =', B.sum(axis=0)) # можно использовать np.sum()
print('B.sum(axis=1) =', B.sum(axis=1))
print('B.sum() =', B.sum())

In [None]:
# среднее
print('A.mean() =', A.mean()) # можно вдоль оси, можно np.mean()
print('A.mean(axis=0) =', A.mean(axis=0))

In [None]:
# min и max
print('A.min() =', A.min()) # можно вдоль оси, можно np.min()
print('A.max(axis=1) =', A.max(axis=1)) # можно вдоль оси, можно np.min()

In [None]:
# argmin, argmax
print('x.argmax() =', x.argmax())
print('B.argmax(axis=0) =', B.argmax(axis=0))

In [None]:
np.quantile(A, q=[0.25, 0.95])

## 1.5. Булевы операции

In [None]:
t = np.array([0, -1.5, 0.1])
print('t =', t)

In [None]:
print('t > 0 =', t > 0)

In [None]:
print('y <= t =', y <= t)

In [None]:
a = 1
b = 4

In [None]:
(a > 0) and (b < 10)
# & |

## 1.6. Полезности

In [None]:
print('np.pi =', np.pi)

In [None]:
# преобразование типов
print('z =', z)
print('z.astype(int) =', z.astype(int))

In [None]:
# индексация
print('y[y <= t] =', y[y <= t])
print('y[[2, 1, 2]] =', y[[2, 1, 2]])
print('A[:, 1] =', A[:, 1])

## 1.7. Упражнения

__Упражнение 1:__ Реализовать функции sum, mean, std
* на чистом языке Python;
* с использованием numpy.sum.

In [None]:
x = np.abs(np.random.normal(0, 2, size=6))
x

__Упражнение 2:__ Посчитать среднеквадратическую ошибку в линейной модели.


Среднеквадратическая ошибка:

$$ ||y - X\theta||^2 $$

In [None]:
N, d = 1024, 4

X = np.random.normal(size=(N, d))
y = X[:, 0] * 0.2 + X[:, 2] * (-0.8) + np.random.normal(size=N) * 0.2
theta = np.random.normal(size=d)

__Упражнение 3:__ Решить СЛАУ $Ax = b$. Посчитать невязку $ ||A \hat{x} - b|| $.

In [None]:
N = 5
A = np.random.normal(size=(N, N)) + np.eye(N)
b = np.random.normal(size=N)

# 2. Библиотека Pandas

In [None]:
import pandas as pd

In [None]:
# считывание данных
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

df.head()

In [None]:
df.tail()

In [None]:
# размер
df.shape

## 2.1 Индексация

In [None]:
# обращение к столбцу
df['species']

In [None]:
df.species # с осторожностью

In [None]:
# обращение к наблюдениям по индексу
df.loc[2]

In [None]:
# по номеру строки
df.iloc[2]

In [None]:
# срезы по индексу
# отличаются от срезов для листов
df.loc[1:3]

In [None]:
# срезы по номеру
df.iloc[1:3]

In [None]:
# обращение к столбцу через iloc
df.iloc[:, 4]

In [None]:
# фильтрация по условию
df1 = df[df.sepal_length > 6]

print('Shape of filtered dataframe:',  df1.shape)
df1.head()

## 2.2. Агрегация и статистика

In [None]:
print('mean:')
display(df.mean())

In [None]:
print('median:')
display()

In [None]:
print('min, max:')
display(df.min())
display(df.max())

In [None]:
# статистики по переменным
df.describe()

In [None]:
# работа с категориальными данными
pd.Categorical(df.species).describe()

In [None]:
# число различных значений переменной
df.species.value_counts()

## 2.3. Преобразование таблицы

In [None]:
# новый столбец
df['length_sum'] = df.sepal_length + df.petal_length
df.head()

In [None]:
# удаление
df = df.drop(columns=['length_sum'])
df.head()

In [None]:
# удаление строк
df1 = df.drop(index=[2, 3])
df1.head()

In [None]:
# переименование столбцов
df1 = df.rename(columns={'length_sum': 'sum of sepal and petal length'})
df1.head()

In [None]:
df1 = df[['sepal_length', 'petal_length']]
df1.head()

## 2.4. Упражнения

In [None]:
from seaborn import load_dataset

In [None]:
frame = load_dataset('diamonds')

print('Num rows:', frame.shape[0])
frame.head()

__Упражнение 1:__ Какие значения принимает параметры cut, color, clarity? Найдите самые популярные значения для каждого?

__Упражнение 2:__ Посчитайте статистики для параметров carat, depth, table, price?

__Упражнение 3:__ Отфильтруйте выбросы в таблице по параметру table. Сколько строк осталось в таблице?

# 3. Библиотеки визуализации

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

## 3.1. Библиотека PyPlot

In [None]:
# график функции y = cos(x)
x = np.linspace(-3 * np.pi, 3 * np.pi, 1024)
y = np.cos(x)

plt.plot(x, y)
plt.show()

In [None]:
# оси координат
plt.plot(x, y)

plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)

plt.show()

In [None]:
# стиль линии
plt.plot(x, y, linestyle='--')

plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)

plt.show()

In [None]:
# полный пример для красивых графиков
# размер графика, подписи к осям координат и заголовок
plt.figure(figsize=(12, 5))
plt.plot(x, y, linestyle='--', label='Косинус')

plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)

plt.xlabel('Переменная $x$')
plt.ylabel('Функция $y = \cos(x)$')
plt.title('График косинуса')
plt.legend()

plt.show()

## 3.2 Графики табличных данных

In [None]:
plt.hist(df.petal_width, bins=20)
plt.show()

In [None]:
plt.scatter(df.petal_length, df.petal_width)
plt.show()

In [None]:
df.head()

In [None]:
df.species.value_counts()

In [None]:
loc = df[df.species == 'versicolor']
plt.scatter(loc.petal_length, loc.petal_width, color='blue')

loc = df[df.species == 'virginica']
plt.scatter(loc.petal_length, loc.petal_width, color='red')

loc = df[df.species == 'setosa']
plt.scatter(loc.petal_length, loc.petal_width, color='green')

plt.show()

In [None]:
# спойлер
import k3d

plot = k3d.plot()

loc = df.loc[df.species == 'versicolor', ['petal_length', 'petal_width', 'sepal_width']]
plot += k3d.points(loc, point_size=0.1, color=0x0000ff)

loc = df.loc[df.species == 'virginica', ['petal_length', 'petal_width', 'sepal_width']]
plot += k3d.points(loc, point_size=0.1, color=0xff0000)

loc = df.loc[df.species == 'setosa', ['petal_length', 'petal_width', 'sepal_width']]
plot += k3d.points(loc, point_size=0.1, color=0x00ff00)

plot

## 3.3. Библиотека Seaborn

In [None]:
# попарные графики
sns.pairplot(df)
plt.show()

In [None]:
sns.pairplot(df, hue='species')
plt.show()

In [None]:
sns.histplot(df.petal_width, kde=True, stat='density')
plt.show()

In [None]:
sns.boxplot(data=df, x='species', y='sepal_width')
plt.show()

In [None]:
sns.violinplot(data=df, x='species', y='sepal_width')
plt.show()

## 3.4. Упражнения

__Упражнение 1:__ Построить pairplot для датасета diamonds. Какие выводы можно сделать?

__Упражнение 2:__ Построить pairplot и раскрасить наблюдения по параметру cut. Какие выводы можно сделать?

__Упражнение 3:__ Изучите распределение параметров table, depth. Какие выводы можно сделать?

__Упражнение 4:__ Изучите распределение параметров table, depth в зависимости от параметра cut. Какие выводы можно сделать?