# Ключевые нюансы numpy

После лекции рекомендуется ознакомиться с решением 100 задачек в numpy:
https://pythonworld.ru/numpy/100-exercises.html

In [None]:
import numpy as np
# Скорость 
my_arr = np.arange(1000000)
my_list = list(range(1000000))
# %timeit for _ in range(10): my_arr2 = my_arr * 2 
# %timeit for _ in range(10): my_list2 = list(map(lambda x: x * 2, my_list))

In [None]:
# Индексация
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)
print(a[0, 1])
print(a[:2, :3])
print(a[1:2, 2:3])
print(a[1:, 2:])
print(a[1, :])    
print(a[1:2, :])  
print(a[[1], :]) 
print(a[:, 1])
print(a[:, 1:2])

In [None]:
# Создание различных шаблонных массивов

# Нулевой массив 
print(np.zeros(5))
print(np.zeros((2, 4)))
print(np.zeros_like([[2,3], [1,5]]))
print(np.empty((2, 4)))
# Единичный массив
print(np.ones(5))
print(np.ones((2, 4)))
print(np.ones_like([[2,3], [1,5]]))

# Одномерный массив целочисленных положительных чисел
print(np.arange(15))

# Единичный массив / матрица
print(np.eye(2))
print(np.identity(2))

In [None]:
# Размерность массивов
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b.shape)

# Изменение размерности (умноженные размерности совпадают)
v = np.array([1,2,3]) 
print(v, "\n", v.reshape(3, 1))

print(np.arange(16).reshape(2, 4, 2))
print(np.arange(16).reshape(1, 4, 2, 2))

# Изменение размерности (новая размерность другая - заполнение нулями)
a0 = np.arange(4)
a0.resize((8,))
print(a0)

Numpy позволяет оперировать массивами разных размерностей.
Например:

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Создаем пустой массив с той же размерностью

# Прибавляем вектор v к каждой строке матрицы x явным циклом
for i in range(4):
    y[i, :] = x[i, :] + v
print(y)

In [None]:
vv = np.tile(v, (4, 1))  # Стакаем сверху вниз 4 копии v
print(vv) 
y = x + vv  # Складываем два массива
print(y)

Иллюстрация броадкастинга

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x.shape)
v = np.array([1, 0, 1])
print(v.shape)
v4 = np.array([1, 0, 1, 4])
y = x + v 
print(y)

**Вывод:** не обязательно приводить массивы к одной размерности для осуществления математических операций. Памятка по броадкастингу:
1. Если массивы не имеют одинакового ранга, размерность массива нижнего ранга изменяется с первого до тех пор, пока обе размерности не будут иметь одинаковую длину.
2. Считается, что оба массива совместимы в одном измерении, если они имеют одинаковый размер в этом измерении, или если один из массивов имеет размер 1 в этом измерении.
3. Массивы могут броадкаститься вместе, если они совместимы во всех измерениях.
4. После броадкастинга каждый массив ведет себя так, как если бы он имел размерность, равную элементарному максимуму размерности двух входных массивов.
5. В любом измерении, где один массив имеет размер 1, а другой больше 1, первый массив ведет себя так, как если бы он был скопирован по этому измерению.

Документация:

https://numpy.org/doc/stable/user/basics.broadcasting.html

In [None]:
# Сортировка

c = np.array([[4, 3, 5], [1, 2, 1]])
print(np.sort(c, axis=1))

# Возвращает индексы элементов, которые были отсортированы 
j = np.argsort(c)
print(j)
print(c[:, j])

In [None]:
print(np.array([[1,3,5],[5,4,5],[1,2,10],[5,4,6]]).argpartition(kth = 2, axis = 1))
print(np.array([[10,3,5, 3],[5,4,5, 5],[1,2,10, 7],[5,4,6, 15]]).argsort(axis=1))

In [None]:
# Условия и циклы
for i in np.array([[1,2,3],[4,5,6]]):
    print(i)
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(data)
print(data[names == "Bob"])
print(data[names == 'Bob', 2:])

In [None]:
# Присвоение по условию (если, то)
np.where(data, data>0, 0)

In [None]:
# Слияние массивов
x,y,z = np.arange(1,3), np.arange(3,5), np.arange(5,7)
print(np.concatenate([x,y,z]))

array2D_1 = np.array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
array2D_2 = np.array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

# Вертикальное слияние
print(f"Вертикальное : \n {np.vstack((array2D_1, array2D_2))}")

# Горизонтальное слияние
print(f"Горизонтальное : \n {np.hstack((array2D_1, array2D_2))}")

In [None]:
# Применение функции к разным осям массива
m = np.random.randn(3,2)
# Сначала указываем функцию, потом по какой оси, а затем указываем сам массив
print(np.apply_along_axis(lambda x: sum(x ** 2), 1, m)) 
print(np.apply_along_axis(lambda x: sum(x ** 2), 0, m)) 
# Обратим внимание, что у функции может быть только один аргумент - это значения массива из конкретной оси

In [None]:
# Траблы с округлением при сравнении
np.round(0.3, 17) == np.round(3 * 0.1, 17)

In [None]:
# Используем такую функцию, чтобы проверить, равны ли массивы
np.allclose(0.3, 3*0.1)

In [None]:
# Сетка для графического отображения
Z = np.zeros((10,10), [('x',float),('y',float)])
Z['x'], Z['y'] = np.meshgrid(np.linspace(0,1,10),
                             np.linspace(0,1,10))
print(Z[:5, :5])
print(Z.shape)

# Линейная алгебра

#### np

**diag** - вернуть диагональные (или недиагональные) элементы квадратной матрицы в виде 1D-массива, или преобразовать 1D-массив в квадратную матрицу с нулями на остальных элементах.

**dot, @** - матричное умножение

**trace** - вычислить сумму диагональных элементов (след матрицы)

#### linalg

**det** - определитель матрицы.

**eig** - вычислить собственные значения и собственные векторы квадратной матрицы.  

**inv** - вычислить обратную  матрицу любой квадратной матрицы (определитель должен быть не равен нулю)

**svd** - вычислить сингулярное разложение значений (SVD).

**solve** решение линейной системы уравнений Ax = b для x, где A - квадратная матрица. 

**lstsq** - вычислить оценки методом наименьших квадратов для Ax = b

In [None]:
x = np.array([[1,2,3],[4,5,6],[7,8,9]])
w, v = np.linalg.eig(x)
print(np.allclose(x @ v[:, 0], w[0]*v[:, 0]))

In [None]:
from numpy.linalg import inv, det
mat = np.random.randn(5, 5)
print(inv(mat))
print(det(mat))

# Генеральная совокупность и выборка

Допустим, что перед нами стоит задача выявить средний рост жителей Москвы.
В идеальном варианте нам нужно измерить абсолютно каждого жителя и посчитать
среднее арифметическое. Однако, этот способ довольно затратный и
статистики придумали способ попроще.

Для решения такой задачи вполне достаточно собрать *репрезентативную выборку*,
которая отражает нашу *генеральную совокупность данных* (всех реальных
жителей города). Таким образом, реальное распределение роста всех
жителей Москвы будет нашим *теоретическим распределением* с некоторым
математическим ожиданием, которое и соответствует реальному среднему росту
москвичей. Значения роста жителей Москвы по *выборке* будет представлять собой
*эмпирическое распределение* роста по нашим наблюдениям, а среднее
арифметическое будет являться хорошей оценкой для среднего роста всех
жителей.

Таким образом, для того, чтобы сделать вывод относительно любой генеральной
совокупности, нам достаточно правильно собрать репрезентативную выборку
и посчитать все необходимые статистики. Величины в статистике подразделяются
на *теоретические* (какие они есть в реальности) и *выборочные* (то, что
мы получаем согласно нашим наблюдениям).


## Основные характеристики в теории вероятностей

В теории вероятностей мы имеем дело с вероятностью события в пространстве
элементарных исходов. Отсюда возникает понятие теоретического распределения
случайной величины (в примере выше это было распределение роста всех
жителей Москвы). Ниже приведем основные числовые характеристики случайных
величин.

## Основные выборочные характеристики в статистике:

$ \bar{x} = \frac {\sum_i {x_i}} {n} $

$ \sigma^2 = \frac {\sum_i  {(x_i - \bar{x})^2}} {n} $

$ \sigma = \sqrt{\sigma^2} $

$ Cov(x,y) = \frac{1}{n}\sum_i  {[(x_i - \bar{x}) \cdot (y_i - \bar{y})]} $ - мера связи между переменными. НО! Ковариация является безразмерной величиной

$ Corr(x,y) = \frac {Cov(x,y)} {\sigma(x) \cdot \sigma(y)} $ - мера тесноты линейной связи между двумя переменными

##### Всегда помните: КОРРЕЛЯЦИЯ НЕ ОЗНАЧАЕТ ПРИЧИННО-СЛЕДСТВЕННУЮ СВЯЗЬ МЕЖДУ ПЕРЕМЕННЫМИ!!!

In [None]:
# Случайные величины
x = np.random.random_sample((1, 100))
y = np.random.random_sample((1, 100))

print(f"Выборочное среднее = {x.mean(), y.mean()}")
print(f"Выборочная дисперсия = {x.var(), y.var()}")
print(f"Выборочное стандартное отклонение = {x.std(), y.std()}")

In [None]:
# Ковариационная матрица
np.cov(x, y)

In [None]:
# Корреляционная матрица
np.corrcoef(x, y)



# Основные распределения в статистике

## Дискретные

$  P(X = x) = {n \mathchoice x} p^x (1-p)^{n-x}, $
где ***n*** - количество испытаний, ***p*** - вероятность успеха, ***x*** - количество успешных испытаний (случайная величина)

