# Вводная информация

## План курса:
1. Изучение основ библиотек Python: numpy, pandas, matplotlib + seaborn, scipy, statsmodels
2. Методы генерации выборок
3. Точечное и интервальное оценивание
4. Проверка гипотез
5. Корреляционный анализ
6. Регрессионный анализ
7. Работа с признаками
8. Работа с пропусками в данных

## Работа студента

### Еженедельная:

Будет некое тренировочное домашнее задание по мотивам лекции (ближе к следующей лекции будет выложен ноутбук с решениями задач), сдавать тренировочные ноутбуки не требуется. Вопросы по тренировочным заданиям можно и нужно задавать, например, в телеграм-канале в ветке комментариев к соответствующему посту.

### Отчетность по курсу:

Каждому студенту предлагается выбрать какой-нибудь из открытых наборов данных (ресурсы, где взять данные, указаны ниже) и исследовать его, применяя полученные на занятиях знания и используя соответствующие средства библиотек языка Python. По ходу изучения курса будут формироваться этапы статистического исследования набора данных, которые и надо будет продемонстрировать в качестве зачетного проекта.

## Источники данных:
1. https://datasetsearch.research.google.com/
2. https://www.kaggle.com/
3. https://data.rcsi.science/
4. https://rosstat.gov.ru/
5. бесчисленное множество других сайтов

# Numpy

Документация: https://numpy.org/doc/stable/

Пакет numpy предоставляет n-мерные однородные массивы (все элементы одного типа); в них нельзя вставить или удалить элемент в произвольном месте. В numpy реализовано много операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то это будет столь же эффективно, как в C или matlab

In [None]:
import numpy as np

In [None]:
print(sum(range(5), -1))

In [None]:
#что выведет следующий скрипт?
print(sum(range(5), -1))
from numpy import *  # ТАК ДЕЛАТЬ НЕЛЬЗЯ
print(sum(range(5),-1))

## Создание массивов

In [None]:
a = np.array([1,2,3])
print(a)
a.dtype

## Типы данных

In [None]:
np.int64   #знаковые 8 байтные целые числа
np.float32 #вещественные числа 4 байтные
np.complex #комплексные числа (два вещественных)
np.bool    #логический тип
np.object 
np.string_ 
np.unicode_ #Fixed-length unicode type

In [None]:
for dtype in [np.int8, np.int32, np.int64]:
    print(f'Тип: {dtype.__name__}, минимум: {np.iinfo(dtype).min}, максимум: {np.iinfo(dtype).max}')
for dtype in [np.float16,np.float32, np.float64]:
    print(f'Тип: {dtype.__name__}, минимум: {np.finfo(dtype).min}, максимум: {np.finfo(dtype).max}, и дельта: {np.finfo(dtype).eps}')

In [None]:
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.inf < np.nan)
print(np.inf == np.nan)
print(np.nan - np.nan)

In [None]:
b = np.array([(1.5,2,3),
              (4,5,6)],
             dtype = np.float16)
print(b)

In [None]:
c = np.array([[(1.5,2,3), (4,5,6)],
              [(3,2,1), (4,5,6)]],
             dtype = float)
print(c)
print(c.dtype)
print(c.shape)

## Специальные массивы

In [None]:
np.zeros((3,4)) # из 0

In [None]:
np.ones((2,3,4),dtype=np.float16)   # из 1

In [None]:
d = np.arange(10,25,5)  #с заданным шагом
print(d)
d = np.arange(10,25,0.5)  #с заданным шагом
print(d)

In [None]:
np.linspace(0,2,9)    # от и до с заданным количеством

In [None]:
for i in np.arange(0,1.1,0.1):
    print(i, end = ' ')

In [None]:
e = np.full((2,3,4),7)    # заполнение конкретным значением
print(e)

In [None]:
f = np.eye(2)      #единичная матрица
print(f)

In [None]:
np.random.random((5,2))    #случайными числами (U[0, 1])
   

In [None]:
q = np.empty((3,2))       #пустой
q

## Методы для массивов

In [None]:
a = np.array([[(1.5,2,3), (4,5,6)],
              [(3,2,1), (4,5,6)],
              [(3,2,1), (4,5,6)],
              [(3,2,1), (4,5,6)]],
             dtype = float)
a.shape           #Размерности по каждой компоненте

In [None]:
print(a)

In [None]:
a.shape == (len(a), len(a[0]), len(a[0][0])) # Для тройной вложенности

In [None]:
a[0]

In [None]:
len(a[0][0])            #кол-во элементов

In [None]:
a.ndim            #количество размерностей

In [None]:
a.size            #количество элементов

In [None]:
a.dtype           #тип элементов

In [None]:
a.dtype.name      #название типа


In [None]:
a = a.astype(int)     #преобразование типов
a

## Арифметические операции

In [None]:
a = np.array([4,5,6])
b = np.array([1,2,6])
g = a + b  
print(g)
g = a - b  
print(g)
g = a * b  
print(g)
g = a / b  
print(g)
g = a // b  
print(g)
g = a % b  
print(g)

In [None]:
a = np.array([[24,35,46],
              [24,35,46]])
b = 10
g = a + b  
print(g)
g = a - b  
print(g)
g = a * b  
print(g)
g = a / b  
print(g)
g = a // b  
print(g)
g = a % b  
print(g)

In [None]:
a = np.array([[4,5,6],
              [-4,-5,-6]])
np.exp(a) 

In [None]:
a = np.array([[4,5,6],
              [-4,-5,-6]])
np.sqrt(a)

In [None]:
np.emath.log(a) 
#emath - расширяем область применимости математических функций (корень/логарифм из отрицательных чисел)

In [None]:
a = np.array([[30,45,60]])
np.deg2rad(a)

In [None]:
np.sin(np.deg2rad(a))

In [None]:
np.log(a)

In [None]:
e = np.array([1,2])
f = np.array([-1,-2])
e.dot(f) #либо скалярное произведение, либо произведение матриц

In [None]:
e = np.array([[1,5,7],
              [-1,-3,2]])
f = np.array([[4,1,7],
              [0,5,-3],[1,-1,0]])
e.dot(f) #либо скалярное произведение, либо произведение матриц

In [None]:
e = np.array([[1,5],
              [-3,2],
              [3, 4]])
f = np.array([[4,1,7],
              [0,5,-3],
              [1,-1,0]])
e.dot(f) #либо скалярное произведение, либо произведение матриц

In [None]:
f.dot(e) # подстраиваем размерности

In [None]:
f.dot(2) == f * 2 # можно и на числа

## Сравнение

In [None]:
a = np.array([[30, 45, 60]])
a

In [None]:
b = np.array([[-30, -45, 60]])
b

In [None]:
a == b   #поэлементное сравнение

In [None]:
a[np.array([[False, False,  True]])]    # Фильтрация

In [None]:
a[a==b] # Фильтрация

In [None]:
a = np.array([[1,1],[1,1]])
b = np.array([1,1,1,1])
print(np.array_equal(a, b)) #сравнение массивов
print(a==b)

## Функции

In [None]:
a = np.array([[10,20,30],
              [50,60,70],
              [1,2,3],
              [5,6,7]])
print(a)
print(a.shape)

In [None]:
for i in [0,1]:
    print(i, a.sum(axis = i), end = '\n' + '-'*50 + '\n')
print(a.sum())
#axis = 0 (*,y) - сумма по столбцам
#axis = 1 (x,*) - сумма по строкам

In [None]:
a = np.array([[[10,20,-30,40],[50,60,70,80]],
              [[1,2,3,4],[5,6,7,8]],
              [[100,200,300,400],[500,600,700,800]]])
print(a)
print(a.shape)

In [None]:
for i in [0,1,2]:
    print(i, a.min(axis = i), end = '\n' + '-'*50 + '\n')
print(a.min())
#axis = 0 (*,y,z)
#axis = 1 (x,*,z)
#axis = 2 (x,y,*)

In [None]:
for i in [0,1,2]:
    print(i, a.sum(axis = i))
print(a.sum())

In [None]:
a.max(axis=0) # по столбцу

In [None]:
a = np.array([[ 11,  19,  -8, 5], [ -2, -18,   2, 10]])
print(a)
print(a.cumsum(axis=0)) # кумулятивная сумма по столбцу

In [None]:
a.mean() # аналогично можно по столбцам и строкам (axis=0|1)

In [None]:
np.median(a) # аналогично можно по столбцам и строкам np.median(a, axis=0)

In [None]:
np.std(a) # аналогично можно по столбцам и строкам np.std(a, axis=0)

In [None]:
print(a)
np.quantile(a,q= 0.2,method='nearest')
# аналогично можно по столбцам и строкам np.quantile(a,q= 0.2,method='nearest', axis=1)

## Копирование

In [None]:
h = a   #по ссылке
h

In [None]:
h = a.copy() #по значению
h

## Сортировка

In [None]:
a = np.array([[(11.5,2,3), (4,15,6)],
              [(3,12,1), (14,15,6)]],
             dtype = float)
print(a)
print('-'*50)
a.sort(axis=0) #логика работы с axis сохраняется для всех методов (в данном случае сортировка по строкам)
print(a)

In [None]:
a = np.array([[(11.5,2,3), (4,15,6)],
              [(3,12,1), (14,15,6)]],
             dtype = float)
print(a)
print('-'*50)
a.sort() 
print(a)

## Срезы

In [None]:
a = np.array([[[10,20,30,40],[50,60,70,80]],
              [[1,2,3,4],[5,6,7,8]], 
              [[100,200,300,400],[500,600,700,800]]])
a

In [None]:
a.shape

In [None]:
a[1:2]

In [None]:
a[:,:,1] 

In [None]:
b = a.copy()

In [None]:
b[0:2,1]

In [None]:
b[:1] 

In [None]:
a = np.array([[[10,20,30,40],[50,60,70,80]],
              [[1,2,3,4],[5,6,7,8]], 
              [[100,200,300,400],[500,600,700,800]]])
a

In [None]:
a[:, :,: :-1]

In [None]:
# Сложная индексация
a[[1, 0, 1, 0],[0, 1, 1, 0]] #(1,0),(0,1),(1,1) и (0,0)

## Выбор по условию

In [None]:
a = np.array([[[10,20,30,40],[50,60,70,80]],
              [[1,2,3,4],[5,6,7,8]], 
              [[100,200,300,400],[500,600,700,800]]])
a

In [None]:
a[a<50]

In [None]:
np.where(a<50,-a,a*2)

## Изменение размерности

In [None]:
a.ravel()                    #трансформация в одномерный массив

In [None]:
a[a==a]

In [None]:
a.size #количество элементов

In [None]:
a = np.array([[(11.5,2,3), (4,15,6)],
              [(3,12,1), (14,15,6)]],
             dtype = float)
print(a, end = '\n' + '-'*50 + '\n')
a = a.ravel() #вектор-столбец
print(a, end = '\n' + '-'*50 + '\n')
a = a.reshape(4,3)            #в конкретную размерность
print(a, end = '\n' + '-'*50 + '\n')
a = a.reshape(1,12)            #вектор-строка
print(a, end = '\n' + '-'*50 + '\n')

In [None]:
a = np.array([[(11.5,2,3), (4,15,6)],
              [(3,12,1), (14,15,6)]],
             dtype = float)
b = a.reshape(1,12)  @ a.reshape(12,1) 
print(b, end = '\n' + '-'*50 + '\n')
c = a.reshape(12,1)  @ a.reshape(1,12) 
print(c, end = '\n' + '-'*50 + '\n')

## Добавление/удаление элементов

In [None]:
a = np.array([10,20,30])
b = np.array([1,2,3,4,5,6])

In [None]:
np.append(a,b)               #классическое добавление в конце

In [None]:
np.insert(a, 1, 5)           #вставка в нужную позицию числа

In [None]:
np.insert(a, 1, b)           #вставка в нужную позицию, вектора

In [None]:
np.delete(a,[1])             #удаление конкретных элементов по индексу

## Соединение массивов

In [None]:
a = np.array([10,20,30,40,50,60])
b = np.array([1,2,3,4,5,6])

In [None]:
np.concatenate((a,b),axis=0) #для векторов аналогично append

In [None]:
np.vstack((a,b))             #соединяет в новую матрицу дописывая как следующую строку

In [None]:
np.hstack((a,b))             #соединяет в новую матрицу дописывая горизонтально

In [None]:
np.column_stack((a,b))       #соединяет в новую матрицу как вектор столбцы

In [None]:
#укороченные версии названий
print(np.c_[a,b], end = '\n' + '-'*50 + '\n')                   #соединяет в новую матрицу как вектор столбцы
print(np.r_[a,b], end = '\n' + '-'*50 + '\n')                   #соединяет в новую матрицу как вектор строки

In [None]:
a = np.array([[10,20,30],[40,50,60]])
b = np.array([[1,2,3],[4,5,6]])

In [None]:
np.concatenate((a,b),axis=0) 

In [None]:
np.concatenate((a,b),axis=1) 

In [None]:
np.vstack((a,b))             #соединяет в новую матрицу дописывая как следующую строку

In [None]:
np.hstack((a,b))             #соединяет в новую матрицу дописывая горизонтально

In [None]:
np.column_stack((a,b))       #соединяет в новую матрицу как вектор столбцы

## Разделение массивов

In [None]:
a = np.array([[10,20,30],
              [40,50,60],
              [70,80,80]])
a

In [None]:
np.hsplit(a,3)               #разделяет горизонтально

In [None]:
np.vsplit(a,3)               #разделяет вертикально

In [None]:
# Найдите индексы ненулевых элементов из вектора \[1,2,0,0,4,0\]
a = np.array([0,1,2,0,4,0])
nz = np.nonzero(a)
nz

In [None]:
# Рассмотрим массив размеров (5,6), каков индекс (x, y, z) 10-го элемента?
x = np.arange(start=1,stop=30*2+1,step=2).reshape(5, 6)
print(x, end = '\n' + '-'*50 + '\n')
N = 10  # номер индекса (предполагаем, что счет элемментов начинается с 1 (единицы))
tuple_coordinate_of_index = np.unravel_index(indices=N-1,shape=x.shape)  # координаты заданного индекса
index_of_row = tuple_coordinate_of_index[0]
index_of_col = tuple_coordinate_of_index[1]
elem = x[index_of_row,index_of_col]
print(f'Индекс элемента равного {elem}, (десятого) по порядку в векторе x: {tuple_coordinate_of_index}')

***[np.unravel_index](https://numpy.org/doc/stable/reference/generated/numpy.unravel_index.html)*** - Преобразует привычный плоский индекс вектора или массив плоских индексов в кортеж массивов координат.  
shape = размерность массива.  
indices = индекс плоского массива или массив плоских индексов.  

# Немного работы с random в  numpy

In [None]:
np.random.choice(10, 5)
#Функция np.random.choice генерирует случайную выборку из заданного одномерного массива

In [None]:
prob = [0, 0, 0.1, 0.1, 0.3, 0.3, 0.1, 0.1, 0, 0]
np.random.choice(10, 50, p = prob)

In [None]:
prob = [0, 0, 0.1, 0.1, 0.3, 0.3, 0.1, 0.1, 0, 0]
np.random.choice(10, 50, p = prob)

In [None]:
np.random.choice(10, 5, replace = False)

In [None]:
np.random.choice([-5,10,'15',20], 10, p = [0.1,0.4,0.3,0.2], replace = True)

## Линейная алгебра
https://numpy.org/doc/2.2/reference/routines.linalg.html#module-numpy.linalg

In [None]:
%%timeit
a = np.array([[ 11,  19,  -8, 5], 
              [ -2, -18,   2, 10]])
a.T  # Транспонирование матрицы

In [None]:
%%timeit
a = np.array([[ 11,  19,  -8, 5], 
              [ -2, -18,   2, 10]])
np.transpose(a) # Транспонирование матрицы

In [None]:
a = np.array([[1, 2],
              [-1, 2]])
print(np.linalg.det(a)) #определитель

In [None]:
a1 = np.linalg.inv(a) #обратная матрица
print(a1)

In [None]:
#решение Ax = b
b = [3,-1]
x = np.linalg.solve(a, b)
print(x)
print(a1 @ b)

In [None]:
#собственные значения и собственные векторы
l, u = np.linalg.eig(a)
print(l)
print(u)