# Введение в DS на УБ и МиРА

## Задание на ООП 1

В этом задании мы напишем класс, который осуществляет проверку двусторонних гипотез для средних при помощи Z-теста или t-теста.

In [10]:
import numpy as np
import scipy.stats

---

**Пункт 1.** Создайте класс `HypothesisTester` только методом `__init__()`. Метод `__init__()` должен печатать сообщение `Tester ready!`. Просто чтобы убедиться, что всё работает, создайте экземпляр этого класса и убедитесь, что сообщение печатается.

In [4]:
class HypothesisTester:
    
    def __init__(self):
        print('Tester ready!')

In [5]:
ht = HypothesisTester()

Tester ready!


Сначала напишем функционал для одной выборки. Будем реализовывать следующую логику.

1. При создании экземпляра пользователь выбирает, какой тест он хочет использовать – Z или t – и передаёт количество наблюдений в выборке. Если количество наблюдений меньше 30 и пользователь выбрал Z-тест, должна появиться ошибка типа `ValueError`. Если пользователь выбрал не Z- или t-тесты, также должна появиться ошибка типа `ValueError`.
2. Пользователь вызывает метод `test(self, ...)`, в которой подаёт выборку, тестируемое значение и уровень значимости. Метод рассчитывает соответствующую статистику, критическое значение для данного уровня значимости и p-value. Возвращаются (не печатаются, а именно возвращаются): статистика, p-value и результат проверки гипотезы. 

**Пункт 2.** Реализуйте логику шага 1 для метода `__init__()`. 

1. Удалите из `__init__()` печать сообщения.
2. Добавьте два аргумента для этой функции: `test_type` типа `str` (тип теста) и `N` типа `int` (кол-во наблюдений). Укажите типизацию в объявлении функции.
3. Укажите, что функция должна возвращать `None`.
4. Сделайте проверку, что если `test_type` не принимает значения `"Z"` или `"t"`, то должна вызываться `ValueError` с сообщением `"Unsupported test!"`. Чтобы вызвать сообщение об ошибке, посмотрите документацию для ключевого слово `raise`.
5. Сделайте проверку, что если проводится Z-тест и число наблюдений меньше 30, то должна вызываться `ValueError` с сообщением `"Cannot use Z-test with N < 30"`.
6. После прохождения всех проверок сохраните тип теста в атрибут `self.test_type`. 

In [7]:
class HypothesisTester:
    
    def __init__(self, test_type: str, N: int) -> None:
        
        # Проверка, что тип теста верный
        if test_type not in ["Z", "t"]:
            raise ValueError("Unsupported test!")
            
        # Проверка количества наблюдений
        if (test_type == "Z") & (N < 30):
            raise ValueError("Cannot use Z-test with N < 30")
        
        self.test_type = test_type

**Пункт 3.** Протестируйте, что
1. Неправильный тип теста выдаёт ошибку.
2. Z-тест с малым числом наблюдений выдаёт ошибку.

In [13]:
hp = HypothesisTester('M', 100)

ValueError: Unsupported test!

In [14]:
hp = HypothesisTester("Z", 20)

ValueError: Cannot use Z-test with N < 30

In [16]:
hp = HypothesisTester("Z", 100) # всё ок
hp = HypothesisTester("t", 10) # всё ок

**Пункт 4.** Реализуйте логику шага 2 для метода `__init__()`.

1. Создайте новый метод `test()`, который будет принимать выборку `x` (будем считать, что `x` – массив numpy), тестируемое значение `mu` (float), уровень значимости `alpha` (float) и возвращать `tuple` с тем, что требуют. Добавьте типизацию аргументов и возвращаемого значения.
2. Оцените стандартное отклонение и среднее выборки. Рассчитайте тестовую статистику.
3. Для заданного `self.test_type` рассчитайте критическое значение (можно использовать методы `scipy.stats.norm.ppf()` и `scipy.stats.t.ppf()`, которые выдают квантиль для заданной площади **левого** хвоста). Помните, что мы проверяем двустороннюю гипотезу (как это повлияет на площадь хвостов?). Вспомните из лекции число степеней свободы у `t`-распределения.
4. Для заданного `self.test_type` рассчитайте p-value. Помните, что для нашего случая p-value – это площадь под функцией плотности слева от статистики, если статистика меньше 0, и справа от статистики, если статистика больше 0 – проведите корректировку на это.
5. Для безопасности сделаем следующую проверку. Пусть "гипотеза отвергается" кодируется строкой `"R"`, а "гипотеза не отвергается" – строкой `"NR"`. Сохраните результат проверки гипотезы при помощи сравнения значения статистики с критическим значением в переменную `res_crit`. Сохраните результат проверки гипотезы при помощи сравнения `p-value` с уровнем значимости в переменную `res_pval`. Сделайте проверку, что результаты проверок совпадают, при помощи команды `assert res_crit == res_pval`.


---
Отступление: `assert`.

`assert` оценивает некоторое утверждение и в случае его ложности выдаёт ошибку и прекращает выполнение программы. Например,

In [92]:
# ... другой код ...

a = -100 # Предположим, что результат другого кода – в переменную a записалось значение -100

# Пусть мы заранее знаем, что a должно быть больше 0 (например, a – площадь)
# Тогда при написании кода мы можем установить проверку
assert a > 0

a = 44 # Появится ошибка, следующий код не выполнится

AssertionError: 

`assert` используется программистом для **самопроверок**, чтобы было удобнее ловить ошибки.

---

6. Допишите функцию так, чтобы она возвращала то, что просят в задании.

In [96]:
class HypothesisTester:
    
    def __init__(self, test_type: str, N: int) -> None:
        
        # Проверка, что тип теста верный
        if test_type not in ["Z", "t"]:
            raise ValueError("Unsupported test!")
            
        # Проверка количества наблюдений
        if (test_type == "Z") & (N < 30):
            raise ValueError("Cannot use Z-test with N < 30")
        
        self.test_type = test_type
        
    def test(self, x : np.array, mu: float, alpha : float) -> tuple:
        
        # Оцениваем стандартное отклонение выборки
        est_sigma = np.std(x)
        
        # Оцениваем среднее выборки
        est_mean = np.mean(x)
        
        # Рассчитываем статистику
        stat = (est_mean - mu) / (est_sigma / np.sqrt(len(x)))
        
        # Рассчитываем критическое значение
        if self.test_type == "Z":
            crit_number = scipy.stats.norm.ppf(alpha / 2)
        elif self.test_type == "t":
            crit_number = scipy.stats.t.ppf(alpha / 2, df = len(x) - 1)
        
        # Рассчитываем p-value
        if stat <= 0:
            if self.test_type == "Z":
                pval = scipy.stats.norm.cdf(stat) * 2
            elif self.test_type == "t":
                pval = scipy.stats.t.cdf(stat, df = len(x) - 1) * 2
        else:
            if self.test_type == "Z":
                pval = (1 - scipy.stats.norm.cdf(stat)) * 2
            elif self.test_type == "t":
                pval = (1 - scipy.stats.t.cdf(stat, df = len(x) - 1)) * 2
            
        # Делаем проверку по сравнению с критическим значением
        if (stat < crit_number) | (stat > -crit_number):
            res_crit = 'R'
        else:
            res_crit = 'NR'
            
        # Делаем проверку с p-value
        if pval < alpha:
            res_pval = 'R'
        else:
            res_pval = 'NR'
            
        # Проверяем, что результаты проверки совпадают
        assert res_crit == res_pval
        
        # Возвращаем, что требуют
        return stat, pval, res_crit

**Пункт 5.** Сгенерируйте 100 случайных наблюдений из какого-нибудь распределения с известным матожиданием. Проверьте несколько гипотез на ваш выбор.

In [97]:
x = np.random.normal(0, 1, 100)

hp = HypothesisTester('Z', 100)
hp.test(x, 0, 0.05)

(0.28899382901058407, 0.7725860999138565, 'NR')

In [98]:
hp = HypothesisTester('t', 100)
hp.test(x, 0, 0.05)

(0.28899382901058407, 0.7731903857813869, 'NR')

In [99]:
hp = HypothesisTester('t', 100)
hp.test(x, 100, 0.05)

(-949.2139164855697, 8.425268557171158e-198, 'R')

In [100]:
hp = HypothesisTester('t', 100)
hp.test(x, 12, 0.05)

(-113.65135540873905, 1.053330996744953e-106, 'R')

### Что можно сделать дальше:

1. Реализуйте метод `test_2sample(...)`, который позволит протестировать гипотезы для двух выборок (для этого придётся также модифицировать метод `__init()__`. 
2. Добавьте документацию ко всем функциям и к классу в целом.
3. В методе `test()` мы никак не проверяем, что длина `x` соответствует ранее введённому `N`. Как это можно исправить?
4. Модифицируйте метод `test()` так, чтобы он позволял также проверять гипотезы о доле. 
5. Напишите более ещё один класс, который позволяет тестировать гипотезы при помощи хи-квардрат критерия согласия Пирсона.

## Задание на ООП 2

Это реалистичное задание, которое вы сможете выполнить, когда на семинарах мы пройдём материал по линейной регрессии. 

1. Создайте абстрактный класс `Transformer` с абстрактными методами `fit` и `transform`. Оба метода должны принимать объект `pandas.DataFrame`, представляющий из себя датасет с признаками, а так же список колонок, которые нужно преобразовать.
2. Создайте классы `LabelEncoder` и `OneHotEncoder`, отнаследованные от `Transformer`, которые выполняют соответственно label encoding и one hot encoding признаков выбранных колонок в датасете (оба класса должны хранить некоторую переменную, обозначающую, какой элемент переходит в какое число, которая "обучается" при вызове `fit`).
3. Создайте класс `Pipeline`, который принимает список `Transformer` в своём `__init__` и применяет их все последовательно при вызове своих методов `fit` и `predict`.
4. Примените это всё на каком-нибудь датасете (например на том же Титанике: `pd.read_csv("https://raw.githubusercontent.com/iad34/seminars/master/materials/data_sem1.csv", sep=";"))`

Решение есть [здесь](https://github.com/V-Marco/hse_iad4_2022/blob/main/seminar_5/solved_sem05_OOP.ipynb).