<a href="https://colab.research.google.com/github/vberezina/machine-learning-basics/blob/main/practices/LR1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ЛАБОРАТОРНАЯ РАБОТА №1. Математическая статистика и первичный анализ данных

## Теоретический минимум



Статистический анализ — это фундамент Machine Learning. Прежде чем подавать данные в алгоритм, необходимо оценить их распределение и взаимосвязи.

* **Меры центральной тенденции:** Среднее значение (чувствительно к выбросам) и Медиана (устойчива к ним).
* **Меры разброса:** Дисперсия и Стандартное отклонение. Показывают, насколько «кучно» лежат данные относительно среднего.
* **Связь признаков:** Корреляция Пирсона $r_{xy}$ показывает линейную зависимость признаков $X$ и $Y$.

$$r_{xy} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}$$

## Учебная задача


In [None]:
import math

# Исходные данные
X = [10, 20, 20, 30, 45, 50]
Y = [12, 22, 24, 35, 38, 55]

# --- РЕШЕНИЕ ЗАДАНИЯ 1: Функции статистики ---
def get_stats(data):
    # Мода
    counts = {x: data.count(x) for x in data}
    mode = [k for k, v in counts.items() if v == max(counts.values())]
    # Размах
    data_range = max(data) - min(data)
    return set(mode), data_range

# --- РЕШЕНИЕ ЗАДАНИЯ 2: Корреляция ---
def get_correlation(x, y):
    mean_x = sum(x) / len(x)
    mean_y = sum(y) / len(y)

    numerator = sum((xi - mean_x) * (yi - mean_y) for xi, yi in zip(x, y))
    den_x = sum((xi - mean_x)**2 for xi in x)
    den_y = sum((yi - mean_y)**2 for yi in y)

    return numerator / math.sqrt(den_x * den_y)

# --- РЕШЕНИЕ ЗАДАНИЯ 3: Гистограмма (псевдографика) ---
def simple_hist(data, bins=3):
    low, high = min(data), max(data)
    step = (high - low) / bins
    intervals = [0] * bins

    for val in data:
        idx = int((val - low) / step) if val < high else bins - 1
        intervals[idx] += 1

    for i, count in enumerate(intervals):
        print(f"Интервал {i+1}: {'*' * count}")

# ДЕМОНСТРАЦИЯ
print(f"Мода и Размах: {get_stats(X)}")
print(f"Корреляция X и Y: {get_correlation(X, Y):.4f}")
simple_hist(X)


Мода и Размах: ({20}, 40)
Корреляция X и Y: 0.9570
Интервал 1: ***
Интервал 2: *
Интервал 3: **


## Задания


### Задание №1. Расширенный анализатор
Реализуйте класс `DataPro`, который принимает список и рассчитывает:

1. **Среднее и медиану**.
2. **Коэффициент вариации** ($CV = \frac{\sigma}{\bar{x}} \times 100\%$).
3. **Z-score** для каждого элемента (количество стандартных отклонений от среднего).  




### Задание №2. Анализ влияния выбросов
Реализуйте функцию корреляции Пирсона:

1. Рассчитайте корреляцию для списков `X` и `Y`.
2. Добавьте в конец списков значение-выброс: `X.append(1000)`, `Y.append(0)`.
3. Сравните результаты и сделайте вывод в комментариях к коду о чувствительности корреляции Пирсона к аномалиям.  



### Задание №3. Интервальный анализ
Измените алгоритм гистограммы из учебной задачи следующим образом:

1. Функция должна принимать произвольное количество «карманов» (bins).
2. Вместо символов `*` выведите процентное содержание элементов в каждом интервале.

## Контрольные вопросы

1. Почему при расчете корреляции мы делим на корень из произведения сумм квадратов отклонений? (Что это дает для масштаба данных?)

2. В какой ситуации мода будет более полезной характеристикой, чем среднее значение?
3. Если корреляция между признаками равна -0.95, что это говорит о связи между ними?
4. Как с помощью Z-score можно математически определить, является ли значение «выбросом»?