<a href="https://colab.research.google.com/github/AyazMurtazin/PythonLibsPractice/blob/main/TasksSolution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Задачи**


1. Выберите набор данных с платформ **Kaggle** или **Huggingface**. Укажите название или ссылку на выбранный датасет в отдельном листе документа вместе с перечнем библиотек, которые вы планируете использовать для анализа.  


2. Выполните предобработку данных, используя библиотеки Python, такие как **Polars**, **PySpark**, **Pandas**, **NumPy**, **Matplotlib**, и другие. Обратите внимание, что для повышения производительности рекомендуется отдавать предпочтение библиотеке **Polars** вместо **Pandas**.  



3. Следуйте алгоритмам обработки, описанным в разделе ниже, для подготовки данных. Убедитесь, что обработка охватывает этапы:  



## **1. Импорт и первичная обработка данных**



### **1.1. Загрузка данных**


1. Загрузка данных из различных источников: файлов (CSV, Excel), баз данных или API.


2. Приведение структуры данных:
   - Проверка корректности формата временных меток.
   - Приведение временных меток к типу `datetime` и сортировка данных по времени (для временных рядов).





### **1.2. Первичный осмотр данных**


1. Получение базовой информации о данных:
   - Размерность набора данных и типы столбцов (метод `info()` или его аналог в Polars).
   - Статистическое описание числовых признаков (метод `describe()` или аналог).


2. Выявление пропусков и выбросов:
   - Подсчет пропущенных значений.
   - Построение гистограмм и боксплотов для анализа распределения.





## **2. Обработка пропущенных данных**



### **2.1. Анализ пропусков**


1. Подсчет доли пропущенных значений в каждом столбце.


2. Определение причин пропусков (случайные, системные ошибки, временные зависимости).



### **2.2. Методы обработки**


1. **Для категориальных данных**:
   - Замена на моду или добавление уровня "Unknown".


2. **Для числовых данных**:
   - Замена на медиану, среднее или интерполяция.
   - Удаление строк/столбцов, если доля пропусков превышает 30%.





## **3. Обработка выбросов**



### **3.1. Выявление выбросов**

1. **Метод IQR**:
   - Вычисление границ выбросов:  
     $Q1 - 1.5 \times IQR$ и $Q3 + 1.5 \times IQR$.


2. **Метод трех сигм**:
   - Границы: $\mu - 3\sigma$ и $\mu + 3\sigma$.


3. Использование методов машинного обучения (например, Isolation Forest).



### **3.2. Обработка выбросов**


1. Замена выбросов на медиану или ближайшее допустимое значение.


2. Удаление выбросов, если их доля мала (< 5%).





## **4. Проверка стационарности и трендов**



### **4.1. Гипотезы**
- $H₀$: Временной ряд стационарен.  
- $H₁$: Временной ряд нестационарен.

### **4.2. Методы проверки**


1. **ADF (Augmented Dickey-Fuller):**  
   $p\text{-value} < 0.05$ — стационарность подтверждается.


2. **KPSS:**  
   $p\text{-value} < 0.05$ — ряд нестационарен.



### **4.3. Обработка нестационарности**


1. Дифференцирование: удаление тренда с помощью разности первого порядка.


2. Декомпозиция на тренд, сезонность и шум.





## **5. Анализ взаимосвязей и мультиколлинеарности**



### **5.1. Мультиколлинеарность**


1. Вычисление **VIF** (Variance Inflation Factor):
   - Признаки с $VIF > 5$ требуют исключения или трансформации.


2. Применение PCA для уменьшения размерности.



### **5.2. Корреляционный анализ**


1. Построение корреляционной матрицы.


2. Визуализация матрицы (например, с использованием heatmap).





## **6. Преобразование данных**



### **6.1. Преобразование числовых данных**


1. Нормализация (Min-Max Scaling) для методов, чувствительных к масштабу.



2. Стандартизация (Standard Scaling) для методов, требующих нормального распределения.



### **6.2. Обработка категорий**


1. Кодирование категориальных признаков:
   - One-Hot Encoding — для независимых категорий.
   - Label Encoding — для упорядоченных категорий.


2. Группировка редких категорий в общий уровень ("Other").





## **7. Проверка распределений**



### **7.1. Нормальность**


1. Тесты (Шапиро-Уилк или Колмогоров-Смирнов):  
   $p\text{-value} < 0.05$ указывает на отклонение от нормального распределения.


2. Q-Q графики для визуального анализа.



### **7.2. Трансформация признаков**


1. Логарифмическое преобразование.


2. Преобразование Бокса-Кокса.





## **8. Проверка гипотез**



### **8.1. Значимость признаков**


1. **t-тест** — для сравнения двух групп.


2. **ANOVA** — для анализа различий между несколькими группами.



### **8.2. Анализ дисперсий**


1. Тест Левене:
   $p\text{-value} < 0.05$ — различия дисперсий значимы.





## **9. Time Series Cross-Validation**


1. Учет временной последовательности:
   - Разделение данных с использованием метода скользящего окна.


2. Оценка устойчивости модели на временных подвыборках.





## **10. Генерация новых признаков**



### **10.1. Инженерия признаков**


1. Лаговые признаки (lag features).


2. Сезонные признаки (месяц, день недели).


3. Агрегация (например, средние значения за неделю).



### **10.2. Удаление избыточных признаков**


1. Использование методов отбора признаков (Lasso, RFE).
