# data

### викиди

Аномалії (викиди) – це значення, які суттєво відрізняються від більшості інших даних. Вони можуть з'являтися через помилки збору даних, рідкісні події або природну варіативність. Для їх виявлення існують різні методи, які визначають «нормальний» діапазон значень та виділяють ті, що виходять за межі цього діапазону.

Підходи до виявлення аномалій:
- Метод IQR (Interquartile Range)

    Використовує статистичні межі, засновані на розподілі даних.
    Визначає діапазон, у якому знаходиться основна частина значень.
    Всі значення, що виходять за межі цього діапазону, вважаються аномальними.
    Добре працює, якщо дані мають нерівномірний розподіл і містять природні групування.
- Метод Z-оцінки (Z-Score)

    Оцінює, наскільки кожне значення відхиляється від середнього.
    Чим більше відхилення, тим вища ймовірність, що значення є аномальним.
    Підходить для даних із нормальним (дзвоноподібним) розподілом, але чутливий до різких змін.
    
Коли який метод використовувати?

IQR підходить для невеликих наборів даних і розподілів із чіткими межами.
Z-Score краще працює для великих вибірок, де дані приблизно розподілені рівномірно.

- [IQR_zscore](IQR_zscore.ipynb) - база
- [outliers](outliers.ipynb) - робота з df
- [IsolationForest](IsolationForest.ipynb) - модель для визначення викидів

### кореляція

- [corr_df](corr_df.ipynb) - графік кореляції
- [find_correlated_columns](find_correlated_columns.ipynb) - знаходження корельоованих полів
- [mutual_info](mutual_info.ipynb) - взаємна інформація
- [target_corr](target_corr.ipynb) - перевірка на всі звязки з `y`

### розподіл

- [log1p](log1p.ipynb) - нормалізація через логарифм
- [normal_test](normal_test.ipynb) - перевірка на нормальність
- [PowerTransformer](PowerTransformer.ipynb) - призведення до нормального розподілу (зменшення асиметрії)
- [skew_kurt](skew_kurt.ipynb) - перевірка на асиметрію

### модифікація полів

- [bins](bins.ipynb) - бінізація даних
- [category_encoder](category_encoder.ipynb) - обробка категоріальних полів
- [polynomial](polynomial.ipynb) - створення поліномів
- [plot_pca](plot_pca.ipynb) - побудова графіка для визначення оптимальної кількості головних компонентів
- [delete_features](delete_features.ipynb) - видалення зайвих полів
- [pipeline](pipeline.ipynb) - створення пайплайну та трансформатора через декоратор

### синтетичні дані

- [smote](smote.ipynb) - збалансування класів за рахунок синтетичних даних
- [syntetic_data](syntetic_data.ipynb) - створення синтетичних датафреймів
- [KNN_imputer](KNN_imputer.ipynb) - заповнення пропущених значень на основі сусідів

# models

### кластеризація

- [elbow](elbow.ipynb) - метод ліктя
- [silhouette_knifes](silhouette_knifes.ipynb) - метод "ножів"

### NLP

- [sentiment](sentiment.ipynb) - оцінка позитивне/негативне речення

### побудова моделі

- [cross_validation](cross_validation.ipynb) - різні крос валідації
- [tuning_classifier_&_regressor](tuning_classifier_&_regressor.ipynb) - підгонка гіперпараметрів

### оцінка моделі

- [cv_results](cv_results.ipynb) - оцінка кросвалідації та визначення оптимальної кількості ітерацій
- [probplot](probplot.ipynb) - оцінка нормальності (статистичної ймовірності) отриманих результатів
- [shap](shap.ipynb) - оцінка результатів моделі, кожного конкретного семпла
- [learning_curve](learning_curve.ipynb) - оцінка навченості моделі на різних обьємах даних

### оптимізатори

- [optuna_bayes](optuna_bayes.ipynb) - оптимізатори на основі вірогідності
- [callback_earlystop](callback_earlystop.ipynb) - коллбек для запобігання перенавченості

# auto

- [pycaret](pycaret.ipynb) - автоматична побудова всіх моделей і їх підгонка
- [ydata-profiling](ydata-profiling.ipynb) - автоматична оцінка даних

# statistic

- [confidence_interval](confidence_interval.ipynb) - визначення довірчого інтервалу

# excel

- [save_df_to_excel](save_df_to_excel.ipynb) - збереження декількох df в окремі аркуші