# HW1

# **Домашнее задание: Анализ и предобработка датасетов**

**Цель:**  Научиться работать с разными датасетами, анализировать распределение классов и правильно разделять данные на обучающую и тестовую выборки.

# Для каждого из предложенных датасетов выполнить следующее:



1. **Загрузка данных**

    * Загрузить датасет из указанного источника

2. **Первичный анализ**

    * Просмотреть первые и последние строки (head(), tail())

    * Проверить информацию о типах данных (info())

    * Проверить статистические характеристики (describe())

    * Проверить наличие пропущенных значений

3. **Анализ распределения классов**

    * Построить график распределения целевой переменной

    * Подсчитать количество элементов каждого класса (например, value_counts())

    * Оценить, есть ли дисбаланс классов

4. **Разделение данных**

    * Разделить данные на обучающую и тестовую выборки разными способами

    * Обычное разделение (train_test_split) с разными параметрами:

    * Стратифицированное разделение (stratify параметр)

Разные методы (например, StratifiedShuffleSplit)

После каждого разделения проверять распределение классов в новых выборках

5. **Выводы**

    * Какой способ разделения подходит и почему?

    * Нужна ли стратификация для этого датасета?

    * Как изменяется дисбаланс при разных способах разделения?

# Датасеты

1. Датасет "Wine Quality" (Источник: UCI Machine Learning Repository)

2. Датасет "Credit Card Fraud Detection" (Источник: Kaggle)

3. Датасет "Titanic" (Источник: Kaggle)

4. Датасет "Diabetes Health Indicators" (Источник: Kaggle)

5. Датасет "Human Activity Recognition" (Источник: UCI)


# Полезные функции и документации (в идеале стараться самому искать документации и изучать их)

## Документации (дальше уже код с нужными функциями. Открывать, если все печально, тогда лучше еще в чат обсуждения написать и задать вопросы)

### 1. Pandas (Data Analysis)
- [Official Pandas Documentation](https://pandas.pydata.org/docs/)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

### 2. Matplotlib/Seaborn (Visualization)
- [Matplotlib Documentation](https://matplotlib.org/stable/contents.html)
- [Seaborn Documentation](https://seaborn.pydata.org/)
- [Seaborn Examples Gallery](https://seaborn.pydata.org/examples/index.html)

### 3. Scikit-learn (Data Splitting)
- [train_test_split Docs](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
- [StratifiedShuffleSplit Docs](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html)
- [Handling Class Imbalance](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.utils)

### 4. Additional Resources
- [Kaggle Datasets](https://www.kaggle.com/datasets)
- [UCI ML Repository](https://archive.ics.uci.edu/ml/index.php)
- [Google Dataset Search](https://datasetsearch.research.google.com/)

In [None]:
# Загрузка данных
import pandas as pd
df = pd.read_csv('your_dataset.csv')  # для CSV
df = pd.read_excel('your_dataset.xlsx')  # для Excel

In [None]:
# Основной анализ данных
df.head(5)  # первые 5 строк
df.tail(5)  # последние 5 строк
df.info()  # информация о типах данных и пропусках
df.describe()  # статистика числовых столбцов
df.isnull().sum()  # количество пропусков по столбцам
df['target_column'].value_counts()  # распределение классов

In [None]:
# Визуализация
import matplotlib.pyplot as plt
import seaborn as sns

df['target_column'].value_counts().plot(kind='bar')  # барплот распределения классов
sns.countplot(x='target_column', data=df)  # альтернатива через seaborn
plt.title('Class Distribution')
plt.show()

In [None]:
# Разделение данных
from sklearn.model_selection import train_test_split, StratifiedShuffleSplit

# Обычное разделение
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42
)

# Стратифицированное разделение
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

# Альтернативное стратифицированное разделение
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42)
for train_index, test_index in sss.split(X, y):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]