# Итоговая аттестация

## Задание

Выполните задания, используя jupyter.
Для решения итогового проекта выберете наиболее подходящий для вас датасет из списка: Задания для итоговой аттестации
Вы выбрали Dataset из списка - [Gender Classification Dataset](https://www.kaggle.com/datasets/elakiricoder/gender-classification-dataset/data), проведите полный цикл работы над вашим проектом, что проходили ранее. 

### Pipeline выполнения задачи:

1. Загрузка и предобработка данных 

2. Описательный анализ данных, просмотр данных и вывод статистики

3. Постройте необходимые графики для анализа

4. Проверьте гипотезы (если потребуется)

5. Сделайте промежуточный отчет-вывод по исследованию

6. Определите, какую задачу вы будете решать (классификация, регрессия и т.д.)

7. Создайте несколько моделей для прогнозирования вашего целевого признака и выберите наилучшую, опираясь на вашу валидацию

8. Сделайте прогноз для тестовой выборки (должно быть три выборки в этой задаче: тренировочная, валидационная, тестовая)

9. Приведите метрику, с помощью которой вы будете оценивать работу вашей модели (обоснуйте ваш выбор метрики)

10. Сделайте вывод о работе вашей модели и метриках. Обоснуйте: «Нужно ли использовать для решения этой задачи машинное обучение или можно обойтись dummy-предсказанием?»

### Рекомендации:

- Соблюдайте PEP8

- Комментируйте код в местах, где конструкция большая

- Оставляйте промежуточные выводы по вашему исследованию и построению модели (так кураторам будет проще понять ваши заключения)

- Экспериментируйте! Вы не ограничены в моделях и подходах. Можете использовать любые DS инструменты (и те, которые мы не разбирали с вами на курсе)

## 1. Загрузка и предобработка данных 

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.metrics import classification_report, accuracy_score, ConfusionMatrixDisplay
from sklearn.metrics import roc_auc_score, roc_curve
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, FunctionTransformer
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split

In [None]:
df = pd.read_csv(r'./gender_classification_v7.csv')

Ознакомимся с датасетом.

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe().T

Обработаем и подготовим датасет.

In [None]:
duplicates = df.duplicated().sum()

print(f'Количество дублей: {duplicates}')

if duplicates > 0:
    df.drop_duplicates(inplace=True)

In [None]:
df.describe().T

In [None]:
df.isna().sum()

In [None]:
df.shape

Готово! Датасет загружен, обработан и подготовлен для анализа.

## 2. Описательный анализ данных, просмотр данных и вывод статистики

In [None]:
df.info()
df.describe().T

### Описание датасета
Этот набор данных содержит 7 признаков и столбец с метками.

- **long_hair** – Этот столбец содержит 0 и 1, где 1 – "длинные волосы", а 0 – "не длинные волосы".
- **forehead_width_cm** – Ширина лба в сантиметрах.
- **forehead_height_cm** – Высота лба в сантиметрах.
- **nose_wide** – Этот столбец содержит 0 и 1, где 1 – "широкий нос", а 0 – "не широкий нос".
- **nose_long** – Этот столбец содержит 0 и 1, где 1 – "длинный нос", а 0 – "не длинный нос".
- **lips_thin** – Этот столбец содержит 0 и 1, где 1 – "тонкие губы", а 0 – "не тонкие губы".
- **distance_nose_to_lip_long** – Этот столбец содержит 0 и 1, где 1 – "большое расстояние между носом и губами", а 0 – "маленькое расстояние между носом и губами".

- **gender** – Метка: "Male" или "Female".

In [None]:
df.head()

#### Общий вывод по данным:

1. **Длинные волосы (long_hair)**:
   - У большинства (82%) есть длинные волосы, что видно из среднего значения 0.82.
   - Стандартное отклонение низкое 0.38, данные распределены близко к среднему. 
   - Минимум — 0 (нет длинных волос), максимум — 1 (длинные волосы). Входят сюда лысые люди - вопрос остается открытым.

2. **Ширина лба (forehead_width_cm)**:
   - В среднем ширина лба — **13.2 см**.
   - Самые узкие — 11.4 см, самые широкие — 15.5 см.
   - Большинство людей имеют ширину лба от 12.3 до 14.1 см.

3. **Высота лба (forehead_height_cm)**:
   - Средняя высота — **5.97 см**, небольшой разброс данных, стандартное отклонение — 0.55.
   - Минимум — 5.1 см, максимум — 7.1 см. Большинство значений в диапазоне от 5.5 до 6.4 см.

4. **Широкий нос (nose_wide)**:
   - Примерно 54% людей имеют широкий нос, а 46% — нет.
   - Разброс значений практически одинаковый.

5. **Длинный нос (nose_long)**:
   - Ситуация похожа на широкий нос — 55.7% имеют длинный нос, 44.3% — нет.
   - Стандартное отклонение 0.50 говорит о равномерном распределении.

6. **Тонкие губы (lips_thin)**:
   - У 54% тонкие губы, у 46% — нет.
   - Значения распределены равномерно.

7. **Длинное расстояние от носа до губ (distance_nose_to_lip_long)**:
   - У 54.5% расстояние длинное, у 45.5% — короткое.
   - Тоже равномерное распределение.

### На что я обратил внимание:
- У большинства есть длинные волосы, что сильно выделяется среди остальных признаков.
- Бинарные признаки (широкий/длинный нос, тонкие губы и т.д.) сбалансированы, нет значительного завала в одну из сторон.
- Метрики, такие как ширина и высота лба, имеют небольшой разброс и находятся в адекватных значений.

*Повезло - очень приятный датасет в плане данных и их качества =)*

### 3. Построим необходимые графики для анализа

Построение распределений числовых признаков по полу

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(16, 6))
numerical_features = ['forehead_width_cm', 'forehead_height_cm']

for i, feature in enumerate(numerical_features):
    sns.histplot(data=df, x=feature, hue='gender', kde=True, bins=30, ax=axes[i])
    axes[i].set_title(f'Распределение {feature} по полу', fontsize=12)
    axes[i].set_xlabel(f'{feature} (см)', fontsize=10)
    axes[i].set_ylabel('Частота', fontsize=10)

plt.tight_layout()
plt.show()

Построение графиков распределения бинарных признаков

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(18, 12))
axes = axes.flatten()

binary_features = ['long_hair', 'nose_wide', 'nose_long', 'lips_thin', 'distance_nose_to_lip_long']
for i, feature in enumerate(binary_features):
    sns.countplot(data=df, x=feature, hue='gender', ax=axes[i])
    axes[i].set_title(f'Распределение {feature} по полу', fontsize=12)
    axes[i].set_xlabel(feature, fontsize=10)
    axes[i].set_ylabel('Количество', fontsize=10)

if len(binary_features) < len(axes):
    for j in range(len(binary_features), len(axes)):
        fig.delaxes(axes[j])

plt.tight_layout()
plt.show()

Тут хорошо подойдет матрица корреляции Spearman

In [None]:
# Преобразование колонки gender в бинарный вид для матрицы корреляции
df['gender'] = df['gender'].map({'Male': 0, 'Female': 1})

correlation_matrix = df.corr(method='spearman')

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', cbar=True)
plt.title('Матрица корреляции Spearman')
plt.show()

# Возвращение колонки gender в исходный формат, пока что
df['gender'] = df['gender'].map({0: 'Male', 1: 'Female'})

Посмотрим на баланс классов в целевой выборке

In [None]:
print("Баланс классов в целевой выборке:")
print(y.value_counts())

plt.figure(figsize=(6, 4))
sns.barplot(x=y.value_counts().index, y=y.value_counts().values)
plt.title('Баланс классов в целевой выборке')
plt.xlabel('Класс')
plt.ylabel('Количество')
plt.xticks(ticks=[0, 1], labels=['Мужчины', 'Женщины'])
plt.show()

Баланс классов в целевой выборке говорит, что классы мужчин и женщин немного несбалансированы, но не критически, примерно 55:45. Исходя из этого, есть смысл в дальнейшем использовать *class_weight='balanced'* в некоторых моделях.

### 4. Проверка гипотез (если потребуется)

Не вижу в этом необходимости.

### 5. Промежуточный отчет-вывод по исследованию по исследованию графиков:

1. **Распределение ширины и высоты лба:**
   - **Ширина лба (`forehead_width_cm`)** - вижу похожие распределения для мужчин и женщин, но у женщин виден небольшой сдвиг влево. Мужчины имеют побольше диапазон.
   - **Высота лба (`forehead_height_cm`)** - здесь схожая ситуация, но у женщин распределение смещено влево, похоже у них более высокие значения в среднем.

2. **Распределение бинарных признаков:**
   - **Длинные волосы (`long_hair`)** - предсказуемо, большинство женщин имеют длинные волосы, в то время как у мужчин короткие.
   - **Широкий нос (`nose_wide`) и длинный нос (`nose_long`)** - у мужчин эти признаки встречаются чаще, это неплохой маркер.
   - **Тонкие губы (`lips_thin`)** - признак характеризующий мужчин.
   - **Большое расстояние между носом и губами (`distance_nose_to_lip_long`)** - также чаще видим у мужчин.

3. **Матрица корреляции (Spearman):**
   - Яркая сильная отрицательная корреляция наблюдается между полом и признаками: `nose_wide`, `nose_long`, `lips_thin` и `distance_nose_to_lip_long`. Похоже, что это зависимости которые мы ищем.
   - Признаки ширина и высота лба имеют более слабую корреляцию с таргетом, что делает их вклад слабым в предсказания пола. Думаю их можно будет выкинуть при обучении. 

### 6. Определим, какую задачу мы будете решать (классификация, регрессия и т.д.)

Очевидно, что **классификации**.

### 7. Создадим несколько моделей для прогнозирования нашего целевого признака и выберем наилучшую, опираясь на нашу валидацию

В рамках этого же блока:
- Сделаем прогноз для тестовой выборки (должно быть три выборки в этой задаче: тренировочная, валидационная, тестовая)
- Приведем метрики, с помощью которых будем оценивать работу моделей (обоснуем выбор метрик)

#### Подготовим все необходимое

In [None]:
# Разделяем данные
features = df.drop(columns=['gender'])
target = df['gender']

# Трансформер целевого признака в бинарный вид
def transform_target(transform_target):
    return transform_target.map({'Male': 0, 'Female': 1})

# Функция удаления слабых признаков
def drop_weak_features(features):
    return features.drop(columns=['forehead_width_cm', 'forehead_height_cm'])

# Преобразуем целевой признак в бинарный вид
target = transform_target(target)

#### Инициализируем пайплайн для обработки данных и сами модели

In [None]:
preprocessor = Pipeline(steps=[
    ('drop_features', FunctionTransformer(drop_weak_features)),
    # Не забудем о нормализация признаков
    ('scaler', StandardScaler())
])

# Из аналитики помним что есть небольшой дисбаланс классов, устраним это

logistic_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(random_state=42, class_weight='balanced'))
])

rf_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42, class_weight='balanced'))
])

nn_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', MLPClassifier(random_state=42, max_iter=1000))
])

##### Были выбраны следующие модели:

- **Логистическая регрессия**:
Это базовая линейная модель, часто используется для задач классификации.

- **Случайный лес**:
Ансамблевый метод основаный на деревьях решений и хорошо работает с нелинейными зависимостями. Автоматически выявляет важность признаков и устойчив к шуму.
Хорошо справляется с дисбалансом классов.

- **Полносвязная нейронная сеть**:
Она улавливает сложные нелинейные зависимости в данных. Взята ради эксперемента и интереса. <details>
  <summary>Спойлер.</summary>
  Не зря =)
</details>

#### Разделим данные и обучим модели на них

In [None]:
X_train, X_temp, y_train, y_temp = train_test_split(features, target, test_size=0.4, random_state=42, stratify=target)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

logistic_pipeline.fit(X_train, y_train)
rf_pipeline.fit(X_train, y_train)
nn_pipeline.fit(X_train, y_train)

#### Предсказажем на валидационной выборке и сделаем оценку моделей

In [None]:
logistic_preds = logistic_pipeline.predict(X_val)
rf_preds = rf_pipeline.predict(X_val)
nn_preds = nn_pipeline.predict(X_val)

logistic_acc = accuracy_score(y_val, logistic_preds)
rf_acc = accuracy_score(y_val, rf_preds)
nn_acc = accuracy_score(y_val, nn_preds)

##### Выбраные метрики:

- **(Accuracy)**:
Точность показывает, какую долю правильных предсказаний модель делает в общем числе примеров. Это простая метрика, полезная, если классы сбалансированы (мы это учли).

- **F1-score**:
F1-score — это гармоническое среднее между точностью и полнотой, что делает её устойчивой к дисбалансу классов.
Включим эту метрику с помощью classification_report чуть дальше.

- **Confusion Matrix**:
Матрица ошибок визуализирует, сколько примеров каждого класса модель классифицировала правильно и где она ошиблась. Помогает понять, какие ошибки допускаются чаще — ложноположительные или ложноотрицательные.
Полезна с несбалансированными данными.

#### Сравним модели и построим графики для оценки качества моделей

In [None]:
results = pd.DataFrame({
    'Model': ['Logistic Regression', 'Random Forest', 'Neural Network'],
    'Validation Accuracy': [logistic_acc, rf_acc, nn_acc]
})

# Сравним модели
print("Результаты сравнения моделей:\n\n", results)

models = {'Logistic Regression': logistic_pipeline, 
          'Random Forest': rf_pipeline, 
          'Neural Network': nn_pipeline}


fig, axes = plt.subplots(1, 3, figsize=(18, 6))
fig.suptitle('Матрицы ошибок для моделей', fontsize=16)

# Построим матрицу ошибок для каждой модели
for ax, (name, model) in zip(axes, models.items()):
    y_pred = model.predict(X_test)
    disp = ConfusionMatrixDisplay.from_predictions(
        y_test, y_pred, display_labels=['Мужчины', 'Женщины'], cmap='Purples', ax=ax
    )
    ax.set_title(f'Матрица ошибок: {name}')

plt.tight_layout()
plt.show()

Посчитаем отдельно ROC-AUC для нашей полносвязной нейронной сети

In [None]:
nn_probs = nn_pipeline.predict_proba(X_test)[:, 1]  # Вероятности для класса женщины

roc_auc = roc_auc_score(y_test, nn_probs)
print(f"ROC-AUC для нейронной сети: {roc_auc:.3f}\n")

# Построение ROC-кривой
fpr, tpr, thresholds = roc_curve(y_test, nn_probs)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'Нейронная сеть (AUC = {roc_auc:.3f})')
plt.plot([0, 1], [0, 1], 'k--', label='"Пальцем в небо"')
plt.title('ROC-кривая для нейронной сети')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.legend()
plt.show()

Оценка метрик для каждой модели на тестовой выборке:

In [None]:
for name, model in models.items():
    y_pred = model.predict(X_test)
    print(f"{name}:")
    print(classification_report(y_test, y_pred, target_names=['Мужчины', 'Женщины']))
    print("-" * 70 + "\n")


*Все, что нужно мы сделали и получили все метрики, можно перейти к выводам.*

### 8. Сделаем вывод о работе наших моделей и метриках. 
*Обоснуем: «Нужно ли использовать для решения этой задачи машинное обучение или можно обойтись dummy-предсказанием?»*

Все три модели **Logistic Regression, Random Forest** и **Neural Network** продемонстрировали похожие результаты:
- **Точность (accuracy)** составила **94%** для всех моделей.
- Метрики **precision**, **recall**, и **F1-score** показывают сбалансированные значения для обоих классов.
- **ROC-AUC для нейронной сети** равный 0.985 доказывает, что модель отлично предсказывает классы.

Все модели успешно справляются с задачей, дают высокую точность предсказаний для предсказания пола.

### Обоснование: машинное обучение или dummy-предсказание?

*Dummy-предсказание* — если верить википедии, это стратегия, при которой модель либо случайно угадывает классы, либо всегда выбирает наиболее частый класс.

В нашем случае это дало бы:
- Точность **~55%**, так как класс "Мужчины" составляет ~55% от всех данных.
- Метрики **precision, recall, F1-score** были бы низкими для "женщин", поскольку модель почти никогда не предсказывала бы этот класс.

**Сравнение**:
- Наше машинное обучение даёт точность **94%**, что значительно больше пресловутых **55%**.
- Все модели успешно справляются с классификацией, избегая склонности просто "выбирать мужчин".

**Вывод**:

Как показала практика, для этой задачи нужно использовать **машинное обучение**, поскольку мы обнаружили наличие закономерностей, которые модели, кстати, очень успешно находят. Dummy-предсказания не обеспечат ни точности, ни равномерного распределения ошибок.

**Машинное обучение — это то что я предпочту для выполнения этого задания.**

*P.S: Прошу прощения за задержку в сдаче, учил и делал на столько, на сколько позволяли возможности.. Спасибо за столь интересный и содержательный курс! <3*