# Лабораторная работа 5: Разведочный анализ данных (EDA) заявителей на кредитную карту

**Цель работы:** Закрепить навыки построения и анализа графиков с помощью Seaborn на новом наборе данных. Научиться выполнять полный цикл мини-исследования: от подготовки данных до формулирования выводов.

**Оценка:** 10 баллов.

## Введение

Представьте, что вы — аналитик данных в банке. Ваша задача — провести первичный разведочный анализ (EDA) данных о клиентах, подавших заявку на кредитную карту. Руководство хочет получить общее представление о портрете клиента: его доход, образование, семейное положение и т.д. Ваша работа станет основой для будущей модели кредитного скоринга.

*Примечание: Для полноценного анализа кредитного риска необходим второй файл, `credit_record.csv`, который содержит информацию о платежной дисциплине. В рамках данной работы мы сфокусируемся только на анализе анкетных данных из `application_record.csv`.*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Команда для отображения графиков в ноутбуке
%matplotlib inline

## Этап 1. Подготовка данных (1 балл)

Прежде чем строить графики, данные нужно подготовить.

**1.1. Загрузите файл `application_record.csv` в pandas DataFrame.**

In [None]:
df = pd.read_csv('application_record.csv')

**1.2. Изучите данные с помощью `.info()` и `.head()`.**

In [None]:
df.head()

In [None]:
df.info()

**1.3. Преобразование признаков:** Колонки `DAYS_BIRTH` (возраст) и `DAYS_EMPLOYED` (стаж) содержат отрицательные значения в днях. Это неудобно для анализа. Создайте две новые колонки:
*   `AGE_YEARS`: возраст в годах (положительное значение). Формула: `- DAYS_BIRTH / 365`.
*   `EMPLOYMENT_YEARS`: стаж работы в годах. Создайте эту колонку так: если значение в `DAYS_EMPLOYED` отрицательное, примените формулу `- DAYS_EMPLOYED / 365`. Если оно положительное (означает "безработный"), присвойте значение 0.

    **Подсказка:** Для этого удобно использовать `np.where` или метод `.loc` в pandas. Например:
    ```python
    df['EMPLOYMENT_YEARS'] = np.where(df['DAYS_EMPLOYED'] < 0, -df['DAYS_EMPLOYED'] / 365, 0)
    ```

In [None]:
# Ваш код для создания колонки AGE_YEARS

# Ваш код для создания колонки EMPLOYMENT_YEARS

## Этап 2. Одномерный анализ: Изучаем признаки по отдельности (3 балла)

### 2.1. Анализ образования (1 балл)

*   С помощью `countplot` визуализируйте количество клиентов для каждого уровня образования (`NAME_EDUCATION_TYPE`).

In [None]:
# Чтобы подписи не накладывались друг на друга, используем plt.xticks
plt.figure(figsize=(10,6))
# Ваш код для countplot
plt.xticks(rotation=45);

**Вывод:** Какой уровень образования является самым распространенным среди заявителей?

*Ваш ответ здесь...*

### 2.2. Анализ дохода (2 балла)

1.  Постройте гистограмму с кривой плотности (`histplot` с `kde=True`) для годового дохода (`AMT_INCOME_TOTAL`).
2.  **Проблема:** Вы увидите, что из-за очень больших доходов (выбросов) график неинформативен. Создайте новый DataFrame, отфильтровав только тех клиентов, чей доход **меньше 400 000**.
3.  Постройте гистограмму по отфильтрованным данным.

In [None]:
# Код для первоначальной гистограммы (неинформативной)

In [None]:
# Код для фильтрации и создания нового DataFrame
df_filtered_income = None # Замените None на ваш код

In [None]:
# Код для гистограммы по отфильтрованным данным

**Вывод:** Опишите распределение дохода. Является ли оно симметричным? Куда смещено большинство значений (в сторону низких или высоких доходов)?

*Ваш ответ здесь...*

## Этап 3. Двумерный анализ: Ищем взаимосвязи (5 баллов)

### 3.1. Связь возраста и стажа (2 балла)

1.  Создайте DataFrame `df_employed`, в который войдут только работающие клиенты (те, у кого `DAYS_EMPLOYED` < 0).
2.  С помощью `scatterplot` постройте диаграмму рассеяния между вашими новыми колонками `AGE_YEARS` и `EMPLOYMENT_YEARS`.

In [None]:
# Код для фильтрации работающих клиентов
df_employed = None # Замените None на ваш код

In [None]:
# Код для scatterplot
plt.figure(figsize=(10,7))
# Ваш код здесь

**Вывод:** Есть ли очевидная связь между возрастом и стажем? Логична ли она? Есть ли на графике что-то необычное?

*Ваш ответ здесь...*

### 3.2. Доход и тип жилья (3 балла)

*   Используя отфильтрованный по доходу DataFrame (`df_filtered_income` из Этапа 2), постройте `boxplot` для сравнения распределений дохода (`AMT_INCOME_TOTAL`) в зависимости от типа жилья (`NAME_HOUSING_TYPE`).
*   Для большей наглядности добавьте `hue='FLAG_OWN_REALTY'`, чтобы увидеть, как влияет наличие собственной недвижимости.

In [None]:
plt.figure(figsize=(12, 8))
# Ваш код для boxplot здесь
plt.xticks(rotation=30);

**Сделайте развернутый вывод:**
*   У какой категории по типу жилья самый высокий медианный доход?
*   Сравните квартиросъемщиков (`With parents`) и владельцев дома/квартиры (`House / apartment`). У кого доход в среднем выше?
*   Влияет ли факт владения недвижимостью (`FLAG_OWN_REALTY`) на распределение доходов внутри каждой группы?

*Ваш ответ здесь...*

## Этап 4. Общий вывод (1 балл)

На основе всех построенных графиков напишите **итоговый вывод** (3-4 предложения). Опишите "типичного" клиента, подающего заявку на кредитную карту. Какие ключевые особенности или зависимости в данных вы обнаружили?

*Ваш итоговый вывод здесь...*