# 🔍 Exploratory Data Analysis - Home Credit Default Risk

## 🎯 Цель ноутбука
Этот ноутбук содержит комплексный анализ данных для выявления закономерностей и факторов, влияющих на кредитный дефолт.

## 📋 Содержание:
1. **Загрузка обработанных данных**
2. **Анализ целевой переменной**
3. **Статистический анализ признаков**
4. **Корреляционный анализ**
5. **Визуализация распределений**
6. **Анализ важных признаков**
7. **Выводы и гипотезы**

---


In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from scipy import stats
from sklearn.feature_selection import mutual_info_classif
import json

# Настройки для отображения
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Настройка размера графиков
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("📚 Библиотеки успешно импортированы!")
print("🎨 Настройки визуализации применены!")


## 1️⃣ Загрузка обработанных данных


In [None]:
# Загрузка обработанных данных
print("📂 Загружаем обработанные данные...")

# Загружаем train данные
df = pd.read_csv('../data_processed/train_processed.csv')
print(f"✅ Обработанные данные загружены: {df.shape}")

# Загружаем информацию о признаках
with open('../data_processed/feature_info.json', 'r') as f:
    feature_info = json.load(f)

print(f"📊 Информация о данных:")
print(f"  - Общее количество записей: {len(df):,}")
print(f"  - Количество признаков: {df.shape[1]}")
print(f"  - Числовых признаков: {feature_info['numeric_features']}")
print(f"  - Категориальных признаков: {feature_info['categorical_features']}")

# Базовая информация о данных
print(f"\n🔍 Базовая информация:")
print(f"  - Пропущенных значений: {df.isnull().sum().sum()}")
print(f"  - Дубликатов: {df.duplicated().sum()}")

# Анализ целевой переменной
target_stats = df['TARGET'].value_counts()
print(f"\n🎯 Целевая переменная (TARGET):")
print(f"  - Нет дефолта (0): {target_stats[0]:,} ({target_stats[0]/len(df)*100:.2f}%)")
print(f"  - Дефолт (1): {target_stats[1]:,} ({target_stats[1]/len(df)*100:.2f}%)")
print(f"  - Несбалансированность: {target_stats[0]/target_stats[1]:.1f}:1")
