In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Загрузка сгенерированных данных
df = pd.read_csv('data/raw/synthetic_construction_projects.csv')

# Настройка стиля
sns.set(style='whitegrid', palette='muted', font_scale=1.1)
plt.rcParams['figure.figsize'] = (10,6)

# 1. Распределение планового бюджета
plt.figure()
sns.histplot(df['planned_budget']/1e6, bins=50, kde=True)
plt.title('Распределение планового бюджета (млн ₽)')
plt.xlabel('Плановый бюджет, млн ₽')
plt.ylabel('Количество проектов')
plt.show()

# 2. Распределение фактической маржи
plt.figure()
sns.histplot(df['actual_margin']*100, bins=50, kde=True, color='green')
plt.title('Распределение фактической маржи (%)')
plt.xlabel('Маржа, %')
plt.ylabel('Количество проектов')
plt.show()

# 3. Boxplot по марже и классам районов
plt.figure()
sns.boxplot(x='district_class', y='actual_margin', data=df)
plt.title('Фактическая маржа по классу района')
plt.ylabel('Маржа')
plt.xlabel('Класс района')
plt.show()

# 4. Зависимость задержки от опыта бригады
plt.figure()
sns.scatterplot(x='crew_experience_years', y='delay_days', data=df, alpha=0.5)
plt.title('Задержка проекта vs опыт бригады')
plt.xlabel('Опыт бригады (лет)')
plt.ylabel('Задержка (дни)')
plt.show()

# 5. Корреляционная матрица
numerical_cols = ['house_area_m2','planned_budget','planned_duration_days',
                 'crew_experience_years','crew_efficiency_score','supplier_reliability_score',
                 'delivery_distance_km','delay_days','actual_cost','actual_margin','final_profit']

plt.figure(figsize=(12,10))
sns.heatmap(df[numerical_cols].corr(), annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Корреляционная матрица ключевых показателей')
plt.show()

# 6. Перерасход бюджета по типу клиента
plt.figure()
sns.countplot(x='budget_overrun', hue='client_type', data=df)
plt.title('Перерасход бюджета по типу клиента')
plt.xlabel('Перерасход бюджета (0 = нет, 1 = да)')
plt.ylabel('Количество проектов')
plt.show()

# 7. Предварительное влияние признаков на фактическую маржу
importance = df.corr()['actual_margin'].sort_values(ascending=False)
plt.figure()
importance.plot(kind='bar')
plt.title('Предварительное влияние признаков на фактическую маржу')
plt.ylabel('Корреляция с маржой')
plt.show()