In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt  
import seaborn as sns            
from sklearn import preprocessing

%matplotlib inline

data = pd.read_csv('../data/data_for_REGRESSION.csv')


# заполнение пропусков
numeric_columns = data.select_dtypes(include=[np.number]).columns.tolist()
for column in numeric_columns:
    if data[column].isnull().sum() > 0:
        median_value = data[column].median()
        data[column] = data[column].fillna(median_value)



# дубликаты
data = data.drop_duplicates()
# one-hot
data.drop(columns=['Date'], inplace=True)
data = pd.get_dummies(data, columns=['City'], prefix='City', drop_first=True)


numeric_data = data.select_dtypes(include=[np.number])
corr_matrix = numeric_data.corr()
plt.figure(figsize=(14, 12))

# Маска: не показываем верхний треугольник (дублирование)
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))

# Палитра: красный — сильная положительная, синий — слабая/отрицательная
cmap = sns.diverging_palette(220, 20, as_cmap=True)  # ← сине-красная дивергирующая палитра

sns.heatmap(
    corr_matrix,
    mask=mask,
    annot=True,            
    fmt=".2f",             
    cmap=cmap,             
    center=0,              
    square=True,
    linewidths=0.5,
    cbar_kws={"shrink": 0.8},
    annot_kws={"size": 10}  # Размер шрифта в ячейках
)

plt.title('Тепловая карта корреляций между признаками', fontsize=16, fontweight='bold')
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(fontsize=10)
plt.tight_layout()
plt.show()

print(data.columns.tolist())
data.to_csv('../data/prepared_data_for_regression.csv', index=False)