In [None]:
# Импорт библиотек
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Загрузка данных
# Укажите путь к вашему CSV-файлу
df = pd.read_csv("../data/2015-street-tree-census-tree-data.csv")

# Выбор значимых признаков
selected_features = [
    "tree_dbh", "curb_loc", "steward", "guards", "sidewalk",
    "root_stone", "root_grate", "root_other",
    "trunk_wire", "trnk_light", "trnk_other",
    "brch_light", "brch_shoe", "brch_other",
    "spc_latin", "health"
]

df = df[selected_features]

# 1. Проверка данных
print("Общая информация о выбранных данных:")
df.info()
print("\nКоличество пропущенных значений:")
print(df.isnull().sum())

# 2. Удаление строк с пропусками в целевой переменной
df = df.dropna(subset=["health"])
print("\nРазмер данных после удаления строк с пропусками в 'health':", df.shape)

# 3. Предобработка данных
# Кодирование категориальных признаков
categorical_columns = [
    "curb_loc", "steward", "guards", "sidewalk",
    "root_stone", "root_grate", "root_other",
    "trunk_wire", "trnk_light", "trnk_other",
    "brch_light", "brch_shoe", "brch_other",
    "spc_latin"
]

# Заполнение пропусков в категориальных данных (если есть)
for col in categorical_columns:
    df[col] = df[col].fillna("Unknown")

# Кодирование категориальных признаков с помощью one-hot encoding
df_encoded = pd.get_dummies(df, columns=categorical_columns, drop_first=True)

# 4. Анализ числовых признаков
print("\nСтатистики числового признака 'tree_dbh':")
print(df["tree_dbh"].describe())

sns.histplot(df["tree_dbh"], bins=30, kde=True)
plt.title("Распределение 'tree_dbh'")
plt.show()

# 5. Распределение целевой переменной
print("\nРаспределение целевой переменной 'health':")
print(df["health"].value_counts())

sns.countplot(data=df, x="health", order=df["health"].value_counts().index)
plt.title("Распределение 'health'")
plt.show()

# 6. Корреляция между признаками (для числовых данных)
correlation_matrix = df_encoded.corr()
sns.heatmap(correlation_matrix, cmap="coolwarm", annot=False, linewidths=0.5)
plt.title("Корреляционная матрица")
plt.show()

# 7. Сохранение очищенного датасета
df_encoded.to_csv("cleaned_dataset.csv", index=False)
print("Очищенные данные сохранены в 'cleaned_dataset.csv'")
