# Анализ данных: линейная регрессия и кластеризация

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Загрузка данных
df = pd.read_csv("generated_data.csv")
df.head()


## Линейная регрессия

In [None]:
features = df.drop(columns='target')
target = df['target']

model = LinearRegression()
model.fit(features, target)
df['prediction'] = model.predict(features)

plt.figure(figsize=(10, 6))
plt.scatter(df['target'], df['prediction'], alpha=0.6)
plt.xlabel('Настоящее значение (target)')
plt.ylabel('Предсказанное значение (prediction)')
plt.title('Сравнение настоящих и предсказанных значений')
plt.grid()
plt.show()


## Кластеризация методом k-средних

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(features)

kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(X_scaled)

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='feature_1', y='feature_2', hue='cluster', palette='Set1')
plt.title('Кластеры по первым двум признакам')
plt.grid()
plt.show()


### Выводы:
- Линейная регрессия позволяет предсказывать значения целевой переменной на основе признаков.
- Кластеризация выявляет скрытые группы в данных.
- Метод k-средних разделил данные на 3 кластера.