# Исследование данных растворимости молекул

Этот ноутбук предназначен для исследования набора данных о растворимости молекул.

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Настройка стиля графиков
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

In [None]:
# Загрузка данных
df = pd.read_csv('../data/delaney_solubility.csv')
print(f"Размер данных: {df.shape}")
print(f"Колонки: {list(df.columns)}")
df.head()

In [None]:
# Статистическое описание данных
df.describe()

In [None]:
# Проверка на пропущенные значения
df.isnull().sum()

In [None]:
# Визуализация распределения целевой переменной
plt.figure(figsize=(10, 6))
sns.histplot(df['logS'], bins=30, kde=True)
plt.title('Распределение растворимости (logS)')
plt.xlabel('logS')
plt.ylabel('Частота')
plt.show()

In [None]:
# Корреляционная матрица
plt.figure(figsize=(12, 8))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Корреляционная матрица')
plt.show()

In [None]:
# Scatter plots для наиболее коррелированных признаков
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

features = ['MolLogP', 'MolWt', 'NumRotatableBonds', 'AromaticProportion']

for i, feature in enumerate(features):
    ax = axes[i//2, i%2]
    sns.scatterplot(data=df, x=feature, y='logS', ax=ax)
    ax.set_title(f'{feature} vs logS')
    ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Разделение данных на обучающую и тестовую выборки
X = df.drop('logS', axis=1)
y = df['logS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Обучающая выборка: {X_train.shape}")
print(f"Тестовая выборка: {X_test.shape}")

In [None]:
# Обучение простой модели линейной регрессии
lr = LinearRegression()
lr.fit(X_train, y_train)

# Предсказания
y_train_pred = lr.predict(X_train)
y_test_pred = lr.predict(X_test)

# Оценка модели
train_mse = mean_squared_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)

print(f"Linear Regression Results:")
print(f"Train MSE: {train_mse:.4f}, Train R²: {train_r2:.4f}")
print(f"Test MSE: {test_mse:.4f}, Test R²: {test_r2:.4f}")

In [None]:
# Визуализация предсказаний
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Обучающая выборка
ax1.scatter(y_train, y_train_pred, alpha=0.7, color='blue', label='Train')
ax1.plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 'k--', lw=2)
ax1.set_xlabel('Истинные значения')
ax1.set_ylabel('Предсказанные значения')
ax1.set_title('Linear Regression - Обучающая выборка')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Тестовая выборка
ax2.scatter(y_test, y_test_pred, alpha=0.7, color='red', label='Test')
ax2.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
ax2.set_xlabel('Истинные значения')
ax2.set_ylabel('Предсказанные значения')
ax2.set_title('Linear Regression - Тестовая выборка')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()