In [3]:
import pandas as pd
from rdkit import Chem
from rdkit.Chem import Descriptors, AllChem
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- 0. Подготовка и импорт библиотек ---
print("Импорт необходимых библиотек завершен.")
print("-" * 70)

# --- 1. Сбор и подготовка исходных данных ---
# ПРОБЛЕМА, КОТОРУЮ РЕШАЕМ: Экономия времени и ресурсов при поиске молекул с нужными свойствами.
# Этот шаг демонстрирует, что для ОБУЧЕНИЯ модели нам нужны существующие экспериментальные данные.

print("ШАГ 1: Загрузка исходных данных (экспериментальные структуры и свойства)")
# ВНИМАНИЕ: Замените эти синтетические данные на ВАШИ РЕАЛЬНЫЕ экспериментальные данные.
# Вы можете загрузить их из CSV/Excel файла: df = pd.read_csv('your_alkanes_data.csv')
data = {
    'Alkane_Name': [
        'Methane', 'Ethane', 'Propane', 'Butane (n-)', 'Isobutane',
        'Pentane (n-)', 'Isopentane', 'Neopentane', 'Hexane (n-)', '2-Methylpentane',
        '3-Methylpentane', '2,2-Dimethylbutane', '2,3-Dimethylbutane',
        'Heptane (n-)', 'Octane (n-)', 'Nonane (n-)', 'Decane (n-)'
    ],
    'SMILES': [
        'C', 'CC', 'CCC', 'CCCC', 'CC(C)C',
        'CCCCC', 'CCC(C)C', 'CC(C)(C)C', 'CCCCCC', 'CCCC(C)C',
        'CCC(C)CC', 'CC(C)(C)CC', 'CC(C)C(C)C',
        'CCCCCCC', 'CCCCCCCC', 'CCCCCCCCC', 'CCCCCCCCCC'
    ],
    'Refractive_Index_Exp': [ # Гипотетические, но правдоподобно возрастающие значения
        1.0000, 1.0004, 1.0010, 1.0015, 1.0013,
        1.0020, 1.0018, 1.0016, 1.0025, 1.0023,
        1.0024, 1.0021, 1.0022,
        1.0030, 1.0035, 1.0040, 1.0045
    ]
}
df = pd.DataFrame(data)

print("Исходные данные (первые 5 строк):")
print(df.head())
print(f"Всего молекул в наборе данных: {len(df)}")
print("-" * 70)

# --- 2. Генерация молекулярных дескрипторов ---
# ПРОБЛЕМА: Компьютер не "понимает" химическую структуру напрямую.
# РЕШЕНИЕ: RDKit преобразует структуру (SMILES) в числовые характеристики (дескрипторы),
# которые модель МО сможет использовать для обучения.

print("ШАГ 2: Генерация молекулярных дескрипторов из SMILES")

# 2.1. Преобразование SMILES в объекты RDKit Mol
df['Mol'] = df['SMILES'].apply(Chem.MolFromSmiles)

# Проверяем, что все SMILES корректно преобразовались
if df['Mol'].isnull().any():
    print("ВНИМАНИЕ: Некоторые SMILES не были корректно преобразованы в объекты Mol. Проверьте исходные SMILES.")
    df = df.dropna(subset=['Mol']) # Удаляем строки с некорректными SMILES
    print(f"После очистки осталось молекул: {len(df)}")

# 2.2. Выбор и генерация топологических дескрипторов
# Выбираем дескрипторы, которые, по нашему предположению, могут влиять на показатель преломления
# (молекулярный вес, количество атомов, разветвленность, компактность и т.д.)
selected_descriptor_funcs = [
    Descriptors.MolWt,          # Молекулярный вес
    Descriptors.HeavyAtomCount, # Количество "тяжелых" (не водорода) атомов
    Descriptors.NumAliphaticCarbons, # Количество алифатических атомов углерода
    Descriptors.NumRotatableBonds, # Количество вращающихся связей (влияет на гибкость)
    Descriptors.BalabanJ,       # Индекс Бадабана (топологический, отражает разветвленность)
    Descriptors.Kappa1, Descriptors.Kappa2, Descriptors.Kappa3, # Индексы Каппа (формы молекулы)
    Descriptors.FractionCSP3,   # Доля sp3-гибридизированных атомов углерода
    Descriptors.HallKierAlpha,  # Индекс формы
    Descriptors.Ipc,            # Индекс информационного контента
    Descriptors.PEOE_VSA1,      # Частичная зарядовая площадь поверхности (может быть связана с поляризуемостью)
    # RDKit может генерировать сотни дескрипторов. Для начала лучше выбрать несколько.
    # Для алканов многие дескрипторы (например, связанные с N, O, S, кольцами) будут нулями.
]

descriptor_names = [func.__name__.replace('rdkit.Chem.Descriptors.', '') for func in selected_descriptor_funcs]
descriptor_list = []

for mol in df['Mol']:
    # AllChem.ComputeGasteigerCharges(mol) # Для дескрипторов, зависящих от частичных зарядов, если нужны
    desc_values = [func(mol) for func in selected_descriptor_funcs]
    descriptor_list.append(desc_values)

desc_df = pd.DataFrame(descriptor_list, columns=descriptor_names)
df_final = pd.concat([df.drop('Mol', axis=1), desc_df], axis=1)

print("\nДанные с сгенерированными дескрипторами (первые 5 строк):")
print(df_final.head())
print("-" * 70)

# --- 3. Подготовка данных для машинного обучения ---
# ПРОБЛЕМА: Модель должна быть проверена на "невиданных" данных, чтобы оценить её способность к обобщению.
# РЕШЕНИЕ: Разделение на обучающую и тестовую выборки.

print("ШАГ 3: Подготовка данных для машинного обучения")

# 3.1. Определение признаков (X) и целевой переменной (y)
X = df_final[descriptor_names]
y = df_final['Refractive_Index_Exp']

# Очистка дескрипторов: удаление константных колонок (которые не несут информации) и колонок с NaN
# (для алканов некоторые дескрипторы могут быть всегда 0 или NaN)
initial_num_features = X.shape[1]
X = X.loc[:, (X != X.iloc[0]).any()] # Удаляем колонки, где все значения одинаковы
X = X.dropna(axis=1) # Удаляем колонки с NaN (если RDKit не смог вычислить дескриптор)
cleaned_num_features = X.shape[1]

if initial_num_features > cleaned_num_features:
    print(f"Удалено {initial_num_features - cleaned_num_features} константных или NaN-дескрипторов.")
    print(f"Осталось дескрипторов для моделирования: {cleaned_num_features}")

if X.empty:
    raise ValueError("После очистки не осталось дескрипторов. Проверьте выбор дескрипторов и данные.")

print(f"\nДескрипторы для моделирования (первые 5 строк):")
print(X.head())
print(f"\nЦелевая переменная (первые 5 строк):")
print(y.head())

# 3.2. Разделение данных на обучающую и тестовую выборки
# test_size=0.2 означает 20% данных для тестирования, 80% для обучения.
# random_state обеспечивает воспроизводимость разделения.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"\nРазмер обучающей выборки (молекул): {X_train.shape[0]}")
print(f"Размер тестовой выборки (молекул): {X_test.shape[0]}")
print("-" * 70)

# --- 4. Построение и обучение модели машинного обучения ---
# ПРОБЛЕМА: Как найти сложную нелинейную зависимость между структурой и свойством?
# РЕШЕНИЕ: Использование алгоритма машинного обучения, который "учится" на примерах.

print("ШАГ 4: Построение и обучение модели RandomForestRegressor")

# Используем RandomForestRegressor - мощный алгоритм для регрессии.
# n_estimators - количество деревьев в лесу (больше = точнее, но медленнее)
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Обучение модели на обучающей выборке
model.fit(X_train, y_train)

print("Модель RandomForestRegressor успешно обучена.")
print("-" * 70)

# --- 5. Оценка модели ---
# ПРОБЛЕМА: Насколько надежны предсказания? Действительно ли модель "поняла" зависимость?
# РЕШЕНИЕ: Сравнение предсказаний с фактическими значениями на тестовой выборке.

print("ШАГ 5: Оценка производительности модели")

# Предсказание показателя преломления для тестовой выборки
y_pred_test = model.predict(X_test)

# Расчет метрик качества
r2 = r2_score(y_test, y_pred_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
mae = mean_absolute_error(y_test, y_pred_test)

print(f"  Метрики на тестовой выборке:")
print(f"  R^2 (коэффициент детерминации): {r2:.3f} (ближе к 1 лучше)")
print(f"  RMSE (среднеквадратичная ошибка): {rmse:.5f} (меньше лучше, в единицах показателя преломления)")
print(f"  MAE (средняя абсолютная ошибка): {mae:.5f} (меньше лучше, в единицах показателя преломления)")

# Визуализация: Предсказанные vs. Фактические значения
plt.figure(figsize=(9, 7))
sns.scatterplot(x=y_test, y=y_pred_test, s=100, alpha=0.7, color='dodgerblue', edgecolor='black')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2, label='Идеальное предсказание (y=x)') # Линия идеального предсказания
plt.xlabel('Фактический показатель преломления (Эксперимент)')
plt.ylabel('Предсказанный показатель преломления (Модель)')
plt.title('Предсказанные vs. Фактические значения показателя преломления (Тестовая выборка)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.legend()
plt.tight_layout()
plt.show()
print("-" * 70)

# --- 6. Анализ важности дескрипторов ---
# ПРОБЛЕМА: Модель дает предсказание, но не объясняет, почему. Какие структурные факторы важны?
# РЕШЕНИЕ: Анализ важности признаков, который указывает на вклад каждого дескриптора.

print("ШАГ 6: Анализ важности дескрипторов")

if hasattr(model, 'feature_importances_'):
    feature_importances = model.feature_importances_
    feature_names = X.columns

    importance_df = pd.DataFrame({
        'Feature': feature_names,
        'Importance': feature_importances
    })
    importance_df = importance_df.sort_values(by='Importance', ascending=False)

    print("\nТоп-5 наиболее влиятельных дескрипторов:")
    print(importance_df.head(5))

    # Визуализация важности дескрипторов
    plt.figure(figsize=(12, 8))
    sns.barplot(x='Importance', y='Feature', data=importance_df, palette='viridis')
    plt.title('Важность дескрипторов для предсказания показателя преломления')
    plt.xlabel('Оценка важности (чем выше, тем больше вклад в предсказание)')
    plt.ylabel('Молекулярный дескриптор')
    plt.grid(axis='x', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()
else:
    print("Модель не поддерживает прямую оценку важности признаков.")
print("-" * 70)


# --- 7. Пример применения модели для НОВЫХ, НЕИЗВЕСТНЫХ молекул ---
# Это основной ответ на вопрос: "Какую проблему решает проект?"
# ПРОБЛЕМА: Для новых, несинтезированных молекул нет экспериментальных данных.
# РЕШЕНИЕ: Наша обученная модель может сделать предсказание, экономя время и ресурсы.

print("ШАГ 7: Предсказание показателя преломления для новой, гипотетической молекулы")

# Предположим, вы хотите предсказать показатель преломления для очень длинного алкана
# или нового разветвленного изомера, который еще не синтезирован/измерен.
new_alkane_smiles = 'CCCCCCCCCCCC' # n-Додекан (12 атомов C)
new_alkane_name = 'n-Dodecane (Hypothetical)'

# 7.1. Создание объекта RDKit Mol для новой молекулы
new_mol = Chem.MolFromSmiles(new_alkane_smiles)

if new_mol is None:
    print(f"Ошибка: Некорректный SMILES для '{new_alkane_name}'. Невозможно предсказать.")
else:
    # 7.2. Генерация тех же дескрипторов, что использовались для обучения
    new_desc_values = [func(new_mol) for func in selected_descriptor_funcs]
    new_desc_df = pd.DataFrame([new_desc_values], columns=descriptor_names)

    # Убедимся, что дескрипторы соответствуют тем, на которых обучалась модель
    # (после удаления константных/NaN)
    new_X_for_prediction = new_desc_df[X.columns] # Используем только те колонки, что были в X_train/X_test

    # 7.3. Предсказание показателя преломления
    predicted_ri = model.predict(new_X_for_prediction)[0]

    print(f"\nПредсказание для '{new_alkane_name}' (SMILES: '{new_alkane_smiles}'):")
    print(f"  Предсказанный показатель преломления: {predicted_ri:.4f}")
    print("\nЭто демонстрирует, как модель может предсказывать свойства для молекул,")
    print("которые еще не были синтезированы или измерены, значительно экономя")
    print("время и ресурсы в химических исследованиях и разработке.")

print("-" * 70)
print("Проект завершен. Не забудьте интерпретировать результаты с химической точки зрения!")

Импорт необходимых библиотек завершен.
----------------------------------------------------------------------
ШАГ 1: Загрузка исходных данных (экспериментальные структуры и свойства)
Исходные данные (первые 5 строк):
   Alkane_Name  SMILES  Refractive_Index_Exp
0      Methane       C                1.0000
1       Ethane      CC                1.0004
2      Propane     CCC                1.0010
3  Butane (n-)    CCCC                1.0015
4    Isobutane  CC(C)C                1.0013
Всего молекул в наборе данных: 17
----------------------------------------------------------------------
ШАГ 2: Генерация молекулярных дескрипторов из SMILES


AttributeError: module 'rdkit.Chem.Descriptors' has no attribute 'NumAliphaticCarbons'