In [1]:
import numpy as np
import pandas as pd
import plotly.express as px
from scipy import stats
from plotly.subplots import make_subplots
from matplotlib import pyplot as plt
import seaborn as sns
colors = ['#082040', '#175073', '#3285A6', '#B8D0D9', '#6CC5D9']

In [5]:
df = pd.read_csv('df198.csv')

# LogD

In [6]:
fig = make_subplots(rows=1, cols=2, subplot_titles=['Распределение лиофобности', 'Violin Plot для лиофобности'])

# Гистограмма
hist_fig = px.histogram(df, x="logD", nbins = 60,
                 color_discrete_sequence = colors,
                 opacity = 0.7)

fig.add_trace(hist_fig['data'][0], row=1, col=1) # Добавление графика с указанием расположения

# Violin plot
violin_fig = px.violin(df, y="logD", color_discrete_sequence = colors, box = True)
fig.add_trace(violin_fig['data'][0], row=1, col=2) # Добавление графика с указанием расположения

# Настройка макета
fig.update_layout(showlegend=False, title_text="Гистограмма и Violin Plot")

# Отображение графика
fig.show()

In [7]:
# Проведем тест Андерсона-Дарлинга на нормальность
#В параметре dist указываем необходимое нам распределение - нормальное
result = stats.anderson(df['logD'], dist='norm')

#Выводи весь результат теста
print(f"Результат теста: {result}")

# Результат теста будет содержать статистику и критические значения
print('Статистика теста:', result.statistic)
print('Критические значения:', result.critical_values)

# Оценка уровня значимости на основе статистики теста, статистики в тесте считаются для конкретных уровней значимости
print('Уровень значимости:', result.significance_level)

# Оценим результат теста на нормальность
if result.statistic < result.critical_values[2]: #Данная статистика считается для уровня значимости 0.05 (5%)
    print("Данные похожи на нормальное распределение (гипотеза о нормальности не отвергается).")
else:
    print("Данные не похожи на нормальное распределение (гипотеза о нормальности отвергается).")

Результат теста: AndersonResult(statistic=30.315650285442644, critical_values=array([0.575, 0.655, 0.786, 0.917, 1.091]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]), fit_result=  params: FitParams(loc=2.1860681114551084, scale=1.2030219596015268)
 success: True
 message: '`anderson` successfully fit the distribution to the data.')
Статистика теста: 30.315650285442644
Критические значения: [0.575 0.655 0.786 0.917 1.091]
Уровень значимости: [15.  10.   5.   2.5  1. ]
Данные не похожи на нормальное распределение (гипотеза о нормальности отвергается).


In [9]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="MolWt", y="logD",
                 size="TPSA", color="NumAromaticHeterocycles", hover_data = ["MolWt", "logD",],
                 title = 'Зависимость лиофобности молекулы от молекулярной массы',
                 labels={'MolWt': 'Молекулярная масса молекулы', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [11]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="MolWt", y="logD",
                 size="TPSA", color="fr_COO", hover_data = ["MolWt", "logD"],
                 title = 'Зависимость лиофобности молекулы от молекулярной массы',
                 labels={'MolWt': 'Молекулярная масса молекулы', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [12]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="MolLogP", y="logD",
                 size="TPSA", color="NumAromaticHeterocycles", hover_data = ["MolWt", "logD"],
                 title = 'Зависимость лиофобности молекулы от MolLogP',
                 labels={'MolLogP': 'MolLogP', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [14]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="MolLogP", y="logD",
                 size="TPSA", color="fr_COO", hover_data = [ "MolWt", "logD"],
                 title = 'Зависимость лиофобности молекулы от MolLogP',
                 labels={'MolLogP': 'MolLogP', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [15]:
df = df[df['MolLogP'] > -6]

In [16]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="BalabanJ", y="logD",
                 size="TPSA", color="NumAromaticHeterocycles", hover_data = ["MolWt", "logD",],
                 title = 'Зависимость лиофобности молекулы от BalabanJ',
                 labels={'MolLogP': 'MolLogP', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [18]:
# Построение пузырьковой диаграммы
fig = px.scatter(df, x="BalabanJ", y="logD",
                 size="TPSA", color="fr_COO", hover_data = ["MolWt", "logD"],
                 title = 'Зависимость лиофобности молекулы от BalabanJ',
                 labels={'MolLogP': 'MolLogP', 'logD': 'Лиофобность'},
                 color_discrete_sequence = colors,
                 opacity = 0.7)

#Вывод графика
fig.show()

In [19]:
df = df[df['BalabanJ'] < 4.5]

# MolLogP

In [20]:
fig = make_subplots(rows=1, cols=2, subplot_titles=['Распределение MolLogP', 'Violin Plot MolLogP'])

# Гистограмма
hist_fig = px.histogram(df, x="MolLogP", nbins = 60,
                 color_discrete_sequence = colors,
                 opacity = 0.7)

fig.add_trace(hist_fig['data'][0], row=1, col=1) # Добавление графика с указанием расположения

# Violin plot
violin_fig = px.violin(df, y="MolLogP", color_discrete_sequence = colors, box = True)
fig.add_trace(violin_fig['data'][0], row=1, col=2) # Добавление графика с указанием расположения

# Настройка макета
fig.update_layout(showlegend=False, title_text="Гистограмма и Violin Plot")

# Отображение графика
fig.show()

In [21]:
# Проведем тест Андерсона-Дарлинга на нормальность
#В параметре dist указываем необходимое нам распределение - нормальное
result = stats.anderson(df['MolLogP'], dist='norm')

#Выводи весь результат теста
print(f"Результат теста: {result}")

# Результат теста будет содержать статистику и критические значения
print('Статистика теста:', result.statistic)
print('Критические значения:', result.critical_values)

# Оценка уровня значимости на основе статистики теста, статистики в тесте считаются для конкретных уровней значимости
print('Уровень значимости:', result.significance_level)

# Оценим результат теста на нормальность
if result.statistic < result.critical_values[2]: #Данная статистика считается для уровня значимости 0.05 (5%)
    print("Данные похожи на нормальное распределение (гипотеза о нормальности не отвергается).")
else:
    print("Данные не похожи на нормальное распределение (гипотеза о нормальности отвергается).")

Результат теста: AndersonResult(statistic=2.3167236236413373, critical_values=array([0.575, 0.655, 0.786, 0.917, 1.091]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]), fit_result=  params: FitParams(loc=3.2807096878722897, scale=1.3229035591571376)
 success: True
 message: '`anderson` successfully fit the distribution to the data.')
Статистика теста: 2.3167236236413373
Критические значения: [0.575 0.655 0.786 0.917 1.091]
Уровень значимости: [15.  10.   5.   2.5  1. ]
Данные не похожи на нормальное распределение (гипотеза о нормальности отвергается).


# BalabanJ

In [22]:
fig = make_subplots(rows=1, cols=2, subplot_titles=['Распределение BalabanJ', 'Violin Plot BalabanJ'])

# Гистограмма
hist_fig = px.histogram(df, x="BalabanJ", nbins = 60,
                 color_discrete_sequence = colors,
                 opacity = 0.7)

fig.add_trace(hist_fig['data'][0], row=1, col=1) # Добавление графика с указанием расположения

# Violin plot
violin_fig = px.violin(df, y="BalabanJ", color_discrete_sequence = colors, box = True)
fig.add_trace(violin_fig['data'][0], row=1, col=2) # Добавление графика с указанием расположения

# Настройка макета
fig.update_layout(showlegend=False, title_text="Гистограмма и Violin Plot")

# Отображение графика
fig.show()

# FpDensityMorgan1

In [23]:
fig = make_subplots(rows=1, cols=2, subplot_titles=['Распределение FpDensityMorgan1', 'Violin Plot FpDensityMorgan1'])

# Гистограмма
hist_fig = px.histogram(df, x="FpDensityMorgan1", nbins = 60,
                 color_discrete_sequence = colors,
                 opacity = 0.7)

fig.add_trace(hist_fig['data'][0], row=1, col=1) # Добавление графика с указанием расположения

# Violin plot
violin_fig = px.violin(df, y="FpDensityMorgan1", color_discrete_sequence = colors, box = True)
fig.add_trace(violin_fig['data'][0], row=1, col=2) # Добавление графика с указанием расположения

# Настройка макета
fig.update_layout(showlegend=False, title_text="Гистограмма и Violin Plot")

# Отображение графика
fig.show()

# Анализ распределения дискретных переменных

In [24]:
# Гистограмма
hist_fig = px.histogram(df, x="HeavyAtomCount",
                 color_discrete_sequence = colors,
                 opacity = 0.7)

hist_fig.show()

In [25]:
# Гистограмма
hist_fig = px.histogram(df, x="NHOHCount",
                 color_discrete_sequence = colors,
                 opacity = 0.7)

hist_fig.show()

In [26]:
# Гистограмма
hist_fig = px.histogram(df, x="NumAromaticRings",
                 color_discrete_sequence = colors,
                 opacity = 0.7)

hist_fig.show()

In [27]:
# Гистограмма
hist_fig = px.histogram(df, x="NumHDonors",
                 color_discrete_sequence = colors,
                 opacity = 0.7)

hist_fig.show()

In [28]:
# Гистограмма
hist_fig = px.histogram(df, x="RingCount",
                 color_discrete_sequence = colors,
                 opacity = 0.7)

hist_fig.show()