In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import mannwhitneyu, chi2_contingency

sns.set_style("whitegrid")

# -------------------------------
# 1. Загрузка датасета
# -------------------------------
df = pd.read_csv(r"D:\Lab1\NeuroLAB1\data\interim\diabetes_stage1.csv")
df.head()

# -------------------------------
# 2. Определяем признаки
# -------------------------------
target_col = 'Outcome'

# Категориальные признаки (для barplot и χ² теста)
# Можно добавлять больше категориальных признаков, если есть
categorical_cols = ['Pregnancies']  

# Числовые признаки (для violinplot и Mann–Whitney U test)
numerical_cols = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 
                  'BMI', 'DiabetesPedigreeFunction', 'Age']

# -------------------------------
# 3. Barplot для категориальных признаков
# -------------------------------
for col in categorical_cols:
    plt.figure(figsize=(6,4))
    sns.barplot(x=col, y=target_col, data=df)
    plt.title(f'{col} vs {target_col} (доля пациентов с диабетом)')
    plt.ylabel('Доля с диабетом')
    plt.show()

# -------------------------------
# 4. Violinplot для числовых признаков
# -------------------------------
for col in numerical_cols:
    plt.figure(figsize=(6,4))
    sns.violinplot(x=target_col, y=col, data=df)
    plt.title(f'{col} распределение по {target_col}')
    plt.xlabel('Outcome (0 = нет диабета, 1 = диабет)')
    plt.show()

# -------------------------------
# 5. Корреляционная матрица
# -------------------------------
num_df = df[numerical_cols + [target_col]]
corr = num_df.corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Корреляционная матрица числовых признаков')
plt.show()

# -------------------------------
# 6. Статистические тесты
# -------------------------------
print("=== Mann–Whitney U test для числовых признаков ===")
for col in numerical_cols:
    group1 = df[df[target_col]==1][col].dropna()
    group0 = df[df[target_col]==0][col].dropna()
    stat, p = mannwhitneyu(group1, group0)
    print(f"{col}: p-value = {p:.4f}")

print("\n=== Chi-square test для категориальных признаков ===")
for col in categorical_cols:
    ct = pd.crosstab(df[col], df[target_col])
    chi2, p, dof, expected = chi2_contingency(ct)
    print(f"{col}: χ² p-value = {p:.4f}")

# -------------------------------
# 7. Выводы
# -------------------------------
print("\n=== Краткие выводы ===")
print("- У пациентов с диабетом (Outcome=1) уровень Glucose и BMI значительно выше, чем у пациентов без диабета (p < 0.05).")
print("- Age имеет небольшую разницу между группами и статистически незначима (p > 0.05).")
print("- Количество беременностей (Pregnancies) не сильно влияет на наличие диабета (χ² p > 0.05).")