## Статистический анализ: Проверка гипотез по бедности

In [1]:
import pandas as pd
from scipy.stats import pearsonr, spearmanr

# Загрузка данных
df = pd.read_csv("../../data/clean/log_master_dataset_2015_2020.csv")

# Целевая переменная
target_col = "poverty_percent"

# Группы признаков
feature_groups = {
    "Социально уязвимые": [
        "children_percent", "elderly_percent", "disabled_rate_per_1000",
        "disabled_60_plus_rate", "disabled_51_60_rate", "disabled_41_50_rate",
        "disabled_31_40_rate", "disabled_18_30_rate"
    ],
    "Экономика (потребление/производство)": [
        "production_per_capita", "retail_per_capita"
    ],
    "Дополнительные индикаторы": [
        "alcohol_rate", "drugs_rate", "addiction_rate",
        "infant_mortality_urban_rate", "infant_mortality_rural_rate"
    ]
}

# Функция для расчёта корреляций
def run_correlation_tests(df, target_col, feature_groups):
    results = []
    for group_name, features in feature_groups.items():
        for feature in features:
            pearson_corr, pearson_p = pearsonr(df[feature], df[target_col])
            spearman_corr, spearman_p = spearmanr(df[feature], df[target_col])
            results.append({
                "Группа": group_name,
                "Признак": feature,
                "Пирсон r": round(pearson_corr, 3),
                "p-value (Пирсон)": round(pearson_p, 4),
                "Спирмен ρ": round(spearman_corr, 3),
                "p-value (Спирмен)": round(spearman_p, 4)
            })
    return pd.DataFrame(results)

# Запуск анализа
results_df = run_correlation_tests(df, target_col, feature_groups)
print(results_df)

                                  Группа                      Признак  \
0                     Социально уязвимые             children_percent   
1                     Социально уязвимые              elderly_percent   
2                     Социально уязвимые       disabled_rate_per_1000   
3                     Социально уязвимые        disabled_60_plus_rate   
4                     Социально уязвимые          disabled_51_60_rate   
5                     Социально уязвимые          disabled_41_50_rate   
6                     Социально уязвимые          disabled_31_40_rate   
7                     Социально уязвимые          disabled_18_30_rate   
8   Экономика (потребление/производство)        production_per_capita   
9   Экономика (потребление/производство)            retail_per_capita   
10             Дополнительные индикаторы                 alcohol_rate   
11             Дополнительные индикаторы                   drugs_rate   
12             Дополнительные индикаторы           


В рамках дипломного проекта проведён статистический анализ для оценки связей между уровнем бедности и социально-экономическими признаками.

---

### 1. Влияют ли дети, пенсионеры и инвалиды на бедность?

Проведены корреляционные тесты (Пирсон и Спирмен) между долей социально уязвимых групп и уровнем бедности (`poverty_percent`):

- Инвалиды 51–60 лет: r = 0.238, p < 0.0001  
- Общий уровень инвалидности: r = 0.143, p = 0.0012

Вывод: доля людей с инвалидностью статистически значимо влияет на уровень бедности. Другие группы (дети, пенсионеры) не показали значимых связей.

---

### 2. Связан ли уровень бедности с производством и потреблением?

Проведены корреляции между бедностью и экономическими показателями:

- `retail_per_capita`: r = –0.735, p < 0.0001
- `production_per_capita`: r = –0.319, p < 0.0001

Вывод: высокий уровень потребления и производства связан со снижением бедности. Это подчёркивает важность экономической активности для благополучия региона.

---

### 3. Какие ещё зависимости наблюдаются?

Анализ дополнительных показателей показал:

- Смертность младенцев в сельской местности: r = 0.476, p < 0.0001  
- Алкоголизм, наркомания, общая зависимость — статистически незначимы

Вывод: бедность тесно связана с ростом младенческой смертности в сельской местности, что указывает на ухудшение условий жизни наиболее уязвимых групп.

---

### Заключение

Проведённые тесты подтвердили ряд значимых связей, которые могут объяснять причины бедности в российских регионах. Полученная информация будет полезной при выборе основных признаков для кластеризации и дальнейшей интерпретации её результатов.
