# Исследование показателя самоубийств в странах и его взаимосвязи с социально-экономическими и медицинскими показателями

## Suicide Rates Overview (1985 to 2021) 

Данные о файле - https://www.kaggle.com/datasets/omkargowda/suicide-rates-overview-1985-to-2021

Файл содержит **10** столбцов и **31756** строк

    Категориальные - К
    Метрические - М

Описание переменных:

        country - страна наблюдения (К)
        year - год наблюдения (М)
        sex - пол людей в наблюдении (К)
        age - временной диапазон, в который попадают люди наблюдения (М)
        suicides_no - количество самоубийств в наблюдении (М)
        population - генеральная совокупность наблюдения (М)
        suicides/100k pop - относительный показатель количества самоубийств на 100 тысяч населения (М)
        country-year - город-год (К)
        HDI for year - индекс человеческого развития в стране за год (М)
        gdp_for_year - ВВП страны за год в долларах США (М)
        gdp_per_capita - ВВП страны на душу населения за год в долларах США (М)
        generation - формальное название возрастного поколения к которому принадлежит наблюдение:  'Generation X', 'Silent', 'G.I. Generation', 'Boomers', 'Millenials', 'Generation Z'

In [104]:
import matplotlib.pyplot as plt
import scipy.stats as stats  #linreg
import pandas as pd
import numpy as np
import seaborn as sns
import statsmodels.formula.api as smf
import plotly.express as px
import plotly.graph_objects as go
from statsmodels.stats.multicomp import (pairwise_tukeyhsd, MultiComparison)

In [105]:
suicide_rates = pd.read_csv('datasets/suicide_rates.csv')

In [106]:
rename_dict = {
    'suicides/100k pop': 'suicides_per_100k',
    'gdp_for_year ($)': 'gdp_for_year',
    'gdp_per_capita ($)': 'gdp_per_capita',
    'HDI for year': 'HDI_for_year'
}

suicide_rates = suicide_rates.rename(columns=rename_dict)

In [107]:
suicide_rates.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides_per_100k,country-year,HDI_for_year,gdp_for_year ($),gdp_per_capita,generation
0,Albania,1987,male,15-24 years,21.0,312900,6.71,Albania1987,,2156624900,796.0,Generation X
1,Albania,1987,male,35-54 years,16.0,308000,5.19,Albania1987,,2156624900,796.0,Silent
2,Albania,1987,female,15-24 years,14.0,289700,4.83,Albania1987,,2156624900,796.0,Generation X
3,Albania,1987,male,75+ years,1.0,21800,4.59,Albania1987,,2156624900,796.0,G.I. Generation
4,Albania,1987,male,25-34 years,9.0,274300,3.28,Albania1987,,2156624900,796.0,Boomers


In [160]:
print('Кол-во наблюдений в датасете:', suicide_rates.shape[0])

Кол-во наблюдений в датасете: 31756


#### Сводка по типу данных каждой переменной

In [161]:
suicide_rates.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31756 entries, 0 to 31755
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   country             31756 non-null  object 
 1   year                31756 non-null  int64  
 2   sex                 31756 non-null  object 
 3   age                 31756 non-null  object 
 4   suicides_no         30556 non-null  float64
 5   population          31756 non-null  int64  
 6   suicides/100k pop   31756 non-null  float64
 7   country-year        31756 non-null  object 
 8   HDI for year        12300 non-null  float64
 9    gdp_for_year ($)   31756 non-null  object 
 10  gdp_per_capita ($)  31756 non-null  float64
 11  generation          31756 non-null  object 
dtypes: float64(4), int64(2), object(6)
memory usage: 2.9+ MB


#### Сводка по кол-ву пропущенных данных каждой переменной

In [217]:
suicide_rates.isnull().sum().to_frame()

Unnamed: 0,0
country,0
year,0
sex,0
age,0
suicides_no,1200
population,0
suicides/100k pop,0
country-year,0
HDI for year,19456
gdp_for_year ($),0


#### Преобразуем типы данных для переменных 

In [194]:
suicide_rates = suicide_rates.convert_dtypes()

In [195]:
suicide_rates.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31756 entries, 0 to 31755
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   country             31756 non-null  string 
 1   year                31756 non-null  Int64  
 2   sex                 31756 non-null  string 
 3   age                 31756 non-null  string 
 4   suicides_no         30556 non-null  Int64  
 5   population          31756 non-null  Int64  
 6   suicides/100k pop   31756 non-null  Float64
 7   country-year        31756 non-null  string 
 8   HDI for year        12300 non-null  Float64
 9    gdp_for_year ($)   31756 non-null  string 
 10  gdp_per_capita ($)  31756 non-null  Float64
 11  generation          31756 non-null  string 
dtypes: Float64(3), Int64(3), string(6)
memory usage: 3.1 MB


## Global Trends in Mental Health Disorder

Данные о файле - https://www.kaggle.com/datasets/thedevastator/uncover-global-trends-in-mental-health-disorder

Файл содержит **11** столбцов и **5488** строк

    Категориальные - К
    Метрические - М

Описание переменных:

    country - страна наблюдения (К)
    code - краткое обозначение страны (К)
    year - год наблюдения (М)
    schizophrenia - Процент людей с шизофренией в этой стране/регионе в течение этого года. (М)
    bipolar - Процент людей с биполярным расстройством в этой стране/регионе в течение этого года. (М)
    eating - Процент людей с пищевым расстройством в этой стране/регионе в течение этого года. (М)
    anxiety - Процент людей с тревожным расстройством в этой стране/регионе в течение этого года. (М)
    drug - Процент людей с расстройствами, связанными с употреблением наркотиков, в этой стране/регионе в течение этого года. (М)
    depression - Процент людей с депрессией в этой стране/регионе в течение этого года. (М)
    alcohol - Процент людей с расстройствами, связанными с употреблением алкоголя, в этой стране/регионе в течение этого года. (М)
    


In [238]:
mental_disorders = pd.read_csv('datasets/Mental health Depression disorder Data.csv',low_memory=False).dropna().iloc[:,1:]

In [239]:
def rename_columns(x: str):
    return str.lower(x.replace('(%)', '').replace('disorders', '').replace('disorder', '').replace('use','').strip())

mental_disorders.columns = mental_disorders.columns.map(lambda x: rename_columns(x))
mental_disorders = mental_disorders.rename(columns={'entity':'country'})
mental_disorders = mental_disorders[mental_disorders.year != 'Year']

In [240]:
mental_disorders.head()

Unnamed: 0,country,code,year,schizophrenia,bipolar,eating,anxiety,drug,depression,alcohol
0,Afghanistan,AFG,1990,0.16056,0.697779,0.101855,4.82883,1.677082,4.071831,0.672404
1,Afghanistan,AFG,1991,0.160312,0.697961,0.099313,4.82974,1.684746,4.079531,0.671768
2,Afghanistan,AFG,1992,0.160135,0.698107,0.096692,4.831108,1.694334,4.088358,0.670644
3,Afghanistan,AFG,1993,0.160037,0.698257,0.094336,4.830864,1.70532,4.09619,0.669738
4,Afghanistan,AFG,1994,0.160022,0.698469,0.092439,4.829423,1.716069,4.099582,0.66926


In [186]:
print('Кол-во наблюдений в датасете:', mental_disorders.shape[0])

Кол-во наблюдений в датасете: 5488


#### Сводка по типу данных каждой переменной

In [187]:
mental_disorders.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5488 entries, 0 to 6467
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          5488 non-null   int64  
 1   country        5488 non-null   object 
 2   code           5488 non-null   object 
 3   year           5488 non-null   object 
 4   schizophrenia  5488 non-null   object 
 5   bipolar        5488 non-null   object 
 6   eating         5488 non-null   object 
 7   anxiety        5488 non-null   float64
 8   drug           5488 non-null   float64
 9   depression     5488 non-null   float64
 10  alcohol        5488 non-null   float64
dtypes: float64(4), int64(1), object(6)
memory usage: 514.5+ KB


#### Сводка по кол-ву пропущенных данных каждой переменной

In [188]:
mental_disorders.isnull().sum().to_frame()

Unnamed: 0,0
index,0
country,0
code,0
year,0
schizophrenia,0
bipolar,0
eating,0
anxiety,0
drug,0
depression,0


#### Преобразуем типы данных для переменных 

In [207]:
convert_dict = {'country': str,
                'code': str, 
                'year': np.int32,
                'schizophrenia': np.float64,
                'bipolar': np.float64,
                'eating': np.float64,
                'anxiety': np.float64,
                'drug': np.float64,
                'depression': np.float64,
                'alcohol': np.float64,
                }
 
mental_disorders = mental_disorders.astype(convert_dict)

In [208]:
mental_disorders.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5488 entries, 0 to 6467
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          5488 non-null   int64  
 1   country        5488 non-null   object 
 2   code           5488 non-null   object 
 3   year           5488 non-null   int32  
 4   schizophrenia  5488 non-null   float64
 5   bipolar        5488 non-null   float64
 6   eating         5488 non-null   float64
 7   anxiety        5488 non-null   float64
 8   drug           5488 non-null   float64
 9   depression     5488 non-null   float64
 10  alcohol        5488 non-null   float64
dtypes: float64(7), int32(1), int64(1), object(2)
memory usage: 493.1+ KB


## Inflation, Interest and Unemployment Rate

Данные о файле - https://www.kaggle.com/datasets/prasertk/inflation-interest-and-unemployment-rate

Файл содержит **13** столбцов и **5488** строк

    Категориальные - К
    Метрические - М

Описание переменных:

    country - страна наблюдения (К)
    code - краткое обозначение страны (К)
    year - год наблюдения (М)
    schizophrenia - Процент людей с шизофренией в этой стране/регионе в течение этого года. (М)
    bipolar - Процент людей с биполярным расстройством в этой стране/регионе в течение этого года. (М)
    eating - Процент людей с пищевым расстройством в этой стране/регионе в течение этого года. (М)
    anxiety - Процент людей с тревожным расстройством в этой стране/регионе в течение этого года. (М)
    drug - Процент людей с расстройствами, связанными с употреблением наркотиков, в этой стране/регионе в течение этого года. (М)
    depression - Процент людей с депрессией в этой стране/регионе в течение этого года. (М)
    alcohol - Процент людей с расстройствами, связанными с употреблением алкоголя, в этой стране/регионе в течение этого года. (М)
    


In [273]:
economics_indent = pd.read_csv('datasets/inflation interest unemployment.csv')

In [274]:
rename_dict={
    'Inflation, consumer prices (annual %)':'inflation_prices',
    'Unemployment, total (% of total labor force) (national estimate)':'unemployment',
    'Unemployment, total (% of total labor force) (modeled ILO estimate)':'unemployment_modeled'
}
economics_indent = economics_indent.rename(columns=rename_dict)
economics_indent.columns = economics_indent.columns.map(lambda x: str.lower(x))


In [275]:
economics_indent.head()

Unnamed: 0,country,year,inflation_prices,"inflation, gdp deflator (annual %)",real interest rate (%),deposit interest rate (%),lending interest rate (%),unemployment,unemployment_modeled,iso3c,iso2c,adminregion,incomelevel
0,Afghanistan,1970,,,,,,,,AFG,AF,South Asia,Low income
1,Afghanistan,1971,,,,,,,,AFG,AF,South Asia,Low income
2,Afghanistan,1972,,,,,,,,AFG,AF,South Asia,Low income
3,Afghanistan,1973,,,,,,,,AFG,AF,South Asia,Low income
4,Afghanistan,1974,,,,,,,,AFG,AF,South Asia,Low income


In [247]:
print('Кол-во наблюдений в датасете:', economics_indent.shape[0])

Кол-во наблюдений в датасете: 13832


#### Сводка по типу данных каждой переменной

In [248]:
economics_indent.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13832 entries, 0 to 13831
Data columns (total 13 columns):
 #   Column                                                               Non-Null Count  Dtype  
---  ------                                                               --------------  -----  
 0   country                                                              13832 non-null  object 
 1   year                                                                 13832 non-null  int64  
 2   Inflation, consumer prices (annual %)                                9582 non-null   float64
 3   Inflation, GDP deflator (annual %)                                   10981 non-null  float64
 4   Real interest rate (%)                                               4171 non-null   float64
 5   Deposit interest rate (%)                                            4587 non-null   float64
 6   Lending interest rate (%)                                            4413 non-null   float64
 7   Unem

#### Сводка по кол-ву пропущенных данных каждой переменной

In [249]:
economics_indent.isnull().sum().to_frame()

Unnamed: 0,0
country,0
year,0
"Inflation, consumer prices (annual %)",4250
"Inflation, GDP deflator (annual %)",2851
Real interest rate (%),9661
Deposit interest rate (%),9245
Lending interest rate (%),9419
"Unemployment, total (% of total labor force) (national estimate)",8657
"Unemployment, total (% of total labor force) (modeled ILO estimate)",6547
iso3c,104


#### Преобразуем типы данных для переменных 

In [250]:
convert_dict = {'country': str,
                }
 
economics_indent = economics_indent.astype(convert_dict)

In [251]:
economics_indent.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13832 entries, 0 to 13831
Data columns (total 13 columns):
 #   Column                                                               Non-Null Count  Dtype  
---  ------                                                               --------------  -----  
 0   country                                                              13832 non-null  object 
 1   year                                                                 13832 non-null  int64  
 2   Inflation, consumer prices (annual %)                                9582 non-null   float64
 3   Inflation, GDP deflator (annual %)                                   10981 non-null  float64
 4   Real interest rate (%)                                               4171 non-null   float64
 5   Deposit interest rate (%)                                            4587 non-null   float64
 6   Lending interest rate (%)                                            4413 non-null   float64
 7   Unem

4. Новый столбец
5. Перекодировать
6. Транспонировать срез

#### Отсортируем датафреймы для удобства представления

In [243]:
suicide_rates.sort_values(by=['suicides/100k pop', 'gdp_per_capita ($)'],ascending=False).head(20)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
29110,Republic of Korea,2017,male,35-54 years,1495,290239,515.092734,Republic of Korea2017,0.927732,47600000000000.0,43033.4408,Silent
29438,Republic of Korea,2017,male,55-74 years,1495,290239,515.092734,Republic of Korea2017,0.927732,47600000000000.0,43033.4408,G.I. Generation
29766,Republic of Korea,2017,male,75+ years,1495,290239,515.092734,Republic of Korea2017,0.927732,47600000000000.0,43033.4408,G.I. Generation
31078,Republic of Korea,2017,female,35-54 years,1495,290239,515.092734,Republic of Korea2017,0.91862,47600000000000.0,43033.4408,Silent
29028,Republic of Korea,2018,male,35-54 years,1495,297298,502.862448,Republic of Korea2018,0.929276,50500000000000.0,45492.80202,Silent
29356,Republic of Korea,2018,male,55-74 years,1495,297298,502.862448,Republic of Korea2018,0.929276,50500000000000.0,45492.80202,G.I. Generation
29684,Republic of Korea,2018,male,75+ years,1495,297298,502.862448,Republic of Korea2018,0.929276,50500000000000.0,45492.80202,G.I. Generation
30996,Republic of Korea,2018,female,35-54 years,1495,297298,502.862448,Republic of Korea2018,0.921583,50500000000000.0,45492.80202,Silent
28946,Republic of Korea,2019,male,35-54 years,1495,304404,491.123638,Republic of Korea2019,0.930538,51000000000000.0,45819.48008,Silent
29274,Republic of Korea,2019,male,55-74 years,1495,304404,491.123638,Republic of Korea2019,0.930538,51000000000000.0,45819.48008,G.I. Generation


In [241]:
mental_disorders.sort_values(by=['schizophrenia', 'alcohol'], ascending=False).head(20)

Unnamed: 0,country,code,year,schizophrenia,bipolar,eating,anxiety,drug,depression,alcohol
3992,Netherlands,NLD,2006,0.37511,0.947197,0.409201,6.512405,0.937893,4.046277,0.722001
3991,Netherlands,NLD,2005,0.375092,0.947082,0.403081,6.518189,0.941118,4.050149,0.724737
3993,Netherlands,NLD,2007,0.375087,0.947287,0.420038,6.512145,0.932323,4.042501,0.721191
3994,Netherlands,NLD,2008,0.374991,0.947308,0.433348,6.515048,0.927993,4.038992,0.721772
3990,Netherlands,NLD,2004,0.374961,0.946908,0.400309,6.599896,0.943397,4.053583,0.735926
3995,Netherlands,NLD,2009,0.374802,0.947318,0.444633,6.5191,0.924909,4.039477,0.723056
3989,Netherlands,NLD,2003,0.374665,0.946626,0.397749,6.781535,0.945624,4.058864,0.75705
3996,Netherlands,NLD,2010,0.374514,0.94737,0.451413,6.52252,0.925939,4.036617,0.72447
3988,Netherlands,NLD,2002,0.374324,0.94635,0.395648,6.996832,0.947511,4.069092,0.781248
3987,Netherlands,NLD,2001,0.374019,0.946071,0.394421,7.178772,0.949453,4.080509,0.801701


## Цель исследования -

### Интерпретировать различия в показателе самоубийств в странах в зависимости от социально-экономических и медицинских показателей.

## Задачи исследования - 

1. Подготовка данных к анализу:

    - Очистка датафреймов от излишней или неполной информации.
    - Восстановление типов данных для переменных.
    - Компановка и установление взаимоного соответствия между датафреймами.


2. Формулирование гипотез

    - Гипотезы формулируютс с учетом особенностей датасета и доступных методов исследования.
    


3. Анализ

    - Графическая интерпретация данных с учетом возможных группировок.
    - Проверка данных на соответствие определенному распределению.
    - Расчет базовых статистик (p-уровень значимости, t-критерий, f-критерий, коэффициенты детерминации и корреляции, квартили и дисперсия).
    - Приминение линейной регрессии для установления возможной зависимости между переменными, где показатель самоубийств - зависимая переменная.
    
    
4. Подведение итогов

    - Вывод о наличии/отсутствии значимой взаимосвязи между независимыми переменными и показателем самоубийств.
    - Выявление двусторонних лидеров среди групп по показателю самоубийств.
    - Вывод относительно цели исследования.
    - Вывод относительно гипотез
    

## Исследовательские гипотезы

1. Возрастное разделение по группам - значимый фактор, отличающий их по показателю самоубийств.
2. Половое разделение по группам - значимый фактор, отличающий их по показателю самоубийств.
3. Можно установить значимую отрицательную взаимосвязь между временем и показателем самоубийств.
4. Наблюдается значимая отрицательная взаимосвязь между ВВП на душу населения и показателем самоубийств.
5. Наблюдается значимая отрицательная взаимосвязь между индексом человеческого развития (ИЧР) и показателем самоубийств.
6. Масштаб психиатрический отклонений в стране положительно связан с показателем самоубийств.
7. Рост показатель алкоголизма в стране в равной степени с показателем наркозависимости в стране обуславливает рост показателя самоубийств.
8. Падение уровня ВВП на душу населения соопределено с ростом показателя самоубийств и увеличением масштаба психиатрических заболеваний.
9. Богатые страны, как и бедные имеют выраженный высокий показатель самоубийств.
10. Рост инфляции сопряжен с ростом показателя самоубийств
11. Переменная 'incomelevel' (уровень дохода) значимо разделяет данные по группам относительно показателя самоубийств

### Будем  работать с тремя датафреймами и использовать необходимую информацию из них

Расчитаем критерий Тьюки для показателя самоубийств по 6 возрастным категориям: 'Generation X', 'Silent', 'G.I. Generation', 'Boomers', 'Millenials', 'Generation Z'. Используем p-урвоень значимости p=0.05. 

In [67]:
suicide_rates.columns

Index(['country', 'year', 'sex', 'age', 'suicides_no', 'population',
       'suicides_per_100k', 'country-year', 'HDI_for_year',
       ' gdp_for_year ($) ', 'gdp_per_capita', 'generation'],
      dtype='object')

In [108]:
generations_df = pd.DataFrame()
generations_list = suicide_rates.generation.unique()
generations_df['generation'] = generations_list
temp_lst = np.zeros(len(generations_list))

for i in range(temp_lst.shape[0]):
    temp_lst[i]=suicide_rates.loc[suicide_rates['generation']==generations_list[i], 'suicides_no'].sum()*1e+5/suicide_rates.loc[suicide_rates['generation']==generations_list[i], 'population'].sum()

generations_df['suicides_per_100k'] = temp_lst


In [109]:
gens_sex_df = suicide_rates[['suicides_per_100k', 'sex', 'generation', 'age']]

In [110]:
multi_comp = MultiComparison(gens_sex_df['suicides_per_100k'], gens_sex_df['age'])
p=0.05

In [129]:
results = multi_comp.tukeyhsd(p).summary()
results = pd.DataFrame(results[1:], columns=results[0])
results

Unnamed: 0,group1,group2,meandiff,p-adj,lower,upper,reject
0,15-24 years,25-34 years,3.0311,0.0,1.89,4.1722,True
1,15-24 years,35-54 years,5.9546,0.0,4.8135,7.0957,True
2,15-24 years,5-14 years,-7.5172,0.0,-8.66,-6.3743,True
3,15-24 years,55-74 years,6.8762,0.0,5.7351,8.0173,True
4,15-24 years,75+ years,13.4286,0.0,12.2875,14.5697,True
5,25-34 years,35-54 years,2.9235,0.0,1.7824,4.0646,True
6,25-34 years,5-14 years,-10.5482,0.0,-11.6911,-9.4054,True
7,25-34 years,55-74 years,3.8451,0.0,2.704,4.9862,True
8,25-34 years,75+ years,10.3976,0.0,9.2565,11.5386,True
9,35-54 years,5-14 years,-13.4717,0.0,-14.6146,-12.3289,True


Построим доверительные интервалы

In [133]:
# for lower, upper, meandiff, y in zip(results['lower'], results['upper'], results['meandiff'], results.index):
#     plt.plot((lower, upper),(y, y), '|-', color='black')
#     plt.plot(meandiff, y ,'|-', color='black')
    
# plt.yticks(results.index[::-1], results['group1'] + ' - ' + results['group2'])
# plt.vlines(0, results.index[0] - 0.5, results.index[-1] + 0.5, linestyles='dashed', color='gray')
# plt.title('95% therapy genne expression confidence level')
# plt.show()

results.columns

Index([group1, group2, meandiff, p-adj, lower, upper, reject], dtype='object')

In [134]:
suicide_rates.columns

Index(['country', 'year', 'sex', 'age', 'suicides_no', 'population',
       'suicides_per_100k', 'country-year', 'HDI_for_year',
       ' gdp_for_year ($) ', 'gdp_per_capita', 'generation'],
      dtype='object')