# Выбор и составление таблицы

Мы составили таблицу (с помощью веб-скреппинга), где хранятся параметры разных стран. Сами параметры относятся к таким категориям как:
- Сельское хозяйство, изменение климата, энергия, окружающая среда и природные ресурсы
- Цифровое развитие, образование,
- Финансы, конкурентоспособность и инновации
- Нестабильность, конфликты и насилие
- Управление, здравоохранение, питание и народонаселение, бедность и неравенство, социальная защита, транспорт
- Инфраструктура и государственно-частное партнерство, рабочие места и развитие
- Макроэкономика, торговля и инвестиции


Такая выборка позволит нам сравнить страны в социальной, экономической, окружающей среды и образовательной сферах.

# Описание датасета

In [149]:
import pandas as pd

df = pd.read_csv("../data/countries_selected_data.csv")
df.head()

Unnamed: 0,Country,Happiness Score,Region,Main Language,Political Regime,Independent,UN Member,Main Currency,Population,Area,...,Access to clean fuels and technologies for cooking (% of population),Social contributions (% of revenue),People using at least basic drinking water services (% of population),"School enrollment, primary and secondary (gross), gender parity index (GPI)",Proportion of seats held by women in national parliaments (%),"Maternal mortality ratio (modeled estimate, per 100,000 live births)","Primary completion rate, total (% of relevant age group)","Government expenditure on education, total (% of government expenditure)","Agriculture, forestry, and fishing, value added (% of GDP)","Mortality caused by road traffic injury (per 100,000 population)"
0,Finland,7.741,Europe,Finnish,Liberal Democracies,True,True,EUR,5530719,338424.0,...,100.0,32.2,100.0,1.06,46.0,8.0,98.0,10.2,2.3,4.0
1,Denmark,7.583,Europe,Danish,Liberal Democracies,True,True,DKK,5831404,43094.0,...,100.0,1.8,100.0,1.0,44.0,5.0,100.0,11.8,0.8,4.0
2,Iceland,7.525,Europe,Icelandic,Liberal Democracies,True,True,ISK,366425,103000.0,...,100.0,9.5,100.0,0.99,48.0,3.0,99.0,14.9,3.8,2.0
3,Sweden,7.344,Europe,Swedish,Liberal Democracies,True,True,SEK,10353442,450295.0,...,100.0,8.9,100.0,1.07,46.0,5.0,100.0,13.5,1.0,3.0
4,Israel,7.341,Asia,Arabic,Electoral Democracies,True,True,ILS,9216900,20770.0,...,100.0,15.8,100.0,1.01,24.0,3.0,95.0,17.5,1.2,4.0


In [150]:
df.shape

(216, 41)

Таблица состоит из 216 строк и 41 столбца

## Описание каждого из столбцов

- Country - название страны, категориальная
- Happiness Score - индекс счастья (по данным [World Happiness Report 2024](https://worldhappiness.report/), число от 0 до 10, метрическая
- Region - географический регион нахождения страны, категориальная
- Main Language	- основной язык, категориальная
- Political Regime - тип политического режима, категориальная
- Independent - независимость страны,	бинарная
- UN Member	- членство в ООН,	бинарная
- Main Currency -	основная валюта, код валюты,	категориальная
- Population - численность населения,	количество человек,	метрическая
- Area - площадь территории, км², метрическая
- Car Side - сторона движения автомобилей, категориальная, принимает [left, right]
- Income share held by lowest 20% - доля дохода (от дохода всех граждан) беднейших 20% в долларах США, метрическая
- Life expectancy at birth, total (years) -	ожидаемая продолжительность жизни, метрическая
- Prevalence of HIV, total (% of population ages 15-49)	- распространенность ВИЧ, % зараженных среди населения 15–49 лет,	метрическая
- Renewable energy consumption (% of total final energy consumption) - потребление возобновляемой энергии, % от общего потребления, метрическая
- Intentional homicides (per 100,000 people) -	умышленные убийства	на 100 тыс. человек,	метрическая
- Refugee population by country or territory of asylum - численность беженцев в стране, метрическая
- Armed forces personnel (% of total labor force) - военнослужащие,	% от трудоспособных взрослых граждан, метрическая
- Urban population (% of total population) - люди проживающие в городах, % от общего количества населения, метрическая
- GNI (current US) - валовой национальный доход, количество миллиардов в долларах США, метрическая
- Foreign direct investment, net (BoP, current US)	- чистые прямые иностранные инвестиции (то есть разница между притоков и оттоком), доллары США, метрическая
- GDP per person employed (constant 2021 PPP) - ВВП на занятого, с учетом паритета покупательной способности по ценам за 2021 год в долларах США, метрическая
- Employment to population ratio, 15+, total (%) (modeled ILO estimate) - уровень занятости по данным ILO, % населения 15+ лет, метрическая
- Forest area (% of land area) - лесная площадь, % от общей сухопутной территории, метрическая
- Terrestrial and marine protected areas (% of total territorial area) - охраняемые территории, % от общей территории, метрическая
- Logistics performance index: Ease of arranging competitively priced shipments (1=low to 5=high) -	индекс логистики (насколько просто доставить достаточно дорогие вещи), (от 1 до 5, чем больше, тем лучше),	метрическая
- High-technology exports (% of manufactured exports) - экспорт высоких технологий, % от экспортируемых промышленных товаров, метрическая
- Individuals using the Internet (% of population) - пользователи интернета, % от общего количества населения, метрическая
- Mobile cellular subscriptions (per 100 people) - количество мобильных подписок на 100 человек, метрическая
- Alternative and nuclear energy (% of total energy use) - альтернативная и ядерная энергия, % от используемой энергии, метрическая
- Electric power consumption (KWH per capita) - потребление электроэнергии в кВт·ч на душу населения, метрическая
- Access to clean fuels and technologies for cooking (% of population) - доступ к технологиям и топливу в быту, которые не загрязняют окружающую среду, % от общего населения, метрическая
- Social contributions (% of revenue) - социальные взносы, % от общей заработной платы, метрическая
- People using at least basic drinking water services (% of population) - доступ к питьевой воде, % от общего количества населения, метрическая
- School enrollment, primary and secondary (gross), gender parity index (GPI) - гендерный паритет среди обучающихся в школе, отношение количества девочек, к количеству мальчиков, среди учеников школ, метрическая
- Proportion of seats held by women in national parliaments (%)	- доля женщин в парламенте, % от общего количества людей в парламенте, метрическая
- Maternal mortality (modeled estimate, per 100,000 live births) - количество материнских смертей на 100 тыс. рождений, метрическая
- Primary completion rate, total (% of relevant age group) - люди, получившие начальное образование, % от общего числа людей соответствующей возрастной группы, метрическая
- Government expenditure on education, total (% of government expenditure) - расходы на образование, % от государственных расходов,	метрическая
- Agriculture, forestry, and fishing, value added (% of GPD) - вклад сельского хозяйства в ВВП, % от общего ВВП, метрическая
- Mortality caused by road traffic injury (per 100,000 population) - смертность от ДТП на 100 тыс. населения, метрическая

Тип переменных в столбцах:

In [151]:
for column in df.columns:
    print(f"Столбец '{column}': {df[column].dtype}")



Столбец 'Country': object
Столбец 'Happiness Score': float64
Столбец 'Region': object
Столбец 'Main Language': object
Столбец 'Political Regime': object
Столбец 'Independent': object
Столбец 'UN Member': bool
Столбец 'Main Currency': object
Столбец 'Population': int64
Столбец 'Area': float64
Столбец 'Car Side': object
Столбец 'Income share held by lowest 20%': float64
Столбец 'Life expectancy at birth, total (years)': float64
Столбец 'Prevalence of HIV, total (% of population ages 15-49)': float64
Столбец 'Renewable energy consumption (% of total final energy consumption)': float64
Столбец 'Intentional homicides (per 100,000 people)': float64
Столбец 'Refugee population by country or territory of asylum': float64
Столбец 'Armed forces personnel (% of total labor force)': float64
Столбец 'Urban population (% of total population)': float64
Столбец 'GNI (current US$)': float64
Столбец 'Foreign direct investment, net (BoP, current US$)': float64
Столбец 'GDP per person employed (constant 2

Количество пустых ячеек в каждом столбце:

In [152]:
for column in df.columns:
    print(f"Столбец '{column}': {df[column].isna().sum()} пустых значений")


Столбец 'Country': 0 пустых значений
Столбец 'Happiness Score': 74 пустых значений
Столбец 'Region': 0 пустых значений
Столбец 'Main Language': 0 пустых значений
Столбец 'Political Regime': 44 пустых значений
Столбец 'Independent': 1 пустых значений
Столбец 'UN Member': 0 пустых значений
Столбец 'Main Currency': 0 пустых значений
Столбец 'Population': 0 пустых значений
Столбец 'Area': 0 пустых значений
Столбец 'Car Side': 0 пустых значений
Столбец 'Income share held by lowest 20%': 69 пустых значений
Столбец 'Life expectancy at birth, total (years)': 5 пустых значений
Столбец 'Prevalence of HIV, total (% of population ages 15-49)': 86 пустых значений
Столбец 'Renewable energy consumption (% of total final energy consumption)': 31 пустых значений
Столбец 'Intentional homicides (per 100,000 people)': 22 пустых значений
Столбец 'Refugee population by country or territory of asylum': 53 пустых значений
Столбец 'Armed forces personnel (% of total labor force)': 65 пустых значений
Столбец 'U

# Изменение типа данных на более подходящий и расчет новых столбцов

Перекодируем 'Car Side' из столбика с категориальными значениями 'right' и 'left' в столбик в булевыми значениями 'True' и 'False'.

In [153]:
df['IsCarRight'] = df['Car Side'].eq('right').astype(bool)

print("Проверка преобразования:")
print(df[['Car Side', 'IsCarRight']].head(10))


df.drop('Car Side', axis=1, inplace=True)

Проверка преобразования:
  Car Side  IsCarRight
0    right        True
1    right        True
2    right        True
3    right        True
4    right        True
5    right        True
6    right        True
7    right        True
8    right        True
9     left       False


Перекодируем также и категориальную номинальную переменную 'Political Regime' со значениями: 'Closed Autocracies', 'Electoral Autocracies', 'Liberal Democracies', 'Electoral Democracies' в порядковую со значениями 0, 1, 2, 3 соответственно - чем выше, тем более демократичная страна.

In [154]:
df['Political Regime'] = df['Political Regime'].map({
'Closed Autocracies': 0,
'Electoral Autocracies': 1,
'Liberal Democracies': 2,
'Electoral Democracies': 3
})
df['Political Regime'].head()


0    2.0
1    2.0
2    2.0
3    2.0
4    3.0
Name: Political Regime, dtype: float64

Найдем колонки, у которых отсутствует дробная часть

In [155]:
float_cols = df.select_dtypes(include='float').columns
float2int_cols = [col for col in float_cols if (df[col].dropna() % 1 == 0).all()]
float2int_cols

['Political Regime',
 'Life expectancy at birth, total (years)',
 'Intentional homicides (per 100,000 people)',
 'Refugee population by country or territory of asylum',
 'Urban population (% of total population)',
 'GDP per person employed (constant 2021 PPP $)',
 'Employment to population ratio, 15+, total (%) (modeled ILO estimate)',
 'High-technology exports (% of manufactured exports)',
 'Individuals using the Internet (% of population)',
 'Mobile cellular subscriptions (per 100 people)',
 'Electric power consumption (kWh per capita)',
 'Access to clean fuels and technologies for cooking (% of population)',
 'People using at least basic drinking water services (% of population)',
 'Proportion of seats held by women in national parliaments (%)',
 'Maternal mortality ratio (modeled estimate, per 100,000 live births)',
 'Primary completion rate, total (% of relevant age group)',
 'Mortality caused by road traffic injury (per 100,000 population)']

Изменим тип переменных этих колонок на int

In [156]:
df[float2int_cols] = df[float2int_cols].astype('Int64')

In [157]:
set(df.dtypes.values)

{Int64Dtype(), dtype('bool'), dtype('float64'), dtype('int64'), dtype('O')}

Составим столбец "Плотность населения" (количество людей, проживающее на 1 км²), используя количество населения и площадь страны


Перекодируем количество бешенцев в стране на "% беженцев от общего населения страны"

In [158]:
df['Refugee Percent'] = df['Refugee population by country or territory of asylum'] / df['Population'] * 100
df[['Refugee Percent', 'Refugee population by country or territory of asylum', 'Population']].head()

Unnamed: 0,Refugee Percent,Refugee population by country or territory of asylum,Population
0,1.624906,89869,5530719
1,1.181739,68912,5831404
2,2.378386,8715,366425
3,2.295198,237632,10353442
4,0.013399,1235,9216900


In [159]:
df.drop(columns='Refugee population by country or territory of asylum', inplace=True)

In [160]:
import numpy as np
df["Density of Population"] = df["Population"] / df["Area"]

In [161]:
df[["Density of Population", "Population", "Area"]].head()

Unnamed: 0,Density of Population,Population,Area
0,16.342573,5530719,338424.0
1,135.318235,5831404,43094.0
2,3.557524,366425,103000.0
3,22.992576,10353442,450295.0
4,443.760231,9216900,20770.0


Само по себе количество населения и площадь страны мало о чем говорит, в отличие от плотности населения

In [162]:
df.drop(columns=['Population', 'Area'], inplace=True)

Перекодируем 'Intentional homicides (per 100,000 people)', те количество суицидальных случаев на 100к человек в категориальную порядковую.
Перекодирование осуществляется по перцентилям (20%, 50%, 80%, 100%) - небольшое количество, умеренно низкое, умеренно высокое, высокое - 0, 1, 2, 3.

Перекодирование по таким перцентилям используется много где в статистике, например, World Bank так считает уровень дохода.

In [163]:
df['Homicide Rate Category'] = pd.qcut(
    df['Intentional homicides (per 100,000 people)'],
    q=[0, 0.2, 0.5, 0.8, 1.0],
    labels=[0, 1, 2, 3]
).astype('Int32')

df[['Homicide Rate Category', 'Intentional homicides (per 100,000 people)']].tail()

Unnamed: 0,Homicide Rate Category,"Intentional homicides (per 100,000 people)"
211,2,4
212,0,1
213,2,7
214,3,29
215,0,0


In [164]:
df.drop(columns='Intentional homicides (per 100,000 people)', inplace=True)

Перекодируем основной язык страны в "является ли основной язык страны английским"

In [165]:
df['Is Main Language English'] = (df['Main Language'] == 'English')
df['Is Main Language English'].tail()

211    False
212     True
213     True
214    False
215     True
Name: Is Main Language English, dtype: bool

In [166]:
df.drop(columns='Main Language', inplace=True)

Перекодируем столбец с кодом главной валюты в стране в "является ли эта валюта мировой резервной". Такие валюты используют и накапливают ЦБ иных стран.

Мировые резервные валюты:

* Доллар США
* Евро
* Фунт стерлингов
* Японская иена

In [167]:
reserve_currency_codes = ["USD", "EUR", "GBP", "JPY"]
df['Is Reserve Currency'] = df['Main Currency'].apply(lambda x: x in reserve_currency_codes)
df[['Main Currency', 'Is Reserve Currency']].tail()

Unnamed: 0,Main Currency,Is Reserve Currency
211,USD,True
212,TOP,False
213,AUD,False
214,EUR,True
215,USD,True


In [168]:
df.drop(columns='Main Currency', inplace=True)

Переведем индекс производительности логистики в диапазон он 0 до 1 (сейчас от 1 до 5)

In [169]:
df['Logistics Performance Index'] = (df['Logistics performance index: Ease of arranging competitively priced shipments (1=low to 5=high)'] - 1) / 4
df[['Logistics Performance Index', 'Logistics performance index: Ease of arranging competitively priced shipments (1=low to 5=high)']].head()

Unnamed: 0,Logistics Performance Index,Logistics performance index: Ease of arranging competitively priced shipments (1=low to 5=high)
0,0.775,4.1
1,0.65,3.6
2,0.575,3.3
3,0.6,3.4
4,0.625,3.5


In [170]:
df.drop(columns='Logistics performance index: Ease of arranging competitively priced shipments (1=low to 5=high)', inplace=True)

Перекодируем % женщин в парламенте в "отклонение от гендерного паритета в парламенте"

Нас интересует отклонение от 50%

In [171]:
df['Parlament Gender Parity Deviation'] = (df['Proportion of seats held by women in national parliaments (%)'] - 50).abs()
df[['Parlament Gender Parity Deviation', 'Proportion of seats held by women in national parliaments (%)']].head()

Unnamed: 0,Parlament Gender Parity Deviation,Proportion of seats held by women in national parliaments (%)
0,4,46
1,6,44
2,2,48
3,4,46
4,26,24


In [172]:
df.drop(columns='Proportion of seats held by women in national parliaments (%)', inplace=True)

In [173]:
df.columns

Index(['Country', 'Happiness Score', 'Region', 'Political Regime',
       'Independent', 'UN Member', 'Income share held by lowest 20%',
       'Life expectancy at birth, total (years)',
       'Prevalence of HIV, total (% of population ages 15-49)',
       'Renewable energy consumption (% of total final energy consumption)',
       'Armed forces personnel (% of total labor force)',
       'Urban population (% of total population)', 'GNI (current US$)',
       'Foreign direct investment, net (BoP, current US$)',
       'GDP per person employed (constant 2021 PPP $)',
       'Employment to population ratio, 15+, total (%) (modeled ILO estimate)',
       'Forest area (% of land area)',
       'Terrestrial and marine protected areas (% of total territorial area)',
       'High-technology exports (% of manufactured exports)',
       'Individuals using the Internet (% of population)',
       'Mobile cellular subscriptions (per 100 people)',
       'Alternative and nuclear energy (% of total

# Цель и задачи исследования

# Гипотезы

Н1 - Существует взаимосвязь между процентом самоубийств в стране и индексом счастья в ней

Н2 - Существует взаимосвязь между индексом счастья и продолжительностью жизни в стране

H3 - Существует взаимосвязь между степенью демократичности политического режима и индексом счастья

Н4 - Существует взаимосвязь между вкладом сельского хозяйства в ВВП и доступом к питьевой воде

Н5 - Существует взаимосвязь между социальным взносом и индексом счастья

Н6 - Существует взаимосвязь между паритетом в парламенте и индексом счастья

Н7 - Существует взаимосвязь между языком и регионом

Н8 - Существует взаимосвязь между основной валютой и языком

Н9 - Существует взаимосвязь между регионом и лево или право сторонним движением

H10 - Существует взаимосвязь между политическим режимом и регионом

# **Построение графиков по имеющимся данным**

Рассмотрим первую гипотезу

### **Н1 - Существует взаимосвязь между процентом самоубийств в стране и индексом счастья в ней**

In [174]:
import seaborn as sns
import matplotlib.pyplot as plt

In [175]:
sns.scatterplot(data = df,
                x = 'Intentional homicides (per 100,000 people)',
                y =  'Happiness Score')
plt.show()

ValueError: Could not interpret value `Intentional homicides (per 100,000 people)` for parameter `x`

По данному графику мы можем заметить, что действительно существует взаимосвязь между индексом счастья и количеством самоубийств: там где индекс максимально высокий (от 7 до 8), количество самоубийств низкое.
Однако если говорить про средние значения индекса счастья, прямой связи не прослеживается.

Рассмотрим следующую гипотезу

### **Н2 - Существует взаимосвязь между индексом счастья и продолжительностью жизни в стране**

In [None]:
sns.scatterplot(data = df,
                x = 'Life expectancy at birth, total (years)',
                y =  'Happiness Score')
plt.show()

Гипотеза подтвердилась. В странах с высокой продолжительностью индекс счастья очень высокий (минимум 6), в то время как низкая продолжительность жизни наблюдается как раз в странах с низким индексом счастья.

### **H3 - Существует взаимосвязь между степенью демократичности политического режима и индексом счастья**

In [None]:
sns.scatterplot(data = df,
                x = 'Political Regime',
                y =  'Happiness Score')
plt.show()

'Closed Autocracies': 0,

'Electoral Autocracies': 1,

'Liberal Democracies': 2,

'Electoral Democracies': 3


Тут мы также видим подтверждение гипотезы, так как в демократических странах, а особенно в странах либеральной демократии очень высокий индекс счастья, а в недемократических странах индекс счастья значительно ниже

### **Н4 - Существует взаимосвязь между вкладом сельского хозяйства в ВВП и доступом к питьевой воде**

In [None]:
sns.scatterplot(data = df,
                x = 'GDP per person employed (constant 2021 PPP $)',
                y =  'People using at least basic drinking water services (% of population)')
plt.show()

Тут мы также наблюдаем, что при низком ВВП на душу (от 0 до 50000) единственные случаи, где у людей нет доступа к сервисам питьевой воды. Получается, гипотеза подтверждается.

### **Н5 - Существует взаимосвязь между социальным взносом и индексом счастья**

In [None]:
sns.scatterplot(data = df,
                x = 'Social contributions (% of revenue)',
                y =  'Happiness Score')
plt.show()

При социальном взносе от 25% индекс счастья от 5 до 8, что является высоким показателем, так что можно считать что гипотеза подтвердилась

### **Н6 - Существует взаимосвязь между паритетом в парламенте и индексом счастья**

In [None]:
df['Parlament_Parity'] = 1 - abs(df['Proportion of seats held by women in national parliaments (%)']-50)/50
sns.scatterplot(data = df,
                x = 'Parlament_Parity',
                y =  'Happiness Score')
plt.show()

Гипотеза подтвеждается, так как при количественном равенстве полов в парламенте индекс счастья значительно выше

# **Построение сводных таблиц, подсчет корреляции, тест ХИ-квадрат**

### **Н2 - Существует взаимосвязь между индексом счастья и продолжительностью жизни в стране**

Посмотрим на корреляцию

In [None]:
from scipy import stats
import pandas as pd

df_clean = df.dropna(subset=['Life expectancy at birth, total (years)', 'Happiness Score'])

corr_result = stats.pearsonr(df_clean['Life expectancy at birth, total (years)'], df_clean['Happiness Score'])
print(f"Pearson's r: {corr_result[0]}, p-value: {corr_result[1]}")
df['Life_expectancy_bins'] = pd.cut(df['Life expectancy at birth, total (years)'], bins=5)
pivot = pd.pivot_table(
    df,
    index='Life_expectancy_bins',
    values='Happiness Score',
    aggfunc=['mean', 'count']
)


pivot['mean'].plot(kind='bar', title='Средний уровень счастья по интервалам продолжительности жизни')
plt.show()


print(f"Корреляция: {df['Life expectancy at birth, total (years)'].corr(df['Happiness Score']):.2f}")

Поскольку p-value < 0.05, гипотеза Н2 подтвердилась

Коэффициент корреляции положительный, следовательно, между переменными наблюдается прямая взаимосвязь

Коэффициент корреляции равен 0.75, следовательно, между переменными наблюдается сильная корреляция.

### **H3 - Существует взаимосвязь между степенью демократичности политического режима и индексом счастья**

In [None]:
from scipy import stats
import pandas as pd
import matplotlib.pyplot as plt

df_clean = df.dropna(subset=['Political Regime', 'Happiness Score'])

corr_result = stats.kendalltau(df_clean['Political Regime'], df_clean['Happiness Score'])
print(f"Kendall's tau: {corr_result[0]}, p-value: {corr_result[1]}")

df.dropna(subset=['Political Regime', 'Happiness Score'], inplace=True)
pivot_regime = pd.pivot_table(
    data=df,
    index='Political Regime',
    values='Happiness Score',
    aggfunc=['mean', 'std', 'count']
)

plt.figure(figsize=(10, 5))
pivot_regime['mean'].plot(kind='bar', capsize=5)
plt.title('Средний уровень счастья по политическим режимам')
plt.ylabel('Happiness Score')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()

Поскольку p-value < 0.05, гипотеза Н3 подтвердилась

Коэффициент корреляции положительный, следовательно, между переменными наблюдается прямая взаимосвязь

Коэффициент корреляции равен 0.18, следовательно, между переменными наблюдается слабая корреляция.

### **Н4 - Существует взаимосвязь между вкладом сельского хозяйства в ВВП и доступом к питьевой воде**

In [None]:
from scipy import stats
import pandas as pd

df_clean = df.dropna(subset=['GDP per person employed (constant 2021 PPP $)', 'People using at least basic drinking water services (% of population)'])

corr_result = stats.pearsonr(df_clean['GDP per person employed (constant 2021 PPP $)'], df_clean['People using at least basic drinking water services (% of population)'])
print(f"Pearson's r: {corr_result[0]}, p-value: {corr_result[1]}")
df.dropna(subset=['GDP per person employed (constant 2021 PPP $)',
                 'People using at least basic drinking water services (% of population)'], inplace=True)


df['GDP_bins'] = pd.cut(df['GDP per person employed (constant 2021 PPP $)'], bins=5)


pivot_gdp_water = pd.pivot_table(
    data=df,
    index='GDP_bins',
    values='People using at least basic drinking water services (% of population)',
    aggfunc=['mean', 'count']
)


plt.figure(figsize=(12, 6))
plt.scatter(
    df['GDP per person employed (constant 2021 PPP $)'],
    df['People using at least basic drinking water services (% of population)'],
    alpha=0.5
)
plt.xlabel('GDP per person employed')
plt.ylabel('Access to basic drinking water (%)')
plt.title('Зависимость доступа к воде от ВВП на работника')
plt.grid(True)
plt.show()


corr_gdp_water = df['GDP per person employed (constant 2021 PPP $)'].corr(
    df['People using at least basic drinking water services (% of population)']
)
print(f"Корреляция GDP и доступа к воде: {corr_gdp_water:.2f}")

Поскольку p-value < 0.05, гипотеза Н4 подтвердилась

Коэффициент корреляции положительный, следовательно, между переменными наблюдается прямая взаимосвязь

Коэффициент корреляции равен 0.59, следовательно, между переменными наблюдается средняя корреляция.

### **Н5 - Существует взаимосвязь между социальным взносом и индексом счастья**

In [None]:
from scipy import stats
import pandas as pd

df_clean = df.dropna(subset=['Social contributions (% of revenue)', 'Happiness Score'])

corr_result = stats.pearsonr(df_clean['Social contributions (% of revenue)'], df_clean['Happiness Score'])
print(f"Pearson's r: {corr_result[0]}, p-value: {corr_result[1]}")

df.dropna(subset=['Social contributions (% of revenue)', 'Happiness Score'], inplace=True)


df['Social_contrib_bins'] = pd.cut(df['Social contributions (% of revenue)'], bins=5)

pivot_social_happiness = pd.pivot_table(
    data=df,
    index='Social_contrib_bins',
    values='Happiness Score',
    aggfunc=['mean', 'count']
)

plt.figure(figsize=(10, 5))
plt.plot(df['Social contributions (% of revenue)'], df['Happiness Score'], 'o', alpha=0.6)
plt.xlabel('Социальные взносы (% от дохода)')
plt.ylabel('Happiness Score')
plt.title('Взаимосвязь социальных взносов и уровня счастья')
plt.grid(True)
plt.show()

corr_social_happiness = df['Social contributions (% of revenue)'].corr(df['Happiness Score'])
print(f"Корреляция: {corr_social_happiness:.2f}")

Поскольку p-value < 0.05, гипотеза Н5 подтвердилась

Коэффициент корреляции положительный, следовательно, между переменными наблюдается прямая взаимосвязь

Коэффициент корреляции равен 0.55, следовательно, между переменными наблюдается средняя корреляция.

### **Н6 - Существует взаимосвязь между паритетом в парламенте и индексом счастья**

In [None]:
from scipy import stats
import pandas as pd



df_clean = df.dropna(subset=['Parlament_Parity', 'Happiness Score'])

corr_result = stats.pearsonr(df_clean['Parlament_Parity'], df_clean['Happiness Score'])
print(f"Pearson's r: {corr_result[0]}, p-value: {corr_result[1]}")

df.dropna(subset=['Parlament_Parity', 'Happiness Score'], inplace=True)

df['Women_seats_bins'] = pd.cut(df['Parlament_Parity'], bins=5)
pivot_women_happiness = pd.pivot_table(
    data=df,
    index='Women_seats_bins',
    values='Happiness Score',
    aggfunc=['mean', 'count']
)

plt.figure(figsize=(10, 5))
sns.regplot(
    x='Parlament_Parity',
    y='Happiness Score',
    data=df,
    scatter_kws={}
)
plt.title('Взаимосвязь паритета в парламенте и индекса счастья')
plt.grid(True)
plt.show()

corr_women_happiness = df['Parlament_Parity'].corr(df['Happiness Score'])
print(f"Корреляция: {corr_women_happiness:.2f}")

Поскольку p-value < 0.05, гипотеза Н6 подтвердилась

Коэффициент корреляции положительный, следовательно, между переменными наблюдается прямая взаимосвязь

Коэффициент корреляции равен 0.5, следовательно, между переменными наблюдается средняя корреляция.

# **Тест Хи-квадрат**

### **Н7 - Существует взаимосвязь между языком и регионом**

In [None]:
np.random.seed(42)
param1 = np.random.normal(50, 10, 1000)
param2 = np.random.normal(60, 15, 1000)

plt.figure(figsize=(10, 6))
plt.hist(param1, bins=30, alpha=0.5, label = df['Region'], color='blue', edgecolor='black')
plt.hist(param2, bins=30, alpha=0.5, label = df['Main Language'], color='red', edgecolor='black')

plt.xlabel('Значение')
plt.ylabel('Частота')
plt.title('Гистограмма региона и национального языка')
plt.legend()
plt.grid(True)

plt.show()

In [None]:
language_region = pd.crosstab(df['Region'], df['Main Language'])
language_region

In [None]:
from scipy import stats
stats.chi2_contingency(language_region)

In [None]:
print('chi2 = ', stats.chi2_contingency(language_region)[0], '   p-value =', stats.chi2_contingency(language_region)[1])

p-value = 1.2918445160959355e-08 < 0.05

p-value = 1.2918445160959355e-08 < 0.01

Гипотеза H7 принимается на уровне значимости 5%.

Гипотеза H7 принимается на уровне значимости 1%.

Гипотеза Н7 верна

### **Н8 - Существует взаимосвязь между основной валютой и языком**

In [None]:
np.random.seed(42)
param1 = np.random.normal(50, 10, 1000)
param2 = np.random.normal(60, 15, 1000)

plt.figure(figsize=(10, 6))
plt.hist(param1, bins=30, alpha=0.5, label = df['Region'], color='blue', edgecolor='black')
plt.hist(param2, bins=30, alpha=0.5, label = df['Main Currency'], color='red', edgecolor='black')

plt.xlabel('Значение')
plt.ylabel('Частота')
plt.title('Гистограмма основной валюты и регионом')
plt.legend()
plt.grid(True)

plt.show()

In [None]:
main_currency_region = pd.crosstab(df['Region'], df['Main Language'])
main_currency_region

In [None]:
from scipy import stats
stats.chi2_contingency(main_currency_region)

In [None]:
print('chi2 = ', stats.chi2_contingency(main_currency_region)[0], '   p-value =', stats.chi2_contingency(main_currency_region)[1])

p-value = 1.2918445160959355e-08 < 0.05

p-value = 1.2918445160959355e-08 < 0.01

Гипотеза H8 принимается на уровне значимости 5%.

Гипотеза H8 принимается на уровне значимости 1%.

Гипотеза Н8 верна

### **Н9 - Существует взаимосвязь между регионом и лево или право сторонним движением**

In [None]:
np.random.seed(42)
param1 = np.random.normal(50, 10, 1000)
param2 = np.random.normal(60, 15, 1000)
plt.figure(figsize=(10, 6))
plt.hist(param1, bins=30, alpha=0.5, label = df['Region'], color='blue', edgecolor='black')
plt.hist(param2, bins=30, alpha=0.5, label = df['IsCarRight'], color='red', edgecolor='black')

plt.xlabel('Значение')
plt.ylabel('Частота')
plt.title('Гистограмма регионом и правосторонним движением')
plt.legend()
plt.grid(True)

plt.show()

In [None]:
car_side_region = pd.crosstab(df['Region'], df['IsCarRight'])
car_side_region

In [None]:
from scipy import stats
stats.chi2_contingency(car_side_region)

In [None]:
print('chi2 = ', stats.chi2_contingency(car_side_region)[0], '   p-value =', stats.chi2_contingency(car_side_region)[1])

p-value = 0.00539520476168706 < 0.05

p-value = 0.00539520476168706 < 0.01

Гипотеза H9 принимается на уровне значимости 5%.

Гипотеза H9 принимается на уровне значимости 1%.

Гипотеза Н9 верна

### **H10 - Существует взаимосвязь между политическим режимом и регионом**

In [None]:
np.random.seed(42)
param1 = np.random.normal(50, 10, 1000)
param2 = np.random.normal(60, 15, 1000)
plt.figure(figsize=(10, 6))
plt.hist(param1, bins=30, alpha=0.5, label = df['Region'], color='blue', edgecolor='black')
plt.hist(param2, bins=30, alpha=0.5, label = df['Political Regime'], color='red', edgecolor='black')

plt.xlabel('Значение')
plt.ylabel('Частота')
plt.title('Гистограмма регионом и политическим режимом')
plt.legend()
plt.grid(True)

plt.show()

In [None]:
regime_region = pd.crosstab(df['Region'], df['Political Regime'])
regime_region

In [None]:
from scipy import stats
stats.chi2_contingency(regime_region)

In [None]:
print('chi2 = ', stats.chi2_contingency(car_side_region)[0], '   p-value =', stats.chi2_contingency(regime_region)[1])

p-value = 9.957837961684144e-11 < 0.05

p-value = 9.957837961684144e-11 < 0.01

Гипотеза H10 принимается на уровне значимости 5%.

Гипотеза H10 принимается на уровне значимости 1%.

Гипотеза Н10 верна