## "Теория вероятностей и математическая статистика"


Я выбрала данные  с Kaggle.com: https://www.kaggle.com/datasets/eliasturk/world-happiness-based-on-cpi-20152020

Хочу узнать, какой самый счастливый континент из данного датасета.

Задачи, которые собираюсь выполнить в процессе этой работы:

Провести разведочный анализ данных
Провести дисперсионный анализ данных
Выдвинуть гипотезы по изучаемому датасету и принять/опровергнуть их

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

%matplotlib inline

### Разведочный анализ данных

In [60]:
df = pd.read_csv('WorldHappiness_Corruption_2015_2020.csv')
df

Unnamed: 0,Country,happiness_score,gdp_per_capita,family,health,freedom,generosity,government_trust,dystopia_residual,continent,Year,social_support,cpi_score
0,Norway,7.5370,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027,Europe,2015,0.000000,88
1,Denmark,7.5220,1.482383,1.551122,0.792566,0.626007,0.355280,0.400770,2.313707,Europe,2015,0.000000,91
2,Iceland,7.5040,1.480633,1.610574,0.833552,0.627163,0.475540,0.153527,2.322715,Europe,2015,0.000000,79
3,Switzerland,7.4940,1.564980,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716,Europe,2015,0.000000,86
4,Finland,7.4690,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182,Europe,2015,0.000000,90
...,...,...,...,...,...,...,...,...,...,...,...,...,...
787,Botswana,3.4789,0.997549,0.000000,0.494102,0.509089,0.033407,0.101786,0.257241,Africa,2020,1.085695,60
788,Tanzania,3.4762,0.457163,0.000000,0.442678,0.509343,0.271541,0.203881,0.718963,Africa,2020,0.872675,38
789,Rwanda,3.3123,0.343243,0.000000,0.572383,0.604088,0.235705,0.485542,0.548445,Africa,2020,0.522876,54
790,Zimbabwe,3.2992,0.425564,0.000000,0.375038,0.377405,0.151349,0.080929,0.841031,Africa,2020,1.047835,24


In [8]:
df.columns

Index(['Country', 'happiness_score', 'gdp_per_capita', 'family', 'health',
       'freedom', 'generosity', 'government_trust', 'dystopia_residual',
       'continent', 'Year', 'social_support', 'cpi_score'],
      dtype='object')

country           - страна
happiness_score   - степень счастья от 0 до 10
gdp_per_capita    - Степень, в которой ВВП вносит свой вклад в расчет показателя счастья.
family            - Степень, в которой семья вносит свой вклад в расчет показателя счастья
health            - Степень, в которой ожидаемая продолжительность жизни повлияла на расчет показателя счастья
freedom           - Степень, в которой Свобода способствовала подсчету балла счастья.
generosity        - Числовое значение, рассчитанное на основе представлений участников опроса о щедрости в их стране.
government_trust  - Степень, в которой восприятие коррупции влияет на оценку счастья.
dystopia_residual - Оценка, основанная на гипотетическом сравнении с самой печальной страной в мире
continent         - континент
year              - год 
social_support    - социальная поддержка
cpi_score         - индекс потребительских цен

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Country            792 non-null    object 
 1   happiness_score    792 non-null    float64
 2   gdp_per_capita     792 non-null    float64
 3   family             792 non-null    float64
 4   health             792 non-null    float64
 5   freedom            792 non-null    float64
 6   generosity         792 non-null    float64
 7   government_trust   792 non-null    float64
 8   dystopia_residual  792 non-null    float64
 9   continent          792 non-null    object 
 10  Year               792 non-null    int64  
 11  social_support     792 non-null    float64
 12  cpi_score          792 non-null    int64  
dtypes: float64(9), int64(2), object(2)
memory usage: 80.6+ KB


In [23]:
df['continent'].unique()

array(['Europe', 'North America', 'Australia', 'Asia', 'South America',
       'Africa'], dtype=object)

In [61]:
# Закодируем цифрами названия континентов: 
df['continent'] = df['continent'].astype('category')
df['continent'] = df['continent'].cat.codes
df

Unnamed: 0,Country,happiness_score,gdp_per_capita,family,health,freedom,generosity,government_trust,dystopia_residual,continent,Year,social_support,cpi_score
0,Norway,7.5370,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027,3,2015,0.000000,88
1,Denmark,7.5220,1.482383,1.551122,0.792566,0.626007,0.355280,0.400770,2.313707,3,2015,0.000000,91
2,Iceland,7.5040,1.480633,1.610574,0.833552,0.627163,0.475540,0.153527,2.322715,3,2015,0.000000,79
3,Switzerland,7.4940,1.564980,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716,3,2015,0.000000,86
4,Finland,7.4690,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182,3,2015,0.000000,90
...,...,...,...,...,...,...,...,...,...,...,...,...,...
787,Botswana,3.4789,0.997549,0.000000,0.494102,0.509089,0.033407,0.101786,0.257241,0,2020,1.085695,60
788,Tanzania,3.4762,0.457163,0.000000,0.442678,0.509343,0.271541,0.203881,0.718963,0,2020,0.872675,38
789,Rwanda,3.3123,0.343243,0.000000,0.572383,0.604088,0.235705,0.485542,0.548445,0,2020,0.522876,54
790,Zimbabwe,3.2992,0.425564,0.000000,0.375038,0.377405,0.151349,0.080929,0.841031,0,2020,1.047835,24


Теперь континенты обозначены так:
0 - Africa
1 - Asia
2 - Australia
3 - Europe
4 - North America
5 - South America

In [62]:
# удалим столбец страна
df = df.drop(['Country'], axis=1)
df

Unnamed: 0,happiness_score,gdp_per_capita,family,health,freedom,generosity,government_trust,dystopia_residual,continent,Year,social_support,cpi_score
0,7.5370,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027,3,2015,0.000000,88
1,7.5220,1.482383,1.551122,0.792566,0.626007,0.355280,0.400770,2.313707,3,2015,0.000000,91
2,7.5040,1.480633,1.610574,0.833552,0.627163,0.475540,0.153527,2.322715,3,2015,0.000000,79
3,7.4940,1.564980,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716,3,2015,0.000000,86
4,7.4690,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182,3,2015,0.000000,90
...,...,...,...,...,...,...,...,...,...,...,...,...
787,3.4789,0.997549,0.000000,0.494102,0.509089,0.033407,0.101786,0.257241,0,2020,1.085695,60
788,3.4762,0.457163,0.000000,0.442678,0.509343,0.271541,0.203881,0.718963,0,2020,0.872675,38
789,3.3123,0.343243,0.000000,0.572383,0.604088,0.235705,0.485542,0.548445,0,2020,0.522876,54
790,3.2992,0.425564,0.000000,0.375038,0.377405,0.151349,0.080929,0.841031,0,2020,1.047835,24


### Выдвигаем гипотезу

Н0: Континент не является значимым при определении индекса счастья

Н1: Континет является значимым при определении индекса счастья


In [66]:
#Обозначим за переменные интересующие нас факторы по континентам:
y1_Africa = np.array(df.loc[df['continent'] == 0, 'happiness_score'])
y1_Africa.shape

(192,)

In [64]:
y2_Asia = np.array(df.loc[df['continent'] == 1, 'happiness_score'])
y2_Asia.shape

(222,)

In [74]:
y3_Australia = np.array(df.loc[df['continent'] == 2, 'happiness_score'])
y3_Australia.shape

(12,)

In [68]:
y4_Europe = np.array(df.loc[df['continent'] == 3, 'happiness_score'])
y4_Europe.shape

(228,)

In [69]:
y5_North_America = np.array(df.loc[df['continent'] == 4, 'happiness_score'])
y5_North_America.shape

(18,)

In [70]:
y6_South_America = np.array(df.loc[df['continent'] == 5, 'happiness_score'])
y6_South_America.shape

(120,)

### Дисперсионный анализ данных

In [78]:
alpha = 0.05

In [85]:
def analyze(y1, y2, y3, y4, y5, y6):
    
    # Подготавливаем данные
    samples = (y1, y2, y3, y4, y5, y6)
    Y = np.concatenate([y1, y2, y3, y4, y5, y6])
    
    # Считаем суммы квадратов отклонений между группами и 
    # внутри групп для дальнейшего расчёта
    SSb = sum((yi.mean() - Y.mean())**2 * yi.shape[0] for yi in samples)
    SSw = sum(sum((yi - yi.mean())**2) for yi in samples)

    # Расчёт соответствующих дисперсий для расчёта F-статистики
    k = len(samples)
    n = Y.shape[0]
    sigma2_b = SSb / (k - 1)
    sigma2_w = SSw / (n - k)

    # Расчёт F-статистики
    F = sigma2_b / sigma2_w
    print(f'Статистика F = {F}')

    # Нахождение критической области при распределении Фишера
    k1 = k - 1
    k2 = n - k
    t = stats.f.ppf(1-alpha, k1, k2)
    print(f'k1 = {k1}, k2 = {k2}')
    print(f'Критическая область: {t}')

    # Вывод о принятии / непринятии нулевой гипотезы
    my_str = ''
    if F < t:
        my_str = 'НЕ '
    
    print(f'\nЗначение статистики {my_str}попало в критическую область, ' \
          f'значит определения индекса счастья по этому фактору ' \
          f'{my_str}является значимым.')

In [87]:
analyze(y1_Africa, y2_Asia, y3_Australia, y4_Europe, y5_North_America, y6_South_America)

Статистика F = 138.2961242953001
k1 = 5, k2 = 786
Критическая область: 2.225496425658008

Значение статистики попало в критическую область, значит для определения индекса счастья по этому фактору является значимым.


Можно проверить гипотезу, что уровень счастья зависит от года.

In [90]:
a1 = np.array(df.loc[df['Year'] == 2015, 'happiness_score'])
a2 = np.array(df.loc[df['Year'] == 2016, 'happiness_score'])
a3 = np.array(df.loc[df['Year'] == 2017, 'happiness_score'])
a4 = np.array(df.loc[df['Year'] == 2018, 'happiness_score'])
a5 = np.array(df.loc[df['Year'] == 2019, 'happiness_score'])
a6 = np.array(df.loc[df['Year'] == 2020, 'happiness_score'])

In [91]:
analyze(a1, a2, a3, a4, a5, a6)

Статистика F = 0.2676748088328933
k1 = 5, k2 = 786
Критическая область: 2.225496425658008

Значение статистики НЕ попало в критическую область, значит для определения индекса счастья по этому фактору НЕ является значимым.
