# **Wolrd Happiness Report 2021**


# <a class="anchor" id="0."></a> Contents  

* [1.Libraries Used](#1.)  
* [2. Data](#2.)  
* * [2.1. Recognizing and Editing Data](#2.1.)  
* [3. Descriptive Statistics](#3.)  
* * [3.1. BoxPlot](#3.1)  
* * [3.2. Normal Distribution](#3.2)  
* * [3.3. Transformation Methods](#3.3.)  
* [4. Descriptive Statistics by Groups(ANOVA)](#4.)  
* [5. Correlation](#5.)  




# <a class="anchor" id="1."></a> Libraries Used 


##### Auxiliary functions used in analysis,library.

**Analizde kullanılan yardımcı fonksiyonlar,kütüphanemiz.**

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.formula.api as smf

from scipy.stats import stats
from scipy import stats
import pylab #ggplot

from statsmodels.stats.multicomp import (pairwise_tukeyhsd,MultiComparison) #Tukey

import warnings
warnings.filterwarnings('ignore')

[Go to contents menu](#0.)
# <a class="anchor" id="2."></a> Data

##### Our data includes the happiness scores of countries for 2021. We will conduct regression analyzes of plus or minus variables that are thought to be a factor in happiness. We will examine the classes formed by the countries in our data, namely the effects of regions on happiness. 
##### After pre-processing and testing our data, we will finally examine it with regression analyzes.  


**Verimiz 2021 yılına ait ülkelerin mutluluk skorlarını içermektedir. Mutluluğa etken olabiliceği düşünülen, artı veya eksi, değişkenler regresyon analizleri yaparak incelemelerde bulunacağız. Verimizde bulunan ülkelerin oluşturduğu sınıfları, yani bölgelerin mutluluk ile olan etkilerini inceleyeceğiz.  
Verimizi ön işlemlerden geçirip testlere tabi tuttuktan sonra en son olarak regresyon analizleriyle incelemelerde bulunacağız.**

##### Let's pull the data and examine it.

**Veriyi çalışma alanına aktaralım ve inceleyelim.**

In [None]:
import os
for dirname, _, filenames in os.walk('../input/world-happiness-report-2021'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

data = pd.read_csv('../input/world-happiness-report-2021/world-happiness-report-2021.csv', sep=',').copy()
data.head()

In [None]:
data.shape
print("20 gözlemden oluşan verimizde kullancağımız verileri seçelim ve düzenleyelim.")

[Go to contents menu](#0.)
## Recognizing and Editing Data <a class="anchor" id="2.1."></a>

##### The variables that we will use in our analysis are listed below together with our table.

**Analizimizde kullanacağımız değişkenlerimiz tablomuz ile birlikte aşağıda sıralanmıştır.**
  
* Country name(country)
* Regional indicator(regional)
* Ladder score(score) : Happiness score
* Logged GDP per capita(gdp) : Gross Domestic Product
* Social support(support)
* Healthy life expectancy(healthy)
* Freedom to make life choices(freedom)
* Generosity(generosity)
* Perceptions of corruption(corruption)

In [None]:
data.drop(data.columns[12:],axis=1,inplace=True)
data.drop(data.columns[3:6],axis=1,inplace=True)
pd.concat([data.head(),data.tail()])

##### There are 2 categorical and 7 continuous variables in the dataset, which consists of a total of 9 variables and 149 observations.
##### There are no missing observations in the data set.

**Toplam 9 değişkenden ve 149 gözlem oluşmakta olan verisetinde 2 adet kategorik 7 adette sürekli değişken bulunmaktadır.  
Veri setinde eksik gözlem börülmemektedir.**

In [None]:
data.info()

##### Let's rename the variables.

**İşlem kolaylığı için değişkeleri yeniden adlandıralım.**

In [None]:
#data.rename(columns=)
data.columns = ['country','regional','score','gdp','support','healthy','freedom','generosity','corruption']
data.columns

##### The number of observations the variable "regional" has.

**"regional"  değişkeninin sahip olduğu gözlem sayısı.**

In [None]:
data['regional'].value_counts()

In [None]:
ax=sns.countplot(x='regional',data=data);

ax.set_xticklabels(ax.get_xticklabels(), rotation=30, ha="right")
plt.tight_layout()

[Go to contents menu](#0.)
# <a class="anchor" id="3."></a> Descriptive Statistics

##### Let's take a look at the descriptive statistics of the data
**Verinin tanımlayıcı istatistiklerine göz atalım**

In [None]:
summary = data.describe().T
se = data.describe().T['std']/np.sqrt(data.describe().T['count'])
summary.insert(3,'se',se)
summary['Skewness'] = stats.skew(data._get_numeric_data(), nan_policy='omit')
summary['Kurtosis'] = stats.kurtosis(data._get_numeric_data(), nan_policy='omit')
summary

> * The mean of the "score" value was 5.533 and the standard deviation was 1.074. Considering the maximum and minimum values, we can assume that the "score" value shows normality when we look at the mean and standard deviation. We can assume that the mean accuracy is high when the standard error is low. Skewness and kurtosis values are also Since the desired values are between (-1.5 and 1.5), it is possible to say that it satisfies the normality conditions.
> * The same interpretation can be made for "gdp", "support", "healthy", "freedom" values.
> * For "generosity" and "corruption", only skewness and kurtosis values not being in the specified range may create a question mark for normality.

> * "score" değerinin ortalamsı 5.533, standart sapmasıda 1.074 olarak bulunmuştur.Maksimum ve minimum değerleride göz önüne alarak ortalama ve standart sapmaya baktığımızda "score" değerinin normallik gösterdiğini varsayabiliriz.Standart hata düşük olduğunda ortalamanın doğruluğu yüksek olarak varsayabiliriz.Skewness ve kurtosis değerleri de istenilen değerler(-1,5 ile 1,5) arasında olduğundan normallik koşullarını sağlıyor demek mümkündür.
> * "gdp", "support", "healthy", "freedom" değerleri içinde aynı yorum yapılabilir.  
> * "generosity" ve "corruption" için sadece skewness ve kurtosis değerlerinin belirlene aralıkta bulunmaması normallik için soru işareti yaratabilir.

[Go to contents menu](#0.)
## BoxPlot <a class="anchor" id="3.1"></a>

##### Let's examine the variables with BoxPlot plots.

**BoxPlot grafikleri ile değişkenleri inceleyelim.**

In [None]:
for i in data.columns[2:]:
    sns.boxplot(x = i,data=data);
    plt.show()

> "gdp" ve "healthy" değişkenleri haricindeki değişkenlerde aykırı gözlemler kutu grafiklerinde göze çarpmaktadır ama tabloda normallik dışı olabileciğini söylediğimiz iki gözlemden biri olan "corruption" değişkeninde aykırı gözlem fazlalığı görünmektedir.

In [None]:
"""norm_values = pd.DataFrame()
norm_values['statistic']=stats.shapiro(data._get_numeric_data())[0]
norm_values['sig']=stats.shapiro(data._get_numeric_data())[1]
norm_values
print(stats.shapiro(data.corruption))"""

[Go to contents menu](#0.)
## Normal Distribution <a class="anchor" id="3.2"></a>

##### After obtaining rough normality assumption ideas with boxplot plots of all 7 of our variables, histogram, qq-plot plots and sig. After examining their values, we can make normality assumptions about the variables.

**7 değişkenimizin de boxplot grafikleriyle kabaca normallik varsayımı fikirleri edindikten sonra histogram, qq-plot grafiklerini ve de sig. değerlerini inceledikten sonra değişkenler hakkında normallik varsayımlarında bulunabiliriz.**

H0 : Veriler normal dağılmıştır.  
H1 : Veriler normal dağılmamıştır.

In [None]:
for i in data.columns[2:]:
    plt.subplot(2,2,1)
    sns.distplot(data[i],kde=True,rug=True)
    plt.subplot(2,2,2)
    stats.probplot(data[i], dist="norm", plot=pylab)
    plt.show()
    print("{} - Statistic : {:.3f} , sig. : {:.3f}".format(i,stats.shapiro(data[i])[0],stats.shapiro(data[i])[1]))
    if stats.shapiro(data[i])[1] < 0.05:
        print("Yorum : H0 hipotezimiz reddedilir ve dağılımın normal olmadığı kararı verilir.\n\n")
    else:
        print("Yorum : H0 hipotezimiz red edilemez ve dağılımın normal dağılımdan anlamlı bir farklılık göstermediği söylenebilir.\n\n")

> We can see in the graph and p-value values that 6 of our variables are not normally distributed, except for the "score". When we looked at it in our previous evaluations, we did not assume that there could be such non-normal distributions, but there is no normal distribution except for one variable as seen in the test result.

> Değişkenlerimizden "score" haricinde diğer 6'sının da normal dağılmadığını grafik ve p-valur değerlerinde görbiliyoruz. Önceki değerlendirmelerimizde baktığımızda bu kadar normallik dışı dağılımların olabileceğini varsaymamıştık ama test sonucunda görüldüğü üzer bir değişken haricinde normal dağılım görülmemektedir.

[Go to contents menu](#0.)
# Descriptive Statistics by Groups (One Way ANOVA)<a class="anchor" id="4."></a>

##### Let's take a look at the statistical values by region.

**Bölgelere göre istatistiksel değerlere göz atalım.**

In [None]:
data.groupby(['regional'])['score'].describe()

> The inequality in the number of observations of the groups will not produce the correct results in our test. But we will still apply the test.

> Grupların gözlem sayılarındaki eşitsizlik testimizde doğru sonuçları elde ettirmeyecektir.Ama biz yinede testi uygulayacağız.

##### Box-plot plots of groups.

**Grupların box-plot grafikleri.**

In [None]:
sns.boxplot(x='score',y='regional',data=data);

##### let's divide into groups

**Gruplara göre ayıralım.**

In [None]:
regional_df_list = []
regional_df_name = []
for i in data.regional.unique():
    #print(i)
    regional_df_name.append(i)
    j = i
    #print(j)
    j = pd.DataFrame()
    #print(j)
    j = data[data['regional'] == i].score
    
    #print(j)
    j.reset_index(drop=True)
    regional_df_list.append(j)
    regional_df = pd.concat(regional_df_list,axis=1)
    
regional_df.columns=regional_df_name
regional_df

##### Let's examine the normality values of the 'Score' variable again.

**'Score' değişkeninin normallik değerlerini tekrar inceleyelim.**

H0: Score değişkeni verileri normal dağılıma uygundur.  

H1: Score değişkeni verileri normal dağılıma uygun değildir.

In [None]:
print("Score - Statistic : {:.3f} , sig. : {:.3f}".format(stats.shapiro(data["score"])[0],stats.shapiro(data["score"])[1]))


> H0 reddedilemez.Veriler normal dağılımı %95 güvenilirlikle göstermektedir.

##### Let's check the homogeneity of the variances.

**Varyansların homojenliğini kontrol edelim.**

Ho: Varyanslar arasında fark yoktur(Varyanslar homojendir).

H1: Varyanslar arasında fark vardır(Varyanslar homojen değildir).

In [None]:
levene = stats.levene(*[list(data[data['regional'] == name].score) for name in data.regional.unique()])
print("Levene - Statistic : {:.3f} , sig. : {:.3f}".format(levene[0],levene[1]))

> H0 hipotezimiz reddedilemiyor(p-value > 0.05). Bu nedenle varyanslarımzda homejednir.İki koşulumuzda sağlandığına Anova testimizi hipotezimizi kurup inceleyebiliriz.

##### One Way Anova

**Tek yönlü varyans analizi**

Ho: Grupların ortalamaları arasında farklılık yoktur.

H1: Grupların ortalamaları arasında farklılık vardır.

In [None]:
s, p = stats.f_oneway(*[list(data[data['regional']==name].score) for name in data.regional.unique()])
print("One Way ANOVA - statistic : {:.3f} , sig. : {:.3f}\n".format(s,p))

> P değerinin α = 0.05 değerinden küçük olduğunu dolayısıyla yokluk hipotezimizin reddedildiği %95 güvenirlilikle istatistiksel olarak söyleyebiliriz.  
 Gruplar arasında fark var ama hangi grup bu farklılığı yaratıyor? Bunu öğrenmek için çoklu karşılaştırma testi yapmamız gerekiyor.

##### For multiple comparison, if the variances were not homogeneous, we would use the games-howell test. But since the variances in our data are homogeneous, we can use the three main tests: scheffe, tukey, bonferroni

**Çoklu karşılaştrıma eğer varyaslar homejen olmasaydı games-howell testini kullıcaktık.Ama verimizde varyanslar homejenlik gösterdiğinden ötürü kullanabilceğimiz başlıca üç test : scheffe, tukey, bonferroni**

In [None]:
mct = MultiComparison(data["score"], data["regional"])    
mct_result = mct.tukeyhsd()
print(mct_result)

> 'True' çıkan değer ler yani sig. değerleri 0.05'ten küçük olan değerler iki grup arasında farklılık var olduğunu göstermektedir. İki grup arasından hangisinden kaynaklı farklılık bunu tam olarak bilemeyiz.

[Go to contents menu](#0.)
# Correlation <a class="anchor" id="5."></a>

##### Relationship between variables  

**Değişkenler arasındaki ilişki**

In [None]:
data.corr()

In [None]:
sns.heatmap(data.corr(),annot=True,linewidths=.5,cmap='coolwarm');

> We can say that there is a high positive correlation between the variables "score","gdp","support, "healty". There is also a positive correlation between "freedom" and "score","gdp","support" and "healthy" a moderate correlation is observed. There is a moderately negative correlation between the variables "corruption" and "score","gdp","healthy" and "freedom".

> Değişkenler arasında "score","gdp","support, "healty" dörtlü arasında pozitif yönlü yüksek bir korelasyon var diyebiliriz."freedom" ile "score","gdp","support" ve "healthy" arasında da pozitif yönlü orta dereceli bir korelasyon görülmektedir."corruption" ile "score","gdp","healthy" ve "freedom" değişkenleri arasında da negatif yönlü orta dereceli bir korelasyon ilişkisi vardır.

##### Let's examine our "healthy" value, which is one of the ones with the highest correlation percentage with the "score" variable, with a scatterplot.

**"score" değişkeni ile en yüksek ilişki yüzdeliğine sahip olanlardan biri olan "healthy" değerimizi yayılım grafiği ile inceleyelim.**

In [None]:
sns.lmplot(x='score',y='healthy',data=data,height=6);

> We have learned statistically that the positive correlation between health and happiness score, and we can see this in the scatterplot, that as the 'healthy' value increases, happiness increases at the same rate.

> Sağlığın mutluluk puanıyla doğru orantısı pozitif yönde olarak istatistiksel olarak öğrenmiştik ve bunu saçılım grafiğinde de görebiliyoruzki 'healthy' değeri yükseldikçe mutlulukta aynı oranda yükselmektedir.Hata paylarının uç noktalarda biraz daha fazla ama çok bir etki edecek büyüklükte olmadığıda görülmektedir. 

In [None]:
sns.lmplot(x='score',y='corruption',data=data,height=6);

> A moderate-low degree relationship is observed. The scatter is not evenly distributed, which reflects the percentage. Our curve is directed downwards, which shows that there is an inversely proportional relationship.

> Orta-düşük dereceli bir ilişki görülmektedir. Saçılım düzgün olarak dağılmamıştır buda yüzdeliğe yancımakta.Eğrimiz aşağıya doru yönelmiştir bu da ters orantılı bir ilişkinin olduğunu göstermektedir.

In [None]:
a=sns.scatterplot(x='score',y='gdp',data=data,
               hue='regional',
               style='regional'
               )
a.legend(loc='center left', bbox_to_anchor=(1.1, 0.5), ncol=1)
a;

> In the scatterplot, the happiness rate of the people in the 'Western Europe' region is higher than the other regions due to the high 'gdp' ratio. On the contrary, the happiness score of the people in the 'Sub-Saharan Africa' region is low.

> Saçılım grafiğinde 'Western Europe' bölgesindeki insaların 'gdp' oranın yüksek olmasından ötürü mutluluk oranı diğer bölgelerin önünde gözüküyor.Tam tersi olarakta 'Sub-Saharan Africa' bölgesindeki insanlarda ise mutluluk puanı düşük durumdadır.