# Úkol 2
Tentokrát budeme pracovat s daty z výzkumu veřejného mínění Eurobarometr. Ten je realizován v cca 40 zemích a lidé jsou v něm pravidelně tázání na řadu otázek. My se podíváme na tři z nich.

Přehled států EU, které jsou v průzkumu, najdeš v souboru countries.csv. V první části úkolu můžeš pracovat se všemi státy nebo jen pro státy EU - záleží na tobě. Ve druhé a třetí části pracuj pouze se státy EU.
https://github.com/pesikj/PythonProDataScience/blob/c2c439db2b0ce9790f3ef4fe7ab989bf738b420f/domaci_ukoly/soubory_02/countries.csv

## Inflace
V souboru ukol_02_a.csv najdeš procenta lidí, kteří považují inflaci a růst životních nákladů za jeden ze svých nejzávažnějších problémů. Data jsou za dvě období - léto 2022 (sloupec 97) a zima 2022/2023 (sloupec 98). Ověř, zda se procento lidí, kteří řadí inflaci mezi 2 své nejzávažnější problémy, změnilo.

https://github.com/pesikj/PythonProDataScience/blob/c2c439db2b0ce9790f3ef4fe7ab989bf738b420f/domaci_ukoly/soubory_02/ukol_02_a.csv

Je vhodné provést následující postup:

- Test normality obou skupin dat. Podle toho zjistíš, zda je lepší provést parametrický nebo neparametrický test.
- Formulace hypotéz testu.
- Výběr vhodného testu. Vhodný je test, který jsme na lekci nepoužívali, ale je v seznamu testů, který je součástí lekce 6. Důležité je uvědomit si, že porovnáváme tu samou skupinu států ve dvou různých časových obdobích.
- Formulace výsledek testu (na základě p-hodnoty).

In [2]:
# TEST NORMALITY obou skupin dat. Podle toho zjistíš, zda je lepší provést parametrický nebo neparametrický test.
# H0: Soubor má normální rozdělení (nulová hypotéza)
# H1: Soubor nemá normální rozdělení (alternativní hypotéza)

import pandas
from scipy import stats
data = pandas.read_csv("ukol_02_a.csv")

res = stats.shapiro(data["97"])   # období - léto 2022
display(res)
# P-Value = 0.33090925216674805 --> hodnota je > 0.05   ==> Nezamítáme nulovou hypotézu. Nezamítáme tedy, že soubor má normální rozdělení, tzn. můžeme ne ně použít parametrické testy.

res = stats.shapiro(data["98"])   # období - zima 2022/2023
display(res)
# P-Value = 0.687289297580719  --> hodnota je > 0.05   ==> Nezamítáme nulovou hypotézu. Nezamítáme tedy, že soubor má normální rozdělení, tzn. můžeme ne ně použít parametrické testy.



ShapiroResult(statistic=0.9694532752037048, pvalue=0.33090925216674805)

ShapiroResult(statistic=0.9803104996681213, pvalue=0.687289297580719)

In [15]:
# FORMULACE HYPOTÉZ TESTU
# VÝBĚR VHODNÉHO TESTU. Vhodný je test, který jsme na lekci nepoužívali, ale je v seznamu testů, který je součástí lekce 6. Důležité je uvědomit si, že porovnáváme tu samou skupinu států ve dvou různých časových obdobích.
# Formulace výsledku testu (na základě p-hodnoty).


# TEST SE DVĚMA SOUBORY - dle stromu: "paired T Test", pokud vzorek má páry. "Two-Group T Test", pokud vzorek nemá páry.
# párový test na průměr: "Párový T test"
# ověř, zda se procento lidí, kteří řadí inflaci mezi 2 své nejzávažnější problémy, změnilo.

# Hypotézy:
# H0: Procento lidí, kteří řadí inflaci mezi 2 své nejzávažnější problémy, se nezměnilo.
# H1: Procento lidí, kteří řadí inflaci mezi 2 své nejzávažnější problémy, se změnilo (% bylo jiné).

df_data = pandas.read_csv("ukol_02_a.csv")
df_data = pandas.DataFrame(df_data, columns=["97", "98"])
res = stats.ttest_rel(df_data["97"], df_data["98"])
res

# P-value = 0.0003938172257904746 -----> menší než 0.05 hladiny významnosti   ==> nulovou hypotézu ZAMÍTÁME. Platí alternativní hypotéza.
# Procento lidí, kteří řadí inflaci mezi 2 své nejzávažnější problémy, se změnilo (% bylo jiné).


TtestResult(statistic=3.868878598419143, pvalue=0.0003938172257904746, df=40)

## Důvěra ve stát a v EU
Ve výzkumu je dále zkoumáno, jak moc lidé věří své národní vládě a jak moc věří EU. Data jsou v souboru ukol_02_b.csv. Číslo udává procento lidí, kteří dané instituci věří. Ověř, zda existuje korelace mezi procentem lidí, které věří EU v každé ze zemí, a procentem lidí, kteří EU nevěří. ???? 2. verze: Ověř, zda existuje korelace mezi důvěrou v národní vládu a důvěrou v EU.??????????

Je vhodné provést následující postup:

- Test normality obou skupin dat.
- Formulace hypotéz testu.
- Volba vhodného testu. Pokud data nemají normální rozdělení, můžeš využít test korelace, který jsme prováděli na lekci. Pokud data normální rozdělení mají, můžeš použít test zmíněný v přehledu testů v dané lekci.

In [16]:
data2 = pandas.read_csv("ukol_02_b.csv")
countries = pandas.read_csv("ukol_02-countries.csv")

data_EU = pandas.merge(data2, countries, how = "inner", on = "Country")
data_EU

Unnamed: 0,Country,National Government Trust,EU Trust,Country Name,Euro
0,BE,40,55,Belgium,1
1,BG,19,49,Bulgaria,0
2,CZ,30,43,Czechia,0
3,DK,52,65,Denmark,0
4,DE,49,49,Germany,1
5,EE,39,48,Estonia,0
6,IE,46,58,Ireland,1
7,EL,22,37,Greece,1
8,ES,23,50,Spain,1
9,FR,23,34,France,1


In [17]:
# TEST NORMALITY obou skupin dat

res = stats.shapiro(data_EU["National Government Trust"])   
display(res)
# P-Value = 0.15140558779239655 --> hodnota je > 0.05   ==> Nezamítáme nulovou hypotézu. Nezamítáme tedy, že soubor má normální rozdělení, tzn. můžeme ne ně použít parametrické testy.

res = stats.shapiro(data_EU["EU Trust"])   
display(res)
# P-Value = 0.6981646418571472 --> hodnota je > 0.05   ==> Nezamítáme nulovou hypotézu. Nezamítáme tedy, že soubor má normální rozdělení, tzn. můžeme ne ně použít parametrické testy.

ShapiroResult(statistic=0.9438267350196838, pvalue=0.15140558779239655)

ShapiroResult(statistic=0.9735807180404663, pvalue=0.6981646418571472)

In [19]:
# FORMULACE HYPOTÉZ testu.
# VOLBA vhodného TESTU. Pokud data nemají normální rozdělení, můžeš využít test korelace, který jsme prováděli na lekci. Pokud data normální rozdělení mají, můžeš použít test zmíněný v přehledu testů v dané lekci.
# --> OBA SOUBORY MAJÍ NORMÁLNÍ ROZDĚLENÍ

# Ověř, zda existuje korelace mezi procentem lidí, které věří EU v každé ze zemí, a procentem lidí, kteří EU nevěří.
# 2. verze (upravit i zadání) "Ověř, zda existuje korelace mezi důvěrou v národní vládu a důvěrou v EU."

# Test statistické významnosti korelace
# Test řeší, zda je zjištěná korelace statisticky významná.

# Hypotézy:

# H0: Důvěra v národní vládu a důvěra v EU NEjsou lineárně závislé.
# H1: Důvěra v národní vládu a důvěra v EU jsou lineárně závislé."

# Data mají normální rozdělení, lze využít test založený na Pearsonově korelačním koeficientu.

res = stats.pearsonr(data_EU["National Government Trust"], data_EU["EU Trust"])
res

# P-value = 0.0007345896228823406   --> hodnota je < 0.05 hladiny významnosti   ==> ZAMÍTÁME nulovou hypotézu. 
# ZAMÍTÁME, že důvěra v národní vládu a důvěra v EU NEjsou lineráně závislé.

# Pearsonem zkoumáme korelaci jakožto lineární vztah. Pro zajímavost, existují i metody pro nelineární korelaci, např. "distance correlation". 

PearsonRResult(statistic=0.6097186340024556, pvalue=0.0007345896228823406)

## Důvěra v EU a euro
Nakonec si rozdělíme státy EU na dvě skupiny - státy v eurozóně a státy mimo ni. Jak je to s důvěrou v EU? Důvěřují EU více lidé, kteří žijí ve státech platící eurem? Využij znovu data o důvěře v EU ze souboru ukol_02_b.csv a rozděl státy na ty, které jsou v eurozóně, a ty, které jsou mimo ni. Porovnej, jak se liší důvěra v EU v těchto dvou skupinách zemí. Státy můžeš rozdělit s využitím tabulky v souboru countries.csv.

- Test normality můžeš vynechat, řiď se výsledkem z předchozí části.
- Formulace hypotéz testu.
- Volba vhodného testu. Pokud data nemají normální rozdělení, můžeš využít test z bonusového úkolu ze 7 lekce. Pokud data normální rozdělení mají, můžeš použít test zmíněný v přehledu testů v dané lekci.
Zdroj dat: https://europa.eu/eurobarometer/screen/home

In [27]:
data_EU  # země v EU bez ohledu na to, zda mají Euro

# země Eurozóny
data_Euro = data_EU[data_EU["Euro"] == 1]
# display(data_Euro)

# země mimo Eurozónu
data_wo_Euro = data_EU[data_EU["Euro"] == 0]
# display(data_wo_Euro)


# z předchozí části oba soubory MAJÍ NORMÁLNÍ ROZDĚLENÍ
# Důvěřují EU více lidé, kteří žijí ve státech platící eurem? 

# TEST DVOU SOBORŮ, TEST NA PRŮMĚR - nepárové rozdělení T-test. Test předpokládá normální rozdělení, což oba soubory mají. TEST NA ROZDĚLENÍ (doplnit)

# TEST NA PRŮMĚR: T-TEST
# Testujeme rozdíl průměru mezi dvěma sadami dat (proto dvouvýběrový T-test).

# H0: Průměrná důvěra v EU se neliší ve státech v eurozóně a ve státech mimo eurozónu.
# H1: Průměrná důvěra v EU se liší ve státech v eurozóně a ve státech mimo eurozónu.

res = stats.ttest_ind(data_Euro["EU Trust"], data_wo_Euro["EU Trust"])
display(res)
# P-value = 0.7406326832748829  --> hodnota > 0.05  --> NEzamítáme nulovou hypotézu
# NEzamítáme, že se průměrná důvěra v EU neliší ve státech v eurozóně a ve státech mimo eurozónu. Tzn. neprokázalo se, že by se důvěra lišila.


Ttest_indResult(statistic=0.7859341071661995, pvalue=0.4392922280245204)

Ttest_indResult(statistic=-0.33471431258258433, pvalue=0.7406326832748829)