In [9]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_1samp, ttest_ind, ttest_rel, wilcoxon

In [2]:
df = pd.read_csv('Data/GDPlist.csv')
df.head()

Unnamed: 0,Country,Continent,GDP (millions of US$)
0,Afghanistan,Asia,18181
1,Albania,Europe,12847
2,Algeria,Africa,190709
3,Angola,Africa,100948
4,Argentina,South America,447644


In [3]:
df.describe()

Unnamed: 0,GDP (millions of US$)
count,125.0
mean,555427.8
std,1649266.0
min,10600.0
25%,25742.0
50%,96089.0
75%,333238.0
max,15094020.0


## 1. Trung bình GDP của các quốc gia trên thế giới là 500 tỉ usd/năm

### Phát biểu giả thuyết
- H0 : $\mu_{GDP}$ = 500 tỷ USD
- H1 : $\mu_{GDP}$ != 500 tỷ USD

In [4]:
statistic, pvalue = ttest_1samp(df['GDP (millions of US$)'], popmean = 500000)
print(f't-statistic : {statistic}')
print(f'pvalue : {pvalue}')

t-statistic : 0.3757438669518338
pvalue : 0.7077493494055246


### Kết luận : pvalue > $\alpha$
- Chưa đủ cơ sở để bác bỏ H0
- Với độ tin cậy 95% thì GDP các quốc gia trên thế giới là 500 tỷ USD

## 2. GDP trung bình ở các quốc gia ở châu Âu cao hơn châu Á không

### Phát biểu giả thuyết
- H0 : $\mu_{GDP_Europe}$ $=$ $\mu_{GDP_Asia}$ 
- H1 : $\mu_{GDP_Europe}$ > $\mu_{GDP_Asia}$ 

In [15]:
Europe_df = df.loc[df['Continent'] == 'Europe', "GDP (millions of US$)"]
Asia_df = df.loc[df['Continent'] == 'Asia', "GDP (millions of US$)"]
print(f'Std GDP of Europe country: {Europe_df.std()}')
print(f'Std GDP of Asia country: {Asia_df.std()}')

Std GDP of Europe country: 856243.5905597125
Std GDP of Asia country: 1525790.6347005707


In [6]:
statistic, pvalue = ttest_ind(Europe_df,Asia_df,equal_var = False, alternative='greater')
print(f't-statistic : {statistic}')
print(f'pvalue : {pvalue}')

t-statistic : -0.5546583491057376
pvalue : 0.7093061297701153


### Kết luận: pvalue > $\alpha$
- Chưa đủ cơ sở bác bỏ H0
- Với độ tin cậy 95% thì có thể kết luận GDP trung bình châu Âu bằng Châu Á

## 3. GDP trung bình của các quốc gia ở châu Âu và châu Mỹ là bằng nhau

### Phát biểu giả thuyết
- H0 : $\mu_{GDP_Europe}$ $=$ $\mu_{GDP_America}$ 
- H1 : $\mu_{GDP_Europe}$ != $\mu_{GDP_America}$ 

In [27]:
America_df = df.loc[df['Continent'].isin(['South America', 'South America']), "GDP (millions of US$)"]
print(f'Std GDP of Europe country: {Europe_df.std()}')
print(f'Std GDP of America country: {America_df.std()}')

Std GDP of Europe country: 856243.5905597125
Std GDP of America country: 775881.5589512967


In [22]:
statistic, pvalue = ttest_ind(Europe_df,America_df,equal_var = False)
print(f't-statistic : {statistic}')
print(f'pvalue : {pvalue}')

t-statistic : 0.19407235215980828
pvalue : 0.8490774181286702


### Kết luận : pvalue > $\alpha$
- Chưa đủ cơ sở bác bỏ H0
- Với độ tin cậy 95% thì có thể kết luận GDP châu Âu và châu Mỹ bằng nhau