# Mục tiêu: Kiểm định tương quan giữa các thuộc tính định lượng

In [2]:
import pandas as pd
from scipy import  stats

# [Thực hành] Kiểm định tương quan trên bộ dữ liệu Covid 19

### Mô tả bài toán
Bộ dữ liệu subset-covid-data.csv chứa thông tin về tình hình covid ngày 12/4/2020 Hãy thực hiện những kiểm định sau với mức ý nghĩa 5%:

- Có mối tương quan nào giữa dân số và số ca nhiễm bệnh hay không
- 
Có mối tương quan nào giữa số ca mắc và ca tử vong ở các quốc gia hay khôn
ễm bệnh

- Hãy tiến hành rời rạc hóa thuộc tính population thành các nhóm theo thứ tự tăng dần đặt tên là biến population_ordinal:
  
1: nếu population < tứ phân vị thứ nhất

2: Population nằm trong khoảng từ tứ phân vị thứ nhất tới tứ phân vị thứ 2

3: nếu population nằm trong khoảng từ tứ phân vị thứ 2 tới thứ 3

4: nếu population >= tứ phân vị thứ 3

Hãy kiểm tra mối tương quan giữa thuộc tính population_ordinaly với số ca nhiễm bệnh

In [3]:
df = pd.read_csv("subset-covid-data.csv", encoding="UTF-8")

In [4]:
df.head()

Unnamed: 0,country,continent,date,day,month,year,cases,deaths,country_code,population
0,Afghanistan,Asia,2020-04-12,12,4,2020,34,3,AFG,37172386.0
1,Albania,Europe,2020-04-12,12,4,2020,17,0,ALB,2866376.0
2,Algeria,Africa,2020-04-12,12,4,2020,64,19,DZA,42228429.0
3,Andorra,Europe,2020-04-12,12,4,2020,21,2,AND,77006.0
4,Angola,Africa,2020-04-12,12,4,2020,0,0,AGO,30809762.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country       206 non-null    object 
 1   continent     206 non-null    object 
 2   date          206 non-null    object 
 3   day           206 non-null    int64  
 4   month         206 non-null    int64  
 5   year          206 non-null    int64  
 6   cases         206 non-null    int64  
 7   deaths        206 non-null    int64  
 8   country_code  202 non-null    object 
 9   population    202 non-null    float64
dtypes: float64(1), int64(5), object(4)
memory usage: 16.2+ KB


In [6]:
df.describe()

Unnamed: 0,day,month,year,cases,deaths,population
count,206.0,206.0,206.0,206.0,206.0,202.0
mean,12.024272,3.985437,2020.0,395.247573,29.713592,37317160.0
std,0.424141,0.20902,0.0,2160.176439,159.533131,141377600.0
min,11.0,1.0,2020.0,0.0,0.0,1000.0
25%,12.0,4.0,2020.0,0.0,0.0,1278222.0
50%,12.0,4.0,2020.0,11.5,0.0,7042862.0
75%,12.0,4.0,2020.0,88.75,3.0,26000840.0
max,18.0,4.0,2020.0,28391.0,1831.0,1392730000.0


## Có mối tương quan nào giữa số ca mắc và ca tử vong ở các quốc gia hay không

Do số ca nhiễm (cases) và dân số (population) đều là thuộc tính định lượng nên sử dụng kiểm định pearson

 6   cases         206 non-null    int64  
 7   deaths        206 non-null    int64  -> không cần xoá na

Giả thuyết không: Không có mối tương quan tuyến tính giữa hai biến

Giả thuyết đối: Không có mối tương quan tuyến tính giữa hai biến

In [9]:
stats.pearsonr(df['cases'], df['deaths'])

PearsonRResult(statistic=0.9432201374746727, pvalue=1.3451948745844029e-99)

In [8]:
# cách làm trên trang learn của codegym

# lọc dữ liệu
df2 = df.filter(['cases', 'deaths'])
# xóa bỏ dữ liệu null
df2 = df2.dropna()
r, pvalue = stats.pearsonr(df2.cases, df2.deaths)
print ("r: ", r, "; pvalue: ", pvalue)

r:  0.9432201374746727 ; pvalue:  1.3451948745844029e-99


Nhận xét: do pvalue ~0, nên với mức ý nghĩa 5% bác bỏ giả thuyết không, chấp nhận giả thuyết đối

Kết luận: Giữa số ca mắc và số ca tử vong có tương quan tuyến tính mạnh với nhau

## Có mối tương quan nào giữa dân số và số ca nhiễm bệnh hay không

Do số ca nhiễm (cases) và dân số (population) đều là thuộc tính định lượng nên sử dụng kiểm định pearson
 6   cases         206 non-null    int64  t 
 9   population    202 non-null    floa

 -> có NA, cần xoá NAt64

Giả thuyết không: Không có mối tương quan tuyến tính giữa hai biến

Giả thuyết đối: Không có mối tương quan tuyến tính giữa hai biến

In [11]:
# CÁCH LÀM TRÊN TRANG LEARN CỦA CODEGYM
# lọc dữ liệu
df1 = df.filter(['cases', 'population'])
# xóa bỏ dữ liệu null
df1 = df1.dropna()
r, pvalue = stats.pearsonr(df1.cases, df1.population)
print ("r: ", r, "; pvalue: ", pvalue)

r:  0.17553926594294003 ; pvalue:  0.012460310704208348


In [12]:
# MÌNH LÀM

df2 = df[['cases', 'population']]
df2 = df2.dropna()
print(stats.pearsonr(df2.cases, df2.population))

PearsonRResult(statistic=0.17553926594294003, pvalue=0.012460310704208348)


In [13]:
df2 = df[['cases', 'population']].dropna()

print(stats.pearsonr(df2.cases, df2.population))

PearsonRResult(statistic=0.17553926594294003, pvalue=0.012460310704208348)


Nhận xét: do pvalue <5%, nên với mức ý nghĩa 5% bác bỏ giả thuyết không, chấp nhận giả thuyết đối

Kết luận: Giữa dân số và số ca nhiễm có tương quan tuyến tính yếu với nhau

## Biến đổi lại thuộc tính population về dạng thứ bậc thực hiện kiểm định tương quan giữa biến này với số ca nhiễm

In [14]:
# tiến hành tính các khoảng tứ phân vị của population
q1, q2, q3  = df1.population.quantile(0.25), df1.population.quantile(0.5), df1.population.quantile(0.75)
# tiến hành biến đổi population
def population_order(population):
    if population < q1:
        return 1
    elif population>=q1 and population <q2:
        return 2
    elif population>=q2 and population <q3:
        return 3
    else: 
        return 4

df1['population_ordinal'] = df1.population.apply(population_order)
df1.head()

Unnamed: 0,cases,population,population_ordinal
0,34,37172386.0,4
1,17,2866376.0,2
2,64,42228429.0,4
3,21,77006.0,1
4,0,30809762.0,4


Tiến hành kiểm định. 

Do population_ordinal là dữ liệu kiểu thứ bậc nên sử dụng kiểm định spearman để kiểm định tương quan giữa population_ordinal và cases

Giả thuyết không: Giữa population_ordinal và case không có tương qua

n Giả thuyết đối: Giữa population_ordinal và case có tương qu]:

In [15]:
r, pvalue = stats.spearmanr(df1.cases, df1.population_ordinal)
print ("r: ", r, "; pvalue: ", pvalue)

r:  0.49498466493711596 ; pvalue:  6.982786622314858e-14


Pvalue ~0, và r~0.5 chứng tỏ giữa thuộc tính population_ordinal và số ca nhiễm bệnh có tương quan với nhau. 

Như vậy có thể thấy, việc biến đổi dữ liệu thành các khoảng có thể làm nổi bật thông tin tương quan giữa cá thuộc tính.