Nguyen Thanh Kiet - 1712546

# Lấy dữ liệu

## Chủ đề và nguồn dữ liệu

Dữ liệu được dùng trong đồ án là file 'suicide.csv' đính kèm, đâu là dữ liệu về trường hợp tử tự của một số nước trên thế giới trong khoảng thời gian từ năm 1985 đến năm 2016. Dữ liệu này được public ở trên kaggle.com, một trang web chia sẻ dữ liệu và trao đổi kiến thức về các lĩnh vực như Data Science, Machine Learning,... với mục đích là để tìm ra những thông tin hữu ích giúp ngăn ngừa tình trạng tự sát trên toàn cầu.

## Giấy phép của dữ liệu

Dữ liệu này có license là CC By 4.0, do đó dữ liệu này thể sử dụng dữ liệu này phục vụ cho mục đích học tập.

## Cách thu thập dữ liệu

Dữ liệu được thu thập và tổng hợp theo thời gian và địa điểm, từ 3 nguồn dữ liệu khác nhau:
- Chương trình phát triển Liên hiệp quốc, chỉ số phát triển con người (HDI) (2018): http://hdr.undp.org/en/indicators/137506
- Ngân hàng thế giới World Bank với chỉ số GDP của các nước từ năm 1985 đến 2016 (2018): https://databank.worldbank.org/source/world-development-indicators
- Mục phòng chống tự tử của Tổ chức y tế thế giới WHO (2018): https://www.who.int/health-topics/suicide#tab=tab_1


# Khám phá dữ liệu

## Đọc dữ liệu từ file csv vào dataframe

In [20]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [1]:
data = pd.read_csv('suicide.csv')
data.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation,continent
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X,Europe
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent,Europe
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X,Europe
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation,Europe
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers,Europe


## Dữ liệu gồm có bao nhiêu dòng? Bao nhiêu cột?

In [2]:
data.shape

(27820, 13)

Dữ liệu này gồm có 27820 dòng và 13 cột

## Mỗi dòng và mỗi cột có ý nghĩa gì?

Mỗi cột của dữ liệu có ý nghĩa như sau:
- **country**: quốc gia
- **year**: năm xảy ra vụ tự sát
- **sex**: giới tính của người tự sát
- **age**: nhóm độ tuổi của người tự sát
- **suicides_no**: số lượng vụ tự sát (phân theo nhóm tuổi, giới tính, thế hệ)
- **population**: số lượng người dân phân theo nhóm tuổi, giới tính, thế hệ
- **suicides/100k pop**: số vụ tự sát mỗi 100 nghìn người (được tính từ cột suicides_no và population)
- **country-year**: được ghép từ cột country và cột year
- **HDI for year**: chỉ số phát triển con người (Human development index) của quốc gia trong một năm cụ thể
- **gdp_for_year**: GDP của quốc gia trong một năm cụ thể
- **gdp_per_capita**: GDP trên đầu người của quốc gia
- **generation**: Nhóm thế hệ người, (vd: Silent: Thế hệ im lặng, sinh năm 1925 - 1945)
- **continent**: Châu lục của quốc gia này trực thuộc

Từ quan sát ở biến 'data', thì mỗi dòng của dữ liệu đại diện cho một nhóm người (phân theo độ tuổi, quốc gia, giới tính,...)

## Mỗi cột có dtype là gì?

In [3]:
data.dtypes

country                object
year                    int64
sex                    object
age                    object
suicides_no             int64
population              int64
suicides/100k pop     float64
country-year           object
HDI for year          float64
gdp_for_year ($)        int64
gdp_per_capita ($)      int64
generation             object
continent              object
dtype: object

### Kiểm tra các cột có dtype là object

In [4]:
obj_columns = data.dtypes.index[data.dtypes == 'object']
obj_columns

Index(['country', 'sex', 'age', 'country-year', 'generation', 'continent'], dtype='object')

#### Kiểm tra xem trong các cột dữ liệu này có bị thiếu dữ liệu hay không?

In [5]:
data.loc[:, obj_columns].isnull().any()

country         False
sex             False
age             False
country-year    False
generation      False
continent       False
dtype: bool

#### Miền giá trị, số unique value của mỗi cột categorical

Số lượng quốc gia được đề cập trong dữ liệu

In [6]:
data['country'].nunique()

101

In [7]:
data['sex'].unique()

array(['male', 'female'], dtype=object)

In [8]:
data['country-year'].nunique()

2321

In [9]:
data['generation'].unique()

array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
       'Millenials', 'Generation Z'], dtype=object)

In [10]:
data['continent'].unique()

array(['Europe', 'Americas', 'Asia', 'Oceania', 'Africa',
       'Republic of Korea'], dtype=object)

In [11]:
idx = data['continent'] == 'Republic of Korea'
data[idx]['country'].unique()

array(['Republic of Korea'], dtype=object)

#### Nhận xét

- Có 101 quốc gia, từ năm 1985 đến 2016 là 32 năm, nếu như mỗi quốc gia đều có dữ liệu từ 1985 đến 2016 thì cột này phải có 3232 unique value, trên thực tế nó chỉ có 2321 cho nên có thể có một số quốc gia chỉ có dữ liệu của vài năm
- Cột 'continent' có một dữ liệu ngoại lệ là 'Republic of Korea' tương ứng với quốc gia Hàn Quốc, có thể trong quá trình thu thập dữ liệu, thì giá trị của cột 'continent' được tính từ cột 'country' thông qua hàm countrycode(), và hàm này thì không trả về 'Asia' cho gía trị 'Republic of Korea'. Vì chỉ có một quốc gia gặp phải trường hợp này nên ta chỉ đơn giản sửa lại 'continent' là 'Asian'
- Các cột có dtype = object đều là dữ liệu dạng categorical

### Kiểm tra các dữ liệu số

In [12]:
numeric_columns = data.dtypes.index[data.dtypes != 'object']
numeric_columns

Index(['year', 'suicides_no', 'population', 'suicides/100k pop',
       'HDI for year', 'gdp_for_year ($)', 'gdp_per_capita ($)'],
      dtype='object')

#### Kiểm tra dữ liệu missing

In [13]:
data.loc[:, numeric_columns].isnull().any()

year                  False
suicides_no           False
population            False
suicides/100k pop     False
HDI for year           True
gdp_for_year ($)      False
gdp_per_capita ($)    False
dtype: bool

Có bao nhiêu % dữ liệu bị missing trong cột 'HDI for year'

In [14]:
np.sum(data['HDI for year'].isnull()) / data.shape[0]

0.699352983465133

#### Miền giá trị của các cột dữ liệu số

In [21]:
col_ranges_df = data.loc[:, numeric_columns].agg(['min', 'max'])
col_ranges_df

Unnamed: 0,year,suicides_no,population,suicides/100k pop,HDI for year,gdp_for_year ($),gdp_per_capita ($)
min,1985,0,278,0.0,,46919625,251
max,2016,22338,43805214,224.97,,18120714000000,126352


#### Nhận xét

- Các cột dữ liệu số phần lớn không có dữ liệu missing, chỉ có duy nhất một cột 'HDI for year' bị mất và dữ liệu bị thiếu tới 70%. Dựa trên quan sát từ 'data' thì rất khó để biết được lý do dữ liệu tại cột này bị mất, thông tin cột này cũng không quá hữu ích nên ta có thể bỏ nó đi
- Dữ liệu cột 'gdp_for_year ($)' có giá trị rất lớn ta có thể cân nhắc scale giá trị về một khoảng phù hợp

## Tiếp tục khám phá dữ liệu

Như đã đề cập trong phần kiểm tra dữ liệu dtype = object, có thể có một số quốc gia không có đầy đủ dữ liệu từ năm 1985 đến 2020. Nên ta thử kiểm tra xem mỗi quốc gia có dữ liệu trong bao nhiêu năm?

In [28]:
prov_yrs_per_country = data.groupby('country')['year'].nunique()
# Số nước có cung cấp dữ liệu theo năm nhỏ hơn 3
prov_yrs_per_country[prov_yrs_per_country <= 3]

country
Bosnia and Herzegovina    2
Cabo Verde                1
Dominica                  1
Macau                     1
Mongolia                  1
Oman                      3
Saint Kitts and Nevis     3
San Marino                3
Name: year, dtype: int64

Ngược lại ta cũng kiểm tra xem các năm 

## Tiền xử lý

### Sửa giá trị cột 'continent' của 'Republic of Korea'

In [15]:
data.loc[idx, 'continent'] = 'Asia'
data['continent'].unique()

array(['Europe', 'Americas', 'Asia', 'Oceania', 'Africa'], dtype=object)

### Xóa cột 'HDI for year'

In [16]:
data = data.drop('HDI for year', axis=1)
data.head(3)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,gdp_for_year ($),gdp_per_capita ($),generation,continent
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,2156624900,796,Generation X,Europe
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,2156624900,796,Silent,Europe
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,2156624900,796,Generation X,Europe


# Đưa ra câu hỏi cần trả lời

Sau khi khám phá và tìm hiểu dữ liệu, có một số câu hỏi có thể trả lời từ dữ liệu như sau:
- Số lượng các vụ tự sát thay đổi như thế nào theo từng năm?
- Độ tuổi nào có tỉ lệ tự sát cao nhất, thấp nhất?
- Quốc gia, châu lục nào có nhiều vụ tự sát nhất?
- Sự khác biệt về tỉ lệ tự sát theo giới tính?
- Các quốc gia nào có tỉ lệ tự sát 
- Một quốc gia giàu (gdp trên đầu người cao) thì tỉ lệ tự sát có giảm hay không?

In [30]:
data[data['country'] == 'Japan']

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,gdp_for_year ($),gdp_per_capita ($),generation,continent
13364,Japan,1985,male,75+ years,1340,1791000,74.82,Japan1985,1398892744821,12401,G.I. Generation,Asia
13365,Japan,1985,female,75+ years,1553,2862400,54.26,Japan1985,1398892744821,12401,G.I. Generation,Asia
13366,Japan,1985,male,55-74 years,3763,8996900,41.83,Japan1985,1398892744821,12401,G.I. Generation,Asia
13367,Japan,1985,male,35-54 years,6962,17833300,39.04,Japan1985,1398892744821,12401,Silent,Asia
13368,Japan,1985,male,25-34 years,1982,8465800,23.41,Japan1985,1398892744821,12401,Boomers,Asia
...,...,...,...,...,...,...,...,...,...,...,...,...
13731,Japan,2015,female,35-54 years,2024,16991218,11.91,Japan2015,4394977752878,36510,Generation X,Asia
13732,Japan,2015,female,25-34 years,685,6614211,10.36,Japan2015,4394977752878,36510,Millenials,Asia
13733,Japan,2015,female,15-24 years,408,5772938,7.07,Japan2015,4394977752878,36510,Millenials,Asia
13734,Japan,2015,male,5-14 years,62,5553851,1.12,Japan2015,4394977752878,36510,Generation Z,Asia
