Nguyen Thanh Kiet - 1712546

# Lấy dữ liệu

## Chủ đề và nguồn dữ liệu

Dữ liệu được dùng trong đồ án là file 'suicide.csv' đính kèm, đâu là dữ liệu về trường hợp tử tự của một số nước trên thế giới trong khoảng thời gian từ năm 1985 đến năm 2016. Dữ liệu này được public ở trên kaggle.com, một trang web chia sẻ dữ liệu và trao đổi kiến thức về các lĩnh vực như Data Science, Machine Learning,... với mục đích là để tìm ra những thông tin hữu ích giúp ngăn ngừa tình trạng tự sát trên toàn cầu.

## Giấy phép của dữ liệu

Dữ liệu này có license là CC By 4.0, do đó dữ liệu này thể sử dụng dữ liệu này phục vụ cho mục đích học tập.

## Cách thu thập dữ liệu

Dữ liệu được thu thập và tổng hợp theo thời gian và địa điểm, từ 3 nguồn dữ liệu khác nhau:
- Chương trình phát triển Liên hiệp quốc, chỉ số phát triển con người (HDI) (2018): http://hdr.undp.org/en/indicators/137506
- Ngân hàng thế giới World Bank với chỉ số GDP của các nước từ năm 1985 đến 2016 (2018): https://databank.worldbank.org/source/world-development-indicators
- Mục phòng chống tự tử của Tổ chức y tế thế giới WHO (2018): https://www.who.int/health-topics/suicide#tab=tab_1


# Khám phá dữ liệu

## Đọc dữ liệu từ file csv vào dataframe

In [46]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('suicide.csv')
data.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation,continent
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X,Europe
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent,Europe
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X,Europe
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation,Europe
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers,Europe


## Dữ liệu gồm có bao nhiêu dòng? Bao nhiêu cột?

In [47]:
data.shape

(27820, 13)

Dữ liệu này gồm có 27820 dòng và 13 cột

## Mỗi dòng và mỗi cột có ý nghĩa gì?

Mỗi cột của dữ liệu có ý nghĩa như sau:
- **country**: quốc gia
- **year**: năm xảy ra vụ tự sát
- **sex**: giới tính của người tự sát
- **age**: nhóm độ tuổi của người tự sát
- **suicides_no**: số lượng vụ tự sát (phân theo nhóm tuổi, giới tính, thế hệ)
- **population**: số lượng người dân phân theo nhóm tuổi, giới tính, thế hệ
- **suicides/100k pop**: số vụ tự sát mỗi 100 nghìn người (được tính từ cột suicides_no và population)
- **country-year**: được ghép từ cột country và cột year
- **HDI for year**: chỉ số phát triển con người (Human development index) của quốc gia trong một năm cụ thể
- **gdp_for_year**: GDP của quốc gia trong một năm cụ thể
- **gdp_per_capita**: GDP trên đầu người của quốc gia
- **generation**: Nhóm thế hệ người, (vd: Silent: Thế hệ im lặng, sinh năm 1925 - 1945)
- **continent**: Châu lục của quốc gia này trực thuộc

Từ quan sát ở biến 'data', thì mỗi dòng của dữ liệu đại diện cho một nhóm người (phân theo độ tuổi, quốc gia, giới tính,...)

## Mỗi cột có dtype là gì?

In [48]:
data.dtypes

country                object
year                    int64
sex                    object
age                    object
suicides_no             int64
population              int64
suicides/100k pop     float64
country-year           object
HDI for year          float64
gdp_for_year ($)        int64
gdp_per_capita ($)      int64
generation             object
continent              object
dtype: object

### Kiểm tra các cột có dtype là object

In [49]:
obj_columns = data.dtypes.index[data.dtypes == 'object']
obj_columns

Index(['country', 'sex', 'age', 'country-year', 'generation', 'continent'], dtype='object')

Kiểm tra xem trong các cột dữ liệu này có bị thiếu dữ liệu hay không?

In [50]:
data.loc[:, obj_columns].isnull().any()

country         False
sex             False
age             False
country-year    False
generation      False
continent       False
dtype: bool

Số lượng quốc gia được đề cập trong dữ liệu

In [31]:
data['country'].nunique()

101

In [34]:
data['country-year'].nunique()

2321

In [52]:
data['generation'].unique()

array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
       'Millenials', 'Generation Z'], dtype=object)

In [53]:
data['continent'].unique()

array(['Europe', 'Americas', 'Asia', 'Oceania', 'Africa',
       'Republic of Korea'], dtype=object)

In [63]:
idx = data['continent'] == 'Republic of Korea'
data[idx]['country'].unique()

array(['Republic of Korea'], dtype=object)

**Nhận xét**:
- Cột 'continent' có một dữ liệu ngoại lệ là 'Republic of Korea' tương ứng với quốc gia Hàn Quốc, có thể trong quá trình thu thập dữ liệu, thì giá trị của cột 'continent' được tính từ cột 'country' thông qua hàm countrycode(), và hàm này thì không trả về 'Asia' cho gía trị 'Republic of Korea'. Vì chỉ có một quốc gia gặp phải trường hợp này nên ta chỉ đơn giản sửa lại 'continent' là 'Asia'

**Xử lý các vấn đề gặp phải:**

In [68]:
data.loc[idx, 'continent'] = 'Asia'
data['continent'].unique()

array(['Europe', 'Americas', 'Asia', 'Oceania', 'Africa'], dtype=object)

### Kiểm tra các dữ liệu số

In [69]:
numeric_columns = data.dtypes.index[data.dtypes != 'object']
numeric_columns

Index(['year', 'suicides_no', 'population', 'suicides/100k pop',
       'HDI for year', 'gdp_for_year ($)', 'gdp_per_capita ($)'],
      dtype='object')

Kiểm tra dữ liệu missing

In [70]:
data.loc[:, numeric_columns].isnull().any()

year                  False
suicides_no           False
population            False
suicides/100k pop     False
HDI for year           True
gdp_for_year ($)      False
gdp_per_capita ($)    False
dtype: bool

Có bao nhiêu % dữ liệu bị missing trong cột 'HDI for year'

In [73]:
np.sum(data['HDI for year'].isnull()) / data.shape[0]

0.699352983465133

**Nhận xét:** Các cột dữ liệu số phần lớn không có dữ liệu missing, chỉ có duy nhất một cột 'HDI for year' bị mất và dữ liệu bị thiếu tới 70%. Dựa trên quan sát từ 'data' thì rất khó để biết được lý do dữ liệu tại cột này bị mất, thông tin cột này cũng không quá hữu ích nên ta có thể bỏ nó đi