## Define and Set Up

In [None]:
import pandas as pd
import numpy as np

In [None]:
people = {
    'first': ['Corey', 'Jane', 'John', 'Chris', np.nan, None, 'NA'], 
    'last': ['Schafer', 'Doe', 'Doe', 'Schafer', np.nan, np.nan, 'Missing'], 
    'email': ['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com', None, np.nan, 'Anonymous@email.com', 'NA'],
    'age': ['33', '55', '63', '36', None, None, 'Missing'],
    'grade': [5, 4, 3, 2, 1, 5, 8]
}
df = pd.DataFrame(people)
df

## Cleaning Data
Mình sẽ giới thiệu một số method thường được dùng để xử lý dữ liệu NaN hay dữ liệu rỗng trong Pandas

Chỉ có **None** và **NaN** được xem là giá trị rỗng trong Pandas, nó không dựa trên quy tắc **Truthy** và **Falsy** thông thường
 
Các method bên dưới đầu cần tham số inplace để thay đổi vào DF gốc

### Kiểm tra có phải giá trị rỗng
Ta có một method **df.isna()** để kiểm tra giá trị tại một ô bất kì trong DataFrame có phải là rỗng hay không.

In [None]:
df.isna()

### Fill những ô mang giá trị rỗng
Ta có một method **df.fillna(giatri)** để fill một giá trị bất kì tùy theo chúng ta quy định vào những ô mang giá trị rỗng, cùng xem code bên dưới

In [None]:
# fill những ô mang giá trị rỗng bằng số 0
df.fillna(0)

### Drop rows and columns
Ta có một method hỗ trợ drop những rows và columns mang giá trị rỗng, tùy theo ta custom, cùng xem ví dụ bên dưới

In [None]:
df.dropna()

Ta thấy nó thực hiện drop những dòng mang giá trị rỗng. Nhưng bản chất những tham số ngầm đằng sau là gì?

In [None]:
df.dropna(axis='index', how='any')

Bên trên chính là những tham số ngầm được tự động truyền vào khi ta sử dụng method **dropna** ko có tham số nào truyền vào.
+ axis: xét theo cột (column) hoặc dòng (index)
+ how: tùy theo tham số, với all nó sẽ drop khi tất cả giá trị đều là rỗng, còn với any sẽ drop khi có bất kì một tham số nào bằng rỗng

In [None]:
# chỉ drop row khi tất cả fields đều là rỗng
df.dropna(axis='index', how='all')

Tương tự ta làm cho columns, mình muốn giới thiệu thêm một tham số đó làm **subset**, nó sẽ xét **how** theo tham số của **subset**. Mn coi ví dụ bên dưới để hiểu thêm

In [None]:
df.dropna(axis='index', how='all', subset=['last', 'email'])

Ta thấy ở dòng 5, tham số email vẫn còn nên nó không hề drop dòng này. Khi ta truyền tham số subset thì nó ko còn xét trên toàn bộ DataFrame nữa, mà chỉ dùng những tham số của riêng subset để xét cho how

## Convert DataTypes
Dưới đây mình sẽ giới thiệu những method để convert một số DataTypes tiện cho việc xử lý dữ liệu

### Lấy ra kiểu dữ liệu của tất cả columns

In [None]:
df.dtypes

# hoặc có thể specify một column nào đó
# df['grade'].dtypes

Ta thấy đa số các column là kiểu object, thường object sẽ là kiểu dữ liệu của một column mang giá trị là những chuỗi. Bài toán đặt ra là làm sao để áp dụng các hàm thống kê lên một column mang kiểu dữ liệu chuỗi? Ví dụ là age, ta sẽ thực hiện như sau

Đầu tiên ta cần đưa tất cả những thứ như **Missing** hay **NA** về dạng rỗng chính gốc như sau

In [None]:
df.replace(['Missing', 'NA', None], np.nan, inplace = True)
df

Tiến hành lấy mean thử cột age ở dạng object

In [None]:
df['age'].mean()

Xảy ra lỗi, ta tiến hành convert kiểu dữ liệu của column này về kiểu dữ liệu **float**. Tại sao lại phải là **float** mà ko phải kiểu **int**? Bởi vì trong column này có chứa dữ liệu rỗng (NaN), ta thử dtypes kiểu dữ liệu NaN như sau sẽ thấy

In [None]:
type(np.nan)

Ta đã thấy kiểu dữ liệu của **NaN** là **float**, cho nên khi convert sang kiểu **int** những cột có chứa kiểu dữ liệu **NaN** sẽ gây ra lỗi

### Hàm convert kiểu dữ liệu

In [None]:
# Gây ra lỗi do cột này chứa NaN
df['age'].astype(int)

In [None]:
# Hoàn toàn bình thường
df['age'] = df['age'].astype(float)
df['age'].mean()

Ta có thể convert ngay đầu vào khi **Define** như sau. Tham số na_values sẽ hỗ trợ việc convert các giá trị mà ta quy định về giá trị rỗng **NaN**

In [None]:
na_convert = ['NA', 'Missing']
df = pd.read_csv('data/survey_results_public.csv', na_values = na_convert)

df.head(5)

### Method lấy ra những giá trị hiện có
Ta có thể lấy ra những giá trị đang tồn tại trong một columns nào đó bằng method **unique**

In [None]:
df['YearsCode'].unique()

Ta thấy trong cột **YearsCode** chứa cả dữ liệu **NaN** và các dữ liệu kiểu chuỗi. Ta có thể áp dụng các hàm xác suất để tính khi convert nó về kiểu float, mình làm nhanh như sau, các bước cũng như trên

In [None]:
df['YearsCode'].replace('Less than 1 year', 0, inplace = True)
df['YearsCode'].replace('More than 50 years', 51, inplace = True)
df['YearsCode'] = df['YearsCode'].astype(float)
df['YearsCode'].mean()