# ข้อมูลสูญหาย (Missing Data/Values)
- ตรวจสอบข้อมูลเบื้องต้น
- จัดการกับข้อมูลสูญหาย

## ตรวจสอบข้อมูลเบื้องต้น
- ดูโครงสร้าง.. ใช้ List (head, tail, sample), ดูรายชื่อ Columns
- สถิติเบื้องต้น (describe): ค่าเฉลี่ย Max Min ..
- Data types: ชนิดข้อมูล float, object ...
- Data Visualization (Plot)
- Missing data (values)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Load dataset
# df = pd.read_csv('/data/data_missing.csv', encoding='utf-8')
df = pd.read_csv('data/data_missing.csv')

### ดูโครงสร้าง
- List (head, tail, sample)
- ดูรายชื่อ Columns
- มิติ (shape)

In [None]:
# df
# df.head(7)   
df.head()              # NaN = Not a Number

In [None]:
df.tail()

In [None]:
# df.sample(5)
df.sample(5, random_state=0)

In [None]:
df.shape

### List Columns

In [None]:
df.columns

In [None]:
# df[['Temp', 'Humid', 'Rain']]
columns = ['Temp', 'Humid', 'Rain']
df[columns].head()

### Data types

In [None]:
df.dtypes

In [None]:
df.info()

### สถิติเบื้องต้น
ค่าเฉลี่ย Max Min ..

In [None]:
df.describe() #.round(3)

In [None]:
df.describe().round(2)

In [None]:
# pd.options.display.float_format = '{:,.3f}'.format
pd.reset_option('display.float_format')     # reset
df

In [None]:
df.describe()

In [None]:
df.style.format({'Temp': '{}', 'Humid':'{:.4f}'})

### Data Visualization (Plot)

In [None]:
df.plot.bar()
plt.show()

In [None]:
plt.scatter(df.Date, df.Temp)
plt.show()

### ตรวจสอบ Missing Values

In [None]:
# ตรวจสอบว่ามีข้อมูลสูญหายหรือไม่? Check Missing Data (Missing Values)
df.isnull().sum()

# ปัญหา Missing Values กับ Model

In [None]:
df = pd.read_csv('data/gdp4c.csv', index_col=0)
df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
plt.figure(figsize=(7,4))
plt.scatter(df.index, df.THA, label='THA')
# plt.scatter(df.index, df.SGP, label='SGP')
plt.scatter(df.index, df.VNM, label='VNM')
plt.ylabel('GDP')
plt.legend()
plt.show()

### Model

In [None]:
from sklearn.linear_model import LinearRegression
x = df.index.values.reshape(-1, 1)
x[:5]

In [None]:
y = df.VNM
y
# y[:5]

In [None]:
model = LinearRegression()
model.fit(x, y)

In [None]:
df.shape

In [None]:
df.dropna(inplace=True)         # ลบ NaN (Not a Number) Missing Values
df.head()

In [None]:
df.shape

In [None]:
df.head()

# Workshop: Missing Values

In [None]:
df = pd.read_csv('data/data_missing.csv')
# df = pd.read_csv('data/data_missing.csv', encoding='utf-8')
# df.head()
df

## ตรวจสอบเบื้องต้น

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe()

In [None]:
import matplotlib.pyplot as plt
df.plot.bar()
# df.Temp.plot.bar()
plt.show()

In [None]:
df.Date = df.Date.astype('category')

In [None]:
df.dtypes

In [None]:
df.describe()

## Missing Values

In [None]:
df.isnull().sum()

In [None]:
df.isnull()

In [None]:
df.isnull().any()

In [None]:
df.isnull().sum()

In [None]:
df.notnull()

In [None]:
df.notnull().sum()

## ตรวจสอบเปอร์เซนต์ของ Missing Values

In [None]:
missing_count = df.isnull().sum()

total_cells = np.product(df.shape)
total_missing = missing_count.sum()

# percent of data that is missing
missing_percent = total_missing *100 /total_cells

print('Total cells: {}' . format(total_cells))
print('Total missing values: {}' . format(total_missing))
print('missing: {} %' . format(missing_percent))

## ตรวจสอบ Column

In [None]:
df.columns

In [None]:
df.Temp.isnull().sum()

In [None]:
df.Temp.isnull()

In [None]:
# List แถว (rows) ที่มี Missing Values
df[df.Temp.isnull()]

In [None]:
df[df.Rain.isnull()]

In [None]:
df[df.Humid.isnull()]

In [None]:
# List ทุกคอลัมน์ ที่มี Missing Values
df[df.isnull().any(axis=1)]

# จัดการกับ Missing Values
- เติมข้อมูลเข้าไปแทนที่
- ลบทิ้ง (Drop)

## การเติมข้อมูลเข้าไปแทนที่ Missing Values
- ค่ากลาง (ค่าเฉลี่ย, median ...)
- ค่าใด ๆ
- ข้อมูลก่อนหน้า หรือ ข้อมูลลำดับถัดไป

### แทนที่ด้วยค่ากลาง หรือค่าใดค่าหนึ่ง

In [None]:
df.describe()

In [None]:
colm = 'Humid'
df[colm] = df[colm].fillna(df[colm].mean())

In [None]:
df

In [None]:
colm = 'Humid'
df[colm] = df[colm].fillna(df[colm].median())

In [None]:
df

In [None]:
df = pd.read_csv('data/data_missing.csv', encoding='utf-8')  # Reload the original dataset
df

In [None]:
# เติม/แทนที่ NaN ด้วยค่าใดค่าหนึ่ง
colm = ['Humid','Temp']
df[colm] = df[colm].fillna(99)

In [None]:
df

### เปลี่ยนชนิดข้อมูลเป็นตัวเลข (คอลัมน์->numeric)

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
df.dtypes

In [None]:
colm = 'Rain'
df[colm] = df[colm].fillna(df[colm].mean())     # Error

In [None]:
df.Rain = pd.to_numeric(df.Rain,errors='coerce')    #errors='coerce', 

In [None]:
df.dtypes

In [None]:
df

In [None]:
df.dtypes

In [None]:
colm = 'Rain'
df[colm] = df[colm].fillna(df[colm].mean())  

### การแทนค่าด้วยข้อมูลก่อนหน้า หรือข้อมูลถัดไป

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
# แทนที่ด้วยข้อมูลก่อนหน้า
# นำข้อมูลก่อนหน้า เติมให้ Missing values (NaN) ลำดับถัดไป
df.fillna(method='pad', inplace=True)
df

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
df.fillna(method='pad', limit=1, inplace=True)
df

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
# แทนที่ด้วยข้อมูลถัดไป
# นำข้อมูลข้างหลัง มาเติมให้ Missing values (NaN) ลำดับก่อนหน้า (เอาข้างหลัง มาเติมให้ข้างหน้า)
df.fillna(method='bfill', inplace=True)
df

### กำหนดค่า Missing Data ตอน Load file
เช่น ถ้าข้อมูลเป็น 'n/a' , 'na' , '--' , 'none' ให้ถือว่าเป็น Missing Values ให้ใส่ NaN ลงไปเลย

In [None]:
missing_vals = ['n/a','na','--','none']
df = pd.read_csv('data/data_missing.csv', na_values=missing_vals)
df

## ลบข้อมูล (Drop)

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

### ลบทั้งแถว (Drop Row)

In [None]:
# ลบออกทั้งแถว (Drop) ที่มี NaN
df.dropna(inplace=True)
df

### ลบ (Drop) บางส่วน

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
df.dropna(subset=['Temp', 'Humid'], inplace=True)
df

### ลบ Column

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
df.dropna(axis='columns', inplace=True)
df

### ลบแบบมีเงื่อนไข (Threshold)

In [None]:
df = pd.read_csv('data/data_missing.csv')  # Reload the original dataset
df

In [None]:
df.dropna(thresh=8, axis=1, inplace=True)
df

In [None]:
df.shape

In [None]:
df.shape[0]

In [None]:
left = int(df.shape[0] * .8)
left

In [None]:
df.dropna(thresh=left, axis=1) # inplacce=True

In [None]:
df.loc[[0,4],:] = np.nan
df

In [None]:
df[df.isnull().any(axis=1)]

In [None]:
df[df.isnull().all(axis=1)]

In [None]:
df.dropna(how='all', inplace=True)
df

In [None]:
df['location'] = np.nan
df

In [None]:
# drop column if all are NaN
df.dropna(axis=1, how='all', inplace=True)
df

# ตรวจสอบข้อมูล
- Unique (ตัวแปรชนิด Category)
- ข้อมูลซ้ำ

In [None]:
df = pd.read_csv('data/data_clean_bfclean.csv')  
df

### Unique

In [None]:
# Unique (Group)
cols_to_check = ['OWN_OCCUPIED','NUM_BATH']
for i, col in enumerate(cols_to_check):
    print(df.groupby(col)[cols_to_check[i]].count())
    print('--------------')

### ตรวจข้อมูลซ้ำ

In [None]:
df = pd.read_csv('data/data_clean6_after_clean_bedroom_dup.csv')  
df

In [None]:
df[df.duplicated()]

In [None]:
# ลบ Row ที่ซ้ำ
df.drop_duplicates(inplace=True)
df