In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import zscore

# Ex0 Lab Preparation

In [None]:
data = pd.read_csv('data_missing.csv')

In [None]:
data = pd.read_csv('data_clean.csv')

In [None]:
data = pd.read_csv('outlier.csv')

In [None]:
data = pd.read_csv('credit_card_data.csv', encoding='unicode_escape')

# Ex1 ข้อมูลสูญหาย

In [None]:
data = pd.read_csv('data_missing.csv')
data_backup = data.copy()

In [None]:
data.shape

In [None]:
data.dtypes

In [None]:
data

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data.sample(5)

In [None]:
data.describe()

In [None]:
data.isnull()

In [None]:
data.isnull().any()

In [None]:
data.isnull().sum()

In [None]:
missing_count = data.isnull().sum()
total_cells = np.product(data.shape)
total_missing = missing_count.sum()
missing_percent = total_missing*100/total_cells
print("Total cells: {}".format(total_cells))
print("Total missing values: {}".format(total_missing))
print("Missing: {}%".format(missing_percent))

## 1.1 การแทนที่ด้วยค่ากลาง

In [None]:
data.describe()

In [None]:
data.dtypes

In [None]:
data['Temp']

In [None]:
data['Temp'] = data['Temp'].fillna(data['Temp'].median())

In [None]:
data['Temp']

In [None]:
data

In [None]:
data['Humid'] = data['Humid'].fillna(data['Humid'].mean())

In [None]:
data

In [None]:
data = data_backup.copy() #data = pd.read_csv('data_missing.csv')

In [None]:
data

In [None]:
columns = ['Temp','Humid']
data[columns] = data[columns].fillna(data[columns].median())

In [None]:
data

## 1.2 การแทนที่ด้วยค่าใดค่าหนึ่ง

In [None]:
data = data_backup.copy()
columns = ['Temp','Humid']
data[columns] = data[columns].fillna(-999)
data

## 1.3 การแทนด้วยค่าก่อนหน้า

In [None]:
data = data_backup.copy()
data.fillna(method='pad', inplace=True)
data

## 1.4 การแทนด้วยค่าถัดไป

In [None]:
data = data_backup.copy()
data.fillna(method='bfill', inplace=True)
data

## 1.5 การลบข้อมูลที่สูญหาย

In [None]:
data = data_backup.copy()
data.dropna(inplace=True)
data

In [None]:
data = data_backup.copy()
data.dropna(subset=['Temp','Humid'], inplace=True)
data

# Ex2

In [None]:
data = pd.read_csv('data_clean.csv')
data_backup = data.copy()
print(data.shape)
print()
print(data.describe())
print()
print(data.dtypes)
print()
print(data)

## 2.1 การลบคอลัมน์

In [None]:
data = data_backup.copy()
data.drop(columns='PID', inplace=True)
data

## 2.2 การเปลี่ยนชื่อคอลัมน์

In [None]:
data = data_backup.copy()
data = data.rename(columns={'ST_NAME':'name','NUM_BEDROOMS':'bed'})
data

## 2.3 การตรวจสอบค่าของข้อมูล

In [None]:
data = data_backup.copy()
data.groupby('OWN_OCCUPIED')['OWN_OCCUPIED'].count()

In [None]:
sns.countplot(x='OWN_OCCUPIED', data=data)

In [None]:
data['OWN_OCCUPIED'] = data['OWN_OCCUPIED'].str.upper()
data['OWN_OCCUPIED']

In [None]:
sns.countplot(x='OWN_OCCUPIED', data=data)

## 2.4 การจัดการข้อมูลผิดชนิด

In [None]:
data = data_backup.copy()
data = data.rename(columns={'OWN_OCCUPIED':'own'})
data.own = data.own.str.upper()

In [None]:
data.own

In [None]:
data.own == '12'

In [None]:
data[data.own == '12']

In [None]:
data.at[10,'own'] = 'N'
data

In [None]:
sns.countplot(x='own', data=data)

## 2.5 การคัดกรองและลบแถวทิ้ง

In [None]:
data = data_backup.copy()
data['OWN_OCCUPIED'] = data['OWN_OCCUPIED'].str.upper()
data[data['OWN_OCCUPIED'] == '12']

In [None]:
data['OWN_OCCUPIED'] == '12'

In [None]:
idx = data[data['OWN_OCCUPIED'] == '12'].index

In [None]:
idx

In [None]:
data.loc[idx]

In [None]:
data.drop(idx, inplace=True)

In [None]:
data

In [None]:
sns.countplot(x='OWN_OCCUPIED', data=data)

## 2.6 การจัดการข้อมูลแบบตัวเลข

In [None]:
data = data_backup.copy()
print(data.dtypes)
print()
print(data['NUM_BATH'])

In [None]:
data.isnull().any()

In [None]:
data['NUM_BATH'] = data['NUM_BATH'].fillna(data['NUM_BATH'].mean())

In [None]:
data['NUM_BATH'] = pd.to_numeric(data['NUM_BATH'], errors='coerce', downcast='integer')

In [None]:
data['NUM_BATH']

In [None]:
def float2int(val):
    if val % 1 == 0:
        return int(val)
    else:
        return np.nan

def float2int2(val):
    return int(val) if val % 1 == 0 else np.nan 

In [None]:
data['NUM_BATH'] = data['NUM_BATH'].apply(float2int)
data['NUM_BATH']

In [None]:
data['NUM_BATH'] = data['NUM_BATH'].apply(lambda x: x if (x % 1 == 0) else np.nan)
data['NUM_BATH']

In [None]:
data['NUM_BATH'].notnull()

In [None]:
data = data[data['NUM_BATH'].notnull()]
data

In [None]:
data['NUM_BATH'] = data['NUM_BATH'].astype('int64')
data['NUM_BATH']

In [None]:
data.dtypes

In [None]:
data = data[data['NUM_BATH']>0]
data

# Ex3

## 3.1 การใช้ IQR เพื่อหาค่าผิดปกติ

In [None]:
data = pd.read_csv('outlier.csv')
data_backup = data.copy()
print(data)
print('--------------------------------------')
print(data.describe())

In [None]:
q3 = data.Buy.quantile(.75)
q1 = data.Buy.quantile(.25)

In [None]:
iqr = q3 - q1

print('Q1: {}' . format(q1))
print('Q3: {}' . format(q3))
print('IQR: {}' . format(iqr))

upper = q3 + (1.5 * iqr)
lower = q1 - (1.5 * iqr)
print('Lower: {:.2f} \nUpper: {:.2f}' . format(lower, upper))

## 3.2 การตรวจสอบค่าผิดปกติด้วย Boxplot

In [None]:
plt.axvline(x=q1, c='b', linestyle='--', linewidth=1) #
plt.axvline(x=q3, c='g', linestyle='--', linewidth=1) #
plt.axvline(x=lower, c='r', linestyle='--') #
plt.axvline(x=upper, c='r', linestyle='--') #
sns.boxplot(x=data.Buy, width=0.4, palette='Set2')
plt.show()

## 3.3 ขอบเขตบน และขอบเขตล่าง

In [None]:
filter_upper = data.Buy > upper

In [None]:
data[filter_upper].count()

In [None]:
data[filter_upper]

In [None]:
data.drop(data[filter_upper].index, inplace=True)
data

In [None]:
filter_lower = data.Buy < lower
data[filter_lower]

In [None]:
data.drop(data[filter_lower].index, inplace=True)
data

In [None]:
q3 = data.Buy.quantile(.75)
q1 = data.Buy.quantile(.25)

iqr = q3 - q1

print('Q1: {}' . format(q1))
print('Q3: {}' . format(q3))
print('IQR: {}' . format(iqr))

upper = q3 + (1.5 * iqr)
lower = q1 - (1.5 * iqr)
print('Lower: {:.2f} \nUpper: {:.2f}' . format(lower, upper))

In [None]:
plt.axvline(x=q1, c='b', linestyle='--', linewidth=1) #
plt.axvline(x=q3, c='g', linestyle='--', linewidth=1) #
plt.axvline(x=lower, c='r', linestyle='--') #
plt.axvline(x=upper, c='r', linestyle='--') #
sns.boxplot(x=data.Buy, width=0.4, palette='Set2')
plt.show()

In [None]:
filter_upper = data.Buy > upper
data.drop(data[filter_upper].index, inplace=True)
filter_lower = data.Buy < lower
data.drop(data[filter_lower].index, inplace=True)

In [None]:
data

In [None]:
q3 = data.Buy.quantile(.75)
q1 = data.Buy.quantile(.25)

iqr = q3 - q1

print('Q1: {}' . format(q1))
print('Q3: {}' . format(q3))
print('IQR: {}' . format(iqr))

upper = q3 + (1.5 * iqr)
lower = q1 - (1.5 * iqr)
print('Lower: {:.2f} \nUpper: {:.2f}' . format(lower, upper))

In [None]:
plt.axvline(x=q1, c='b', linestyle='--', linewidth=1) #
plt.axvline(x=q3, c='g', linestyle='--', linewidth=1) #
plt.axvline(x=lower, c='r', linestyle='--') #
plt.axvline(x=upper, c='r', linestyle='--') #
sns.boxplot(x=data.Buy, width=0.4, palette='Set2')
plt.show()

## 3.4 Z-score

In [None]:
data = pd.read_csv('outlier.csv')
data_backup = data.copy()

In [None]:
data['buy_zscore'] = zscore(data.Buy, ddof=0)
data

In [None]:
data.describe()

In [None]:
f, axes = plt.subplots(1, 2, figsize=(10, 3))
sns.histplot(x=data.Buy, bins=20, ax=axes[0], color='b', kde=True, stat="density")
sns.histplot(x=data.buy_zscore, bins=20, ax=axes[1], color='b', kde=True, stat="density")
plt.show()

In [None]:
diff = 2.5
data['buy_outlier'] = data.buy_zscore.apply(lambda x : (np.abs(x) >= diff) )

In [None]:
data

In [None]:
filter = np.abs(data.buy_zscore) <= diff
data = data[filter]

In [None]:
data

# 4. การบันทึกไฟล์ CSV หรือ Excel ที่ถูกแก้ไขแล้ว

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import zscore

data = pd.read_csv('data_missing.csv')
print('Original')
print(data)
print('-----------------------------------------------')
columns = ['Temp','Humid']
data[columns] = data[columns].fillna(data[columns].median())
print('Missing Data')
print(data)
print('-----------------------------------------------')
data.to_csv('test.csv',index=False)
data.to_excel('test.xlsx',index=False)

# 5. Quiz: ตรวจสอบข้อมูลทุก Features แล้วทำ Data Cleaning ทั้งหมด

## 5.1 คำอธิบายข้อมูล
### card คือ สถานะการใช้งานบัตร
### reports คือ จำนวนครั้งที่ถูกรายงานว่าผิดนัด
### age คือ อายุของผู้ถือบัตร [แทนที่ค่าว่างด้วย Median]
### income คือ รายได้ของผู้ถือบัตร [แทนที่ค่าว่างด้วย Mean]
### share คือ ส่วนแบ่งค่านายหน้า [แทนที่ค่าว่างด้วย ค่าก่อนหน้า][ค่าไม่เกิน 1.0]
### expenditure คือ รายจ่ายของผู้ถือบัตร [แทนที่ค่าว่างด้วย ค่าถัดไป]
### owner คือ ผู้ถือบัตรเป็นเจ้าของกิจการหรือไม่
### selfemp คือ ผู้ถือบัตรประกอบอาชีพอิสระหรือไม่
### dependents คือ จำนวนผู้อยู่ในอุปการะ
### months คือ จำนวนเดือน  [แทนที่ค่าว่างด้วย รหัสนักศึกษา 2 ตัวท้าย][ค่าไม่เกิน 500]
### majorcards คือ ใช่ร่วมกับบัตรหลักหรือไม่
### active คือ ระยะเวลาที่ใช้งานล่าสุด [ลบแถวที่มีค่าว่าง][แทนที่ข้อมูลด้วย รหัสนักศึกษา 2 ตัวท้าย]

## 5.2 Export ออกมาเป็นไฟล์ csv หรือ xlsx ก็ได้โดยกำหนดชื่อเป็นรหัสนักศึกษา

In [None]:
data = pd.read_csv('credit_card_data.csv', encoding='unicode_escape')
data_backup = data.copy()
print(data)
print()
print(data.describe())

In [None]:
data.dtypes

In [None]:
data.isnull().any()

In [None]:
data.isnull().sum()