# Visualization

## Setting up

In [None]:
# For mounting drive
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
# Load library
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['figure.figsize'] = [6, 2]
from google.colab import data_table
data_table.enable_dataframe_formatter()

In [None]:
# Load data
demo = pd.read_csv('https://raw.githubusercontent.com/nnnpooh/DA/main/dataset/demo.csv')
sale = pd.read_csv('https://raw.githubusercontent.com/nnnpooh/DA/main/dataset/sale.csv')

## Explore raw data

In [None]:
sale.head(20)

In [None]:
demo.head(20)

## Manipulate data

In [None]:
# สร้างคอลัมน์ชื่อ Profit
sale['Profit'] = sale['Revenue'] - sale['Cost']

In [None]:
# สร้างคอลัมน์ชื่อ Customer Age
def calAge(age):
  if age < 25:
    return "Youth"
  elif age < 35:
    return "Young Adult"
  elif age < 65:
    return "Adult"
  else:
    return "Senior"

sr = sale['Customer Age'].apply(calAge)
sale.insert(4, 'Age Group', sr)

In [None]:
# Check result
sale.head(3)

In [None]:
# ทำการรวมข้อมูลทั้ง 2 เข้าด้วยกัน (เหมือนการทำ VLOOKUP)
df = pd.merge(left=sale, right=demo, how="left", on='Customer ID')
df.head(10)

In [None]:
#เช็คคอลัมน์ทั้งหมด
df.info()

## ค่าทางสถิติ
- ค่าเฉลี่ย (`Mean`)
- ค่ามัธยฐาน (`Median`)
  - ค่ากึ่งกลางของข้อมูลที่ถูกเรียงลําดับแล้ว
- ค่าฐานนิยม (`Mode`)
  - ค่าข้อมูลที่มีความถี่สูงสุด
- ส่วนเบี่ยงเบนมาตรฐาน (`Standard Deviation`)
  - บอกถึงการกระจายตัวของข้อมูล


In [None]:
# เลือกคอลัมน์ตัวเลข
cols_num = ['Customer Age', 'Order Quantity', 'Unit Cost', 'Unit Price', 'Cost', 'Revenue', 'Profit', 'YearlyIncome', 'TotalChildren']

In [None]:
# แสดงผลเฉพาะข้อมูลตัวเลข
df[cols_num].head()

In [None]:
# ดูข้อมูลทางสถิติ
df[cols_num].describe()

In [None]:
# ดูค่าฐานนิยม (`Mode`)
df[cols_num].mode()

In [None]:
# ดูค่ามัธยฐาน (`Median`)
pd.DataFrame(data=df[cols_num].median().to_dict(), index=[1])

## การพิจารณาการแจกแจงด้วย Histogram

### กิจกรรม C1
- ลองเปลี่ยนค่า `bins`

In [None]:
for col in cols_num:
    plt.figure()
    sns.histplot(data=df, x=col, bins=30, kde=True)

### กิจกรรม
  - ลองเปลี่ยนค่า `hue` ด้วยคอลัมน์อื่นๆ
    - `Year`
    - `Age Group`,
    - `Customer Gender`
    - `Country`
    - `State`
    - `Product Category`
    - `Sub Category`
    - `MaritalStatus`
    - `EnglishEducation`
    - `HouseOwnerFlag`

In [None]:
for col in cols_num:
    plt.figure()
    sns.histplot(data=df, x=col, bins=30, hue='Customer Gender', multiple="stack")

## การพิจารณาการแจกแจงด้วย Box Plot

In [None]:
for col in cols_num:
    plt.figure()
    sns.boxplot(data=df, x=col)

In [None]:
plt.figure(figsize=(6,6))
sns.boxplot(data=df[['Unit Cost', 'Unit Price', 'Cost', 'Revenue', 'Profit']])

### กิจกรรม C2-1
  - ลองเปลี่ยนค่า `y` ด้วยคอลัมน์อื่นๆ
    - `Customer Age`
    - `Order Quantity`
    - `Unit Cost`
    - `Unit Price`
    - `Cost`
    - `Revenue`
    - `Profit`
    - `YearlyIncome`
    - `TotalChildren`
  - ลองเปลี่ยนค่า `x` ด้วยคอลัมน์อื่นๆ
    - `Year`
    - `Age Group`,
    - `Customer Gender`
    - `Country`
    - `State`
    - `Product Category`
    - `Sub Category`
    - `MaritalStatus`
    - `EnglishEducation`
    - `HouseOwnerFlag`

In [None]:
plt.figure(figsize=(6,6))
sns.boxplot(data=df, y="Cost", x="Product Category")

### กิจกรรม C2-2
  - ลองเปลี่ยนค่า `y` ด้วยคอลัมน์อื่นๆ
    - `Customer Age`,
    - `Order Quantity`,
    - `Unit Cost`,
    - `Unit Price`,
    - `Cost`,
    - `Revenue`,
    - `Profit`,
    - `YearlyIncome`,
    - `TotalChildren`
  - ลองเปลี่ยนค่า `x` และ `hue` ด้วยคอลัมน์อื่นๆ
    - `Year`
    - `Age Group`,
    - `Customer Gender`
    - `Country`
    - `State`
    - `Product Category`
    - `Sub Category`
    - `MaritalStatus`
    - `EnglishEducation`
    - `HouseOwnerFlag`

In [None]:
plt.figure(figsize=(12,6))
sns.boxplot(data=df, y="Cost", x="Product Category", hue='Age Group')

In [None]:
sns.catplot(data=df, x="Product Category", y="Cost",
                hue="Age Group", col="MaritalStatus",
                kind="box",
                height=5, aspect=1);

## การพิจารณาการแจกแจงด้วย Violin Plot

In [None]:
for col in cols_num:
    plt.figure()
    sns.violinplot(data=df, x=col)

### กิจกรรม C3
  - ลองเปลี่ยนค่า `y` ด้วยคอลัมน์อื่นๆ
    - `Customer Age`
    - `Order Quantity`
    - `Unit Cost`
    - `Unit Price`
    - `Cost`
    - `Revenue`
    - `Profit`
    - `YearlyIncome`
    - `TotalChildren`
  - ลองเปลี่ยนค่า `x` และ `hue` ด้วยคอลัมน์อื่นๆ
    - `Year`
    - `Age Group`,
    - `Customer Gender`
    - `Country`
    - `State`
    - `Product Category`
    - `Sub Category`
    - `MaritalStatus`
    - `EnglishEducation`
    - `HouseOwnerFlag`

In [None]:
plt.figure(figsize=(6,6))
sns.violinplot(data=df, y="YearlyIncome", x="Age Group", hue="MaritalStatus")

In [None]:
plt.figure(figsize=(6,6))
sns.violinplot(data=df, y="YearlyIncome", x="Age Group", hue="MaritalStatus", split=True)

In [None]:
sns.catplot(data=df, x="Product Category", y="Cost",
                hue="Age Group", col="MaritalStatus",
                kind="violin",
                height=5, aspect=1);

## การพิจารณาการแจกแจงด้วย Boxen Plot

In [None]:
for col in cols_num:
    plt.figure()
    sns.boxenplot(data=df, x=col)

In [None]:
plt.figure(figsize=(6,6))
sns.boxenplot(data=df[['Unit Cost', 'Unit Price', 'Cost', 'Revenue', 'Profit']])

### กิจกรรม C4
  - ลองเปลี่ยนค่า `y` ด้วยคอลัมน์อื่นๆ
    - `Customer Age`
    - `Order Quantity`
    - `Unit Cost`
    - `Unit Price`
    - `Cost`
    - `Revenue`
    - `Profit`
    - `YearlyIncome`
    - `TotalChildren`
  - ลองเปลี่ยนค่า `x` และ `hue` ด้วยคอลัมน์อื่นๆ
    - `Year`
    - `Age Group`,
    - `Customer Gender`
    - `Country`
    - `State`
    - `Product Category`
    - `Sub Category`
    - `MaritalStatus`
    - `EnglishEducation`
    - `HouseOwnerFlag`

In [None]:
plt.figure(figsize=(6,6))
sns.boxenplot(data=df, y="YearlyIncome", x="Age Group", hue="MaritalStatus")

In [None]:
sns.catplot(data=df, x="Product Category", y="Cost",
                hue="Age Group", col="MaritalStatus",
                kind="boxen",
                height=5, aspect=1);

## ค่าสหสัมพันธ์

In [None]:
#คำนวณ
corr = df[cols_num].corr()
display(corr)

In [None]:
# สร้าง Heat Map

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
# ตรวจสอบ
plt.figure(figsize=(8,5))
sns.scatterplot(data=df, x='Order Quantity', y="Unit Cost", hue='Product Category')

### กิจกรรม C5
  - ลองใส่คอลัมน์อื่นๆเข้าไปใน `sns.pairplot(df[[.......]])`
    - `Customer Age`
    - `Order Quantity`
    - `Unit Cost`
    - `Unit Price`
    - `Cost`
    - `Revenue`
    - `Profit`
    - `YearlyIncome`
    - `TotalChildren`

In [None]:
sns.pairplot(df[['Cost', 'Revenue', 'Profit']])

## การ Save File ลงใน Google Drive

In [None]:
# Mounting drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
plt.figure(figsize=(6,6))
sns.violinplot(data=df, y="YearlyIncome", x="Age Group", hue="MaritalStatus", split=True)
plt.savefig('./drive/MyDrive/figure.png', dpi=300, bbox_inches="tight")