目標: 了解利用 PANDAS 整理資料, 利用資料視覺化可以很快的判斷結果

重點: 資料整理與視覺化可以加速理解機器學習

#### 載入資料後的前處理

In [None]:
# 導入相關的庫
import pandas as pd 
import numpy as np 
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
# 導入數據集
df_white = pd.read_csv(r'C: 存放winequality-white.csv 的資料夾位子 \winequality-white.csv', sep = ';')
df_red = pd.read_csv(r'C: 存放winequality-red.csv 的資料夾位子 \winequality-red.csv', sep = ';')

In [None]:
# 檢查數據
df_white.info(),df_red.info()

In [None]:
# 檢查重複數據
df_white.duplicated().sum(),df_red.duplicated().sum()

In [None]:
# 移除重複列
df_white.drop_duplicates(inplace = True)
df_red.drop_duplicates(inplace = True)

In [None]:
# 檢查遺失值
red_df.isnull().sum().sum(), white_df.isnull().sum().sum()

In [None]:
# 做合併
df_wine = df_red.append(df_white)
df_wine.to_csv('winequality.csv', index=False)

#### 開始作圖 (視覺化)

In [None]:
# 直方圖
df_wine.hist(bins=10, color='lightblue',edgecolor='blue',xlabelsize=8, ylabelsize=8, grid=False)

plt.tight_layout(rect=(1,1,3,3))

熱圖是數據的二-D可視化,其中兩個要素之間的關係量級由色調表示。熱圖中的梯度根據屬性之間的相關性強度而變化。在下面的示例中,高度相關的屬性的陰影比其餘屬性暗。

In [None]:
# 熱力圖
f, ax = plt.subplots(figsize=(10, 6))
b = sns.heatmap(df_.corr(), annot=True, linewidths=.05, ax=ax)
f.subplots_adjust(top=0.93)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)
title= f.suptitle('Correlation Heatmap for wine attributes', fontsize=12)

聯合圖用於顯示兩個變數之間的關係。您可以選擇從 5 個選項中繪製的繪圖種類 - 散點、reg、十六進位、kde、resid。下面我展示了三個使用線性回歸線('reg'的例子)
1. 第一個示例"檸檬酸"和"固定酸度"具有正相關關係,因此圖形是向上的。
2. 然而,硫酸鹽和酒精的變數是相關的。因此,線性回歸線幾乎是平的。
3.具有"揮發性酸度"和"檸檬酸"屬性的示例具有負相關性,因此圖呈向下。

In [None]:
# 聯合圖
sns.jointplot(data=df_wine, x="fixed acidity", y="volatile acidity", kind = 'reg')

In [None]:
#Plotting Jointplot, 使用 'reg'== regression 回歸線繪製關係圖
a = sns.jointplot("fixed_acidity","citric_acid",data = df_all,kind ='reg', color = None)
b = sns.jointplot("alcohol", "citric_acid", data = df_all, kind = 'reg')
c = sns.jointplot("volatile_acidity", "citric_acid", data = df_all, kind = 'reg')

In [None]:
# 小提琴圖
ax = sns.violinplot(x="quality", y="sulphates", data=df_wine)