## 資料剖析 漂亮的鳶尾花

In [1]:
"""解剖資料集
學習重點:知道如何讀懂資料集裡面的內容，還有資料的意義。
"""
from sklearn.datasets import load_iris

iris_data = load_iris()
# print(iris_data)
print(iris_data.DESCR)
# print(iris_data.data)
# print(iris_data.target)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [2]:
"""Numpy 第一堂
學習重點:了解如何篩選行與列
"""
# Numpy method
import numpy as np

X = iris_data.data
Y = iris_data.target

# print(X)
print(X.shape)
# print(Y)
print(Y.shape)


# 取得萼片
sepal = X[:,0:2]
print("Shape of sepal :",sepal.shape)
print("Type of sepal :",type(sepal))

# 隨意選取
sepal_select = sepal[1:5,0:]
print("隨意選取的資料:\n",sepal_select)

# 選出長度與寬度
sepal_length = sepal[:,0]
# print(sepal_length)

sepal_width = sepal[:,1]
# print(sepal_width)

(150, 4)
(150,)
Shape of sepal : (150, 2)
Type of sepal : <class 'numpy.ndarray'>
隨意選取的資料:
 [[4.9 3. ]
 [4.7 3.2]
 [4.6 3.1]
 [5.  3.6]]


In [3]:
"""Matplotlib 第一堂
學習重點:知道如何畫出簡易的散佈圖。
"""
# 繪圖
import matplotlib.pyplot as plt
# scatter --> 等同excel上面的散佈圖
plt.scatter(sepal_length,sepal_width,c='red',marker='D')
plt.show()


ModuleNotFoundError: No module named 'matplotlib'

In [None]:
"""Numpy 第二堂
學習重點:了解如何使用遮罩篩出自己要的資料
"""
# 取得某一個品種的資料
sepal_length_0 = sepal_length[Y==0]
sepal_width_0 = sepal_width[Y==0]
print("Y = 0 所對應的資料數 = ",len(sepal_length_0))



In [None]:
"""Matplotlib 第二堂
學習重點:重複畫上不同品種的點，並加上標題與座標名稱。
"""

plt.scatter(sepal_length_0,sepal_width_0,c='red')
plt.scatter(sepal_length[Y==1],sepal_width[Y==1],c='green',marker='D')
plt.scatter(sepal_length[Y==2],sepal_width[Y==2],c='blue',marker='v')
# 加上圖示-方法一 自訂代號
plt.legend(['A','B','C'])
# 加上圖示-方法二 使用datasets 中包含的資料
# plt.legend(iris_data.target_names)

# 加上標題
plt.title('Sepal')
plt.xlabel(iris_data.feature_names[0])
plt.ylabel(iris_data.feature_names[1])
plt.show()

In [None]:
"""練習Lab01:仿造上述程式，使用花瓣長寬畫出散佈圖，並標出不同的品種。
複習重點1.學會Numpy的使用方式，如何選取特定行列的資料，使用遮罩。
複習重點2.學會使用matplotlib繪製散佈圖。
"""
# TODO 開始畫圖
# petal = X[:,3:]

In [None]:
"""Matplotlib 第三堂
學習重點:了解如何同時繪製多張圖
"""
plt.figure(figsize=(15,10))


# Subplot參數順序: 橫寬格數，縱高格數，編號(從1開始)
# 左上

plt1 = plt.subplot(2,2,1)
plt1.scatter(sepal_length,sepal_width)
plt1.set_title('1.Scatter of Sepal')

# 右上
plt2 = plt.subplot(2,2,2)
plt2.scatter(sepal_length_0,sepal_width_0,c='red')
plt2.scatter(sepal_length[Y==1],sepal_width[Y==1],c='green',marker='D')
plt2.scatter(sepal_length[Y==2],sepal_width[Y==2],c='blue',marker='v')
plt2.legend(iris_data.target_names)
plt2.set_title('2.Scatter of Sepal (Different Kinds)')

# 左下
# TODO 
plt3 = plt.subplot(2,2,3)
plt3.set_title('3.Scatter of Petal ')

# 右下
# TODO
plt4 = plt.subplot(2,2,4)
plt4.set_title('4.Scatter of Petal (Different Kinds)')

plt.show()
