# 環境設定

In [None]:
# 引入必要的套件
import pandas as pd

# 建立 DataFrame 資料集

## 透過 Python 之「複合資料結構」建立

In [None]:
# 先用 List 建立「欄名」與「列名」
Rows = ["Row1", "Row2", "Row3"]
Columns = ["Column1", "Column2"]

In [None]:
# 透過複合資料 List，以列為主，建立 DataFrame 資料集
dfList = pd.DataFrame([[1, 2], [3, 4], [5, 6]], index=Rows, columns=Columns)
print(dfList)

      Column1  Column2
Row1        1        2
Row2        3        4
Row3        5        6


In [None]:
# 透過複合資料 Dict，以欄為主，建立 DataFrame 資料集
dfDict = pd.DataFrame({"Column1":[1, 3, 5], "Column2":[2, 4, 6]}, index=Rows)
print(dfDict)

      Column1  Column2
Row1        1        2
Row2        3        4
Row3        5        6


## 透過讀入 .CSV 檔建立之

In [None]:
# 透過網路，至 GitHub 下載資料集
# 你也可以透過手工上傳資料集，就可以不用寫下面這幾行程式碼
import os

Dataset_File = "CarSales.csv"
if not os.path.isfile(Dataset_File):
  os.system("wget https://raw.githubusercontent.com/cnchi/datasets/master/" + Dataset_File)

In [None]:
# 讀入 .CSV 檔案
dfCSV = pd.read_csv("CarSales.csv")
print(dfCSV)

   Country   Age   Salary ToBuy
0   France  44.0  72000.0    No
1    Spain  27.0  48000.0   Yes
2  Germany  30.0  54000.0    No
3    Spain  38.0  61000.0    No
4  Germany  40.0      NaN   Yes
5   France  35.0  58000.0   Yes
6    Spain   NaN  52000.0    No
7   France  48.0  79000.0   Yes
8  Germany  50.0  83000.0    No
9   France  37.0  67000.0   Yes


In [None]:
# 計算某欄位之特定統計量
# NumPy 的所有統計量公式，如：.max(), .min()...都可以使用
print(dfCSV["Country"].mode())
print(dfCSV["Age"].median())
print(dfCSV["Salary"].mean())

0    France
Name: Country, dtype: object
38.0
63777.77777777778


# 取得資料集的「摘要描述」

In [None]:
# 使用 .describe() 取得摘要描述
dfCSV.describe(include="all")

Unnamed: 0,Country,Age,Salary,ToBuy
count,10,9.0,9.0,10
unique,3,,,2
top,France,,,No
freq,4,,,5
mean,,38.777778,63777.777778,
std,,7.693793,12265.579662,
min,,27.0,48000.0,
25%,,35.0,54000.0,
50%,,38.0,61000.0,
75%,,44.0,72000.0,


# 選取特定欄列

## .iloc[列,欄] 與 .loc[列,欄] 函數


*   .iloc[列,欄]: Index Locator。使用「索引值」來指定特定欄列。
*   .loc[列,欄]: Locator。使用「欄位名稱」來指定特定欄列。



In [None]:
# 用 .iloc() 選取年齡與月薪兩個欄位（列數則全取）
print(dfCSV.iloc[:, 1:3])

    Age   Salary
0  44.0  72000.0
1  27.0  48000.0
2  30.0  54000.0
3  38.0  61000.0
4  40.0      NaN
5  35.0  58000.0
6   NaN  52000.0
7  48.0  79000.0
8  50.0  83000.0
9  37.0  67000.0


In [None]:
# 用 .loc() 選取國別與是否購買兩個欄位（列數則全取）
print(dfCSV.loc[:, ["Country", "ToBuy"]])

   Country ToBuy
0   France    No
1    Spain   Yes
2  Germany    No
3    Spain    No
4  Germany   Yes
5   France   Yes
6    Spain    No
7   France   Yes
8  Germany    No
9   France   Yes


## 使用「條件」來選取特定欄列


1.   先將「條件」儲存成一個變數。
2.   再將「條件」，塞入 dfCSV[ ] 的中括號裡面，過濾特定欄列。



In [None]:
# 選出最後沒有購買汽車的客戶
the_condition = (dfCSV["ToBuy"] == "No")
print(dfCSV[the_condition])

   Country   Age   Salary ToBuy
0   France  44.0  72000.0    No
2  Germany  30.0  54000.0    No
3    Spain  38.0  61000.0    No
6    Spain   NaN  52000.0    No
8  Germany  50.0  83000.0    No


# 轉換成 NumPy 陣列

In [None]:
ary = dfCSV.to_numpy()
print(ary)

[['France' 44.0 72000.0 'No']
 ['Spain' 27.0 48000.0 'Yes']
 ['Germany' 30.0 54000.0 'No']
 ['Spain' 38.0 61000.0 'No']
 ['Germany' 40.0 nan 'Yes']
 ['France' 35.0 58000.0 'Yes']
 ['Spain' nan 52000.0 'No']
 ['France' 48.0 79000.0 'Yes']
 ['Germany' 50.0 83000.0 'No']
 ['France' 37.0 67000.0 'Yes']]
