## 講座 2.2　pandas 入門

### 定義資料框

#### 匯入套件

In [1]:
# 匯入套件

# NumPy 套件
import numpy as np

# pandas 套件
import pandas as pd

# 資料框顯示用函式
from IPython.display import display

# 資料框中的顯示精度, 小數 4 位
pd.options.display.float_format = '{:.4f}'.format

# 顯示資料框中的所有項目
pd.set_option("display.max_columns",None)

#### 定義資料框

In [2]:
# 定義 2D NumPy 陣列
b = np.array([[1, 2, 1], [4, 5, 2], [7, 8, 2],
    [10,np.nan, 1], [13, 10, 2]])

# 確認結果
print(b)

[[ 1.  2.  1.]
 [ 4.  5.  2.]
 [ 7.  8.  2.]
 [10. nan  1.]
 [13. 10.  2.]]


In [3]:
# 定義資料框
df = pd.DataFrame(b, columns=['col_a', 'col_b', 'col_c'])

# 顯示型態
print(type(df))

# 利用 display 函式顯示表格
display(df)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [4]:
# 顯示資料框各部分

# 行名
print('行名', df.columns)

print('列名', df.index)

# 資料值
print('資料值\n', df.values)

行名 Index(['col_a', 'col_b', 'col_c'], dtype='object')
列名 RangeIndex(start=0, stop=5, step=1)
資料值
 [[ 1.  2.  1.]
 [ 4.  5.  2.]
 [ 7.  8.  2.]
 [10. nan  1.]
 [13. 10.  2.]]


### 從檔案中載入資料

#### 從 CSV 檔案載入

In [6]:
# 從 CSV 檔案載入

# 從網址載入
csv_url = 'https://github.com/makaishi2/sample-data/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.csv'

# 載入資料
df_csv = pd.read_csv(csv_url)

# 確認結果
display(df_csv)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [7]:
# 載入檔案後變更行名
columns = ['A 行', 'B 行', 'C 行']
df_csv.columns = columns

# 確認結果
display(df_csv)

Unnamed: 0,A 行,B 行,C 行
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


#### 從 Excel 檔案載入

In [9]:
# 從 Excel 檔案載入

# 從網址載入
excel_url = 'https://github.com/makaishi2/sample-data\
/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.xlsx'

# 載入資料
df_excel = pd.read_excel(excel_url)

# 確認結果
display(df_excel)

Unnamed: 0,col_a,col_b,col_c
0,1,2.0,1
1,4,5.0,2
2,7,8.0,2
3,10,,1
4,13,10.0,2


### 定義 Series

In [10]:
# 定義 1D NumPy 陣列
a = np.array(['male', 'male', 'female', 'male', 'female'])

# 確認結果
print(a)

['male' 'male' 'female' 'male' 'female']


In [11]:
# 定義 Series
ser = pd.Series(a, name='col_d')

print(type(ser))

print(ser)

<class 'pandas.core.series.Series'>
0      male
1      male
2    female
3      male
4    female
Name: col_d, dtype: object


In [12]:
# 利用資料框生成 Series
ser2 = df['col_b']

print(type(ser2))

print(ser2)

<class 'pandas.core.series.Series'>
0    2.0000
1    5.0000
2    8.0000
3       NaN
4   10.0000
Name: col_b, dtype: float64


### 資料框與 NumPy 的關係

In [14]:
# 資料框與 2D NumPy 陣列的關係

# 從資料框中取得 2D NumPy 陣列
ar = df.values

# 利用 2D NumPy 陣列生成資料框
df0 = pd.DataFrame(ar)

In [15]:
# 資料框的 shape 與 len 函式
# shape 與 len 函式會直接傳回內部 NumPy 的結果

print(df.shape)
print(len(df))

(5, 3)
5


### 提取資料框的一部分

In [16]:
# 利用行串列提取部分表格

cols = ['col_a', 'col_c']
df2 = df[cols]

display(df2)

Unnamed: 0,col_a,col_c
0,1.0,1.0
1,4.0,2.0
2,7.0,2.0
3,10.0,1.0
4,13.0,2.0


In [17]:
# 將資料框的特定行提取為 NumPy 陣列

y = df['col_a'].values
print(y)

[ 1.  4.  7. 10. 13.]


In [18]:
# 利用 head 函式指定列的範圍
display(df.head(2))

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0


In [19]:
# 以數值指定列的範圍
display(df[0:2])

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0


#### 根據 Index 陣列選擇「列」

In [23]:
# idx：判定「col_a 為奇數」
idx = (df['col_a'] % 2 == 1)
df[idx]
# print(idx)


Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [24]:
# 利用 idx 鎖定「列」
df3 = df[idx]
display(df3)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [25]:
# 合併為 1 列
df4 = df[df['col_a'] % 2 == 1]
display(df4)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


### 資料框操作

In [26]:
# 刪除行
df5 = df.drop('col_a', axis=1)
display(df5)

Unnamed: 0,col_b,col_c
0,2.0,1.0
1,5.0,2.0
2,8.0,2.0
3,,1.0
4,10.0,2.0


In [27]:
# 刪除含缺失值的列
df6 = df.dropna(subset = ['col_b'])
#df6 = df.dropna(axis=1)
display(df6)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [28]:
# 拼接行
df7 = pd.concat([df, ser], axis=1)
display(df7)

Unnamed: 0,col_a,col_b,col_c,col_d
0,1.0,2.0,1.0,male
1,4.0,5.0,2.0,male
2,7.0,8.0,2.0,female
3,10.0,,1.0,male
4,13.0,10.0,2.0,female


In [30]:
df[df.index%2==1]

Unnamed: 0,col_a,col_b,col_c
1,4.0,5.0,2.0
3,10.0,,1.0


### 資料框函式

In [74]:
# 針對特定行的統計函式
a_mean = df['col_a'].mean()
a_max = df['col_a'].max()
a_min = df['col_a'].min()

print(f'平均值: {a_mean}  最大值:{a_max}  最小值:{a_min}')

平均值: 7.0  最大值:13.0  最小值:1.0


In [75]:
# 對整個資料框呼叫 mean 函式
print(df.mean())

col_a   7.0000
col_b   6.2500
col_c   1.6000
dtype: float64


In [76]:
# 取得各項目的統計資訊
display(df.describe())

Unnamed: 0,col_a,col_b,col_c
count,5.0,4.0,5.0
mean,7.0,6.25,1.6
std,4.7434,3.5,0.5477
min,1.0,2.0,1.0
25%,4.0,4.25,1.0
50%,7.0,6.5,2.0
75%,10.0,8.5,2.0
max,13.0,10.0,2.0


In [77]:
# 計算項目值的數量
df7['col_d'].value_counts()

male      3
female    2
Name: col_d, dtype: int64

In [78]:
# 檢查 NULL 值
display(df.isnull())

Unnamed: 0,col_a,col_b,col_c
0,False,False,False
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [79]:
# 以 行 為單位統計缺失值的數量
print(df.isnull().sum())

col_a    0
col_b    1
col_c    0
dtype: int64


### groupby 函式

In [80]:
# 利用 groupby 函式計算 col_d 各項目的平均值
df8 = df7.groupby('col_d').mean()
display(df8)

Unnamed: 0_level_0,col_a,col_b,col_c
col_d,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,10.0,9.0,2.0
male,5.0,3.5,1.3333


### map 函式

In [81]:
# 利用 map 函式將 male/female 替換成 1/0
df9 = df7.copy()
mf_map = {'male': 1, 'female': 0}
df9['col_d'] = df9['col_d'].map(mf_map)
display(df9)

Unnamed: 0,col_a,col_b,col_c,col_d
0,1.0,2.0,1.0,1
1,4.0,5.0,2.0,1
2,7.0,8.0,2.0,0
3,10.0,,1.0,1
4,13.0,10.0,2.0,0
