## 以市長候選人為例建置 DataFrame 運算

In [3]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [4]:
姓名 = ['吳蕚洋', '丁守中', '姚文智', '柯文哲', '李錫錕']
黨派 = ['無', '國民黨', '民進黨', '無', '無']
年齡 = [58, 64, 53, 59, 71]
號次 = [1, 2, 3, 4, 5]

In [5]:
s1 = pd.Series(姓名)
s2 = pd.Series(黨派)
s3 = pd.Series(年齡)
s4 = pd.Series(號次)

In [6]:
候選人資訊 = { '號次' : s4, '姓名' : s1, '年齡' : s3, '黨派' : s2 }

In [7]:
台北市長候選人 = pd.DataFrame(候選人資訊)

In [8]:
print(台北市長候選人)

   號次   姓名  年齡   黨派
0   1  吳蕚洋  58    無
1   2  丁守中  64  國民黨
2   3  姚文智  53  民進黨
3   4  柯文哲  59    無
4   5  李錫錕  71    無


In [9]:
# shape:取得 DataFrame 列數欄數(列,欄)
print(台北市長候選人.shape)

(5, 4)


In [10]:
# columns: DataFrame 的欄位資訊
print(台北市長候選人.columns)
# index： DataFrame 的列索引資訊
print(台北市長候選人.index) 

Index(['號次', '姓名', '年齡', '黨派'], dtype='object')
RangeIndex(start=0, stop=5, step=1)


In [11]:
# info( )： DataFrame 的詳細資訊
print(台北市長候選人.info()) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
號次    5 non-null int64
姓名    5 non-null object
年齡    5 non-null int64
黨派    5 non-null object
dtypes: int64(2), object(2)
memory usage: 240.0+ bytes
None


In [12]:
# describe()：針對數值資料進行統計運算
print(台北市長候選人.describe())

             號次         年齡
count  5.000000   5.000000
mean   3.000000  61.000000
std    1.581139   6.819091
min    1.000000  53.000000
25%    2.000000  58.000000
50%    3.000000  59.000000
75%    4.000000  64.000000
max    5.000000  71.000000


In [13]:
# DataFrame 資料篩選
# 取出表格中候選人年齡小於 60 歲者：
result = 台北市長候選人[台北市長候選人['年齡'] < 60]
result

Unnamed: 0,號次,姓名,年齡,黨派
0,1,吳蕚洋,58,無
2,3,姚文智,53,民進黨
3,4,柯文哲,59,無


In [14]:
# 取出表格中候選人年齡限制介於 60 歲至 55 歲者：
result = 台北市長候選人[ (台北市長候選人['年齡'] < 60) &(台北市長候選人['年齡']> 55) ]
result

Unnamed: 0,號次,姓名,年齡,黨派
0,1,吳蕚洋,58,無
3,4,柯文哲,59,無


In [15]:
# DataFrame 表格轉置
# T : 列與欄互換：
result = 台北市長候選人.T
result

Unnamed: 0,0,1,2,3,4
號次,1,2,3,4,5
姓名,吳蕚洋,丁守中,姚文智,柯文哲,李錫錕
年齡,58,64,53,59,71
黨派,無,國民黨,民進黨,無,無


In [16]:
# stack() ： 轉為長表格
resultlong = 台北市長候選人.stack()
resultlong

0  號次      1
   姓名    吳蕚洋
   年齡     58
   黨派      無
1  號次      2
   姓名    丁守中
   年齡     64
   黨派    國民黨
2  號次      3
   姓名    姚文智
   年齡     53
   黨派    民進黨
3  號次      4
   姓名    柯文哲
   年齡     59
   黨派      無
4  號次      5
   姓名    李錫錕
   年齡     71
   黨派      無
dtype: object

In [17]:
# unstack() ： 轉為寬表格
result = resultlong.unstack()
result

Unnamed: 0,號次,姓名,年齡,黨派
0,1,吳蕚洋,58,無
1,2,丁守中,64,國民黨
2,3,姚文智,53,民進黨
3,4,柯文哲,59,無
4,5,李錫錕,71,無


In [18]:
# 將範例更改如下：
姓名 = ['吳蕚洋', '丁守中', '姚文智', '柯文哲', '李錫錕', '姚文智']
黨派 = ['無', '國民黨', '民進黨', '無', '無', '民進黨']
年齡 = [58, 64, 53, 59, 71, 53]
號次 = [1, 2, 3, 4, 5, 3]

s1 = pd.Series(姓名)
s2 = pd.Series(黨派)
s3 = pd.Series(年齡)
s4 = pd.Series(號次)

候選人資訊 = { '號次' : s4, '姓名' : s1, '年齡' : s3, '黨派' : s2 }
台北市長候選人 = pd.DataFrame(候選人資訊)
print(台北市長候選人)

   號次   姓名  年齡   黨派
0   1  吳蕚洋  58    無
1   2  丁守中  64  國民黨
2   3  姚文智  53  民進黨
3   4  柯文哲  59    無
4   5  李錫錕  71    無
5   3  姚文智  53  民進黨


In [19]:
# DataFrame 資料重複與剔除
# duplicated() ： 判斷資料是否有重複（重覆二筆以上為True）
result = 台北市長候選人.duplicated()
result

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [20]:
# drop_duplicates() : 移除DataFrame中重複的資料
result = 台北市長候選人.drop_duplicates()
result

Unnamed: 0,號次,姓名,年齡,黨派
0,1,吳蕚洋,58,無
1,2,丁守中,64,國民黨
2,3,姚文智,53,民進黨
3,4,柯文哲,59,無
4,5,李錫錕,71,無
