# pandas

製作者：賴志宏   
建立日期：2017.11.05  
最後修改日期: 2020.08.23

* [official website: http://pandas.pydata.org/](http://pandas.pydata.org/)
* [documentation: http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)
* [10-minute online tutorial: http://pandas.pydata.org/pandas-docs/stable/10min.html](http://pandas.pydata.org/pandas-docs/stable/10min.html)


* Pandas套件是資料處理和分析工具
 * 我們可以將Pandas套件視為是一套Python程式版的Excel試算表工具，透過簡單的Python程式碼，就可以針對表格資料執行Excel試算表的功能。  
* 名稱是源於"Python and data analysis" and "panel data"字首的縮寫
 * Pandas套件和貓熊（Panda Bears）並沒有任何關係
 * Pandas是一套使用Python語言開發的Python套件，完整包含NumPy、Scipy和Matplotlab套件的功能
 * 其主要目的是幫助開發者進行資料處理和分析，事實上，資料科學有80%的工作都是在進行資料處理。

### Numpy和Pandas 有什麼不同?
1. Numpy是array形式的，沒有欄位名稱或標籤，且資料型態都必須是一樣的矩陣
2. Pandas基於Numpy構建的，有列表的標籤，資料型態可以不同  
<br />  
* Pandas主要兩個數據結構：
 * Series：為一維串列，資料型態可以不同
 * DataFrame：為二維串列，資料型態可以不同，表格即為 DataFrame 的典型結構
 * Panel：為三維串列

## Numpy 與 pandas 的轉換

* pd.DataFrame(np陣列）
* np.array(df的物件)       註：Series, DataFrame, Panel 皆可


In [25]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1, 100,(3, 4)), columns = list('abcd'))  # 產生 3*4 陣列，值為 1 - 100
print(df)

na = np.array(df)
print('\n', na)



    a   b   c   d
0  89  29  71  55
1  26  82  16  26
2  80  13  78  42

 [[89 29 71 55]
 [26 82 16 26]
 [80 13 78 42]]


## Series: pandas 的一維資料

In [14]:
# 沒有設定欄位名稱，會使用索引值作為欄位名稱

import pandas as pd

s = pd.Series([12, 29, 72, 4, 8, 10]) 
print(s)  
print(s[3])

0    12
1    29
2    72
3     4
4     8
5    10
dtype: int64
4


In [3]:
# 建立自訂索引的Series物件
import pandas as pd

fruits = ["蘋果", "橘子", "梨子", "櫻桃"]
quantities = [15, 33, 45, 55]
s = pd.Series(quantities, index=fruits) 
print(s)
print(s.index)    # 查看索引
print(s.values)   # 查看值

蘋果    15
橘子    33
梨子    45
櫻桃    55
dtype: int64
Index(['蘋果', '橘子', '梨子', '櫻桃'], dtype='object')
[15 33 45 55]


In [31]:
# 2個 Series物件的運算
import pandas as pd

fruits = ["蘋果", "橘子", "梨子", "櫻桃"]
s = pd.Series([15, 33, 45, 55], index=fruits) 
s2 = s + 3
print('s2:\n', s2)
print()
p = pd.Series([11, 16, 21, 32], index=fruits) 
print('s+p:\n', s + p)
print()
print("總計=", sum(s + p))

s2:
 蘋果    18
橘子    36
梨子    48
櫻桃    58
dtype: int64

s+p:
 蘋果    26
橘子    49
梨子    66
櫻桃    87
dtype: int64

總計= 228


### Series的運算

In [39]:
# Series的運算

import numpy as np
import pandas as pd

fruits = ["蘋果", "橘子", "梨子", "櫻桃"]
s = pd.Series([15, 33, 45, 55], index=fruits) 
print("橘子=", s["橘子"])
print()

print()
print(s[["橘子","梨子","櫻桃"]])   # 要用 2個中括號
print()
print('\n四則運算：\n', (s+2)*3)     # 四則運算

print('\nsin:\n', s.apply(np.sin))   # 執行numpy的函式時，使用apply

print('\nsum:', sum(s))

橘子= 33


橘子    33
梨子    45
櫻桃    55
dtype: int64


四則運算：
 蘋果     51
橘子    105
梨子    141
櫻桃    171
dtype: int64

sin:
 蘋果    0.650288
橘子    0.999912
梨子    0.850904
櫻桃   -0.999755
dtype: float64

sum: 148


### Series資料型態

In [6]:
# 一維陣列（Series)，資料型態可以不同
import pandas as pd
import numpy as np
s = pd.Series([1,"abc","6",np.nan,44,1])
print(s)

0      1
1    abc
2      6
3    NaN
4     44
5      1
dtype: object


In [25]:
# 使用索引取出資料和資料型別
import numpy as np
import pandas as pd

fruits = ["蘋果", "橘子", "梨子", "櫻桃"]
s = pd.Series([15, 33, 45, 55], index=fruits) 
print("橘子=", s["橘子"])
print()

print('type(s["橘子"]:', type(s["橘子"]))   # 一個和2個[]，意義不同
print('type(s[["橘子"]]:', type(s[["橘子"]]))

print()
print(s["橘子"].dtype)
print(s[["橘子"]].dtype)

橘子= 33

type(s["橘子"]: <class 'numpy.int64'>
type(s[["橘子"]]: <class 'pandas.core.series.Series'>

int64
int64


### 基本資訊的常用屬性和方法

* shape：顯示列數（與欄數）
    * df.shape
* index：列索引
* columns:DataFrames 的欄索引 (Series無此方法) 
* head(n)：傳回前幾列的資料，預設為5列
* info()：DataFrame的詳細資料 (Series無此方法) 
* describe()：（各欄的）資料的描述統計
* len(Series或DataFrame物件)：資料筆數

In [52]:
import numpy as np
import pandas as pd

ar1 = pd.Series(np.random.randint(5, 10, 6), index = list("ABCDEF")) # 產生產生5到10(不含)的整數6個的陣列，索引使用ABCDEF
print('shape:', ar1.shape)
print('index:', ar1.index)
print("head():\n", ar1.head())
print('describe():\n', ar1.describe())

print('\nlen:', len(ar1))


shape: (6,)
index: Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
head():
 A    5
B    8
C    7
D    7
E    9
dtype: int32
describe():
 count    6.000000
mean     6.833333
std      1.602082
min      5.000000
25%      5.500000
50%      7.000000
75%      7.750000
max      9.000000
dtype: float64

len: 6


# DataFrame

* 資料結構類似表格或是Excel試算表，可以設定欄與列（索引）的名稱
    * 沒有設定時，會以0, 1, 2, ...的數列當作標題
* 就是擁有索引的Series物件所組成的Python字典，也就是說字典的每一個鍵的值都是一個Series物件
* 使用pandas.DataFrame()函式，就可以建立DataFrame物件
* 每一欄位是固定資料型態，不同欄位可以是不同的資料型態

In [40]:
import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
df = pd.DataFrame(dists)

print(df)

print()

print(df.info())

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 3 columns):
name          13 non-null object
population    13 non-null int64
city          13 non-null object
dtypes: int64(1), object(2)
memory usage: 440.0+ bytes
None


In [41]:
# 未設定列（索引）與欄（行）的標題時，會以0, 1, 2, ...的數列當作標題

import numpy as np
import pandas as pd

v = np.random.randint(1, 101, (3,4))#  產生5到10(不含)的整數3*4個的二維陣列
df = pd.DataFrame(v)

print(df)

     0   1   2   3
0    9  82  28  56
1   89   9  82  80
2  100  43  78  23


In [18]:
# 設定DataFrame 物件
# 將DataFrame 物件儲存成HTML格式，並儲存到檔案
import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
df = pd.DataFrame(dists) 
print(df)     # 欄位標題與值沒有對齊，書出道 HTML 檔案會比較整齊
# df.to_html("text\section.html")   # 將DataFrame 物件儲存成HTML格式，並儲存到檔案

print('\nshape:', df.shape)
print('\nindex:', df.index)
print('\ncolumns:', df.columns)
print("\nhead():\n", df.head())
print('\ndescribe():\n', df.describe())

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市

shape: (13, 3)

index: RangeIndex(start=0, stop=13, step=1)

columns: Index(['name', 'population', 'city'], dtype='object')

head():
   name  population city
0  中正區      159598  台北市
1  板橋區      551452  新北市
2  桃園區      441287  桃園市
3  北屯區      275207  台中市
4  安南區      192327  台南市

describe():
           population
count      13.000000
mean   290022.461538
std    113031.540213
min    159598.000000
25%    198473.000000
50%    275207.000000
75%    343203.000000
max    551452.000000


In [None]:
# 上述程式 df.to_html("text\section.html")產生的 HTML
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>city</th>
      <th>name</th>
      <th>population</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>台北市</td>
      <td>中正區</td>
      <td>159598</td>
    </tr>
    <tr>
      <th>1</th>
      <td>新北市</td>
      <td>板橋區</td>
      <td>551452</td>
    </tr>
    <tr>
      <th>2</th>
      <td>桃園市</td>
      <td>桃園區</td>
      <td>441287</td>
    </tr>
    <tr>
      <th>3</th>
      <td>台中市</td>
      <td>北屯區</td>
      <td>275207</td>
    </tr>
    <tr>
      <th>4</th>
      <td>台南市</td>
      <td>安南區</td>
      <td>192327</td>
    </tr>
    <tr>
      <th>5</th>
      <td>高雄市</td>
      <td>三民區</td>
      <td>343203</td>
    </tr>
    <tr>
      <th>6</th>
      <td>台北市</td>
      <td>大安區</td>
      <td>309835</td>
    </tr>
    <tr>
      <th>7</th>
      <td>新北市</td>
      <td>永和區</td>
      <td>222531</td>
    </tr>
    <tr>
      <th>8</th>
      <td>桃園市</td>
      <td>八德區</td>
      <td>198473</td>
    </tr>
    <tr>
      <th>9</th>
      <td>高雄市</td>
      <td>前鎮區</td>
      <td>189623</td>
    </tr>
    <tr>
      <th>10</th>
      <td>高雄市</td>
      <td>鳳山區</td>
      <td>359125</td>
    </tr>
    <tr>
      <th>11</th>
      <td>台北市</td>
      <td>信義區</td>
      <td>225561</td>
    </tr>
    <tr>
      <th>12</th>
      <td>新北市</td>
      <td>新店區</td>
      <td>302070</td>
    </tr>
  </tbody>
</table>

In [None]:
import pandas as pd    # 匯入Pandas 套件時命名為「pd」

建立DataFrame 的語法為
1. 以擁有相同數目元素串列的字典建立DataFrame 資料：
   語法：pd.DataFrame(字典的鍵1:[串列1], 字典的鍵2:[串列2],...)
   例如建立一個 3 位學生，每人有 4 科成績的 DataFrame
   df = pd.DataFrame({"John":[90,85,88,92], "Tom":[80,70,87,60], "Richard":[100,95,98,90]})
2. 以二維的串列及自行指定的行及列標題建立DataFrame 資料：
   df = pd.DataFrame(資料[, columns=行標題串列, index=列標題串列])
   註：行標題串列和列標題串列可以省略
   df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], columns=['John', 'Tom', 'Richard'], index=['Math', 'Chinese', 'Physics', 'Programming'])
   或是：
   datas = [[90,85,88,92], [80,70,87,60], [100,95,98,90]]
   cl=['John', 'Tom', 'Richard']
   idx=['Math', 'Chinese', 'Physics', 'Programming']
   df = pd.DataFrame(datas, columns=cl, index=idx)

省略行或列的標題時，會以數字當作索引

In [47]:
import pandas as pd
df1 = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

datas = [[90,85,88,92], [80,70,87,60], [100,95,98,90]]
idx=['John', 'Tom', 'Richard']
cl=['Math', 'Chinese', 'Physics', 'Programming']
df2 = pd.DataFrame(datas, columns=cl, index=idx)

print(df1)
print()
print(df2)

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90


In [5]:
# 建立DataFrame之後再加上索引標題 .index =索引標題串列

import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
         
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]         
df = pd.DataFrame(dists, index=ordinals) 
print('df:\n', df)  
# df.to_html("Ch9_2_1a.html")

df2 = pd.DataFrame(dists)
df2.index = ordinals
print('\ndf2:\n', df2) 

df:
            name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市

df2:
            name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市


In [46]:
#  建立DataFrame之後再加上索引標題

import numpy as np
import pandas as pd

v = np.random.randint(1, 101, (3,4))#  產生5到10(不含)的整數3*4個的二維陣列

df = pd.DataFrame(v)
print(df)
print()

df.index = list('ABC')   # df.index = ('A', 'B', 'C')  
df.columns = list('甲乙丙丁')
print(df)

    0   1   2   3
0  84  11  21  19
1  49  51  13  96
2   5  26  49  32

    甲   乙   丙   丁
A  84  11  21  19
B  49  51  13  96
C   5  26  49  32


In [47]:
import pandas as pd
df1 = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

datas = [[90,85,88,92], [80,70,87,60], [100,95,98,90]]
idx=['John', 'Tom', 'Richard']
cl=['Math', 'Chinese', 'Physics', 'Programming']
df2 = pd.DataFrame(datas, columns=cl, index=idx)

print(df1)
print()
print(df2)

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90


In [49]:
# 使用現有欄位作為索引，有兩種作法，欄位重複與否不相同

import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
                
df = pd.DataFrame(dists, index=dists['city'])   # 原來的 city欄位保留，並且複製一份city欄位當作 index
print(df)
print()

df = pd.DataFrame(dists, columns = ['name', 'population'], index=dists['city'])  # 不使用原來的 city欄位，將city欄位當作 index
print(df)




    name  population city
台北市  中正區      159598  台北市
新北市  板橋區      551452  新北市
桃園市  桃園區      441287  桃園市
台中市  北屯區      275207  台中市
台南市  安南區      192327  台南市
高雄市  三民區      343203  高雄市
台北市  大安區      309835  台北市
新北市  永和區      222531  新北市
桃園市  八德區      198473  桃園市
高雄市  前鎮區      189623  高雄市
高雄市  鳳山區      359125  高雄市
台北市  信義區      225561  台北市
新北市  新店區      302070  新北市

    name  population
台北市  中正區      159598
新北市  板橋區      551452
桃園市  桃園區      441287
台中市  北屯區      275207
台南市  安南區      192327
高雄市  三民區      343203
台北市  大安區      309835
新北市  永和區      222531
桃園市  八德區      198473
高雄市  前鎮區      189623
高雄市  鳳山區      359125
台北市  信義區      225561
新北市  新店區      302070


In [6]:
# 重新指定DataFrame物件的欄位順序 Ch9_2_1b.py

import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
         
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]         

df1 = pd.DataFrame(dists, index=ordinals) 
print('原來的:', df1, sep='\n')

df2 = pd.DataFrame(dists, 
                  columns = ["name", "city", "population"],
                  index=ordinals) 

print('重新設定的:', df2, sep='\n')

print()

df3 = pd.DataFrame(dists, index=ordinals)
df3.columns = ["population", "name", "city" ]
print(df3) 


原來的:
           name  population city
first       中正區      159598  台北市
second      板橋區      551452  新北市
third       桃園區      441287  桃園市
fourth      北屯區      275207  台中市
fifth       安南區      192327  台南市
sixth       三民區      343203  高雄市
seventh     大安區      309835  台北市
eigth       永和區      222531  新北市
ninth       八德區      198473  桃園市
tenth       前鎮區      189623  高雄市
eleventh    鳳山區      359125  高雄市
twelvth     信義區      225561  台北市
thirteenth  新店區      302070  新北市
重新設定的:
           name city  population
first       中正區  台北市      159598
second      板橋區  新北市      551452
third       桃園區  桃園市      441287
fourth      北屯區  台中市      275207
fifth       安南區  台南市      192327
sixth       三民區  高雄市      343203
seventh     大安區  台北市      309835
eigth       永和區  新北市      222531
ninth       八德區  桃園市      198473
tenth       前鎮區  高雄市      189623
eleventh    鳳山區  高雄市      359125
twelvth     信義區  台北市      225561
thirteenth  新店區  新北市      302070

           population    name city
first             中正區  15959

In [15]:
# 轉置DataFrame物件：Ch9_2_1d.py

import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
       
df = pd.DataFrame(dists) 

print(df)
print()
a = df.T
print('new columns:\n', a.columns)
print('df.T:\n', a) 
# df.T.to_html("Ch9_2_1d.html")

   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市

new columns:
 RangeIndex(start=0, stop=13, step=1)
df.T:
                  0       1       2       3       4       5       6       7  \
name           中正區     板橋區     桃園區     北屯區     安南區     三民區     大安區     永和區   
population  159598  551452  441287  275207  192327  343203  309835  222531   
city           台北市     新北市     桃園市     台中市     台南市     高雄市     台北市     新北市   

                 8       9      10      11      12  
name           八德區     前鎮區     鳳山區     信義區     新店區  
population  198473  189623  359125  225561  302070  
city           桃園市     高雄市     高雄市     台北市     新北市  


In [None]:
# 行或列的標題在建立時可省略，之後可再設定或是修改

import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]])
print(df)
print()

idx=['John', 'Tom', 'Richard']
cl=['Math', 'Chinese', 'Physics', 'Programming']
df.columns=cl
df.index=idx
print(df)
print()

idx[0]='Irene'
df.index=idx
cl[1]='Algorithm'
df.columns=cl
print(df)

In [None]:
# Ch9_2_1d.html"
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>台北市</th>
      <th>新北市</th>
      <th>桃園市</th>
      <th>台中市</th>
      <th>台南市</th>
      <th>高雄市</th>
      <th>台北市</th>
      <th>新北市</th>
      <th>桃園市</th>
      <th>高雄市</th>
      <th>高雄市</th>
      <th>台北市</th>
      <th>新北市</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>name</th>
      <td>中正區</td>
      <td>板橋區</td>
      <td>桃園區</td>
      <td>北屯區</td>
      <td>安南區</td>
      <td>三民區</td>
      <td>大安區</td>
      <td>永和區</td>
      <td>八德區</td>
      <td>前鎮區</td>
      <td>鳳山區</td>
      <td>信義區</td>
      <td>新店區</td>
    </tr>
    <tr>
      <th>population</th>
      <td>159598</td>
      <td>551452</td>
      <td>441287</td>
      <td>275207</td>
      <td>192327</td>
      <td>343203</td>
      <td>309835</td>
      <td>222531</td>
      <td>198473</td>
      <td>189623</td>
      <td>359125</td>
      <td>225561</td>
      <td>302070</td>
    </tr>
  </tbody>
</table>

### 取得資料型別

* .dtypes

In [13]:
import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}

df = pd.DataFrame(dists) 
print(df.dtypes)

name          object
population     int64
city          object
dtype: object


In [17]:
import numpy as np
import pandas as pd

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(df.dtypes)
print(df.index)

A    float64
B    float64
C    float64
D    float64
dtype: object
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')


## DataFrame索引：取得DataFrame的資料

In [26]:
# 描述性統計資料 .describe():顯示各欄位的個數、平均數、標準差、最大、最小值、P25, P50, P75

import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

print(df.describe())

        Math    Chinese    Physics  Programming
count    3.0   3.000000   3.000000     3.000000
mean    90.0  83.333333  91.000000    80.666667
std     10.0  12.583057   6.082763    17.925773
min     80.0  70.000000  87.000000    60.000000
25%     85.0  77.500000  87.500000    75.000000
50%     90.0  85.000000  88.000000    90.000000
75%     95.0  90.000000  93.000000    91.000000
max    100.0  95.000000  98.000000    92.000000


In [None]:
取得DataFrame的資料
1. 以行標題與列標題取得資料：    # 註：行就是欄位 column，列就是索引 index
   DataFrame名稱.行標題    # 行標題不需用引號刮起來
   DataFrame名稱['行標題']
   DataFrame名稱[[行標題1, 行標題2,...]]   #因為是串列中的串列，要兩層的[]
   DataFrame名稱[DataFrame名稱.行標題的邏輯運算]  #例如： df[df.Math >= 60]
   DataFrame名稱[列標題:列標題]         
   DataFrame名稱[列索引1:列索引2]     # 即第幾筆資料到第幾筆資料，不包含列索引2  
2. 以values取得列或某一欄的資料：
   DataFrame名稱.values   #取得全部資料
   DataFrame名稱.values[列索引]   #取得某列資料
   DataFrame名稱.values[列索引, 行索引]  #取得某欄資料
3. 以loc來取得資料
   DataFrame名稱.loc[列標題, 行標題]  #取得某欄資料
    data.loc['x1', 'y5']
   DataFrame名稱.loc[列標題區段, 行標題區段]  #取得某些連續列和某些連續行的資料
    data.loc['x3', 'y2': 'y5']     # 注意:這是包含y5這一行
   DataFrame名稱.loc[[列標題1, 列標題2...], [行標題1, 行標題2...]]  #取得部分列或部分欄的資料(不連續時使用)
    data.loc['x3, ['y1', 'y4']]
    data.loc[['x2', 'x4'], ['y2', 'y5']]
    若是列和行沒有取名，會以0, 1, 2...代替，此時使用 data.loc[5, 3:6] 
    但是data.loc[5, 3:6]和data.iloc[5, 3:6]內容是不同的，因為前者有包含第6行，後者沒有
4. 以iloc來取得資料
   DataFrame名稱.iloc[列索引, 行索引]  #取得某欄資料，索引為從 0開始
   其他方法和loc相同，可以有連續或不連續的區段
    data.iloc[3, 2:5]     # 注意:這是不包含索引 5這一行
DataFrame名稱.head(n)  #取得前 n列的資料
DataFrame名稱.tail(n)  #取得後 n列的資料
註： python要列出串列的前n個元素使用 串列名稱[n]
             
### 5. 取得部分資料
DataFrame名稱[列開始索引:列結束索引:step]

In [1]:
# 以行標題取得資料：
#    DataFrame名稱.行標題    # 行標題不需用引號刮起來
#    DataFrame名稱['行標題']
#    DataFrame名稱[[行標題1, 行標題2,...]]   #因為是串列中的串列，要兩層的[]
#    DataFrame名稱[DataFrame名稱.行標題的邏輯運算]  #例如： df[df.Math >= 60]

import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

df1 = df['Chinese']
df2 = df.Chinese
df3 = df[['Math', 'Chinese']]
df4 = df[df.Math >= 90]
print(df, df1, df2, df3, df4, sep='\n\n')


         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90

John       85
Tom        70
Richard    95
Name: Chinese, dtype: int64

John       85
Tom        70
Richard    95
Name: Chinese, dtype: int64

         Math  Chinese
John       90       85
Tom        80       70
Richard   100       95

         Math  Chinese  Physics  Programming
John       90       85       88           92
Richard   100       95       98           90


In [54]:
# 以列標題取得資料：
#    DataFrame名稱[列標題1:列標題1]
#    DataFrame名稱[列索引1:列索引2] 

import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

print(df['Tom':'Richard'])
print()
print(df[1: 2])  

         Math  Chinese  Physics  Programming
Tom        80       70       87           60
Richard   100       95       98           90

     Math  Chinese  Physics  Programming
Tom    80       70       87           60


In [10]:
# test
# 以行標題取得資料：
import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

print(df)

a = df.loc['John', 'Math': 'Physics']
print(a)

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90
Math       90
Chinese    85
Physics    88
Name: John, dtype: int64


In [11]:
# 以values取得列或某一欄的資料
# 以loc來取得資料，使用列和欄的名稱
# 以iloc來取得資料，使用列和欄的編號

import pandas as pd
df = pd.DataFrame([[90,85,88,92], [80,70,87,60], [100,95,98,90]], 
    columns=['Math', 'Chinese', 'Physics', 'Programming'], 
    index=['John', 'Tom', 'Richard'])

df1 = df.values
df2 = df.values[2]
df3 = df.values[2][1]

df4 = df.iloc[2][1] 
df5 = df.loc['Tom', 'Chinese']

print(df, df1, df2, df3, df4, sep='\n\n')

print('\n', '前兩列:', '\n', df.head(2), '\n')
print('後兩列:', '\n', df.tail(2))
print(df4)

         Math  Chinese  Physics  Programming
John       90       85       88           92
Tom        80       70       87           60
Richard   100       95       98           90

[[ 90  85  88  92]
 [ 80  70  87  60]
 [100  95  98  90]]

[100  95  98  90]

95

95

 前兩列: 
       Math  Chinese  Physics  Programming
John    90       85       88           92
Tom     80       70       87           60 

後兩列: 
          Math  Chinese  Physics  Programming
Tom        80       70       87           60
Richard   100       95       98           90
95


In [None]:
import pandas as pd
import numpy as np
s = np.array([1,"abc","6",np.nan,44,1])  
   #因為 numpy 必須是同一種資料型態，所以都轉換為文字
print(s)

In [None]:
import numpy as np
a = np.random.randint(10) # 0 .. 10 (exclude 10)
print(a)

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(7,3))
print(df)
print()
data = pd.Series(np.random.randn(100),index=np.arange(100))  # series is an one-dimentional array
print(data)
print()

eat = np.random.randint(10,size=(7,3))*5+50  # random number = (between 0 and 10) * 5 + 50
print(eat)


In [None]:
# Pandas



In [None]:
import pandas as pd
import numpy as np
s = pd.Series([1,"abc","6",np.nan,44,1])
print(s)

In [None]:
# laich 名字需修改

import pandas as pd
datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,'abc',89,77], [79,53,47,94,80]]
indexs = ["林大明", "陳聰明", "黃美麗", "熊小娟"]
columns = ["國文", "數學", "英文", "自然", "社會"]
df = pd.DataFrame(datas, columns=columns,  index=indexs)
indexs[0] = "林晶輝"
df.index = indexs
columns[3] = "理化"
df.columns = columns
print(df)
print()
print(df["數學"])
print()

In [None]:
### 刪除 DataFrame 資料
Pandas 使用 drop 刪除 DataFrame 資料，語法為：

df.drop(行標題或列標題 [, axix = 行列的數值])
   行列數值為0 表示列標題排序(預設), 1為行


## 檔案輸出與匯入

In [None]:
pandas 常用匯入資料的方法：
匯入CSV格式的檔案：
read_csv
read_excel
read_sql
read_json
read_html  #需要安裝 html5lib 匯入HTML檔案，Pandas會抽出<table>表格標籤的資料


### 匯出DataFrame物件至檔案

* 匯出成CSV格式的檔案：   pd.to_csv(filename)
* 匯出成JSON格式的檔案：   pd.to_json(filename)
* 匯出成HTML表格標籤的檔案： pd.to_html(filename)
* 匯出成Excel檔案： pd.to_excel(filename)



In [15]:
import pandas as pd

dists = {"name": ["中正區", "板橋區", "桃園區", "北屯區", 
                   "安南區", "三民區", "大安區", "永和區", 
                   "八德區", "前鎮區", "鳳山區", 
                   "信義區", "新店區"],
         "population": [159598, 551452, 441287, 275207,
                        192327, 343203, 309835, 222531,
                        198473, 189623, 359125, 
                        225561, 302070],
         "city": ["台北市", "新北市", "桃園市", "台中市",
                  "台南市", "高雄市", "台北市", "新北市",
                  "桃園市", "高雄市", "高雄市",
                  "台北市", "新北市"]}
df = pd.DataFrame(dists) 

df.to_csv("dists.csv", index=False, encoding="utf8")
df.to_json("dists.json")

In [16]:
import pandas as pd

# 匯入CSV格式的檔案
df = pd.read_csv("dists.csv", encoding="utf8")
print(df)
df.to_html("Ch9_2_2a_01.html")
# 匯入JSON格式的檔案
df2 = pd.read_json("dists.json")
print(df2)
df.to_html("Ch9_2_2a_02.html")

   city name  population
0   台北市  中正區      159598
1   新北市  板橋區      551452
2   桃園市  桃園區      441287
3   台中市  北屯區      275207
4   台南市  安南區      192327
5   高雄市  三民區      343203
6   台北市  大安區      309835
7   新北市  永和區      222531
8   桃園市  八德區      198473
9   高雄市  前鎮區      189623
10  高雄市  鳳山區      359125
11  台北市  信義區      225561
12  新北市  新店區      302070
   city name  population
0   台北市  中正區      159598
1   新北市  板橋區      551452
10  高雄市  鳳山區      359125
11  台北市  信義區      225561
12  新北市  新店區      302070
2   桃園市  桃園區      441287
3   台中市  北屯區      275207
4   台南市  安南區      192327
5   高雄市  三民區      343203
6   台北市  大安區      309835
7   新北市  永和區      222531
8   桃園市  八德區      198473
9   高雄市  前鎮區      189623


In [6]:
import pandas as pd

# 匯入CSV格式的檔案
df = pd.read_csv("dists.csv", encoding="utf8", header=0)
print(df)

   city name  population
0   台北市  中正區      159598
1   新北市  板橋區      551452
2   桃園市  桃園區      441287
3   台中市  北屯區      275207
4   台南市  安南區      192327
5   高雄市  三民區      343203
6   台北市  大安區      309835
7   新北市  永和區      222531
8   桃園市  八德區      198473
9   高雄市  前鎮區      189623
10  高雄市  鳳山區      359125
11  台北市  信義區      225561
12  新北市  新店區      302070


In [19]:
import pandas as pd

# 匯入CSV格式的檔案
df = pd.read_csv("dists.csv", encoding="utf8")
print(df)

   city name  population
0   台北市  中正區      159598
1   新北市  板橋區      551452
2   桃園市  桃園區      441287
3   台中市  北屯區      275207
4   台南市  安南區      192327
5   高雄市  三民區      343203
6   台北市  大安區      309835
7   新北市  永和區      222531
8   桃園市  八德區      198473
9   高雄市  前鎮區      189623
10  高雄市  鳳山區      359125
11  台北市  信義區      225561
12  新北市  新店區      302070


In [None]:
# dists.csv

city,name,population
台北市,中正區,159598
新北市,板橋區,551452
桃園市,桃園區,441287
台中市,北屯區,275207
台南市,安南區,192327
高雄市,三民區,343203
台北市,大安區,309835
新北市,永和區,222531
桃園市,八德區,198473
高雄市,前鎮區,189623
高雄市,鳳山區,359125
台北市,信義區,225561
新北市,新店區,302070

In [None]:
#dists.json

{"city":{"0":"\u53f0\u5317\u5e02","1":"\u65b0\u5317\u5e02","2":"\u6843\u5712\u5e02","3":"\u53f0\u4e2d\u5e02","4":"\u53f0\u5357\u5e02","5":"\u9ad8\u96c4\u5e02","6":"\u53f0\u5317\u5e02","7":"\u65b0\u5317\u5e02","8":"\u6843\u5712\u5e02","9":"\u9ad8\u96c4\u5e02","10":"\u9ad8\u96c4\u5e02","11":"\u53f0\u5317\u5e02","12":"\u65b0\u5317\u5e02"},"name":{"0":"\u4e2d\u6b63\u5340","1":"\u677f\u6a4b\u5340","2":"\u6843\u5712\u5340","3":"\u5317\u5c6f\u5340","4":"\u5b89\u5357\u5340","5":"\u4e09\u6c11\u5340","6":"\u5927\u5b89\u5340","7":"\u6c38\u548c\u5340","8":"\u516b\u5fb7\u5340","9":"\u524d\u93ae\u5340","10":"\u9cf3\u5c71\u5340","11":"\u4fe1\u7fa9\u5340","12":"\u65b0\u5e97\u5340"},"population":{"0":159598,"1":551452,"2":441287,"3":275207,"4":192327,"5":343203,"6":309835,"7":222531,"8":198473,"9":189623,"10":359125,"11":225561,"12":302070}}

In [None]:
# Ch9_2_2a_01.html

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>city</th>
      <th>name</th>
      <th>population</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>台北市</td>
      <td>中正區</td>
      <td>159598</td>
    </tr>
    <tr>
      <th>1</th>
      <td>新北市</td>
      <td>板橋區</td>
      <td>551452</td>
    </tr>
    <tr>
      <th>2</th>
      <td>桃園市</td>
      <td>桃園區</td>
      <td>441287</td>
    </tr>
    <tr>
      <th>3</th>
      <td>台中市</td>
      <td>北屯區</td>
      <td>275207</td>
    </tr>
    <tr>
      <th>4</th>
      <td>台南市</td>
      <td>安南區</td>
      <td>192327</td>
    </tr>
    <tr>
      <th>5</th>
      <td>高雄市</td>
      <td>三民區</td>
      <td>343203</td>
    </tr>
    <tr>
      <th>6</th>
      <td>台北市</td>
      <td>大安區</td>
      <td>309835</td>
    </tr>
    <tr>
      <th>7</th>
      <td>新北市</td>
      <td>永和區</td>
      <td>222531</td>
    </tr>
    <tr>
      <th>8</th>
      <td>桃園市</td>
      <td>八德區</td>
      <td>198473</td>
    </tr>
    <tr>
      <th>9</th>
      <td>高雄市</td>
      <td>前鎮區</td>
      <td>189623</td>
    </tr>
    <tr>
      <th>10</th>
      <td>高雄市</td>
      <td>鳳山區</td>
      <td>359125</td>
    </tr>
    <tr>
      <th>11</th>
      <td>台北市</td>
      <td>信義區</td>
      <td>225561</td>
    </tr>
    <tr>
      <th>12</th>
      <td>新北市</td>
      <td>新店區</td>
      <td>302070</td>
    </tr>
  </tbody>
</table>

In [None]:
# Ch9_2_2a_02.html

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>city</th>
      <th>name</th>
      <th>population</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>台北市</td>
      <td>中正區</td>
      <td>159598</td>
    </tr>
    <tr>
      <th>1</th>
      <td>新北市</td>
      <td>板橋區</td>
      <td>551452</td>
    </tr>
    <tr>
      <th>2</th>
      <td>桃園市</td>
      <td>桃園區</td>
      <td>441287</td>
    </tr>
    <tr>
      <th>3</th>
      <td>台中市</td>
      <td>北屯區</td>
      <td>275207</td>
    </tr>
    <tr>
      <th>4</th>
      <td>台南市</td>
      <td>安南區</td>
      <td>192327</td>
    </tr>
    <tr>
      <th>5</th>
      <td>高雄市</td>
      <td>三民區</td>
      <td>343203</td>
    </tr>
    <tr>
      <th>6</th>
      <td>台北市</td>
      <td>大安區</td>
      <td>309835</td>
    </tr>
    <tr>
      <th>7</th>
      <td>新北市</td>
      <td>永和區</td>
      <td>222531</td>
    </tr>
    <tr>
      <th>8</th>
      <td>桃園市</td>
      <td>八德區</td>
      <td>198473</td>
    </tr>
    <tr>
      <th>9</th>
      <td>高雄市</td>
      <td>前鎮區</td>
      <td>189623</td>
    </tr>
    <tr>
      <th>10</th>
      <td>高雄市</td>
      <td>鳳山區</td>
      <td>359125</td>
    </tr>
    <tr>
      <th>11</th>
      <td>台北市</td>
      <td>信義區</td>
      <td>225561</td>
    </tr>
    <tr>
      <th>12</th>
      <td>新北市</td>
      <td>新店區</td>
      <td>302070</td>
    </tr>
  </tbody>
</table>

In [None]:
# chap. 11

import pandas as pd
tables = pd.read_html("http://www.stockq.org/market/commodity.php")
n = 1
for table in tables:
    print("第 " + str(n) + " 個表格：")
    print(table.head())
    print()
    n += 1


In [None]:
# ch11
import pandas as pd
tables = pd.read_html("http://www.stockq.org/market/commodity.php")
table = tables[7]
table = table.drop(table.index[[0,1]])
table.columns = ["商品", "買價", "漲跌", "比例", "台北"]
table.index = range(len(table.index))
print(table)

## 顯示基本資訊

head()函數顯示前幾筆記錄，預設是5筆
tail()函數顯示最後幾筆記錄，預設也是5筆

In [None]:
import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

print(df.head()) 
print(df.head(3))


In [None]:
# dists.csv
city,name,population
台北市,中正區,159598
新北市,板橋區,551452
桃園市,桃園區,441287
台中市,北屯區,275207
台南市,安南區,192327
高雄市,三民區,343203
台北市,大安區,309835
新北市,永和區,222531
桃園市,八德區,198473
高雄市,前鎮區,189623
高雄市,鳳山區,359125
台北市,信義區,225561
新北市,新店區,302070

In [None]:
import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

print(df.tail())
print(df.tail(3)) 


In [None]:
# 使用columns屬性指定DataFrame物件的欄位標籤清單

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

df.columns = ["直轄市", "區", "人口"]
print(df.head(4)) 



In [7]:
# 取得DataFrame物件的索引、欄位和資料：Ch9_2_3c.py

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

df.columns = ["直轄市", "區", "人口"]
print(df.index)
print(df.columns)
print(df.values) 

RangeIndex(start=0, stop=13, step=1)
Index(['直轄市', '區', '人口'], dtype='object')
[['台北市' '中正區' 159598]
 ['新北市' '板橋區' 551452]
 ['桃園市' '桃園區' 441287]
 ['台中市' '北屯區' 275207]
 ['台南市' '安南區' 192327]
 ['高雄市' '三民區' 343203]
 ['台北市' '大安區' 309835]
 ['新北市' '永和區' 222531]
 ['桃園市' '八德區' 198473]
 ['高雄市' '前鎮區' 189623]
 ['高雄市' '鳳山區' 359125]
 ['台北市' '信義區' 225561]
 ['新北市' '新店區' 302070]]


In [None]:
# Python的len()函數取得DataFrame物件的記錄數，shape屬性取得形狀，info()函數取得摘要資訊

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

print("資料數= ", len(df))
print("形狀= ", df.shape)  
df.info()

## 走訪 DataFrame 物件

因為DataFrame物件是類似表格的試算表物件，如同關聯式資料庫的資料表，每一列相當是一筆記錄，  
我們可以使用for/in迴圈走訪DataFrame物件的每一筆記錄

In [8]:
# 使用iterrows()函數走訪DataFrame物件：Ch9_2_4.py

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")

for index, row in df.iterrows() :
    print(index, row["city"], row["name"], row["population"])

0 台北市 中正區 159598
1 新北市 板橋區 551452
2 桃園市 桃園區 441287
3 台中市 北屯區 275207
4 台南市 安南區 192327
5 高雄市 三民區 343203
6 台北市 大安區 309835
7 新北市 永和區 222531
8 桃園市 八德區 198473
9 高雄市 前鎮區 189623
10 高雄市 鳳山區 359125
11 台北市 信義區 225561
12 新北市 新店區 302070


## 選擇、過濾與排序資料

In [None]:
# 選擇資料  選擇單一欄位或多個欄位

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head(3))
print()
print(df["population"].head(3))
print()
print(df[["city","name"]].head(3))  # 多欄位

print(df.population.head(3))   # 使用屬性方式

In [1]:
# 選擇資料 –選擇特定範圍的多筆記錄

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df[0:3])                # 不含 3
print(df["sixth":"eleventh"]) # 含 "eleventh"

       city name  population
first   台北市  中正區      159598
second  新北市  板橋區      551452
third   桃園市  桃園區      441287
         city name  population
sixth     高雄市  三民區      343203
seventh   台北市  大安區      309835
eigth     新北市  永和區      222531
ninth     桃園市  八德區      198473
tenth     高雄市  前鎮區      189623
eleventh  高雄市  鳳山區      359125


In [None]:
# 使用loc索引器以標籤索引來選擇指定記錄，還可以選擇所需的欄位

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.loc[ordinals[1]])
print(type(df.loc[ordinals[1]]))
print(df.loc[:,["name","population"]].head(3))


print(df.loc["third":"fifth", ["name","population"]])
print(df.loc["third", ["name","population"]])

# 取得單一純量值
print(df.loc[ordinals[0], "name"])
print(type(df.loc[ordinals[0],"name"]))
print(df.loc["first", "population"])
print(type(df.loc["first", "population"]))

In [None]:
# DataFrame物件的loc索引器是使用標籤索引來選擇資料，iloc索引器是使位置索引，也可以切割DataFrame物件的列或欄，即選擇指定範圍的列和欄

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.iloc[3])          # 第 4 筆
print()
print(df.iloc[3:5, 1:3])   # 切割
print()
print(df.iloc[1:3, :])     # 切割列
print()
print(df.iloc[:, 1:3])     # 切割欄
print()

print(df.iloc[[1,2,4], [0,2]])   # 索引清單
print()
# 取得單一純量值
print(df.iloc[1,1])
print()
print(df.iat[1,1])

### 過濾資料

過濾資料 – 使用布林索引和isin()函數 過濾資料：Ch9_3_2.py

使用NumPy布林索引，讓我們只選擇條件成立的記錄資料，如下所示：
print(df[df.population > 350000])
print(df[df["city"].isin(["台北市","高雄市"])])

In [None]:
import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df[df.population > 350000])

print(df[df["city"].isin(["台北市","高雄市"])])


In [21]:
# 布林索引可以使用多個條件

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df[(df.population > 350000) & (df.population < 500000)])

print(df[df["city"].str.startswith("台")])


         city name  population
third     桃園市  桃園區      441287
eleventh  高雄市  鳳山區      359125
        city name  population
first    台北市  中正區      159598
fourth   台中市  北屯區      275207
fifth    台南市  安南區      192327
seventh  台北市  大安區      309835
twelvth  台北市  信義區      225561


### 排序資料

In [None]:
# 將DataFrame物件改用"population"欄位作為索引，然後指定從大到小排序
# ascending=False  大到小排序
# inplace=True  dataframe會被取代

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

df2 = df.set_index("population")  # 設定排序的參照欄位
print(df2.head())


df2.sort_index(ascending=False, inplace=True)  # 排序
print(df2.head())


In [None]:
# inplace=False 不取代 ，資料不會被更改

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print()
df2 = df.set_index("population")
print(df2.head())

print()
df3 = df2.sort_index(ascending=False, inplace=False)  
print('df2:', df2.head(), sep ='\n')
print()
print('df3:', df3.head(), sep ='\n')

## 合併與更新 DataFrame物件

### 更新資料

In [None]:
# 使用標籤和位置來選擇資料，就可以更新選擇的資料

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head(2))
# 取得與更新單一純量值
print(df.loc[ordinals[0], "population"])
df.loc[ordinals[0], "population"] = 160000
print(df.iloc[1,2])
df.iloc[1,2] = 560000
print(df.head(2))

In [None]:
# 選擇欲取代的記錄來取代

import pandas as pd
df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head(3))
# 取得與更新單筆記錄
print(df.loc[ordinals[1]])
s = ["新北市", "新莊區", 416640] 
df.loc[ordinals[1]] = s
print(df.head(3))


In [None]:
# 更新整個欄位值

import pandas as pd
import numpy as np

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df)
# 取得與更新整個欄位
print(df.loc[:, "population"])
df.loc[:, "population"] = np.random.randint(34000, 700000, size=len(df))
print(df.head())


### 刪除資料

In [2]:
# 更新整個DataFrame物件

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(5, 1500, size=(2,3)))
print(df)

print()
# 取得與更新整個DataFrame
print(df[df > 800])

print()
df[df > 800] = df - 100
print(df)


     0     1    2
0  201  1474  617
1  297   347  861

    0       1      2
0 NaN  1474.0    NaN
1 NaN     NaN  861.0

     0     1    2
0  201  1374  617
1  297   347  761


In [1]:
# 刪除資料 –刪除純量值

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head(3))
# 刪除純量值
print(df.loc[ordinals[0], "population"])
df.loc[ordinals[0], "population"] = None
print(df.iloc[1,2])
df.iloc[1,2] = None
print(df.head(3))


       city name  population
first   台北市  中正區      159598
second  新北市  板橋區      551452
third   桃園市  桃園區      441287
159598
551452.0
       city name  population
first   台北市  中正區         NaN
second  新北市  板橋區         NaN
third   桃園市  桃園區    441287.0


In [3]:
# drop()函數來刪除記錄

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head())
# 刪除記錄
df2 = df.drop(["second", "fourth"])    # 2,4 筆
print(df2.head())

df.drop(df.index[[2,3]], inplace=True) # 3,4 筆
print(df.head())


       city name  population
first   台北市  中正區      159598
second  新北市  板橋區      551452
third   桃園市  桃園區      441287
fourth  台中市  北屯區      275207
fifth   台南市  安南區      192327
        city name  population
first    台北市  中正區      159598
third    桃園市  桃園區      441287
fifth    台南市  安南區      192327
sixth    高雄市  三民區      343203
seventh  台北市  大安區      309835
        city name  population
first    台北市  中正區      159598
second   新北市  板橋區      551452
fifth    台南市  安南區      192327
sixth    高雄市  三民區      343203
seventh  台北市  大安區      309835


In [None]:
# 刪除欄位: 也是使用drop()函數，只是需要指定axis參數值是1，預設為0，就是刪除記錄（column)

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.head(3))
# 刪除欄位
df2 = df.drop(["population"], axis=1)
print(df2.head(3))


In [None]:
### 新增資料

In [4]:
# 新增記錄（列）只需指定一個不存在的索引標籤，就可以新增記錄，我們也可以建立Series物件，然後使用append()函數來新增記錄

import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.tail(3))
# 新增記錄
df.loc["third-1"] = ["台北市", "士林區", 288340]
print(df.tail(3))

s = pd.Series({"city":"新北市","name":"中和區","population":413291})
df2 = df.append(s, ignore_index=True)
print(df2.tail(3))

           city name  population
eleventh    高雄市  鳳山區      359125
twelvth     台北市  信義區      225561
thirteenth  新北市  新店區      302070
           city name  population
twelvth     台北市  信義區      225561
thirteenth  新北市  新店區      302070
third-1     台北市  士林區      288340
   city name  population
12  新北市  新店區      302070
13  台北市  士林區      288340
14  新北市  中和區      413291


In [None]:
#  活用新增記錄，即可配合for/in迴圈來建立DataFrame物件，首先使用loc索引器
# 使用append()函數新增Series物件來建立DataFrame物件
import pandas as pd

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

print(df.tail(3))
# 新增記錄
df.loc["third-1"] = ["台北市", "士林區", 288340]
print(df.tail(3))

s = pd.Series({"city":"新北市","name":"中和區","population":413291})
df2 = df.append(s, ignore_index=True)
print(df2.tail(3))


In [None]:
# 新增欄位: 指定一個不存在的欄位標籤，就可以新增欄位，我們可以使用清單、Series物件或NumPy陣列來指定欄位值

import pandas as pd
from numpy.random import randint

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

df["area"] = pd.Series([randint(6000,9000) for n in range(len(df))]).values 
print(df.head())
df.head().to_html("Ch9_4_3b_01.html")
df.loc[:,"zip"] = randint(100, 120, size=len(df))
print(df.head())
df.head().to_html("Ch9_4_3b_02.html")

### 連接與合併DataFrame物件

### 建立空的和複製DataFrame物件

* 對於現存DataFrame物件，我們可以建立一個形狀相同，但沒有資料的空DataFrame物件，也可以使用copy()函數在處理前備份DataFrame物件，如下所示：
    * columns =["city","name", "population"]
    * df_empty = pd.DataFrame(np.nan, index=ordinals, columns=columns)
    * print(df_empty)

* copy()函數可以複製DataFrame物件，如下所示：
    * df_copy = df.copy()
    * print(df_copy)


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("dists.csv", encoding="utf8")
ordinals =["first", "second", "third", "fourth", "fifth",
           "sixth", "seventh", "eigth", "ninth", "tenth",
           "eleventh", "twelvth", "thirteenth"]  
df.index = ordinals

columns =["city","name", "population"]
# 建立空的DataFrame物件
df_empty = pd.DataFrame(np.nan, index=ordinals, columns=columns)
print(df_empty)
# 複製DataFrame物件
df_copy = df.copy()
print(df_copy)

In [None]:
# 連接多個DataFrame物件： 使用concat()函數連接多個DataFrame物件，資料筆數增加

import pandas as pd
from numpy.random import randint

df1 = pd.DataFrame(randint(5,10,size=(3,4)),columns=["a","b","c","d"])  
df2 = pd.DataFrame(randint(5,10,size=(2,3)),columns=["b","d","a"])  
print(df1)

print()
print(df2)

print()
df3 = pd.concat([df1,df2])  
print(df3)
print()

df4 = pd.concat([df1,df2], ignore_index=True)  # 忽略索引標籤
print(df4) 

In [None]:
# 合併2個DataFrame物件: merge()函數可以左右合併2個DataFrame物件（類似SQL合併查詢），資料欄位增加

import pandas as pd

df1 = pd.DataFrame({"key":["a","b","b"],"data1":range(3)})  
df2 = pd.DataFrame({"key":["a","b","c"],"data2":range(3)})  
print(df1)
print(df2)


df3 = pd.merge(df1, df2)
print(df3)


df4 = pd.merge(df2, df1)
print(df4)


df5 = pd.merge(df2, df1, how='left')
print(df5)


## 群組、樞紐分析與套用函數

### 群組
先將資料依條件分類成群組後，再套用相關函數在各群組來取得一些統計資料

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({"名稱" : ["客戶A", "客戶B", "客戶A", "客戶B",
                             "客戶A", "客戶B", "客戶A", "客戶A"],
                   "編號" : ["訂單1", "訂單1", "訂單2", "訂單3",
                             "訂單2", "訂單2", "訂單1", "訂單3"],
                   "數量" : np.random.randint(1,5,size=8),
                   "售價" : np.random.randint(150,500,size=8)})

print(df)

print()
print(df.groupby("名稱").sum())

print()
print(df.groupby(["名稱","編號"]).sum())


### 樞紐分析表
使用pivot_table()函數以欄位值為標籤來重塑DataFrame物件的形狀，也就是建立樞紐分析表
pivot_products = products.pivot_table(index='分類',
                                  columns='商店',
                                  values='價格')


In [50]:
import pandas as pd

products = pd.DataFrame({
        "分類": ["居家", "居家", "娛樂", "娛樂", "科技", "科技"],
        "商店": ["家樂福", "頂好", "家樂福", "全聯", "頂好","家樂福"],
        "價格":[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
        "測試分數": [4, 3, 5, 7, 5, 8]})
print(products)

print()
# 呼叫 pivot_table() 方法
pivot_products = products.pivot_table(index='分類',columns='商店',values='價格')
print(pivot_products)


   分類   商店      價格  測試分數
0  居家  家樂福   11.42     4
1  居家   頂好   23.50     3
2  娛樂  家樂福   19.99     5
3  娛樂   全聯   15.95     7
4  科技   頂好   55.75     5
5  科技  家樂福  111.55     8

商店     全聯     家樂福     頂好
分類                      
娛樂  15.95   19.99    NaN
居家    NaN   11.42  23.50
科技    NaN  111.55  55.75


In [None]:
import pandas as pd

products = pd.DataFrame({
        "分類": ["居家", "居家", "居家", "娛樂", "科技", "科技"],
        "商店": ["家樂福", "頂好", "家樂福", "全聯", "頂好","家樂福"],
        "價格":[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
        "測試分數": [4, 3, 5, 7, 5, 8]})
print(products)

print()
# 呼叫 pivot_table() 方法
pivot_products = products.pivot_table(index='分類',columns='商店',values='價格')  # 有兩個相同的居家、加樂福，會作平均
print(pivot_products)


### 套用函式
可以使用apply()函數在資料套用NumPy函數或Lambda運算式

In [20]:
# cumsum()函數的累加計算，使用時只須寫函式名稱，無()
# Lambda運算式計算最大和最小值的差

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(6,4), columns=list("ABCD"))  # list("ABCD") 作為欄位的名稱
print(df)

print()
df2 = df.apply(np.cumsum)   # 累加計算
print(df2)

print()
df3 = df.apply(lambda x: x.max() - x.min())  # 計算最大和最小值的差
print(df3)

          A         B         C         D
0  0.630607  0.860896  0.851542  0.445437
1  0.424383  0.397834  0.588991  0.634624
2  0.542138  0.477467  0.858040  0.314643
3  0.559653  0.636810  0.527313  0.395726
4  0.194393  0.847865  0.127343  0.627266
5  0.614686  0.925169  0.001610  0.922082

          A         B         C         D
0  0.630607  0.860896  0.851542  0.445437
1  1.054990  1.258730  1.440533  1.080061
2  1.597128  1.736197  2.298573  1.394703
3  2.156781  2.373007  2.825885  1.790430
4  2.351175  3.220872  2.953228  2.417696
5  2.965861  4.146041  2.954838  3.339777

A    0.436214
B    0.527335
C    0.856430
D    0.607439
dtype: float64


In [None]:
參考書目：

陳允傑（2018）。Python資料科學與人工智慧應用實務。 台北：旗標。