### $\rm{pandas}$ 的基礎
<br>
  
* $\rm{pandas}$ 是專門用來處理、分析資料的 $\rm{Python}$ 套件
* 我們直接進入實際應用，因此暫時略過一些重要的先備知識
    * $\rm\color{orange}{NumPy}$ 套件
    * $\rm\color{orange}{pandas}$ 套件下的 $\rm\color{orange}{Series}$ 物件格式與其操作
* 若往後對資料分析有興趣而想要自修，建議先對上述套件與模組有一定的熟悉度

#### 使用 $\rm{pandas}$ 套件
<br>
  
* $\rm{pandas}$ 套件已內含在 $\rm{Anaonda}$ 中，使用時不需額外安裝
* 使用時和隨機模組相同，需要先使用 $\rm\color{orange}{import}$ 指令匯入
  
        import pandas as pd
  
* $\rm{import}$ ... $\rm{as}$ ... 的語法和開啟檔案類似，上述語句的意思是在程式中提到 $\rm{pandas}$ 時，都以 $\rm{pd}$ 作為代稱
* 注意，不同於開啟檔案時可以隨意指定代稱，套件的代稱都是約定成俗的用法，不可隨意更動

#### 讀取 $\rm{CSV}$ 檔
<br>
  
* 這邊我們讀取 $\rm{fruits.csv}$ 來做示範
  
        df = pd.read_csv('fruits.csv')
  
* $\rm\color{orange}{read\_csv()}$ 是 $\rm{pandas}$ 中用於讀取 $\rm{csv}$ 檔等純文字格式的函式。把欲讀取的檔案放在同一個目錄下，完整檔名以字串置於小括號內即可
* 以 $\rm\color{orange}{read\_csv()}$ 讀取完的檔案，會被轉換成 pandas 下的 $\rm\color{orange}{DataFrame}$ 格式，因此在這邊我們把讀取完後的檔案命名為 $\rm{df}$

In [1]:
import pandas as pd

df = pd.read_csv('fruits.csv')
print(df)

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     3
3  strawberry  2008     6
4        kiwi  2006     3


#### 索引值與欄位名稱
<br>
  
* 這就是一個典型 $\rm{DataFrame}$ 輸出的結果
* $\rm{pandas}$ 會幫 $\rm{DataFrame}$ 自動加上從 $\rm{0}$ 開始的索引值 ($\rm\color{orange}{index}$) 編號
* 上方的 $\rm{fruits}$、$\rm{year}$ 和 $\rm{time}$ 則為欄位 ($\rm\color{orange}{columns}$) 名稱
* 索引值和欄位名稱都可以使用以下的語法來修改
  
        DataFrame名稱.index = [索引值1, 索引值2, ...]
        DataFrame名稱.columns = [欄位名1, 欄位名2, ...]
  

In [3]:
# 索引值可更改為數字或文字，但必須置於串列中
df.index = [1, 2, 3, 4, 5] # 直接以賦值方式更改索引值
print(df)
print()
idx = ['C', 'D', 'E', 'F', 'G'] # 也可以先建立串列再賦值
df.index = idx
print(df)

       fruits  year  time
1       apple  2001     1
2      orange  2002     4
3      banana  2001     3
4  strawberry  2008     6
5        kiwi  2006     3

       fruits  year  time
C       apple  2001     1
D      orange  2002     4
E      banana  2001     3
F  strawberry  2008     6
G        kiwi  2006     3


In [4]:
# 欄位名稱可以用相同方式做修改
df.columns = ['FR', 'YR', 'TM']
print(df)

           FR    YR  TM
C       apple  2001   1
D      orange  2002   4
E      banana  2001   3
F  strawberry  2008   6
G        kiwi  2006   3


#### 加入新的欄位
<br>
  
* 新增欄位十分容易，只需要套用下列語法
  
        DataFrame名稱[新欄位名稱] = [第0列內容, 第1列內容, 第2列內容, ...]
  
* 操作上十分類似 $\rm{Excel}$ 的電子試算表 ($\rm{spreadsheet}$) 格式

In [6]:
df = pd.read_csv('fruits.csv')
print(df)
print()
df['price'] = [150, 120, 100, 300, 150] # 新增 price 欄位
print(df)

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     3
3  strawberry  2008     6
4        kiwi  2006     3

       fruits  year  time  price
0       apple  2001     1    150
1      orange  2002     4    120
2      banana  2001     3    100
3  strawberry  2008     6    300
4        kiwi  2006     3    150


#### 取出 $\rm{DataFrame}$ 當中的元素
<br>
  
* 可以使用以下兩種語法來取出指定範圍的內容
  
        DataFrame名稱.loc[索引名稱的串列, 欄位名稱的串列]
        DataFrame名稱.iloc[索引編號的串列, 欄位編號的串列]
  
* 兩者都是先指定列 ($\rm{row}$) 再指定欄 ($\rm{column}$)，然後取出交集部分的資料

In [8]:
# 使用 loc 選取資料
print(df)
print()
df1 = df.loc[[1, 2], ['year', 'price']] # 把選取完的結果放到 df1 裡，注意是雙層串列
print(df1)

       fruits  year  time  price
0       apple  2001     1    150
1      orange  2002     4    120
2      banana  2001     3    100
3  strawberry  2008     6    300
4        kiwi  2006     3    150

   year  price
1  2002    120
2  2001    100


In [10]:
# 使用 iloc 選取資料
df.index = ['C', 'D', 'E', 'F', 'G']
print(df)
print()
df2 = df.iloc[[2, 3], [0, 2]] # 把選取完的結果放到 df2 裡，注意是雙層串列
print(df2)

       fruits  year  time  price
C       apple  2001     1    150
D      orange  2002     4    120
E      banana  2001     3    100
F  strawberry  2008     6    300
G        kiwi  2006     3    150

       fruits  time
E      banana     3
F  strawberry     6


#### 刪除 $\rm{DataFrame}$ 的列或行
<br>
  
* 可以使用以下語法來刪除指定的列或行，但須注意「$\color{orange}{軸}$ ($\rm\color{orange}{axis}$)」的方向
  
        DataFrame名稱.drop(索引名稱, axis=0)
        DataFrame名稱.drop(欄位名稱, axis=1)
  
* 軸向如同之前在二維串列提過的，$\rm\color{orange}{axis=0}$ 代表由上往下，$\rm\color{orange}{axis=1}$ 則代表由左至右

In [16]:
df = pd.read_csv('fruits.csv')
print(df)
print()
df1 = df.drop(2, axis=0)
print(df1)
print()
df2 = df.drop('year', axis=1)
print(df2)

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     3
3  strawberry  2008     6
4        kiwi  2006     3

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
3  strawberry  2008     6
4        kiwi  2006     3

       fruits  time
0       apple     1
1      orange     4
2      banana     3
3  strawberry     6
4        kiwi     3


* 練習將 $\rm{fruits2.csv}$ 匯入成 DataFrame，刪除偶數列後，再將「strawberry」欄位刪除

In [18]:
import pandas as pd

df = pd.read_csv('fruits2.csv')
print(df)
print()
df1 = df.drop([0, 2, 4, 6, 8], axis=0)
print(df1)
print()
df2 = df1.drop(['strawberry'], axis=1)
print(df2)

   apple  orange  banana  strawberry  kiwi
0      2      10       7           5     8
1      4       7       2           2     2
2      6       3       8           6    10
3      2       2      10          10     3
4      3       7       4           7     1
5      5      10       7           5     1
6      7       8      10           1     9
7      8       4       4           2     1
8      9       7       2          10     8
9      1       9      10           9     5

   apple  orange  banana  strawberry  kiwi
1      4       7       2           2     2
3      2       2      10          10     3
5      5      10       7           5     1
7      8       4       4           2     1
9      1       9      10           9     5

   apple  orange  banana  kiwi
1      4       7       2     2
3      2       2      10     3
5      5      10       7     1
7      8       4       4     1
9      1       9      10     5


#### 將欄位值依大小排序
<br>
  
* 想針對某欄位的值來做排序，可以套用以下語法
  
        DataFrame名稱.sort_values(by='欄位名稱', ascending=True)
  
* $\rm\color{orange}{ascending=True}$ 是預設值 (可不寫)，表示由小到大排列，改成 $\rm\color{orange}{False}$ 就會由大到小排列

In [25]:
df = pd.read_csv('fruits.csv')
print(df)
print()
df1 = df.sort_values(by='year', ascending=False)
print(df1)
print()
# 先依 time 做排序，如果 time 相同再依 year 做排序，是實務上很常用到的功能
df2 = df.sort_values(by=['time', 'year'], ascending=False)
print(df2)

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     3
3  strawberry  2008     6
4        kiwi  2006     3

       fruits  year  time
3  strawberry  2008     6
4        kiwi  2006     3
1      orange  2002     4
0       apple  2001     1
2      banana  2001     3

       fruits  year  time
3  strawberry  2008     6
1      orange  2002     4
4        kiwi  2006     3
2      banana  2001     3
0       apple  2001     1


#### 從 $\rm{DataFrame}$  篩選出想要的資料
<br>
  
* 可以傳入條件式到 $\rm{DataFrame}$ 中，藉此留下條件判斷為 $\rm\color{orange}{True}$ 的資料
  
        DataFrame名稱[索引 or 欄位的條件式]

In [30]:
df = pd.read_csv('fruits2.csv')
print(df)
print()
# df1 = df[df.index % 2 == 0]
# print(df1)
# print()
df2 = df[df['apple'] >= 5]
print(df2)
print()
df3 = df[(df['apple'] >= 5) & (df['kiwi'] >= 5)] # 同時符合兩個篩選條件
print(df3)

   apple  orange  banana  strawberry  kiwi
0      2      10       7           5     8
1      4       7       2           2     2
2      6       3       8           6    10
3      2       2      10          10     3
4      3       7       4           7     1
5      5      10       7           5     1
6      7       8      10           1     9
7      8       4       4           2     1
8      9       7       2          10     8
9      1       9      10           9     5

   apple  orange  banana  strawberry  kiwi
2      6       3       8           6    10
5      5      10       7           5     1
6      7       8      10           1     9
7      8       4       4           2     1
8      9       7       2          10     8

   apple  orange  banana  strawberry  kiwi
2      6       3       8           6    10
6      7       8      10           1     9
8      9       7       2          10     8


#### (Optional) 快速取得各種基本統計數據
<br>
  
* 對於第一次接觸的資料，有許多統計指標可以幫助我們快速看出其大致的樣貌
* $\rm{pandas}$ 提供了 $\rm\color{orange}{describe()}$ 方法來做到這件事

In [31]:
df = pd.read_csv('fruits2.csv')
print(df)
print()
print(df.describe())

   apple  orange  banana  strawberry  kiwi
0      2      10       7           5     8
1      4       7       2           2     2
2      6       3       8           6    10
3      2       2      10          10     3
4      3       7       4           7     1
5      5      10       7           5     1
6      7       8      10           1     9
7      8       4       4           2     1
8      9       7       2          10     8
9      1       9      10           9     5

           apple     orange     banana  strawberry       kiwi
count  10.000000  10.000000  10.000000      10.000  10.000000
mean    4.700000   6.700000   6.400000       5.700   4.800000
std     2.750757   2.830391   3.204164       3.335   3.645393
min     1.000000   2.000000   2.000000       1.000   1.000000
25%     2.250000   4.750000   4.000000       2.750   1.250000
50%     4.500000   7.000000   7.000000       5.500   4.000000
75%     6.750000   8.750000   9.500000       8.500   8.000000
max     9.000000  10.000000  1

* 輸出 $\rm{names.txt}$ 中，所有姓 $\rm{Patterson}$ 的人名和他們的 $\rm{email}$

In [33]:
df = pd.read_csv('names.txt')
print(df[df['last_name'] == 'Patterson'])

   first_name  last_name                           email
13        Tom  Patterson     tompatterson@bogusemail.com
16     Maggie  Patterson  maggiepatterson@bogusemail.com
19      Steve  Patterson   stevepatterson@bogusemail.com
26        Sam  Patterson     sampatterson@bogusemail.com
31       Neil  Patterson    neilpatterson@bogusemail.com
39       Mary  Patterson    marypatterson@bogusemail.com


#### 加上標頭列
<br>

* 找出 $\rm{CA.txt}$ 中，$\rm{2001}$ 年最熱門的男女孩名字

In [3]:
import pandas as pd
df = pd.read_csv('CA.txt', header=None)
df.columns = ['State', 'Sex', 'Year', 'Name', 'Number']
# print(df.head())
df1 = df[(df['Year'] == 2001) & (df['Sex'] == 'M')]
print(df1.head(1))

       State Sex  Year    Name  Number
337520    CA   M  2001  Daniel    4165


#### 取頭尾列
<br>

* 當資料量很大，不太可能全部顯示出來時，可以使用 $\rm\color{orange}{head()}$ 與 $\rm\color{orange}{tail()}$ 來顯示局部內容
* 預設值為 $\rm{5}$ 列，可在小括號內填入想顯示的列數

In [10]:
emily = df[(df['Name'] == 'Emily') & (df['Year'] <= 2020) & (df['Year'] >= 2001)]
print(emily.head(10))
print(emily['Number'].sum())

       State Sex  Year   Name  Number
152806    CA   F  2001  Emily    2928
156596    CA   F  2002  Emily    3020
160457    CA   F  2003  Emily    3416
164364    CA   F  2004  Emily    3416
168390    CA   F  2005  Emily    3283
172489    CA   F  2006  Emily    3104
176697    CA   F  2007  Emily    2964
180980    CA   F  2008  Emily    2781
185228    CA   F  2009  Emily    2540
189420    CA   F  2010  Emily    2392
49386
