# Pandas 101

## Pandas 簡介

Pandas是一個Python語言的程式庫，提供資料分析的能力。資料處理經常以表格型式處理資料，如sql的關聯表或Excel的表格。Pandas提供載入、處理、計算、及分析表格化的資料，與matplotlib及seaborn結合提供資料視覺化能力。 以下為一個典型的資料框範例，描述學生資料

## DataFrame 資料框

Pandas的主要資料結構為資料框(DataFrame)是二維表格化資料結構，每行包含相同型態資料。DataFrame的結構包括列標籤(row labels)、欄位標籤(column labels，可視為欄位名稱)、及資料項目(data items)。

以下為一個典型的資料框範例，描述學生資料

|   |sid | name | phone | AI | datastructure | python
|----|----|----|-----|-----|-------|----
101 | 11375001 | 李大明 | 0922555123 | 66 | 86 | 69
102 | 11375010 | 陳傑憲 | 0919123456 | 96 | 88 | 77
103 | 11375022 | 林玉明 | 0955235743 | 88 | 77 | 66
104 | 11375055 | 姜昆雨 | 0931239097 | 77 | 87 | 98
105 | 11375199 | 陳辰威 | 0932098543 | 67 | 78 | 89

列標籤(row labels)包含 101, 102, 103, .., 105，欄標籤(column labels)包括 sid, name, phone, AI, datastructure, pyhton，資料項目(data items)為每一筆(row)資料的內容

<img src="dataframe1.png" width="600" height="700"/>

## 導入 Pandas 程式庫

為後續使用便利性，導入 pandas 後將其設定 pd 縮寫

In [2]:
import pandas as pd

## 建立DataFrame

DataFrame是一種表格式的資料結構，如同Excel的資料表。建立資料框可以經由「字典」(dictionary)、「串列」(List)、或直接讀取檔案後轉換，可賺患的檔案種類包括逗號分隔值（Comma-Separated Values，CSV)格式檔，SQL 關聯式檔案，JavaScript Object Notation (json)格式檔...等。

### 以字典(Dictionary)結構建立DataFrame

dataframe的組成包含row labels，column labels，及 data values。row labels代表列標籤，即識別每一筆資料，column labels代表欄標籤，即每一個欄位名稱。

Python的dictionary資料型別是以`key:value`方式組成，在以下學生成績範例中，"sid": \['11375001', '11375010', '11375022', '11375055', '11375199'\]表示一字典中一筆資料，經由pandas的函式 `pd.DataFrame()` 轉換為dataframe後，'sid'成為一個欄標籤，串列內容成為欄內容，表示有5個學號值。因此，以下python程式碼將建立6個欄位，分別為 sid, name, phone, AI, datastructure, python。

In [3]:
# 建立一個學生成績字典資料結構
student = {
    'sid': ['11375001', '11375010', '11375022', '11375055', '11375199'],
    'name': [ '李居明', '陳傑憲', '林玉明', '姜昆雨', '陳辰威'],
    'phone': ['0922555123', '0919123456', '0955235743', '0931239097', '0932098543'],
    'AI': [66, 96, 88, 77, 67],
    'datastructure': [86, 88, 77, 87, 78],
    'python': [69, 77, 66, 98, 89]
}

In [4]:
# 利用 DataFrame() 建立
df = pd.DataFrame(student)

In [5]:
display(df) # 注意此時建立的 dataframe 的 row 以 0 ~ n 數列為標籤

Unnamed: 0,sid,name,phone,AI,datastructure,python
0,11375001,李居明,922555123,66,86,69
1,11375010,陳傑憲,919123456,96,88,77
2,11375022,林玉明,955235743,88,77,66
3,11375055,姜昆雨,931239097,77,87,98
4,11375199,陳辰威,932098543,67,78,89


In [6]:
# 建立dataframe並設定列標籤 row labels

row_labels = [101, 102, 103, 104, 105]
df1 = pd.DataFrame(student, index=row_labels)

In [7]:
display(df1) # 注意此時建立的 dataframe 的 row 以 [101, 102, ..., 105]數列為標籤

Unnamed: 0,sid,name,phone,AI,datastructure,python
101,11375001,李居明,922555123,66,86,69
102,11375010,陳傑憲,919123456,96,88,77
103,11375022,林玉明,955235743,88,77,66
104,11375055,姜昆雨,931239097,77,87,98
105,11375199,陳辰威,932098543,67,78,89


### 以串列(list)建立DataFrame

串列資料以dataframe的資料內容為主，並不包含「欄位名稱」及「列標籤」，因此建立dataframe時需要補充資料。

In [8]:
# 建立一個串列 (ll)
ll = [[1, 2, 100],
     [2, 4, 200],
     [3, 5, 300]]
df_list = pd.DataFrame(ll)

In [9]:
display(df_list)

Unnamed: 0,0,1,2
0,1,2,100
1,2,4,200
2,3,5,300


以上dataframe並無列標籤及欄標籤，可以利用 `columns` 參數加入欄位名稱。

In [10]:
df_list_1 = pd.DataFrame(ll, columns=['x', 'y', 'z'])

In [11]:
display(df_list_1)

Unnamed: 0,x,y,z
0,1,2,100
1,2,4,200
2,3,5,300


### 讀取 csv 格式檔案建立DataFrame

csv檔是以「逗點(,)」分隔資料項目的文字檔，在pandas中可以用 `pd.read_csv("fielname.csv")` 讀取資料料，例如以下瑜珈課程資料檔以csv的格式儲存(f1p1.csv)。

學員姓名, 年齡層, 課程編號, 課程, 開課日期, 課程時數, 鐘點費, 講師費總額, 教室, 課程時段, 講師 <br>
蔡岳軒, 26-40歲, ST02, 流瑜珈-中級, 2021/3/1, 6, 1000, 6000, R204, 8:00 AM, 王鈺舒 <br>
邱柏霖,"51-65歲",AT02,香薰瑜珈-中級,2021/3/2,12,900,1800,R306,10:00 AM,鄭雅心 <br>
潘俊銘,"26-40歲",AT01,香薰瑜珈-入門,2021/3/25,9,800,7200,R305,11:00 AM,林頴婕 <br>
戴航儀,"16-25歲",HT01,熱瑜珈-入門,2021/3/15,3,800,2400,R308,2:00 PM,朱姿怡 <br>
吳泰廷,"26-40歲",ET01,伸展瑜珈-入門,2021/3/27,6,700,4200,R206,8:00 AM,邱憶涵 <br>
葉盈慧,"16-25歲",ET03,伸展瑜珈-高階,2021/3/22,9,900,8100,R202,9:00 AM,陳莉瑩 <br>
莊庭軒,"26-40歲",ET03,伸展瑜珈-高階,2021/3/17,9,900,8100,R201,10:00 AM,陳莉瑩 <br>
陳家蓁,"26-40歲",AT02,香薰瑜珈-中級,2021/3/26,12,900,1800,R303,11:00 AM,鄭雅心


In [12]:
df_csv = pd.read_csv("f1p1.csv")

In [13]:
df_csv

Unnamed: 0,學員姓名,年齡層,課程編號,課程,開課日期,課程時數,鐘點費,講師費總額,教室,課程時段,講師
0,蔡岳軒,26~40歲,ST02,流瑜珈-中級,2021/3/1,6,"$1,000","$6,000",R204,8:00 AM,王鈺舒
1,邱柏霖,51~65歲,AT02,香薰瑜珈-中級,2021/3/2,12,$900,"$10,800",R306,10:00 AM,鄭雅心
2,潘俊銘,26~40歲,AT01,香薰瑜珈-入門,2021/3/25,9,$800,"$7,200",R305,11:00 AM,林頴婕
3,戴航儀,16~25歲,HT01,熱瑜珈-入門,2021/3/15,3,$800,"$2,400",R308,2:00 PM,朱姿怡
4,吳泰廷,26~40歲,ET01,伸展瑜珈-入門,2021/3/27,6,$700,"$4,200",R206,8:00 AM,邱憶涵
5,葉盈慧,16~25歲,ET03,伸展瑜珈-高階,2021/3/22,9,$900,"$8,100",R202,9:00 AM,陳莉瑩
6,莊庭軒,26~40歲,ET03,伸展瑜珈-高階,2021/3/17,9,$900,"$8,100",R201,10:00 AM,陳莉瑩
7,陳家蓁,26~40歲,AT02,香薰瑜珈-中級,2021/3/26,12,$900,"$10,800",R303,11:00 AM,鄭雅心


`pd.read_csv(filepath, sep=",", header="infer", ...)`

### 讀取 xlsx 格式檔案建立DataFrame

利用 `pd.read_excel()`讀取 excel檔案

資料框中每一欄資料為一個 `pandas.Series` 的物件，包含一維資料及列標籤

## DataFrame 屬性

屬性名稱 | 功能
:----------|:-------|
df.columns`| dataframe的欄位名稱列表
df.index` | dataframe的列標籤
df.values | dataframe的資料內容
df.dtypes | dataframe的欄位資料型別
df.ndim | dataframe的維度
df.shape | dataframe的資料維度(資料數量，欄位數量)
df.size | dataframe的資料數量

In [14]:
df_csv.columns

Index(['學員姓名', '年齡層', '課程編號', '課程', '開課日期', '課程時數', '鐘點費', '講師費總額', '教室',
       '課程時段', '講師'],
      dtype='object')

In [15]:
df_csv.index

RangeIndex(start=0, stop=8, step=1)

In [16]:
df_csv.values

array([['蔡岳軒', '26~40歲', 'ST02', '流瑜珈-中級', '2021/3/1', 6, '$1,000',
        '$6,000', 'R204', '8:00 AM', '王鈺舒'],
       ['邱柏霖', '51~65歲', 'AT02', '香薰瑜珈-中級', '2021/3/2', 12, '$900',
        '$10,800', 'R306', '10:00 AM', '鄭雅心'],
       ['潘俊銘', '26~40歲', 'AT01', '香薰瑜珈-入門', '2021/3/25', 9, '$800',
        '$7,200', 'R305', '11:00 AM', '林頴婕'],
       ['戴航儀', '16~25歲', 'HT01', '熱瑜珈-入門', '2021/3/15', 3, '$800',
        '$2,400', 'R308', '2:00 PM', '朱姿怡'],
       ['吳泰廷', '26~40歲', 'ET01', '伸展瑜珈-入門', '2021/3/27', 6, '$700',
        '$4,200', 'R206', '8:00 AM', '邱憶涵'],
       ['葉盈慧', '16~25歲', 'ET03', '伸展瑜珈-高階', '2021/3/22', 9, '$900',
        '$8,100', 'R202', '9:00 AM', '陳莉瑩'],
       ['莊庭軒', '26~40歲', 'ET03', '伸展瑜珈-高階', '2021/3/17', 9, '$900',
        '$8,100', 'R201', '10:00 AM', '陳莉瑩'],
       ['陳家蓁', '26~40歲', 'AT02', '香薰瑜珈-中級', '2021/3/26', 12, '$900',
        '$10,800', 'R303', '11:00 AM', '鄭雅心']], dtype=object)

In [17]:
df_csv.dtypes # read data type of each column

學員姓名     object
年齡層      object
課程編號     object
課程       object
開課日期     object
課程時數      int64
鐘點費      object
講師費總額    object
教室       object
課程時段     object
講師       object
dtype: object

In [18]:
df_csv.ndim

2

In [19]:
df_csv.shape # 5rows by 6columns 

(8, 11)

In [20]:
df_csv.size #total number of elements

88

## DataFrame操作方法

| 方法名稱 | 功能 |
|:-----|:-----|
|df.head() | 顯示dataframe前5項資料|
|df.tail() | 顯示dataframe後5項資料|
|df.describe() | 資料表中數值欄位的統計量|
|df.info() | 顯示dataframe的資訊，包括列標籤型別，欄位名稱，非空值數量，記憶體使用 |
|df.read_csv() | 讀取csv檔建立dataframe
|df.read_excel() | 讀取excel檔建立dataframe
|df.to_csv() | 將dataframe儲存為csv檔|
|df.to_numpy() | 將dataframe儲存為numpy array檔|
|df.astype() | 改變欄位資料型別 |


In [21]:
df_csv.head()

Unnamed: 0,學員姓名,年齡層,課程編號,課程,開課日期,課程時數,鐘點費,講師費總額,教室,課程時段,講師
0,蔡岳軒,26~40歲,ST02,流瑜珈-中級,2021/3/1,6,"$1,000","$6,000",R204,8:00 AM,王鈺舒
1,邱柏霖,51~65歲,AT02,香薰瑜珈-中級,2021/3/2,12,$900,"$10,800",R306,10:00 AM,鄭雅心
2,潘俊銘,26~40歲,AT01,香薰瑜珈-入門,2021/3/25,9,$800,"$7,200",R305,11:00 AM,林頴婕
3,戴航儀,16~25歲,HT01,熱瑜珈-入門,2021/3/15,3,$800,"$2,400",R308,2:00 PM,朱姿怡
4,吳泰廷,26~40歲,ET01,伸展瑜珈-入門,2021/3/27,6,$700,"$4,200",R206,8:00 AM,邱憶涵


In [22]:
df_csv.tail(3)

Unnamed: 0,學員姓名,年齡層,課程編號,課程,開課日期,課程時數,鐘點費,講師費總額,教室,課程時段,講師
5,葉盈慧,16~25歲,ET03,伸展瑜珈-高階,2021/3/22,9,$900,"$8,100",R202,9:00 AM,陳莉瑩
6,莊庭軒,26~40歲,ET03,伸展瑜珈-高階,2021/3/17,9,$900,"$8,100",R201,10:00 AM,陳莉瑩
7,陳家蓁,26~40歲,AT02,香薰瑜珈-中級,2021/3/26,12,$900,"$10,800",R303,11:00 AM,鄭雅心


In [23]:
df_csv.info()
# RangeIndex: 8 entries, 0 to 7   列標籤以連續數值表示 0 ~ 7 (共8個)
# Data columns (total 11 columns) 11個資料欄位
# 0   學員姓名    8 non-null       object 學生姓名欄位有8個非空值，資料型別為 object
# dtypes: int64(1), object(10)    欄位資料型別，1個為整數(int64)，10個為object
# memory usage: 836.0+ bytes      記憶體使用 836+ bytes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   學員姓名    8 non-null      object
 1   年齡層     8 non-null      object
 2   課程編號    8 non-null      object
 3   課程      8 non-null      object
 4   開課日期    8 non-null      object
 5   課程時數    8 non-null      int64 
 6   鐘點費     8 non-null      object
 7   講師費總額   8 non-null      object
 8   教室      8 non-null      object
 9   課程時段    8 non-null      object
 10  講師      8 non-null      object
dtypes: int64(1), object(10)
memory usage: 836.0+ bytes


In [24]:
df_csv.describe() #df_csv的數值欄僅為"課程時數" + .round(n) 設定小數點數

Unnamed: 0,課程時數
count,8.0
mean,8.25
std,3.105295
min,3.0
25%,6.0
50%,9.0
75%,9.75
max,12.0


In [25]:
df_csv.describe(include=object) #df_csv非數值欄位的統計資訊

Unnamed: 0,學員姓名,年齡層,課程編號,課程,開課日期,鐘點費,講師費總額,教室,課程時段,講師
count,8,8,8,8,8,8,8,8,8,8
unique,8,3,6,6,8,4,6,8,5,6
top,蔡岳軒,26~40歲,AT02,香薰瑜珈-中級,2021/3/1,$900,"$10,800",R204,8:00 AM,鄭雅心
freq,1,5,2,2,1,4,2,1,2,2


In [26]:
df_csv.to_numpy()

array([['蔡岳軒', '26~40歲', 'ST02', '流瑜珈-中級', '2021/3/1', 6, '$1,000',
        '$6,000', 'R204', '8:00 AM', '王鈺舒'],
       ['邱柏霖', '51~65歲', 'AT02', '香薰瑜珈-中級', '2021/3/2', 12, '$900',
        '$10,800', 'R306', '10:00 AM', '鄭雅心'],
       ['潘俊銘', '26~40歲', 'AT01', '香薰瑜珈-入門', '2021/3/25', 9, '$800',
        '$7,200', 'R305', '11:00 AM', '林頴婕'],
       ['戴航儀', '16~25歲', 'HT01', '熱瑜珈-入門', '2021/3/15', 3, '$800',
        '$2,400', 'R308', '2:00 PM', '朱姿怡'],
       ['吳泰廷', '26~40歲', 'ET01', '伸展瑜珈-入門', '2021/3/27', 6, '$700',
        '$4,200', 'R206', '8:00 AM', '邱憶涵'],
       ['葉盈慧', '16~25歲', 'ET03', '伸展瑜珈-高階', '2021/3/22', 9, '$900',
        '$8,100', 'R202', '9:00 AM', '陳莉瑩'],
       ['莊庭軒', '26~40歲', 'ET03', '伸展瑜珈-高階', '2021/3/17', 9, '$900',
        '$8,100', 'R201', '10:00 AM', '陳莉瑩'],
       ['陳家蓁', '26~40歲', 'AT02', '香薰瑜珈-中級', '2021/3/26', 12, '$900',
        '$10,800', 'R303', '11:00 AM', '鄭雅心']], dtype=object)

In [27]:
df_csv_1 = df_csv.astype(dtype={"年齡層": "category"})

In [28]:
df_csv_1.info() #年齡層的資料型別改變為"Category"

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   學員姓名    8 non-null      object  
 1   年齡層     8 non-null      category
 2   課程編號    8 non-null      object  
 3   課程      8 non-null      object  
 4   開課日期    8 non-null      object  
 5   課程時數    8 non-null      int64   
 6   鐘點費     8 non-null      object  
 7   講師費總額   8 non-null      object  
 8   教室      8 non-null      object  
 9   課程時段    8 non-null      object  
 10  講師      8 non-null      object  
dtypes: category(1), int64(1), object(9)
memory usage: 912.0+ bytes


## 選取資料

在dataframe中選取某一筆資料須要先定位，pandas提供許多定位方式，例如 df\['name'\]可以列出欄位為name的所有資料，df\['name'\]\[1\]可以選出name欄索引為1的資料。此外，pandas也提供定位運算子(assessor)

- **df.loc\[ \]** - 根據列標籤與欄標籤定位
- **df.iloc\[ \]** - 根據列與欄的索引值定位
- **df.at\[ \]** - 根據列標籤與欄標籤定位某一筆資料
- **df.iat\[ \]** - 根據列與欄的索引值定位某一筆資料

In [29]:
df

Unnamed: 0,sid,name,phone,AI,datastructure,python
0,11375001,李居明,922555123,66,86,69
1,11375010,陳傑憲,919123456,96,88,77
2,11375022,林玉明,955235743,88,77,66
3,11375055,姜昆雨,931239097,77,87,98
4,11375199,陳辰威,932098543,67,78,89


In [30]:
#選取某一欄資料
df['name'] 

0    李居明
1    陳傑憲
2    林玉明
3    姜昆雨
4    陳辰威
Name: name, dtype: object

In [31]:
df['name'][1] #選取'name'欄索引位置1的資料

'陳傑憲'

In [32]:
#利用 .loc[]定位子，df.loc[2]表示定位dataframe中列標籤=2的資料(整列)
df.loc[2]

sid                11375022
name                    林玉明
phone            0955235743
AI                       88
datastructure            77
python                   66
Name: 2, dtype: object

### `df.iloc[5]` 產生 #IndexError: single positional indexer is out-of-bounds

In [33]:
#利用 .iloc[]定位子，df.iloc[0]表示定位dataframe中列索引位置=2的資料(整列)
df.iloc[0]

sid                11375001
name                    李居明
phone            0922555123
AI                       66
datastructure            86
python                   69
Name: 0, dtype: object

In [34]:
#df.loc[1, 'phone']表示定位於column="phone", row label=1
df.loc[1, 'phone']

'0919123456'

In [35]:
#定位於column=[''name','phone','AI']共三欄，row label=2
df.loc[2, ['name','phone','AI']]

name            林玉明
phone    0955235743
AI               88
Name: 2, dtype: object

In [36]:
#定位於column=[''name','phone','AI']共三欄，row label=2, 4
df.loc[[2, 4], ['name','phone','AI']]

Unnamed: 0,name,phone,AI
2,林玉明,955235743,88
4,陳辰威,932098543,67


In [37]:
#定位於column index=[1,2,4]共三欄，row index= 1, 2 (1:3)
df.iloc[1:3, [1,2,4]]

Unnamed: 0,name,phone,datastructure
1,陳傑憲,919123456,88
2,林玉明,955235743,77


In [38]:
#定位於column index=[1,3,5]共三欄，row index= all
df.iloc[:, [1, 3, 5]]

Unnamed: 0,name,AI,python
0,李居明,66,69
1,陳傑憲,96,77
2,林玉明,88,66
3,姜昆雨,77,98
4,陳辰威,67,89


In [39]:
#定位於 row label=2, column label='name'
df.at[2, 'name']

'林玉明'

In [40]:
#定位於 row index=2, column index=1
df.iat[2, 1]

'林玉明'

## 新增資料

資料處理過程中，有時需要增加新的欄位(資料項目, add column)，或新增資料(add rows)。新增資料結果將會改變dataframe的shape值(df.shape)。

### 新增欄位

DataFrame新增欄位可以利用以下方式
1. 建立空值欄位
2. 建立定值欄位
3. 已知資料建立欄位
4. 使用insert()函式
5. 使用assign()函式

In [41]:
df['database']=None

In [42]:
#output
df.head()

Unnamed: 0,sid,name,phone,AI,datastructure,python,database
0,11375001,李居明,922555123,66,86,69,
1,11375010,陳傑憲,919123456,96,88,77,
2,11375022,林玉明,955235743,88,77,66,
3,11375055,姜昆雨,931239097,77,87,98,
4,11375199,陳辰威,932098543,67,78,89,


In [43]:
df['database']=0

In [46]:
df['database']=[55,66,77,88,99]

In [49]:
#df.insert(loc, colName, values)
df.insert(3, "game design", [87, 54, 98, 65, 85]) #index=3

In [51]:
#df.assign(new_column=list of vlues)
df.assign(deeplearning=[45,56,67,78,89])

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,deeplearning
0,11375001,李居明,922555123,87,66,86,69,55,45
1,11375010,陳傑憲,919123456,54,96,88,77,66,56
2,11375022,林玉明,955235743,98,88,77,66,77,67
3,11375055,姜昆雨,931239097,65,77,87,98,88,78
4,11375199,陳辰威,932098543,85,67,78,89,99,89


In [53]:
import numpy as np
df['image processing']=np.NaN

In [54]:
#output
df.head()

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
0,11375001,李居明,922555123,87,66,86,69,55,
1,11375010,陳傑憲,919123456,54,96,88,77,66,
2,11375022,林玉明,955235743,98,88,77,66,77,
3,11375055,姜昆雨,931239097,65,77,87,98,88,
4,11375199,陳辰威,932098543,85,67,78,89,99,


### 新增資料列

使用以下方法新增資料列
1. df.loc\[len(df)\]=\[list of values\]
2. 使用 `df.concat()` 設定 ignore index
3. 使用 `df.concat()` 設定 index

In [55]:
#add a row with .loc[len(df)] 
#新增一筆紀錄 ["10175002", "王建民", "0911999888", 55, 88, 66, 77, 98, 78]
df.loc[len(df)]=["10175002", "王建民", "0911999888", 55, 88, 66, 77, 98, 78]

In [60]:
#output
df.tail(2)

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
4,11375199,陳辰威,932098543,85,67,78,89,99,
5,10175002,王建民,911999888,55,88,66,77,98,78.0


In [92]:
#add a row with pd.concat + ignore index
new_row = ["111752222", "徐若曦", "0915432888", 65, 75, 65, 85, 95, 75]
new_df = pd.DataFrame([new_row], columns=df.columns)
df_concat = pd.concat([df, new_df], ignore_index=True) #注意 [df, new_df]

In [93]:
df_concat

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
0,11375001,李居明,922555123,87.0,66.0,86.0,69.0,55.0,
1,11375010,陳傑憲,919123456,54.0,96.0,88.0,77.0,66.0,
2,11375022,林玉明,955235743,98.0,88.0,77.0,66.0,77.0,
3,11375055,姜昆雨,931239097,65.0,77.0,87.0,98.0,88.0,
4,11375199,陳辰威,932098543,85.0,67.0,78.0,89.0,99.0,
5,10175002,王建民,911999888,55.0,88.0,66.0,77.0,98.0,78.0
6,111752222,徐若曦,915432888,65.0,75.0,65.0,85.0,95.0,75.0


## 刪除資料

`df.drop()` 可用於刪除列資料及欄位，`del df[欄位名稱]` 用於刪除欄位

In [99]:
#刪除row label=5資料
df2 = df.copy()
df2.drop(labels=[5], inplace=True)
display(df2)

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
0,11375001,李居明,922555123,87.0,66.0,86.0,69.0,55.0,
1,11375010,陳傑憲,919123456,54.0,96.0,88.0,77.0,66.0,
2,11375022,林玉明,955235743,98.0,88.0,77.0,66.0,77.0,
3,11375055,姜昆雨,931239097,65.0,77.0,87.0,98.0,88.0,
4,11375199,陳辰威,932098543,85.0,67.0,78.0,89.0,99.0,


In [103]:
#刪除column='image processing'資料
df2.drop(labels=['image processing'], axis=1, inplace=True)

In [105]:
#刪除 column='A'
del df2['AI']
display(df2)

Unnamed: 0,sid,name,phone,datastructure,python,database
0,11375001,李居明,922555123,86.0,69.0,55.0
1,11375010,陳傑憲,919123456,88.0,77.0,66.0
2,11375022,林玉明,955235743,77.0,66.0,77.0
3,11375055,姜昆雨,931239097,87.0,98.0,88.0
4,11375199,陳辰威,932098543,78.0,89.0,99.0


## 過濾資料

利用布林運算式及邏輯運算子可用於找出所需要的資料子集合(subset)

In [107]:
#AI成績大於80分的資料子集
df[df['AI']>80]

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
1,11375010,陳傑憲,919123456,54.0,96.0,88.0,77.0,66.0,
2,11375022,林玉明,955235743,98.0,88.0,77.0,66.0,77.0,
5,10175002,王建民,911999888,55.0,88.0,66.0,77.0,98.0,78.0


In [108]:
#AI成績>80且database成績>80的資料子集
df[(df['AI']>80) & (df['database']>80)] 

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
5,10175002,王建民,911999888,55.0,88.0,66.0,77.0,98.0,78.0


In [116]:
#AI成績>80且不為空值的資料子集
df[(df['AI']>80) & (df['image processing'].notna())] #.notba = .notnull

Unnamed: 0,sid,name,phone,game design,AI,datastructure,python,database,image processing
5,10175002,王建民,911999888,55.0,88.0,66.0,77.0,98.0,78.0


## 補充:Series 資料結構

pandas另一個資料結構為 `Pandas.Series` 物件，Pandas Series 物件包括一序列「資料值」values，及一序列的識別值(Identifier)，呼叫 type() 於一個 Series 物件，顯示 `<class 'numpy.narray>`訊息，Pandas Series 實際就是 `n-dimensional array`。 

In [119]:
#建立一個串列
wang = ["10175002", "王建民", "0911999888", 55, 88, 66, 77, 98, 78]
#利用pd.Series()將串列轉換為 Series
student_w = pd.Series(wang)
#type()顯示student_w為一個pandas Series
type(student_w)

pandas.core.series.Series

In [120]:
#student_w的index顯示為一個「位置索引值」
student_w.index

RangeIndex(start=0, stop=9, step=1)

In [121]:
# student_w.values 顯示為一個numpy array
student_w.values

array(['10175002', '王建民', '0911999888', 55, 88, 66, 77, 98, 78],
      dtype=object)

較為完整的 `pd.Series()` 建立一個 Series 物件，包括 values 及 index，如下

In [124]:
student_chen = pd.Series(
    ["11375010", "陳傑憲", "0919123456", 54, 96, 88, 77, 66, 50],
    index = ['sid', 'name', 'phone', 'game design', 'AI', 'datastructure', 'python',
       'database', 'image processing']
)
display(student_chen)

sid                   11375010
name                       陳傑憲
phone               0919123456
game design                 54
AI                          96
datastructure               88
python                      77
database                    66
image processing            50
dtype: object

In [126]:
#建立一個字典資料 by 2 lists, one for values, the other for keys
v = ["11375010", "陳傑憲", "0919123456", 54, 96, 88, 77, 66, 50]
idx = ['sid', 'name', 'phone', 'game design', 'AI', 'datastructure', 'python',
       'database', 'image processing']
student_chen_dict = {}
for k in range(len(idx)):
    student_chen_dict[idx[k]] = v[k]
print(student_chen_dict)

{'sid': '11375010', 'name': '陳傑憲', 'phone': '0919123456', 'game design': 54, 'AI': 96, 'datastructure': 88, 'python': 77, 'database': 66, 'image processing': 50}


In [128]:
#以字典資料結構建立 Series
student_chen_2 = pd.Series(student_chen_dict)
type(student_chen_2)

pandas.core.series.Series

In [130]:
student_chen['name']

'陳傑憲'

In [132]:
student_chen.iloc[1]

'陳傑憲'