# pandas 簡介
---
pandas是在python中基於numpy為基礎開發的套件，提供如DataFrame等強大的數據分析、數據前處理等函式
<br>以下會列舉一些基礎概念與常用函式，更多詳情請參考[pandas documentation](https://pandas.pydata.org/docs/index.html)

## pandas 套件安裝與引入
---
### 安裝（僅列舉Colab裝法）
- 使用`!pip install pandas`即可安裝（Colab中有內建無須重裝）

### 引入套件
- 使用`import pandas`引入套件
- 通常會將numpy簡寫成np，`import pandas as pd`

In [None]:
!pip install pandas

In [1]:
import pandas as pd
import numpy as np #底下會用到 故import 若單純用pandas則不須import numpy

## Series 與 DataFrame 基本介紹
---
### 簡介
- Series
  - 維度1且資料型態皆相同的結構

- DataFrame
  - 維度2且資料型態不一定相同的結構
  - 由一個或多個的Series組成
  - 以表格形式呈現與操作（如同excel）
  - 取值方式與numpy中的2維array相同，可利用index取值，也可利用`:`進行連續取值


### 建立Series
- 利用`pd.Series()`建立series，括號內需放入dict或array-like的資料型態（如list、array），例如`pd.Series({'a',:1,'b':2,'c':3})`或`pd.Series([1,2,3])`
 - series中可取名以利檢視
 - series中可利用array-like的資料型態自定義index
 - 可接受`nan`（空資料/缺失值）

### Series 基本資訊
- 利用`shape`查看series形狀
- 利用`size`查看series中元素個數
- 利用`dtype`查看series中元素資料型態
- 利用`name`查看series的名字
- 利用`index`查看series中的index
- 利用`values`查看series中的元素
- 利用`hasnans`查看series中是否有nan

### Series 取值
- 取值方式與numpy中的array相同，可利用index或位置取值，也可利用`:`進行連續取值
- 利用`loc[]`用index對numpy取值
- 利用`iloc[]`用位置對numpy取值
- `loc[]`與`iloc[]`可利用條件取值

### 新增資料
- 利用`append()`在series**最後面**新增資料，可用`ignore_index`讓輸出結果的index重新設定

### 移除資料
- 利用`drop()`移除series中指定index的元素



In [None]:
# 建立series

print(pd.Series()) #建立空series
print(pd.Series({'a':1,'b':2,'c':3})) #以dict建立series
print(pd.Series([1,2,3]),end='\n\n') #以list建立series

print(pd.Series([1,2,3,4],name='named series'),end='\n\n') #命名series

print(pd.Series(['ncku','psy','data','analysis'],index=['甲','乙','丙','丁']),end='\n\n') #自定義index

print(pd.Series([1,2,np.nan])) #放入nan

In [None]:
# series基本資訊

ser = pd.Series([1,2,3],index=['a','b','c'],name='example')

print(ser.shape) #輸出series的形狀
print(ser.size) #輸出series的元素個數
print(ser.dtype) #輸出series中元素的資料型態
print(ser.name) #輸出series的名字
print(ser.index) #輸出series的index
print(ser.values) #輸出series的元素
print(ser.hasnans,end='\n\n') #輸出series中是否含有nan

ser_nan = pd.Series([1,np.nan,3])
print(ser_nan.hasnans) #輸出series中是否含有nan

In [None]:
# series 取值
ser = pd.Series([1,4,3,2],index=['a','b','c','d'])
print(ser,end='\n\n')

print(ser[0]) #輸出位置(0)的資料
print(ser['b':'d']) #輸出index(b-d)的資料
print(ser[1:3]) #輸出位置(1-2)的資料
print(ser[:],end='\n\n') #輸出全部的資料

print(ser.loc['b']) #輸出index(b)的資料
print(ser.loc['b':'d']) #輸出index(b-d)的資料
print(ser.loc[ser.values>2]) #利用條件取值
print(ser.loc[:],end='\n\n') #輸出全部的資料

print(ser.iloc[0]) #輸出位置(0)的資料
print(ser.iloc[1:3]) #輸出位置(1-2)的資料
print(ser.iloc[ser.values>2]) #利用條件取值
print(ser.iloc[:],end='\n\n') #輸出全部的資料

In [None]:
# 新增資料
ser1 = pd.Series([1,2,3])
ser2 = pd.Series([4,5,6])
ser3 = pd.Series([4,5,6], index=[2,3,4])

print(ser1.append(ser2)) #新增資料
print(ser1.append(ser3)) #新增資料
print(ser1.append(ser2,ignore_index=True)) #新增資料並重設index

In [None]:
# 移除資料
ser = pd.Series([1,2,3,4])

print(ser.drop([1,3]),end='\n\n') #移除位置(1,3)的資料

ser = pd.Series([1,2,3,4],index=['a','b','c','d'])

print(ser.drop(['b','d'])) #移除index(b,d)的資料

### 建立DataFrame
- 利用`pd.DataFrame()`建立dataframe，括號內需放入dict、dataframe或多維array-like的資料型態，例如`pd.DataFrame({'a',:1,'b':2,'c':3})`或`pd.DataFrame([1,2,3])`
- dataframe中可利用array-like的資料型態自定義index與column
- 可接受`nan`（空資料/缺失值）

### DataFrame 基本資訊
- 利用`shape`查看dataframe形狀
- 利用`size`查看dataframe中元素個數
- 利用`dtypes`查看dataframe中元素資料型態
- 利用`index`查看dataframe中的index
- 利用`columns`查看dataframe中的columns
- 利用`values`查看dataframe中的元素
- 利用`info()`查看dataframe的詳細資訊
- 利用`describe()`查看dataframe的統計資訊

### Dataframe 取值
- 取值方式與series相同，可利用index或位置取值，也可利用`:`進行連續取值
- 利用`loc[]`用index對numpy取值
- 利用`iloc[]`用位置對numpy取值
- `loc[]`與`iloc[]`可利用條件取值

### 新增資料
- 利用`append()`在dataframe**最後面**新增列資料，可用`ignore_index`讓輸出結果的index重新設定，若新增資料中有新的欄位名稱，則為新增欄位
- 利用`insert()`在dataframe**任意位置**插入**欄**，若新增的欄名稱重複，要將allow_duplicates設為True以免出現error
### 移除資料
- 利用`drop()`移除dataframe中指定欄或列


In [None]:
#建立DataFrame
print(pd.DataFrame({'col1':[1,2],'col2':[3,4],'col3':[5,6]}),end='\n\n') #利用dict建立DataFrame

print(pd.DataFrame([[1,np.nan,3,4],[5,6,np.nan,8]]),end='\n\n') #利用2維list建立DataFrame

print(pd.DataFrame([[1,np.nan,3,4],[5,6,np.nan,8]],index=['row1','row2']),end='\n\n') #自定義index

print(pd.DataFrame([[1,np.nan,3,4],[5,6,np.nan,8]],columns=['col1','col2','col3','col4'])) #自定義column

In [None]:
# DataFrame 基本資訊
df = pd.DataFrame({'col1':[1,2],'col2':[3,4],'col3':[5,6]})

print(df.shape) #輸出dataframe的形狀
print(df.size) #輸出dataframe中元素個數
print(df.dtypes) #輸出dataframe中每一欄的資料型態
print(df.index) #輸出dataframe的index
print(df.columns) #輸出dataframe的columns
print(df.values,end='\n\n') #輸出dataframe的所有元素

print(df.info(),end='\n\n') #輸出dataframe的詳細資訊

print(df.describe()) #輸出dataframe的統計資訊

In [None]:
# dataframe 取值
df = pd.DataFrame({'col1':[1,2,3],'col2':[4,5,6],'col3':[7,8,9]},index=['row1','row2','row3'])
print(df,end='\n\n')

print(df['col1']['row1']) #輸出位置(col1,row1)的資料
print(df[0:2]) #輸出列(1-2)的資料
print(df[:],end='\n\n') #輸出全部的資料

print(df.loc['row1']) #輸出列(1)的資料
print(df.loc['row1':'row3']) #輸出列(1-3)的資料
print(df.loc[df['col2']>5]) #利用條件取值
print(df.loc[:],end='\n\n') #輸出全部的資料

print(df.iloc[0]) #輸出列(位置0)的資料
print(df.iloc[0:2]) #輸出列(位置0-1)的資料
print(df.iloc[df['col2'].values>5]) #利用條件取值
print(df.iloc[:],end='\n\n') #輸出全部的資料

In [None]:
# 新增資料
df = pd.DataFrame({'col1':[1,2,3],'col3':[7,8,9]},index=['row1','row2','row3'])
print(df,end='\n\n')

add_df = pd.DataFrame({'col1':[10,20],'col2':[50,60],'col3':[70,80]})
print(df.append(add_df,ignore_index=True)) #將add_df新增至df中
print(df.append(add_df),end='\n\n') #將add_df新增至df中

df.insert(1,'new_col',[4,5,6]) #在欄(位置1)插入新欄
print(df)
df.insert(1,'col1',[10,20,30],allow_duplicates=True) #在欄(位置1)插入新欄
print(df)

In [None]:
# 刪除資料
df = pd.DataFrame({'col1':[1,2,3],'col2':[4,5,6],'col3':[7,8,9]},index=['row1','row2','row3'])
print(df)

print(df.drop(['col2'],axis=1)) #刪除欄
print(df.drop(['row2'])) #刪除列

## DataFrame 進階操作
---
### I/O
- csv
  * 利用`pd.read_csv()`將csv檔轉為DataFrame 
  ```python 
    pd.read_csv('input.csv')
  ```
  * 利用`to_csv()`將DataFrame轉為csv檔
  ```python 
    df.to_csv('output.csv')
  ```
- excel 
  * 利用`pd.read_excel()`將xlsx檔轉為DataFrame
  ```python 
    pd.read_excel('input.xlsx')
  ```
  * 利用`to_excel()`將DataFrame轉為xlsx檔
  ```python 
    df.to_excel('output.xlsx')
  ```
- 還有其他像是`html`、`sql`、`json`、`spss`等，有需要可參照[pandas documentation I/O](https://pandas.pydata.org/docs/reference/io.html)

### 排序
- 利用`sort_values()`將DataFrame中指定欄由小排到大

### 搜尋
- 利用`idxmax()`搜尋DataFrame中最大值的位置
- 利用`idxmin()`搜尋DataFrame中最小值的位置
- 利用`where()`操作符合特定條件的元素

### 統計相關
- 利用`max()`取出DataFrame中最大值，若沒有設定axis，則預設為欄
- 利用`min()`取出DataFrame中最小值，若沒有設定axis，則預設為欄
- 利用`median()`對DataFrame取中位數，若沒有設定axis，則預設為欄
- 利用`mean()`對DataFrame取平均數，若沒有設定axis，則預設為欄
- 利用`std()`對DataFrame取標準差，若沒有設定axis，則預設為欄
- 利用`value_counts()`對DataFrame中元素出現的次數進行統計
- 利用`var()`對DataFrame取變異數，若沒有設定axis，則預設為欄
- 利用`corr()`對DataFrame取相關係數矩陣
- 利用`cov()`對DataFrame取共變異數矩陣

###處理缺失值
- 利用`isna()`查看DataFrame中有無缺失值
- 利用`dropna()`將DataFrame的缺失值移除，若沒有設定axis，則預設為列
- 利用`fillna()`填補DataFrame中的缺失值

###畫圖
- 利用`plot.bar()`繪製垂直長條圖
- 利用`plot.barh()`繪製水平長條圖
- 利用`plot.box()`繪製盒鬚圖
- 利用`plot.hist()`繪製直方圖
- 利用`plot.pie()`繪製圓餅圖
- 利用`plot.scatter()`繪製散佈圖

In [None]:
#排序
df = pd.DataFrame({
    'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': ['a', 'B', 'c', 'D', 'e', 'F']
})
print(df,end='\n\n')

print(df.sort_values(['col1'])) #排序col1
print(df.sort_values(['col1','col2'])) #排序col1、col2(col1優先)

In [None]:
#搜尋
df = pd.DataFrame(np.arange(10).reshape(5,2), columns=['A','B'])
print(df,end='\n\n')

print(df.idxmax()) #輸出最大值的欄與列
print(df.idxmin(),end='\n\n') #輸出最小值的欄與列

print(df.where(df%3==0,-df)) #根據特定條件操作符合特定的元素

In [None]:
#統計相關
df = pd.DataFrame(np.arange(10).reshape(5,2), columns=['A','B'])
print(df,end='\n\n')

print(df.max())  #根據axis=0搜尋dataframe中的最大值            
print(df.max(axis=0))   #根據axis=0搜尋dataframe中的最大值  
print(df.max(axis=1),end='\n\n') #根據axis=1搜尋dataframe中的最大值

print(df.min())  #根據axis=0搜尋dataframe中的最小值           
print(df.min(axis=0))   #根據axis=0搜尋dataframe中的最小值  
print(df.min(axis=1),end='\n\n') #根據axis=1搜尋dataframe中的最小值

print(df.median())  #根據axis=0對dataframe取中位數            
print(df.median(axis=0))   #根據axis=0對dataframe取中位數  
print(df.median(axis=1),end='\n\n') #根據axis=1對dataframe取中位數

print(df.mean())  #根據axis=0對dataframe取平均數             
print(df.mean(axis=0))   #根據axis=0對dataframe取平均數  
print(df.mean(axis=1),end='\n\n') #根據axis=1對dataframe取平均數

print(df.std())  #根據axis=0對dataframe取標準差             
print(df.std(axis=0))   #根據axis=0對dataframe取標準差  
print(df.std(axis=1),end='\n\n') #根據axis=1對dataframe取標準差

print(df.var())  #根據axis=0對dataframe取變異數           
print(df.var(axis=0))   #根據axis=0對dataframe取變異數  
print(df.var(axis=1),end='\n\n') #根據axis=1對dataframe取變異數

df = pd.DataFrame({'col1':[2,4,4,6],'col2':[2,0,0,0]})
print(df,end='\n\n')

print(df.value_counts()) #次數統計

In [None]:
#統計相關
df = pd.DataFrame({'col1':[2,4,4,6],'col2':[2,0,0,0]})
print(df,end='\n\n')

print(df.corr(),end='\n\n') #輸出相關係數矩陣

print(df.cov()) #輸出共變數矩陣

In [None]:
#缺失值處理
df = pd.DataFrame({'col1':[1,2,np.nan],'col2':[4,np.nan,6],'col3':[7,8,9]},index=['row1','row2','row3'])
print(df)

print(df.isna(),end='\n\n') #是否有缺失值

print(df.dropna()) #移除缺失值(列)
print(df.dropna(axis=1),end='\n\n') #移除缺失值(欄)

print(df.fillna(0),end='\n\n') #填補缺失值

In [None]:
#畫圖相關
speed = [0.1, 17.5, 40, 48, 52, 69, 88]
lifespan = [2, 8, 70, 1.5, 25, 12, 28]
index = ['snail', 'pig', 'elephant',
         'rabbit', 'giraffe', 'coyote', 'horse']
df = pd.DataFrame({'speed': speed,
          'lifespan': lifespan}, index=index)
print(df)

print(df.plot.bar()) #繪製垂直長條圖
print(df.plot.barh()) #繪製水平長條圖
print(df.plot.box()) #繪製盒鬚圖
print(df.plot.hist()) #繪製直方圖
print(df.plot.pie(subplots=True,figsize=(11, 6))) #繪製圓餅圖
print(df.plot.scatter(x='speed',y='lifespan')) #繪製散佈圖