# Pandas 套件－資料分析必學入門
* Pandas 之於 Python，就好比 Excel 之於 Windows
* 主要用於大數據分析、機器學習、時間序列分析等

### Pandas主要有兩大資料結構：
* Series 欄位 (一維度)：由 index (譬如：時間，稱為時間曲線 Time series) 及數值組成的一條序列
* DataFrame 表格 (二維度)：N 條 series 共用同一個 index

Pandas 官方文件：[網站](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

In [2]:
import pandas as pd

In [4]:
#利用 pd.DataFrame 函式建立二維表格 dataframe

datas = [[65,92,78,88], [90,91,60,55], [80,40,99,78]]
indexs = ["王大一", "張美麗", "林田山"]
columns = ["國文", "數學", "英文", "自然"]

df = pd.DataFrame(datas, columns=columns, index=indexs)
df

In [6]:
# DataFrame 可以想像成很多條 Time Series

date = pd.date_range('20200210', periods=5)

s1 = pd.Series([42.4, 42.6, 42.8, 43.15, 43.2], index=date)
s2 = pd.Series([327.5, 331.5, 335, 335, 335], index=date)
s3 = pd.Series([28.7, 28.75, 28.75, 29, 28.9], index=date)

data = {'台泥':s1, '台積電':s2, '玉山金':s3}

df = pd.DataFrame(data)
df

# 查找資料

* loc[]：使用索引值 (index)，先列標籤後行標籤，以逗號分隔
* iloc[]：使用資料存放的位置，依據列數及行數進行索引

In [8]:
df.loc['20200210']
#df.loc['20200210':'20200213']
#df.iloc[3]
#df.iloc[0:4]

In [10]:
df.loc['20200210':'20200213', '台泥':'台積電']
#df.iloc[1:3, 0:2]

In [12]:
# DataFrame 常用函式

df.max()
#df.min()
#df.mean()
#df.std()

In [14]:
#print(df)
#df.cumsum() 
#df.cumprod()

In [16]:
# 找出索引值 (即日期)

s1 = df['玉山金']
s1[s1 == s1.max()].index

In [18]:
# DataFrame 移動窗格

df.rolling(2).sum() 
#df.rolling(3).max()
#df.rolling(3).min()
#df.rolling(2).mean()
#df.rolling(2).std()

# DataFrame 專屬功能 (Series 沒有)

In [20]:
# 取出單一行

df['台積電']

In [22]:
print(df)
df.cumsum(axis=1)  # 預設為列累加 axis=0

# DataFrame 操作

In [23]:
df.head(3)
#df.tail(10)
#df.columns
#df.index
#len(df)
#df.shape
#df.describe()
#df.info()

# 删除一列或一欄：drop 函式

    DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)
    
參數說明：
* labels：要刪除的列或行的名稱
* axis：預設為 0，表示刪除列(row)，若要刪除行(column)，要設定 axis=1
* index：指定要刪除的列
* columns：指定要刪除的行
* inplace：預設為 False，表示不會改變原 Dataframe 資料；True 則會直接在原 DataFrame 進行刪除動作

In [26]:
#利用 pd.DataFrame 函式建立二維表格 dataframe

datas = [[65,92,78,88], [90,91,60,55], [80,40,99,78]]
indexs = ["王大一", "張美麗", "林田山"]
columns = ["國文", "數學", "英文", "自然"]

df = pd.DataFrame(datas, columns=columns, index=indexs)
df

In [28]:
df.drop('王大一')

In [32]:
df.drop(['國文', '英文'], axis=1)

In [56]:
df.drop(index='張美麗' , columns='英文', inplace=True)
#df.drop(index='張美麗' , columns='英文')

In [35]:
# date = pd.date_range('20200210', periods=5)

s1 = pd.Series([42.4, 42.6, 42.8, 43.15, 43.2], index=date)
s2 = pd.Series([327.5, 331.5, 335, 335, 335], index=date)
s3 = pd.Series([28.7, 28.75, 28.75, 29, 28.9], index=date)

data = {'台泥' : s1, '台積電' : s2, '玉山金': s3}

df = pd.DataFrame(data)
df

In [37]:
# 刪除日期型態的列索引資料

df.drop(pd.Timestamp('2020-02-11'))

# 空值或缺失值處理

在 pandas 中空值為 ""；在 dataframe 中缺失值為 nan 或 naT (缺失時間)；在 series 中缺失值為 none 或 nan

相關函式：
* dropna()：刪除含有空值或缺失值的列或行
* fillna()：填充缺失值
* isna()：判斷是否為缺失值
* isnull()：判斷是否為缺失值，與 isna 相同，建議使用 isna

In [42]:
# 建立一個 5x3 的 Dataframe

df = pd.DataFrame([[0,1,2],
                  [3,4,None],
                  [None,7,8],
                  [9,10,11],
                  [pd.NaT,13,14]],
                  index=list('abcde'),columns=list('ABC'))
df

In [45]:
df.dropna()  #刪除含有空值或缺失值的列
#df.dropna(axis=1)  #刪除含有空值或缺失值的欄

In [47]:
df.fillna(value='0')  #用 0 填充缺失值

In [49]:
df.isna()
#df.isnull()