In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 3)
plt.rcParams['font.family'] = 'sans-serif'

## Class & Object & Attributes & Method


### Class（類別）


* 類別像是模具，可以重複製作出相同的東西，在撰寫程式的過程中不斷地被重複利用。在Python使用class宣告類別，就可以重複建立此類別的物件。
* 類別中會包含已定義的 Attributes (屬性) 和 Method (方法)
* ex. 人類


###Object（物件）

* 將**類別**實體化的結果就是 物件
* 物件 可以使用所屬類別的 屬性 和 方法
* ex. 小明


In [3]:
# Class 
# Pandas 已經定義的 類別 如： DataFrame, Series 
# 但是 DataFrame, Series 只是一個模具。如何建立出 DataFrame 的實體，你必須要進行灌模然後才會得到一個實體。怎麼 灌模 並得到實體？

# Object
# 使用 pandas.DataFrame() 建立(灌模) DataFrame object ，且指向一個變數 df 
# 使用 type() 顯示 object 的資料格式或型態 (Chpater 1)
df = pd.DataFrame()
display(df)
print(type(df))

<class 'pandas.core.frame.DataFrame'>


### Attributes（屬性）

* 屬性 是物件的特性，這些特性代表了一個物件的外觀或某些性質
* Q1.如何知道有哪些 屬性？
    1. 上網查文件
    2. `dir()`，ex: `dir(pandas.DataFrame())`
* Q2.如何使用 屬性？ 用 . 屬性名稱 來啟動
* ex. 身高(cm)，體重(kg)


In [4]:
# Attributes
# DataFrame 這個 類別 中有許多已經定義的 屬性，例如 shape(可以知道 dataframe 的 rows 數量 和 columns 數量), index(取得 rows label), columns(取得 columns label)...
# 剛剛已經用 pd.DataFrame() 建立了 df 這個 DataFrame object，此時就能夠使用 DataFrame 類別 自帶的屬性

print('shape= ', df.shape)
print('rows label= ', df.index)
print('columns label=', df.columns)
# 因為目前 df 中沒有任何資料，所以 屬性 shape 顯示都 0，而 rows label和 columns label 都是空的

print('=================================')

# 試著建立個一有資料的 DataFrame object 吧！
df_2 = pd.DataFrame({'a':[0, 1, 2, 3, 4, 5], 'b':[10, 11, 12, 13, 14, 15], 'c':[100, 110, np.nan, 130 ,140 ,np.nan]})
display(df_2)
print(type(df_2))
print()
print('shape= ', df_2.shape)
print('rows label= ', df_2.index)
print('columns label=', df_2.columns)

shape=  (0, 0)
rows label=  Index([], dtype='object')
columns label= Index([], dtype='object')


Unnamed: 0,a,b,c
0,0,10,100.0
1,1,11,110.0
2,2,12,
3,3,13,130.0
4,4,14,140.0
5,5,15,


<class 'pandas.core.frame.DataFrame'>

shape=  (6, 3)
rows label=  RangeIndex(start=0, stop=6, step=1)
columns label= Index(['a', 'b', 'c'], dtype='object')


### Method（方法）

* 方法 是可以對 物件 進行某種特定目的處理
* 方法 中如果有 定義 Parameters (參數) 則可以設定
* Q1.如何知道有哪些 方法？
    1. 上網查文件
    2. `dir()`，ex: `dir(pandas.DataFrame())`
* ex. 量體重(參數= 選擇度量單位)

In [5]:
# Method
# DataFrame 這個 類別 中有許多已經定義的 方法，例如 .drop() (刪除 rows 或 columns)，.head() (取部分資料)，.replace() (取代特定條件下的資料) ...
# 剛剛已經用 pd.DataFrame() 建立了 df 這個 DataFrame object，此時就能夠使用 DataFrame 類別 自帶的方法
# Q1.如何知道有哪些 屬性？ 上網查文件！
# Q2.如何使用 方法？ 用 . 方法名稱() 來啟動

print(type(df_2.drop))
print(type(df_2.head))
print(type(df_2.replace))

print('\ndrop=')
display(df_2.drop(index=0))
print('\nhead=')
display(df_2.head(3))
print('\nreplace=')
display(df_2.replace({'c': {np.nan: 0}}))

<class 'method'>
<class 'method'>
<class 'method'>

drop=


Unnamed: 0,a,b,c
1,1,11,110.0
2,2,12,
3,3,13,130.0
4,4,14,140.0
5,5,15,



head=


Unnamed: 0,a,b,c
0,0,10,100.0
1,1,11,110.0
2,2,12,



replace=


Unnamed: 0,a,b,c
0,0,10,100.0
1,1,11,110.0
2,2,12,0.0
3,3,13,130.0
4,4,14,140.0
5,5,15,0.0


## Method v.s. Function


In [6]:
# 使用 type() 來觀察 Method 和 Function 所顯示的型態
print(type(pd.isna))
print(type(pd.DataFrame().isna))


<class 'function'>
<class 'method'>


### Method (方法)

* Method 跟 Function 很相似，而差別在於 Method 定義在某個 Class 中，要使用 Method 時必須先建立 Object，且 Method  是針對 Object 做處理。例如，Class 人類，Object 小明，Attribute 身高(cm)，體重(kg)，Method 量體重
* 實例：偵測是否有 NA ，[pandas.DataFrame.isna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isna.html#pandas.DataFrame.isna)
* 文件連結：[Difference Between Method and Function in Python](https://data-flair.training/blogs/python-method-vs-function/)


In [7]:
# Method
df_2 = pd.DataFrame({'a':[0, 1, 2, 3, 4, 5], 'b':[10, 11, 12, 13, 14, 15], 'c':[100, 110, np.nan, 130 ,140 ,np.nan]})
display(df_2)
display(df_2.isna())


Unnamed: 0,a,b,c
0,0,10,100.0
1,1,11,110.0
2,2,12,
3,3,13,130.0
4,4,14,140.0
5,5,15,


Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,False,True
3,False,False,False
4,False,False,False
5,False,False,True



### Function (函式)

* 使用 Function 時，不需要建立 Object，也不只是針對特定 Object 做處理。只要符合 Function 的參數定義，則可以使用。例如，量體重，以 Method 量體重 只能給 Class 人類 的 Object 使用，而 Function 量體重 則可以 給 物品，人類，動物等 各種Object 使用
* 實例：偵測任何 array-like object 是否有 NA ，[pandas.isna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.isna.html#pandas.isna)
* 文件連結：[Difference Between Method and Function in Python](https://data-flair.training/blogs/python-method-vs-function/)

In [8]:
# Function

# create series object, numpy array object, dataframe object
s = pd.Series([1, 2, 3, np.nan])
arr = np.array([1, 2, 3, np.nan])
df = pd.DataFrame([1, 2, 3, np.nan])

display(pd.isna(1.2))
display(pd.isna(np.nan))
display(pd.isna(s))
display(pd.isna(arr))
display(pd.isna(df))

False

True

0    False
1    False
2    False
3     True
dtype: bool

array([False, False, False,  True])

Unnamed: 0,0
0,False
1,False
2,False
3,True


## Series & DataFrame


### Series

* 文件連結：[Series](https://pandas.pydata.org/pandas-docs/stable/dsintro.html)

* 一維標籤陣列 (one-dimensional labeled array)
    * axis labels 也就是 index

* 可包含多種資料類別 (`data type：integers, strings, floating point numbers, Python objects, etc.`)

* 如何建立一個 Series
    * `s = pandas.Series(data=None, index=None, name=Nono, dtype=None)`
    * 其中 data 可以是：
        1. a Python `dict`
        1. an `ndarray`
            *  `在設定 index 時，data 和 index 長度必須相同。如果沒有設定 index，則預設 index為 [0 ～ data長度-1] 的數列`
                
        1. a scalar value (純量 ex.  5)
            * 可設定 index，會自動填入重複的數值直至 index 長度為止

In [9]:
# Series

# 建立方法1. "data" from ndarray

# 定義 index
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(s)

print()
print('====================================')

# 用預設 index
s_2 = pd.Series(np.random.randn(5))
print(s_2)

print()
print('====================================')

# 建立方法2. "data" from dict
d = {'b' : 1, 'a' : 0, 'd' : 2, 'c':5, 'e':10}
s = pd.Series(d)
print(s)

print()
print('====================================')

# 建立方法3. "data" from scalar value
s = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
s_2 = pd.Series(5.)
print(s)
print(s_2)

print()
print('====================================')

# 利用 index 取值
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd' , 'e'])
print(s)

# 取得第一個位置 (index= 'a') 的值
print(s['a'])

# 取出大於平均值的資料
print(s[s > s.mean()])

a    0.163961
b   -0.028261
c    0.271515
d   -0.681072
e    0.806622
dtype: float64

0    0.823151
1    2.038043
2   -0.170674
3   -1.529454
4   -0.517935
dtype: float64

b     1
a     0
d     2
c     5
e    10
dtype: int64

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64
0    5.0
dtype: float64

a    1
b    2
c    3
d    4
e    5
dtype: int64
1
d    4
e    5
dtype: int64


### DataFrame
* 文件連結：[DataFrame](https://pandas.pydata.org/pandas-docs/stable/dsintro.html)
* 二維標籤資料 (2-dimensional labeled data)
    * row index
    * column label
* 如何建立一個 DataFrame
    * `df = pandas.DataFrame(data=None, index=None, columns=None, dtype=None)`
    * 其中 data 可以是：
      1.  Series
      1. list
      1. numpy.array
      1. dict of Series
      1. dict of ndarrays / lists
      1. 2-D numpy.ndarray

In [10]:
# 建立方法1. Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'], name='one')
df = pd.DataFrame(s)
display(df)
print()
print('=========================================')

# 建立方法2. list
df = pd.DataFrame([1, 2, 3, 4], index=['a', 'b', 'c', 'd'], columns=['one'])
display(df)
print()
print('=========================================')

# 建立方法3. numpy array
arr = np.array([1, 2, 3, 4])
df = pd.DataFrame(arr, index=['a', 'b', 'c', 'd'], columns=['one'])
display(df)
print()
print('=========================================')

# 建立方法4. "data" from dict of Series or dicts

# 如果 dict 中各個 Series 的資料長度不同，則會以資料最多者的 index 為 DataFrame 的 index，並將長度不足者補值 NaN
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
display(df)
print()
print('=========================================')

# 建立方法5. "data" from dict of ndarrays / lists

# 如果 dict 中各個 ndarrays / lists 資料長度不同，則會出現錯誤訊息，如下：
# 錯誤寫法：
# d = {'one' : [1, 2, 3],
#      'two' : [5, 6, 7, 8]}
# (錯誤訊息) Shape of passed values is (2, 3), indices imply (2, 4)

# 正確寫法：
d = {'one' : [1, 2, 3, np.nan],
     'two' : [5, 6, 7, 8]}
df = pd.DataFrame(d, index=['a', 'b', 'c', 'd'])
display(df)
print()
print('=========================================')

# 建立方法6. 2-D numpy.ndarray
arr_2D = np.array([[1, 5], [2, 6], [3, 7], [4, 8],])
df = pd.DataFrame(arr_2D, index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
display(df)

Unnamed: 0,one
a,1
b,2
c,3
d,4





Unnamed: 0,one
a,1
b,2
c,3
d,4





Unnamed: 0,one
a,1
b,2
c,3
d,4





Unnamed: 0,one,two
a,1.0,5
b,2.0,6
c,3.0,7
d,,8





Unnamed: 0,one,two
a,1.0,5
b,2.0,6
c,3.0,7
d,,8





Unnamed: 0,one,two
a,1,5
b,2,6
c,3,7
d,4,8


### `.copy()`：複製資料

在 Python 中，有些物件如果在不使用 `.copy()` method 複製的情況下，直接找一個物件來建立新物件時，兩者的記憶體位置將是一樣的，所以更改一個物件時，將使得其他物件一起受到更改，被稱為可變型別 (Mutable Type)，在操作時要多加注意。

Python 原生的可變形別為：

* `list`
* `dict`
* `set`

在 Pandas 中，`DataFrame` 與 `Series` 也是可變形別。

要得到一個物件的記憶體位址，可以透過 `hex(id(object))` 來獲得。

In [11]:
# 我們先來觀察一下原生物件中，可變型別的特性
# list
l1 = list(range(10))
l1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [12]:
# 直接參照一個物件來建立新物件
l2 = l1
l2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [13]:
# 讓我們修改 l2 的其中一個數值
l2[5] = 50
l2

[0, 1, 2, 3, 4, 50, 6, 7, 8, 9]

In [14]:
# 觀察 l1
l1

# 看起來是跟著 l2 一起被給改變了！

[0, 1, 2, 3, 4, 50, 6, 7, 8, 9]

In [15]:
# 分別看一下 l1, l2 兩個物件的記憶體位址
hex(id(l1))

'0x10c1db948'

In [16]:
# 會發現 l1, l2 本質上是同一個物件
hex(id(l2))

'0x10c1db948'

In [17]:
# 改用 .copy() 來複製物件
l2 = l1.copy()

In [18]:
# 再把 l2 物件被修改的數值改回來
l2[5] = 5
l2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [19]:
# 回去觀察 l1
l1

# 這次就不會跟著 l2 一起被修改到囉～

[0, 1, 2, 3, 4, 50, 6, 7, 8, 9]

In [20]:
# 分別看一下 l1, l2 兩個物件的記憶體位址
hex(id(l1))

'0x10c1db948'

In [21]:
# 這下 l1, l2 終於是不同的物件了！
hex(id(l2))

'0x110758b88'

## Pandas Data Types (dtypes)

當拿到一份資料時，必須先了解這份資料藉由程式讀入之後的 data type，以Pandas 而言，定義有 7 種 data type （如下表）。因為 data type 會影響資料處理的結果，如果 data type 錯誤，應將資料處理後，重新定義再進行分析。

* Pandas dtype, Python type, NumPy dtype 對照表

Pandas dtype | Python type | NumPy dtype | Usage
--- | ---
object	| str	| string_, unicode_	| 文字
int64	| int	| int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64	| 整數
float64	| float	| float_, float16, float32, float64	| 小數
bool	| bool	| bool_	| Boolean，True/False
datetime64[ns]	| NA	| datetime64[ns]	| 日期時間
timedelta[ns]	| NA	| NA	| 兩個時間的差值
category	| NA	| NA	| Finite list of text values

參考文件
* [Overview of Pandas Data Types](http://pbpython.com/pandas_dtypes.html)
* https://docs.scipy.org/doc/numpy/user/basics.types.html

### 範例資料

這是一份銷售資料，這份資料透過 `pandas.read_csv()` 讀入後，部分 column 的 data type 不正確，應進行調整。

column label | original dtype | should be dtype
--|--
Customer Number | float64 | int64
2016 | objects | float64 or int64
2017 | objects | float64 or int64
Percent Growth | object | float64
Jan Units | object | float64 or int64
Month , Day and Year | int | datetime64
Active | object | boolean

調整 dtype 有 3 類做法：

1. 使用 `pd.DataFrame.astype()`
1. 建立 functions
1. 使用 pandas functions，例如 `pandas.to_numeric()` 或 `pandas. to_datetime()`

In [22]:
# 讀入檔案
sale_filepath = os.path.join(os.curdir, 'data', 'sales_data_types.csv')
df_orig = pd.read_csv(filepath_or_buffer=sale_filepath)
display(df_orig)
print()
# 使用 pandas.DataFrame.dtypes 觀察資料的 dtype
print(df_orig.dtypes)

df = df_orig.copy()

Unnamed: 0,Customer Number,Customer Name,2016,2017,Percent Growth,Jan Units,Month,Day,Year,Active
0,10002.0,Quest Industries,"$125,000.00",$162500.00,30.00%,500,1,10,2015,Y
1,552278.0,Smith Plumbing,"$920,000.00","$101,2000.00",10.00%,700,6,15,2014,Y
2,23477.0,ACME Industrial,"$50,000.00",$62500.00,25.00%,125,3,29,2016,Y
3,24900.0,Brekke LTD,"$350,000.00",$490000.00,4.00%,75,10,27,2015,Y
4,651029.0,Harbor Co,"$15,000.00",$12750.00,-15.00%,Closed,2,2,2014,N



Customer Number    float64
Customer Name       object
2016                object
2017                object
Percent Growth      object
Jan Units           object
Month                int64
Day                  int64
Year                 int64
Active              object
dtype: object


In [23]:
# 計算 2016年 和 2017年 的銷售金額
# 在不轉換 column=2016 和 column=2017 的 dtype， dtype 為 object (文字) 可以直接相加嗎？
# 答案是不行的。會發現相加後的數值並非正確結果，這是因為資料的 dtype 錯誤導致 df['2016'] + df['2017'] 的結果只是將 文字合併
# 必須把 column=2016 和 column=2017轉成可計算的 dtype 像是 int64 或 float64
df['2016'] + df['2017']


0      $125,000.00$162500.00
1    $920,000.00$101,2000.00
2        $50,000.00$62500.00
3      $350,000.00$490000.00
4        $15,000.00$12750.00
dtype: object

### .astype()

* 將 pandas object 轉換成特定的 dtype
* 參考文件： [pandas.DataFrame.astype](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.astype.html#pandas.DataFrame.astype)
* Parameters：
    * dtype：
        1. 直接輸入 pandas dtype，numpy.dtype 或 Python type
        1. 針對不同 column label 進行 dtype 轉換，使用 `{ col : dtype }`，col 輸入 column label ，dtype 輸入 pandas dtype，numpy.dtype 或 Python type

In [24]:
df['Customer Number'] = df['Customer Number'].astype(dtype='int64')
# df = df.astype(dtype={'Customer Number' : 'int64'}) # 等價

df['Active'] = df['Active'].astype(dtype='bool')
# df = df.astype(dtype={'Active' : 'bool'}) # 等價
print(df.dtypes)

Customer Number     int64
Customer Name      object
2016               object
2017               object
Percent Growth     object
Jan Units          object
Month               int64
Day                 int64
Year                int64
Active               bool
dtype: object


### 建立 function

有時候直接使用 `pandas.DataFrame.astype` 無法成功轉換 dtype ， 這時就需要自己寫 function 先做一些前處理再用 `pandas.DataFrame.astype` 。

* 寫法1. 
```
def function_name(Parameter):
        Parameter = Parameter + 1
        return Parameter
```
* 寫法2. 
```
lambda x : x + 1
```

In [25]:
# 對 column=2016, column=2017 使用 astype 時轉換失敗，因為數值前面帶有符號 "$" 和 ","
# 出現錯誤訊息：could not convert string to float: '$15,000.00'
# df['2016'].astype('float')
# 因此必須先將 "$" 和 "," 移除後再使用 pandas.DataFrame.astype

df['2016'] = df['2016'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float64')
df['2017'] = df['2017'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float64')
print(df.dtypes)

# 用 def 陳述句 與上等價
# def convert_currency(val):
#     """
#     Convert the string number value to a float
#      - Remove $
#      - Remove commas
#      - Convert to float type
#     """
#     new_val = val.replace(',','').replace('$', '')
#     return float(new_val)
# df['2016'] = df['2016'].apply(convert_currency)
# print(df.dtypes)

Customer Number      int64
Customer Name       object
2016               float64
2017               float64
Percent Growth      object
Jan Units           object
Month                int64
Day                  int64
Year                 int64
Active                bool
dtype: object


In [26]:
# 對 column=Jan Units 使用 astype 時轉換失敗，因為數值後面帶有符號 "%"
# 出現錯誤訊息：could not convert string to float: '-15.00%'
# df['Percent Growth'].astype('float')
# 因此必須先將 "$" 和 "," 移除後再使用 pandas.DataFrame.astype

df['Percent Growth'] = df['Percent Growth'].apply(lambda x: x.replace('%', '')).astype('float') / 100
print(df.dtypes)

# 用 def 陳述句 與上等價
# def convert_percent(val):
#     """
#     Convert the percentage string to an actual floating point percent
#     - Remove %
#     - Divide by 100 to make decimal
#     """
#     new_val = val.replace('%', '')
#     return float(new_val) / 100

# df['Percent Growth'] = df['Percent Growth'].apply(convert_percent)
# print(df.dtypes)

Customer Number      int64
Customer Name       object
2016               float64
2017               float64
Percent Growth     float64
Jan Units           object
Month                int64
Day                  int64
Year                 int64
Active                bool
dtype: object


### 使用 pandas functions
介紹 pandas 中常見的 dtype 轉換 function


#### pandas.to_numeric()

* 將資料轉成 數值 dtype
* 參考文件：
[pandas.to_numeric](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_numeric.html)
* Parameters：
    1. arg：欲轉換的資料。（資料格式請閱讀參考文件）
    1. errors：預設 raise
        *  raise：若資料中有非數值，則回傳例外訊息
        *  coerce：若資料中有非數值則補值 NaN
        *  ignore：若資料中有保留非數值，不處理
    1. downcast：預設 None，保留原始資料的狀況
        * integer：整數
        * float：小數

In [27]:
# 對 column=Jan Units 使用 astype 時轉換失敗，因為資料中有非數值存在 'Closed' 為文字
# 出現錯誤訊息：could not convert string to float: 'Closed'
# df['Jan Units'].astype('float')

# 使用 pd.to_numeric() 將 非數值 轉成 NaN，再用 pandas.DataFrame.fillna(0) 將 NaN 補 0
df['Jan Units'] = pd.to_numeric(df['Jan Units'], errors='coerce', downcast='integer').fillna(0)
print(df.dtypes)

Customer Number      int64
Customer Name       object
2016               float64
2017               float64
Percent Growth     float64
Jan Units          float64
Month                int64
Day                  int64
Year                 int64
Active                bool
dtype: object


#### pandas.to_datetime()

* 將資料轉成 datetime64 dtype
* 參考文件：
[pandas.to_datetime](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pandas.to_datetime.html)
* Parameters：
    1. arg：欲轉換的資料（資料格式請閱讀參考文件）
    1. errors：預設 raise
        *  raise：若資料中有非數值，則回傳例外訊息
        *  coerce：若資料中有非數值則補值 NaT
        *  ignore：若資料中有保留非數值，不處理

In [28]:
df["Start_Date"] = pd.to_datetime(df[['Year', 'Month', 'Day']])
print(df.dtypes)

Customer Number             int64
Customer Name              object
2016                      float64
2017                      float64
Percent Growth            float64
Jan Units                 float64
Month                       int64
Day                         int64
Year                        int64
Active                       bool
Start_Date         datetime64[ns]
dtype: object


In [29]:
df

Unnamed: 0,Customer Number,Customer Name,2016,2017,Percent Growth,Jan Units,Month,Day,Year,Active,Start_Date
0,10002,Quest Industries,125000.0,162500.0,0.3,500.0,1,10,2015,True,2015-01-10
1,552278,Smith Plumbing,920000.0,1012000.0,0.1,700.0,6,15,2014,True,2014-06-15
2,23477,ACME Industrial,50000.0,62500.0,0.25,125.0,3,29,2016,True,2016-03-29
3,24900,Brekke LTD,350000.0,490000.0,0.04,75.0,10,27,2015,True,2015-10-27
4,651029,Harbor Co,15000.0,12750.0,-0.15,0.0,2,2,2014,True,2014-02-02


## Input/Output Function

雖然目前都在使用 pandas 的資料格式 series 和 dataframe ，但是 pandas 僅是使用 python 所開發的一個 module，未來因應需求可能使用到其他  module 的 function，例如 scipy。
不同 module 所需要的資料格式不同，要如何將整理好的 series 或 dataframe 資料傳遞給其他 module 做進一步處理，則需要了解  Input/Output Function 。

python 原生資料格式，例如 `list`, `tuple`, `set`, `dict` ... ，以下將介紹 `.tolist()` ,  `.to_dict()` 和 `.to_json()`

* 參考文件：[Scipy](https://zh.wikipedia.org/wiki/SciPy)

### .tolist()

回傳 python `list`  格式資料 `[value1, value2, ...]` 。適用於 `pandas.Series` 和 `pandas.Index`。

參考文件：
* [pandas.Series.tolist](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.tolist.html)
* [pandas.Index.tolist](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.tolist.html)


In [30]:
# 建立一個 dataframe
df = pd.DataFrame({'a':[1, 2, 3, 4, 5], 'b':[11, 12, 13, 14, 15], 'c':[100, 200, 300, 400, 500]})
df

Unnamed: 0,a,b,c
0,1,11,100
1,2,12,200
2,3,13,300
3,4,14,400
4,5,15,500


In [31]:
# 舉例說明1. 將 pandas.Series 轉成 list
# 使用 pandas.DataFrame.loc 取得 columns label = 'a'，此時 a 為 series ，並將格式轉成 list

# step1. 使用 pandas.DataFrame.loc 取得 columns label = 'a'
a = df.loc[:, 'a']
# step2. 使用 .type() 觀察 a 的格式，得到結果為 series object
print(a)
print(type(a))

print('====================================')

# step3. 使用 .tolist() 將 a 轉成 list 格式
a = a.tolist()
print(a)
print(type(a))


0    1
1    2
2    3
3    4
4    5
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
[1, 2, 3, 4, 5]
<class 'list'>


In [32]:
# 舉例說明2. 將 pandas.Index 轉成 list
# 使用 pandas.DataFrame.index 和 pandas.DataFrame.columns 取得 row index 和 column index，並將格式轉成 list

# step1. 使用 pandas.DataFrame.index 和 pandas.DataFrame.columns 取得 row index 和 column index
row_idx = df.index
col_idx = df.columns
# step2. 使用 .type() 觀察 row index 和 column index 的格式，得到結果為 index object
print(row_idx)
print(type(row_idx))
print(col_idx)
print(type(col_idx))

print('====================================')

# step3. 使用 .tolist() 將 row index 和 column index 轉成 list 格式
row_idx = df.index.tolist()
col_idx = df.columns.tolist()
print(row_idx)
print(type(row_idx))
print(col_idx)
print(type(col_idx))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
Index(['a', 'b', 'c'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
[0, 1, 2, 3, 4]
<class 'list'>
['a', 'b', 'c']
<class 'list'>


### .to_dict()

回傳 python `dict`  格式資料 `{ key:value}` ，在 `{}` 中都是 一組組的 `key-value` 搭配 key 和 value 用 ： 隔開。

* 參考文件：
    * [pandas.DataFrame.to_dict](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_dict.html#pandas.DataFrame.to_dict)
    * [pandas.Series.to_dict](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.to_dict.html#pandas.Series.to_dict)
    * Parameters :
        1. orient : 設定 `value` 的格式，預設為 `dict`
            * `dict`  : `{column:{index:value}}`
            * `list` : `{column:[values]}`
            * `series` : `{column:Series(values)}`
            * `split` : `{index:[index], columns:[columns], data: [values]}`
            * `records` : `[{column:value}, … , {column:value}]`
            * `index` : `{index:{column:value}}`
        1. 在 series 中 key 為 label



In [33]:
# 建立一個 dataframe
df = pd.DataFrame({'a':[1, 2, 3, 4, 5], 'b':[11, 12, 13, 14, 15], 'c':[100, 200, 300, 400, 500]})
display(df)
print(type(df))

Unnamed: 0,a,b,c
0,1,11,100
1,2,12,200
2,3,13,300
3,4,14,400
4,5,15,500


<class 'pandas.core.frame.DataFrame'>


In [34]:
# 使用 pandas.DataFrame.to_dict 將格式轉成 dict
# 設定 orient='dict'
df_to_dict = df.to_dict(orient='dict')
display(df_to_dict)
print(type(df_to_dict))

{'a': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5},
 'b': {0: 11, 1: 12, 2: 13, 3: 14, 4: 15},
 'c': {0: 100, 1: 200, 2: 300, 3: 400, 4: 500}}

<class 'dict'>


In [35]:
# 設定 orient='list'
df_to_dict = df.to_dict(orient='list')
display(df_to_dict)
print(type(df_to_dict))

{'a': [1, 2, 3, 4, 5],
 'b': [11, 12, 13, 14, 15],
 'c': [100, 200, 300, 400, 500]}

<class 'dict'>


In [36]:
# 設定 orient='records'
df_to_dict = df.to_dict(orient='records')
display(df_to_dict)
print(type(df_to_dict))

[{'a': 1, 'b': 11, 'c': 100},
 {'a': 2, 'b': 12, 'c': 200},
 {'a': 3, 'b': 13, 'c': 300},
 {'a': 4, 'b': 14, 'c': 400},
 {'a': 5, 'b': 15, 'c': 500}]

<class 'list'>


### .to_json()

In [37]:
# 建立一個 dataframe
df = pd.DataFrame({'a':[1, np.nan, 3, 4, 5], 'b':[11, 12, 13, 14, 15], 'c':[100, 200, 300, 400, 500]})
display(df)
print(type(df))

Unnamed: 0,a,b,c
0,1.0,11,100
1,,12,200
2,3.0,13,300
3,4.0,14,400
4,5.0,15,500


<class 'pandas.core.frame.DataFrame'>


In [38]:
df.to_json()

'{"a":{"0":1.0,"1":null,"2":3.0,"3":4.0,"4":5.0},"b":{"0":11,"1":12,"2":13,"3":14,"4":15},"c":{"0":100,"1":200,"2":300,"3":400,"4":500}}'

## Missing Value

* 在 python 中 遺失值（missing value）以 NA (not available) 統稱。
* NA 的表示法可分成 Python 原生 和 Pandas 自定義， 且針對不同 data type 有不同的表示方式，請看下表：

data type | Python 顯示結果 | Python 程式寫法 | Pandas 顯示結果 | Pandas 程式寫法
--|--
object | None | `None` | NaN, None | `numpy.nan`, `None`
numeric | | | NaN | `numpy.nan`, `None`
datetime-like | | | NaT | `numpy.nan`, `None`


* 以 Pandas I/O 讀取檔案時，程式預設當識別到以下文字則會標記 `NaN` (not a number)：
`['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A', '#N/A', 'N/A', 'n/a', 'NA', '#NA', 'NULL', 'null', 'NaN', '-NaN', 'nan', '-nan', '']`
* 參考文件：
  * [NA Values](http://pandas-docs.github.io/pandas-docs-travis/io.html#na-values)

In [39]:
# 為什麼會產生 NA ?

# 假設有一份資料紀錄每天的 體重（weight）和 體脂肪率（Body_fat_percentage）
# 但是部分日期沒有測量紀錄，以下時間 2018-01-02, 2018-01-05, 2018-01-06, 2018-01-08, 2018-01-09 沒有資料
df = pd.DataFrame([[50.5, 3.5], [51.2, 3.3], [50.9, 3], [51.5, 3.6], [51.6, 3.4]], 
                  index=['2018-01-01', '2018-01-03', '2018-01-04', '2018-01-07', '2018-01-10'], 
                  columns=['weight', 'Body_fat_percentage'])
display(df)
print()

# 資料應該每天記錄，如果把缺失的時間補上，則會產生 NaN 
# 使用 .reindex() 可將原本已經存在的 row index 資料保留，原本不存在但是現在要加進去的 row index 則 values 補值  numpy.nan -> NaN
df2 = df.reindex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08', '2018-01-09','2018-01-10'])
display(df2)

Unnamed: 0,weight,Body_fat_percentage
2018-01-01,50.5,3.5
2018-01-03,51.2,3.3
2018-01-04,50.9,3.0
2018-01-07,51.5,3.6
2018-01-10,51.6,3.4





Unnamed: 0,weight,Body_fat_percentage
2018-01-01,50.5,3.5
2018-01-02,,
2018-01-03,51.2,3.3
2018-01-04,50.9,3.0
2018-01-05,,
2018-01-06,,
2018-01-07,51.5,3.6
2018-01-08,,
2018-01-09,,
2018-01-10,51.6,3.4


### 如何偵測 NA ?

1. 使用 Pandas Function ：

    * [pandas.isna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.isna.html)
    * [pandas.notna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.notna.html)
    * [pandas.isnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.isnull.html)
    * [pandas.notnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.notnull.html)

1. Pandas DataFrame Object Method：

    * [pandas.DataFrame.isna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isna.html)
    * [pandas.DataFrame.notna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.notna.html)
    * [pandas.DataFrame.isnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isnull.html)
    * [pandas.DataFrame.notnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.notnull.html)
    
1. Pandas Series Object Method：

    * [pandas.Series.isna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.isna.html#pandas.Series.isna)
    * [pandas.Series.notna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.notna.html#pandas.Series.notna)
    * [pandas.Series.isnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.isnull.html#pandas.Series.isnull)
    * [pandas.Series.notnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.notnull.html#pandas.Series.notnull)

In [40]:
# 使用 Pandas Function .isna()
display(pd.isna(df2))

Unnamed: 0,weight,Body_fat_percentage
2018-01-01,False,False
2018-01-02,True,True
2018-01-03,False,False
2018-01-04,False,False
2018-01-05,True,True
2018-01-06,True,True
2018-01-07,False,False
2018-01-08,True,True
2018-01-09,True,True
2018-01-10,False,False


In [41]:
# 使用 Pandas DataFrame Object Method .isna()
display(df2.isna())

Unnamed: 0,weight,Body_fat_percentage
2018-01-01,False,False
2018-01-02,True,True
2018-01-03,False,False
2018-01-04,False,False
2018-01-05,True,True
2018-01-06,True,True
2018-01-07,False,False
2018-01-08,True,True
2018-01-09,True,True
2018-01-10,False,False


### 如何處理 NA ? （詳見 Chpater 4：4-1）

1. Pandas DataFrame Object Method：

    * [pandas.DataFrame.fillna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna)
    * [pandas.DataFrame.replace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html#pandas.DataFrame.replace)
    * [pandas.DataFrame.dropna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna)

1. Pandas Series Object Method：

    * [pandas.Series.fillna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.fillna.html#pandas.Series.fillna)
    * [pandas.Series.replace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.replace.html#pandas.Series.replace)
    * [pandas.Series.dropna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dropna.html#pandas.Series.dropna)


In [42]:
# Pandas DataFrame Object Method

# .fillna(method='ffill') 由前往後補值
display(df2.fillna(method='ffill'))

Unnamed: 0,weight,Body_fat_percentage
2018-01-01,50.5,3.5
2018-01-02,50.5,3.5
2018-01-03,51.2,3.3
2018-01-04,50.9,3.0
2018-01-05,50.9,3.0
2018-01-06,50.9,3.0
2018-01-07,51.5,3.6
2018-01-08,51.5,3.6
2018-01-09,51.5,3.6
2018-01-10,51.6,3.4


In [43]:
# Pandas DataFrame Object Method

# .replace() 將 np.nan 補值為 0
display(df2.replace({np.nan:0}))

Unnamed: 0,weight,Body_fat_percentage
2018-01-01,50.5,3.5
2018-01-02,0.0,0.0
2018-01-03,51.2,3.3
2018-01-04,50.9,3.0
2018-01-05,0.0,0.0
2018-01-06,0.0,0.0
2018-01-07,51.5,3.6
2018-01-08,0.0,0.0
2018-01-09,0.0,0.0
2018-01-10,51.6,3.4


## Positive infinity (+∞) & Negative infinity (-∞)

* 當兩數相除，分母為零則發生 infinity。例如，`1/0 =` +∞ ，`-1/0 =` -∞ 。
* 在 Python 並沒有對此處理（除零會提示錯誤訊息），而 Pandas 和 Numpy  自定義 Positive infinity 和 Negative infinity 表示方式如下表：

| 顯示結果 | 程式寫法
--|--
Positive infinity | inf | `numpy.inf`
Negative infinity | -inf | `-numpy.inf`


In [44]:
# Python 並沒有對 infinity 處理（除零會提示錯誤訊息）
try:
    print(1/0)
except Exception as e:
    print("Error occurs. Message:", e)


Error occurs. Message: division by zero


In [45]:
# 在 Pandas 當兩數相除分母為零則發生 infinity

# 先建立 Series object 
a = pd.Series([2, 4, 6, -8])
b = pd.Series([0.5, 0, 2.5, 0])

c = a / b
# 將 a 除 b
print(c)

0    4.000000
1         inf
2    2.400000
3        -inf
dtype: float64


### 如何處理 infinity？

將 infinity 取代為 NaN，再使用上一節提到的 NA 處理方法

In [46]:
# 使用 .replace() 將 inf, -inf 取代為 NaN
c.replace(to_replace=[np.inf, -np.inf], value=np.nan, inplace=True)
c

0    4.0
1    NaN
2    2.4
3    NaN
dtype: float64

In [47]:
# 使用 Pandas DataFrame Object Method
# .dropna() 刪除 NaN 的 row 
c = c.dropna(how="any")
c

0    4.0
2    2.4
dtype: float64

In [48]:
pd.set_option('use_inf_as_na', True)

In [49]:
# 先建立 Series object 
a = pd.Series([2, 4, 6, -8])
b = pd.Series([0.5, 0, 2.5, 0])

c = a / b
# 將 a 除 b
print(c)

0    4.0
1    NaN
2    2.4
3    NaN
dtype: float64
