# 2020 網研社 - Python Week 5

[上週教材 - 2020 網研社 - Python Week4](https://github.com/MingLunWu/2020_python_course/blob/master/Week4.ipynb)

# 套件 (Package)
使用Python撰寫程式時，使用套件能夠加速開發的效率，可以將 **`套件`** 想像成一個 **`工具包`** ，裡面包含了許多 **`函式(Function)`**

套件可以分為兩種: `自己建立的套件` 以及 `別人開發好的套件` 

## 1.自己建立的套件: 
在`Week5`的資料夾中，有一個資料夾`my_package`，其中有一個`get_data.py`的檔案，請打開並查看裡面的內容:

```python
def get_sample_data():
# 此函式的目的為產生範例字典
    income = {
        "Monday":[20,10,30,40,20],
        "Tuesday":[50,60,20,10,100],
        "Wednesday":[20,70,70,100,20],
        "Thursday":[80,0,20,20,50],
        "Friday":[100,20,80,20,10]
    }
    return income
```

使用套件前，需要使用 `import` 語法來 `載入套件`:
```python
from my_package.get_data import get_sample_data
# from <資料夾>.<檔案名稱> import <檔案中的函式名稱>
```

**在上述的範例中，`my_package`就是一個`套件`，其中包含了`函式`可以載入並使用**

In [2]:
from my_package.get_data import get_sample_data

In [3]:
get_sample_data()

{'Monday': [20, 10, 30, 40, 20],
 'Tuesday': [50, 60, 20, 10, 100],
 'Wednesday': [20, 70, 70, 100, 20],
 'Thursday': [80, 0, 20, 20, 50],
 'Friday': [100, 20, 80, 20, 10]}

在使用套件的函式前，一定要**載入**，如果同時要載入多個函式可以使用: 

In [1]:
from my_package.get_data import get_list_data, get_sample_data

或是使用 `*` 來代表「我全都要！」:

In [2]:
from my_package.get_data import *

---
撰寫Python時，可以將函式撰寫在獨立的檔案中(副檔名:`.py`)

需要使用時，在Python Notebook中載入即可使用。

將函式存放於獨立的檔案，有兩個好處: 
1. 主要執行的程式碼較精簡，只包含必要的程式碼，其餘程式碼存放於檔案中.
2. 當函式的數量龐大時，可以分門別類的將程式碼存放於不同的檔案，例如: 
    + 計算類型函式: calculate.py
    + 產生資料函式: data.py
    + 繪圖相關函式: draw.py
    
**常見錯誤: 自定義的函式名稱，不可以跟Python內建的函式重疊！例如:print, for, while...**

---
## 小練習: 
請打開 `my_package` 資料夾中的 `calculate.py`，完成 `calculate_BMI` 函式

完成後請嘗試在此載入套件並且呼叫 `calculate_BMI` 函式

In [5]:
# from my_package......
# 
#
#

## 2. Python內建套件、開源套件
除了自己編寫的套件外，Python有許多內建的套件可供使用

先介紹幾個常用的套件: 
+ `sys` : system，可以透過這個套件來取得一些系統資訊
+ `os` : Operating System，可以透過這個套件來對檔案進行操作

In [7]:
import sys
import os

使用`sys.path`會取得一個環境變數的串列。

使用 `import <套件>`語法時，會依序至串列中的這些位置尋找套件

In [10]:
sys.path

['/Users/minglunwu/Documents/2020_python_course/Week5',
 '/Users/minglunwu/anaconda/envs/tf2/lib/python37.zip',
 '/Users/minglunwu/anaconda/envs/tf2/lib/python3.7',
 '/Users/minglunwu/anaconda/envs/tf2/lib/python3.7/lib-dynload',
 '',
 '/Users/minglunwu/anaconda/envs/tf2/lib/python3.7/site-packages',
 '/Users/minglunwu/anaconda/envs/tf2/lib/python3.7/site-packages/IPython/extensions',
 '/Users/minglunwu/.ipython']

---
使用`os.makedirs(<路徑>)` 可以創建資料夾

In [11]:
os.makedirs("./create_dir")

## 絕對路徑 (Absolute Path) 及 相對路徑 (Related Path)

在Python中設定路徑時，可以區分為絕對路徑和相對路徑兩種: 

### 絕對路徑

絕對路徑指的是從電腦的最核心檔案夾開始，一路指定檔案的位置: 
+ Mac OS : /Users/<使用者名稱>/
+ Windows: C:/Users/<使用者名稱>

可以透過`os`套件的 `os.listdir(<路徑>)`來顯示特定路徑的檔案清單

In [13]:
os.listdir("/Users/minglunwu/Documents/2020_python_course/")

['Week4.ipynb',
 'Week2.ipynb',
 'Week3.ipynb',
 'Week1.ipynb',
 'README.md',
 '.gitignore',
 'Week5',
 '.ipynb_checkpoints',
 '.git']

---
## 小練習
請嘗試使用 `os.listdir(絕對路徑)` 列出當前資料夾的檔案清單 

In [None]:
# Your Time!
#
#
#

### 相對路徑

相對路徑則是以**當前檔案的位置**當作基準點! 使用下列符號來代表移動位置: 
+ `.` : 現在的路徑
+ `..`: 上一層資料夾

![img](https://automatetheboringstuff.com/images/000027.jpg)

In [16]:
os.listdir("./my_package/")

['calculate.py', '__pycache__', 'get_data.py', '.ipynb_checkpoints']

In [17]:
os.listdir("../")

['Week4.ipynb',
 'Week2.ipynb',
 'Week3.ipynb',
 'Week1.ipynb',
 'README.md',
 '.gitignore',
 'Week5',
 '.ipynb_checkpoints',
 '.git']

# 使用套件處理CSV檔案 
![example_image.png](attachment:example_image.png)

## 何謂CSV? 

CSV (Comma Seperated Values) 是一種常見的資料儲存格式。

儲存資料時透過 : 
+ `,` 來表示分隔
+ `\n`來表示換行

## 使用CSV套件讀取資料

在使用各種套件之前，務必記得要先**載入**

In [1]:
import csv

使用 `csv` 套件讀寫資料時，會使用如下的語法: 
```python
with oepn(<檔案路徑>, mode=<讀取模式>, newline=<換行符號>) as <檔案變數> :
    # 縮排 
    # 進行檔案的互動
```

+ 檔案路徑 : 要讀寫的檔案位置 (可以用**絕對路徑**或是**相對路徑**)
+ 讀取模式 : 根據要做的事情不同，使用不同的讀取模式: 
    - "r" : 讀取模式 (read) 
    - "w" : 寫入模式 (write)
+ 換行符號 : CSV檔案中的預設換行符號為"**\n**"，可以透過此參數自訂
+ 檔案符號 : 讀取/寫入檔案後，可以設定一個名稱，在接下來的操作中使用
---
### Function `csv.reader()`
`csv.reader(<檔案>)`: 

`csv` 套件的 function， function的作用是 **讀取csv檔案，並儲存為iterator格式**

In [2]:
with open("./data/example_data.csv", mode='r', newline='\n') as csvfile:
# with open(<檔案路徑>, <讀寫模式>, <換行符號>) as <變數名稱>:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        print(a_row)
        break # 為了避免列印太多行，先中止迴圈，如果想要看到全部的資料，可以註解此行。

['發票號碼', '項列', '日期', '公司名稱', '統一編號', '產品編號', '產品品名', '單位', '數量', '單價(含稅)', '課稅別', '銷售金額', '營業稅', '總計金額(含稅)', '備註1', '備註2', '備註3', '備註4', '備註5', '備註6', '捐贈愛心碼', '載具代碼', '載具顯碼', '載具隱碼', '已經列印註記(Y/N)', '登錄人']


---
## 任務目標1 : 計算欄位的平均值
使用 `Slice` (Week2) 可以取出特定位置的資料，舉例來說，如果我們希望取出`「銷售金額」`，從上述的輸出List中尋找「銷售金額」欄位，是屬於第`11`欄！

在 `for迴圈` 中，可以透過 a_row`[11]` 來取出第11欄的資料 (銷售金額)

In [3]:
with open("./data/example_data.csv", mode='r',newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        print(a_row[11]) # 銷售金額
        break

銷售金額


成功取出值後，接下來就能計算平均「銷售金額」： 

我們嘗試使用一個變數 `total` 來記錄所有的「銷售金額」

In [18]:
with open("./data/example_data.csv", newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    total = 0
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        total += int(a_row[11])

ValueError: invalid literal for int() with base 10: '銷售金額'

發生錯誤的原因在於: **csv檔案的第一列是文字！**

我們可以使用 `next(rows)` 來跳過一列

### function `next(<變數>)`

**next(<`rows`>)** : 移除`rows`變數中的第一`列`

In [23]:
with open("./data/example_data.csv", mode='r', newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    headers = next(rows)
    total = 0 # 總銷售金額
    count = 0 # 資料筆數
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        total += int(a_row[11]) # 注意！ CSV讀取的每一個欄位都預設是 `str`
        count += 1

In [21]:
print("總銷售金額:"+ str(total))

總銷售金額:1428382


In [24]:
print("平均銷售金額:" + str(total/count))

平均銷售金額:1428.382


--- 
## 小練習

請嘗試計算「平均營業稅」：

In [25]:
with open("./data/example_data.csv", mode='r', newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    headers = next(rows)
    total = 0 # 總銷售金額
    count = 0 # 資料筆數
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        total += int(a_row[12]) # 注意！ CSV讀取的每一個欄位都預設是 `str`
        count += 1

print("平均營業稅:{:.2f}".format(total/count))

平均營業稅:71.12


---
## 任務目標2 : 計算銷售金額 > 1,200 的資料筆數

In [27]:
with open("./data/example_data.csv", newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    headers = next(rows)
    count = 0
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        if int(a_row[11]) > 1200 : # a_row[11] 代表每一列的第十一欄 (銷售金額)
            count += 1

In [28]:
print("銷售金額超過1200的資料共有:{}筆".format(count))

銷售金額超過1200的資料共有:739筆


---
## 小練習 

請你計算出下列資訊: 

|營業稅門檻達標|數量|
|:-----------:|:--:|
|40|--|
|50|--|
|60|--|
|70|--|

In [10]:
with open("./data/example_data.csv", newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    headers = next(rows)
    count_40, count_50, count_60, count_70 = 0,0,0,0
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        if int(a_row[12]) >= 70 : # a_row[11] 代表每一列的第十一欄 (銷售金額)
            count_70 += 1 
            count_60 += 1 
            count_50 += 1 
            count_40 += 1
        elif int(a_row[12]) >= 60 : 
            count_60 += 1
            count_50 += 1 
            count_40 += 1
        elif int(a_row[12]) >= 50 : 
            count_50 += 1
            count_40 += 1
        elif int(a_row[12]) >= 40 : 
            count_40 += 1

print("營業稅門檻超過40:{}筆".format(count_40))
print("營業稅門檻超過50:{}筆".format(count_50))
print("營業稅門檻超過60:{}筆".format(count_60))
print("營業稅門檻超過70:{}筆".format(count_70))

營業稅門檻超過40:994筆
營業稅門檻超過50:960筆
營業稅門檻超過60:750筆
營業稅門檻超過70:540筆


# 使用CSV套件寫入資料

寫入時，必須先定義一個**寫入器**:
### 寫入器 - `csv.writer()`

```python
writer = csv.writer(<檔案路徑>)
```
定義完寫入器後，即可透過 `writer.writerows()` function來寫入資料

```python
writer.writerows(<List>)
```

In [11]:
# 寫入時，模式記得要切換為 "w"
with open("./data/test.csv",mode="w",newline="\n") as csvfile:
    writer = csv.writer(csvfile) # 定義寫入器
    
    writer.writerows([
                        ["顧客", "日期", "金額", "備註"], # 每一個List是一列
                        ["Allen", "1111", 100, "很難搞"],
                        ["Jessica","1102", 600, "有錢人"],
                        ["Pearson", "0612", 800, ""]
                     ])

In [16]:
from pprint import pprint # 以可讀性較高的方式列印出List變數

In [15]:
# 先讀取資料
with open("./data/example_data.csv", mode='r', newline='\n') as csvfile:
    # 使用 csv 套件的 reader 函式讀取檔案
    rows = csv.reader(csvfile)
    
    new_data_list = list()
    
    # 透過 For 迴圈將 reader 讀取的資料逐行列印出來
    for a_row in rows:
        filtered_result = [a_row[0], a_row[1], a_row[6], a_row[11]]
        # print(filtered_result)
        new_data_list.append(filtered_result)

pprint(new_data_list[:5]) # 印出 new_data_list的前五列

# 接著進行寫入

with open("./data/test.csv",mode="w",newline="\n") as csvfile:
    writer = csv.writer(csvfile)
    
    writer.writerows(new_data_list)

[['發票號碼', '項列', '產品品名', '銷售金額'],
 ['HE38887100', '1', '優良產品B0005型', '1000'],
 ['HE38887101', '1', '優良產品B0005型', '953'],
 ['HE38887102', '1', '優良產品B0005型', '954'],
 ['HE38887103', '1', '優良產品B0005型', '955']]


---
## 小練習
請嘗試讀取 `example_data.csv`，透過 `if` 條件來找出 **「營業稅>0」** 的資料，並將其寫入 `data_with_tax.csv` 檔案

In [41]:
# Your Time!
#
#
#

# 結論 
1. 套件 (Package) 及 函式 (Function) 的基本概念
2. 了解何謂csv檔案格式
3. 使用 `csv` 套件進行基本讀寫