# 3-5 檢視受訪者組成

> 補充教材

郭耀仁

## 關於自訂函式的功能與邏輯

> When you’ve written the same code 3 times, write a function.
>
> David Robinson

在程式語言中函式是一種「初階的程式碼封裝」技巧，簡單來說是將需要重複撰寫的程式碼定義宣告，並將需要視情況調整的部分用參數傳入，就像是在數學上面使用的 $y = f(x)$ 函數一般，不同的輸入 `x` 將會對應到不同的輸出 `y`。

![Imgur](https://i.imgur.com/lF2oqn8.png?2)

## 自訂函式的語法

自訂函式的主要組成有四個：

1. `def` 保留字
2. 輸入與參數（inputs and arguments）
3. 主體（body）
4. `return` 保留字與輸出（outputs）

```python
def your_function_names(inputs, arguments):
    # 主體（body）
    return 輸出（outputs）
```

## 關於 `print_respondents_info` 自訂函式的語法

我們希望可以將 `survey_2017`、`survey_2018` 與 `survey_2019` 這三個資料框所記錄的總答題人數、職稱為 Data Analyst 的人數與所佔比例印出來檢視，但是不希望撰寫三次幾乎相同的程式碼，在這裡就可以運用**自訂函式**的技巧，宣告一個名稱為 `print_respondents_info` 函式，設計三個參數：`year`、`df` 與 `col_name`，分別代表普查年份、資料框名稱與詢問職稱的題目名（或題號）。

In [1]:
import pandas as pd

In [2]:
def print_respondents_info(year, df, col_name):
    ttl_respondents = df.shape[0] # 資料框的列數就代表著總答題人數
    job_title_value_counts = df[col_name].value_counts() # 計算所有職稱個別的人數
    job_title_percentage = job_title_value_counts / ttl_respondents # 將所有職稱個別的人數除以總答題人數就可以獲得所佔比例
    print("{} 年的總答題人數為 {:,}".format(year, ttl_respondents)) # 印出總答題人數
    print("{} 年的 Data Analyst 人數為 {:,} 人；比例為 {:.2f}%".format(year, job_title_value_counts['Data Analyst'], job_title_percentage['Data Analyst'] * 100)) # 印出年份與所佔比例

In [3]:
survey_2017 = pd.read_csv("https://kaggle-ml-ds-survey.s3-ap-northeast-1.amazonaws.com/kaggle-survey-2017/multipleChoiceResponses.csv", encoding='ISO-8859-1', low_memory=False)
survey_2018 = pd.read_csv("https://kaggle-ml-ds-survey.s3-ap-northeast-1.amazonaws.com/kaggle-survey-2018/multipleChoiceResponses.csv", encoding='ISO-8859-1', skiprows=[1], low_memory=False)
survey_2019 = pd.read_csv("https://kaggle-ml-ds-survey.s3-ap-northeast-1.amazonaws.com/kaggle-survey-2019/multiple_choice_responses.csv", encoding='ISO-8859-1', skiprows=[1], low_memory=False)

## 呼叫 `print_respondents_info()` 自訂函式

In [4]:
print_respondents_info(2017, survey_2017, 'CurrentJobTitleSelect')
print_respondents_info(2018, survey_2018, 'Q6')
print_respondents_info(2019, survey_2019, 'Q5')

2017 年的總答題人數為 16,716
2017 年的 Data Analyst 人數為 1,213 人；比例為 7.26%
2018 年的總答題人數為 23,859
2018 年的 Data Analyst 人數為 1,922 人；比例為 8.06%
2019 年的總答題人數為 19,717
2019 年的 Data Analyst 人數為 1,598 人；比例為 8.10%


## 關於自訂函式中的 `print()` 與 `.format()`

在撰寫程式語言時我們往往會有需要把字串進行格式化（String format）與字串插值（String interpolation）的需求，`print()` 內建函式與 `.format()` 就是我們以字串格式化和插值來印出資料框的總答題人數、職稱為 Data Analyst 的人數與所佔比例的應用。

- `{}` 是單純的字串插值
- `{:,}` 是除了字串插值以外還加入千分位的逗號
- `{:.2f}` 是除了字串插值以外還將小數點四捨五入到兩位

In [5]:
# 單純的字串插值
ttl_respondents_2017 = survey_2017.shape[0]
print("{} 年的總答題人數為 {}".format(2017, ttl_respondents_2017))

2017 年的總答題人數為 16716


In [6]:
# 除了字串插值以外還加入千分位的逗號
print("{} 年的總答題人數為 {:,}".format(2017, ttl_respondents_2017))

2017 年的總答題人數為 16,716


In [7]:
# 計算所有職稱個別的人數
job_title_value_counts_2017 = survey_2017['CurrentJobTitleSelect'].value_counts()
print(job_title_value_counts_2017)

Data Scientist                          2433
Software Developer/Software Engineer    1759
Other                                   1233
Data Analyst                            1213
Scientist/Researcher                     978
Business Analyst                         796
Researcher                               619
Machine Learning Engineer                617
Engineer                                 552
Programmer                               462
Computer Scientist                       335
Statistician                             289
DBA/Database Engineer                    187
Predictive Modeler                       181
Data Miner                               118
Operations Research Practitioner          58
Name: CurrentJobTitleSelect, dtype: int64


In [8]:
job_title_percentage_2017 = job_title_value_counts_2017 / ttl_respondents_2017 # 將所有職稱個別的人數除以總答題人數就可以獲得所佔比例
print(job_title_percentage_2017['Data Analyst']) # 取出 Data Analyst 的所佔比例

0.07256520698731754


In [9]:
# 除了字串插值以外還將小數點四捨五入到兩位
print("{} 年的 Data Analyst 所佔比例為 {:.2f}%".format(2017, job_title_percentage_2017['Data Analyst'] * 100))

2017 年的 Data Analyst 所佔比例為 7.26%
