LLH, 2021.03.22 @NCCU MITC

### 9. ```NaN``` 處理:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
people = {
    'first': ['Mark', 'Jane', 'John', 'Amber', np.nan, None, 'NA', 'Mike'], 
    'last': ['Davis', 'Lin', 'Cena', 'Chang', np.nan, np.nan, 'Missing', np.nan], 
    'email': ['markdavis@gmail.com', 'janelin@gmail.com', 'johncena@gmail.com', None, np.nan, 'Anonymous@gmail.com', 'NA', 'NA'],
    'age': ['33', '55', '63', '36', None, None, np.nan, '29']
}

In [None]:
ppl = pd.DataFrame(people)

In [None]:
ppl

#### 我們發現這個 ```Data Frame``` 裡有許多 ```NaN``` (Not a Number)。如果不對這些 ```NaN``` 做處理的話，後續作數據分析時會出問題:

#### - ```drop.na()```:

In [None]:
ppl.dropna()

注意到第 ```6``` row 的資料沒有被刪除，因為這裡的 NA 是字串的形式，既非 ```np.nan``` 的 ```float```，也非 ```None``` 的 ```NoneType```。

如果不給 ```np.nan()``` 任何參數，則預設參數值為: ```axis='index'```, ```how='any'```:

In [None]:
ppl.dropna(axis='index', how='any') # axis=0 also works

在 ```python``` 的 ```Data Frame``` 裡:
- ```axis``` 值為 ```0``` 代表 <font color='red'> row (橫的) </font>
- ```axis``` 值為 ```1``` 代表 <font color='red'> column (直的) </font>
---
```pd.concat()```:

In [None]:
group1 = {
    'first':['Mark', 'Jane', 'John'], 
    'last':['Davis', 'Lin', 'Cena'], 
    'age':[12, 31, 20]
}

group2 = {
    'first':['Kevin', 'Mike', 'Mary'], 
    'last':['Lewis', 'Pence', 'Chung'], 
    'age':[15, 46, 8]
}

ex1 = pd.DataFrame(group1)
ex2 = pd.DataFrame(group2)

In [None]:
pd.concat([ex1, ex2], axis=1)

---

In [None]:
ppl.dropna(axis=0, how='all') # all: 所有資料都是 NaN 才會刪除

In [None]:
df

更多客製化:

In [None]:
ppl.dropna(axis='index', how='any', subset=['last', 'email'])

在第 ```7``` row，NA 跟 Missing 是直接用 string 表示的，我們想要換成 ```numpy``` 的 ```NaN```。

In [None]:
ppl.iloc[6]

In [None]:
type(ppl.iloc[6][1])

#### ```df.replace()```:

In [None]:
ppl.replace('NA', np.nan) # remember to add "inplace" parameter

In [None]:
type(ppl.iloc[6][1])

- ```df.isna()``` 
- ```df.fillna()```

In [None]:
ppl.isna()

In [None]:
ppl.fillna('Missing data') # remember to add "inplace" parameter

In [None]:
ppl

#### 計算年齡平均:

In [None]:
ppl['age'].mean()

如果發現無法計算各種統計值，很有可能是你的資料中有<font color='blue'> 非數值 </font> 的資料，因此可以用 ```df.astype()``` 將所有資料轉換成統一的資料型態:

In [None]:
ppl['age'] = ppl['age'].astype(float)

In [None]:
ppl['age'].mean()

### 練習:    

Stack Overflow 是一個著名的問問題網站，只要是有關程式的任何問題，非常大的機率你最後會在這邊找到答案。  
總共有兩份檔案: [資料來源](https://insights.stackoverflow.com/survey)  
- ```survey_results_public.csv```: 針對 Stack Overflow 使用者所發放的問卷  
- ```survey_results_schema.csv```: 針對 ```survey_results_public.csv``` 裡的提問進行說明  
---
首先先觀察資料，了解每一個 column 代表的意義。其中，```YearsCode``` 代表填答者寫程式的時間長短，你可以算出這份問卷填答者平均寫程式的資歷嗎?

[這個網站](https://insights.stackoverflow.com/survey/2020) 提供問卷經視覺化後的分析結果

### 10. 將 ```Data Frame``` 以不同格式輸出:

- csv
- xlsx
- json

In [None]:
df = pd.read_csv(r"C:\Users\User\MITC_lecture_notes\2021.03.22\survey_results_public.csv")

假設我們只想分析台灣填答者的資料:

In [None]:
filt = (df['Country'] == 'Taiwan')

In [None]:
tw_df = df.loc[filt]

In [None]:
tw_df

#### 將資料存成 ```csv``` 檔:

In [None]:
ex = pd.read_csv(r"survey_results_public.csv")

In [None]:
tw_df.to_csv(r"C:\Users\User\MITC_lecture_notes\2021.03.22\tw_df.csv")

#### 將資料存成 ```xlsx``` 檔:

需要先安裝以下套件:  
- ```xlwt``` (write to excel file)
- ```openpyxl``` (open excel file)
- ```xlrd``` (read excel file)
---
可以直接用一個 ```pip``` 指令安裝三個套件: ```pip install xlwt openpyxl xlrd``` 

In [None]:
tw_df.to_excel(r'C:\Users\User\MITC_lecture_notes\2021.03.22\tw_df.xlsx')

In [None]:
tw_df

In [None]:
tw_df.to_excel(r"C:\Users\User\MITC_lecture_notes\2021.03.22\tw_df.xlsx", 
               index='Respondent', sheet_name='Taiwan survey data')

- ```df.to_excel()``` 提供了許多不同的參數，有興趣的話可以到 [官方 documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html) 查看

#### 將資料存成 ```json``` 檔:

In [None]:
tw_df.to_json(r"C:\Users\User\MITC_lecture_notes\2021.03.22\tw_df.json", orient='records', lines=True)

In [None]:
jsn = pd.read_json(r"C:\Users\User\MITC_lecture_notes\2021.03.22\tw_df.json", orient='records', lines=True)

In [None]:
jsn

- ```df.to_json()``` 提供了許多不同的參數，有興趣的話可以到 [官方 documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html) 查看

### 11. 進階技巧 groupby:

In [None]:
df = pd.read_csv(r"C:\Users\User\MITC_lecture_notes\2021.03.22\survey_results_public.csv")
schema_df = pd.read_csv(r"C:\Users\User\MITC_lecture_notes\2021.03.22\survey_results_schema.csv")

In [None]:
schema_df

In [None]:
schema_df.loc[6, 'QuestionText']

In [None]:
schema_df['Column'].head(60)

In [None]:
df['EdLevel'].value_counts(normalize=True)

假設我們現在想探討不同國家寫程式的人，他們的最高學歷之差異:

In [None]:
df['Country'].value_counts()

#### ```df.groupby()```

In [None]:
country_grp = df.groupby('Country')

In [None]:
type(country_grp)

#### ```df.get_group()```:

In [None]:
country_grp.get_group('Taiwan')

In [None]:
country_grp['EdLevel'].value_counts().head(50)

In [None]:
type(country_grp['EdLevel'].value_counts())

小練習: 找出德國填答者薪資 (```CompTotal```)的中位數:

對 groupby 物件查詢多個統計值 ```.agg()```

In [None]:
country_grp['LanguageWorkedWith'].value_counts().loc['Taiwan']

現在想要找出各國填答者使用 ```python``` 的比例:

In [None]:
country_grp['LanguageWorkedWith'].str.contains('Python')

In [None]:
country_grp['LanguageWorkedWith'].apply(lambda x: x.str.contains("Python"))

In [None]:
l = ['cpp', 'java', 'python']
s = pd.Series(l)

def containsP(x):
    return x.str.contains("p")

res = containsP(s)
res

In [None]:
country_grp['LanguageWorkedWith'].apply(lambda x: x.str.contains("Python").sum())

### 練習: 創一個 ```Data Frame```，裡面的資料有 "所有國家"，"各國家填答者使用 python 的人數"，"各國家填答者使用 python 的比例":