# 學習大綱
1. 讀寫csv檔 read_csv
2. 輸出csv檔案使用 .to_csv()
3. to_excel() 存儲檔案，且用 sheet_name 更改工作簿名稱
4. 讀取JSON 用 pd.read_json()
5. 輸出 json 檔案到指定路徑 .to_json()
6. 缺值處理方法與應用函式

In [22]:
import numpy as np
import pandas as pd

1. 讀寫csv檔 read_csv

In [129]:
# 利用 read_csv 讀入資料
result1 = pd.read_csv('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.csv')

# usecols 只讀取指定行
result2 = pd.read_csv('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.csv'
            , usecols = ["鄉鎮"])

#有多個欄位，不想要一個一個指定，用Pandas模組的範圍選取欄位
#1. 指定要讀取的列數（第 0、1、2 列）和列名稱
colnames = ['county', 'park_place', 'address']
result3 = pd.read_csv('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.csv', 
                 usecols=[0, 1, 2], names = colnames)

#2. 指定要讀取的一系列列，可用range()函數來產生一個整數範圍
colnames = ['park_name', 'address', 'address2']
result4 = pd.read_csv('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.csv', 
                       usecols=range(1, 4), names = colnames)

#print(result1)
#print(result2)
#print(result3)
#print(result4)

In [70]:
#輸出 csv 檔案使用 .to_csv()
result4.to_csv('./sample_data_2.csv', index=False, encoding='utf-8-sig') #不列出index 0,1,2,3...
result4.to_csv('./sample_data_3.csv', index=True, encoding='utf-8-sig')

2. 讀寫excel檔 read_excel

In [130]:
#read_excel() 讀取excel檔
result4 = pd.read_excel('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.xls')

#指定讀取的sheet
result5 = pd.read_excel(r"C:\Users\user\Desktop\sample_data.xls", sheet_name = 'data1')

#指定讀取的sheet
#sheet_names = ['data1', 'data2']
result6 = pd.read_excel(r"C:\Users\user\Desktop\sample_data.xls", sheet_name=['data1', 'data2'])

#print(result4)
#print(result5.head(3)) #只顯示前三筆
#print(result6)

3. to_excel() 存儲檔案，且用 sheet_name 更改工作簿名稱

In [111]:
#使用 with 關鍵字創建一個新的 ExcelWriter 物件 writer，將字典中的 DataFrame 物件分別輸出到同一個 Excel 檔案中的兩個不同工作表中
#pd.read_excel() 方法的 sheet_name 參數必須是以列表形式提供
with pd.ExcelWriter('./output.xlsx') as writer:
    result6['data1'].to_excel(writer, sheet_name='Sheet1', index=False)
    result6['data2'].to_excel(writer, sheet_name='Sheet2', index=False)

4. 讀取JSON 用 pd.read_json()

In [122]:
result7 = pd.read_json('https://ws.yunlin.gov.tw/001/Upload/539/opendata/0/1518/4e504415-0c16-42b5-a2db-6d57b392ba80.json')

5. 輸出 json 檔案到指定路徑 .to_json()

In [128]:
result71 = result7.to_json('./sample_data7.json')

6. 缺值處理方法與應用函式
   最常見兩種補值方式。
   1. 定值補值 : 將缺失值都補上一個定值 函式 fillna() 
   2. 前(後)補值 : 補前(後)一列的值  fillna() + method='bfill'填補後一列數值; method='ffill'填補前一列數
   
   其他方式:
   1. 直接刪除含有缺失值的資料或欄位
   2. 利用人工填補遺失值
   3. 利用常數或通用值填補遺失值
   4. 利用類似資料/全部資料的統計值值填補遺失值
   5. 利用統計方法進行補值（內差/回歸）
   6. 利用機器學習方法進行補值（預測）

In [142]:
temp_data = pd.DataFrame([['2020-11-01', 24.8],
             ['2020-11-02', 24.8],
             ['2020-11-03', None],
             ['2020-11-04', 25]],columns=['date','current_temp'])
temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


定值補值

In [133]:
temp_data.fillna(0) #空值給0

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,0.0
3,2020-11-04,25.0


In [134]:
temp_data.fillna(temp_data.current_temp.mean())
temp_data.fillna(temp_data.current_temp.median()) #空值給平均值、中位數、….等的數值

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


前(後)補值

In [143]:
temp_data.fillna(method='ffill') #填補後一列數
temp_data.fillna(method='bfill') #填補前一列數

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,25.0
3,2020-11-04,25.0


# Homework

1. [簡答題] 比較下列兩個讀入的 df 有什麼不同？為什麼造成的？

In [7]:
df1 = pd.read_csv('https://data.tainan.gov.tw/dataset/188dd8c3-cea3-4c61-998f-050a592d6887/resource/7c0bc35c-29b3-4b69-a93a-cc1892e2d4e5/download/46c3928b-a76e-4bd5-a7b5-3abdae609057.csv')
df1

Unnamed: 0,機構名稱,機構代碼,CountyCode,AreaCode,Village,StreetDoorPlate,電話
0,大同藥局,5941040021,67000,67000070,新興里,12鄰中山路59號,065722506
1,世揚藥局,5941210032,67000,67000210,港南里,143之2號,06-5939472
2,欣欣藥局,5941011548,67000,67000010,太北里,146之28號,06-6530179
3,又佳藥局,5941260014,67000,67000260,中正里,１５６之９號,065731597
4,嘉民藥局,5941100013,67000,67000050,上茄苳里,15鄰上茄苳146號,066882115
...,...,...,...,...,...,...,...
749,德和堂中西藥局,5941010167,67000,67000010,,復興路２０之２號,066322428/0933598033
750,亞洲藥局,5941010103,67000,67000010,,復興路３３之２號,066327366
751,新崇安藥局新營店,5941010096,67000,67000010,,復興路９１號,066333302
752,新進啄木鳥藥局,5905010330,67000,67000010,,新進路2段254號1樓,06-6565303


In [10]:
#值為null或某值，可用na_values()指定遇到某值，代替成NaN
df2 = pd.read_csv(
    'https://data.tainan.gov.tw/dataset/188dd8c3-cea3-4c61-998f-050a592d6887/resource/7c0bc35c-29b3-4b69-a93a-cc1892e2d4e5/download/46c3928b-a76e-4bd5-a7b5-3abdae609057.csv',
    keep_default_na=True,
    na_values=['新興里']  #因sample data沒有'na' or '--'表示null值，所以假設'新興里'是null值來驗證程式
)
df2

Unnamed: 0,機構名稱,機構代碼,CountyCode,AreaCode,Village,StreetDoorPlate,電話
0,大同藥局,5941040021,67000,67000070,,12鄰中山路59號,065722506
1,世揚藥局,5941210032,67000,67000210,港南里,143之2號,06-5939472
2,欣欣藥局,5941011548,67000,67000010,太北里,146之28號,06-6530179
3,又佳藥局,5941260014,67000,67000260,中正里,１５６之９號,065731597
4,嘉民藥局,5941100013,67000,67000050,上茄苳里,15鄰上茄苳146號,066882115
...,...,...,...,...,...,...,...
749,德和堂中西藥局,5941010167,67000,67000010,,復興路２０之２號,066322428/0933598033
750,亞洲藥局,5941010103,67000,67000010,,復興路３３之２號,066327366
751,新崇安藥局新營店,5941010096,67000,67000010,,復興路９１號,066333302
752,新進啄木鳥藥局,5905010330,67000,67000010,,新進路2段254號1樓,06-6565303


兩者的差別在空白質上的呈現方式有差異，第二的dataframe用NaN來代替原本的na、--

2.   請將 Dcard API 取得所有的看板資訊轉換成 DataFrame，並且依照熱門程度排序後存成一個 csv 的檔案。

In [147]:
import requests
import pandas as pd
response = requests.get('https://tdx.transportdata.tw/api-service/swagger/basic/eb87998f-2f9c-4592-8d75-c62e5b724962#/Air/AirApi_Flight_2014')


In [27]:
df.to_csv('./sample_data.csv')
df

Unnamed: 0,success,result
fields,True,"[{'type': 'text', 'id': 'statistic_yyy'}, {'ty..."
limit,True,2000
records,True,"[{'statistic_yyy': '統計年', 'according': '按照別', ..."
resource_id,True,301000000A-002072-001
total,True,45
