# Read CSV


## What is CSV?
CSV檔顧名思義為*comma seperated value*，通常一列就是一筆資料，每一筆資料結尾都有一個`\n`換行符號，而每一筆資料中的欄位則是用逗號分隔。例如下面的案例中有三筆資料，但有四列，第一列為欄位名稱（variable names），雖然你看不見，但是每列後面都有一個`\n`符號，相當於你在鍵盤上敲一個*Enter*。

```
違規產品名稱,處分日期,處分法條,違規情節,刊播日期,刊播媒體類別,刊播媒體,查處情形
"超人氣SS製藥 痘痘乳膏","08 15 2017 12:00AM","","無照藥商","02 3 2017 12:00AM","網路","Yahoo！奇摩拍賣","相關案件已處分"
"大正漢方腸胃藥 60錠","08 15 2017 12:00AM","","無照藥商","02 3 2017 12:00AM","網路","Yahoo！奇摩拍賣","相關案件已處分"
"日本熱銷 超人氣SS製藥 痘痘乳膏","08 15 2017 12:00AM","","無照藥商","02 3 2017 12:00AM","網路","Yahoo！奇摩拍賣","相關案件已處分"
```

假設有一個csv檔視覺化後的結果大概如下：
|A|B|C|
|---|---|---|
|00|01|02|
|10|11|12|


那CSV檔的內容會是下面這樣的格式
```
A,B,C\n
00,01,02\n
10,11,12\n
```

CSV若讀成標準python的List後會是下面這個「兩層的List」。
```
[["A", "B", "C"],
["00", "01", "02"],
["10", "11", "12"]]
```



## Methods to read CSV
當我規劃要讀進一個csv檔時，我可能有三種做法：
1. 全部靠自己手動讀、用`readlines()`切行、遇到逗號進行分隔。
2. 利用`csv.reader()`函式幫我把文字資料轉換成python物件
3. 利用pandas讀檔

## Read CSV by lines

前面說到，CSV檔的每一列都有一個`\n`做換行，所以，我要讀取CSV就可以用`f.readlines()`讀進每一列的資料，該函式會遇到`\n`即切開為一行，切開後的資料就存進一個外層List中。之後，我可以針對切開的每一列資料（例如底下的`line`），遇到逗號就斷開`line.split(",")`，每一列就會變成一個List。所以最後會產生一個兩層的Lis。


In [7]:
all_list = []
with open("data/14196_drug_adv.csv", "r", encoding="utf-8-sig") as f:
#     for line in f.readlines():
    for line in f.read().split("\n"):
        row = line.split(",")
        all_list.append(row)

In [11]:
# print the first 3 lists
print(all_list[:3])

# print the length of data (the length of the outer list)
print(len(row))

[['違規產品名稱', '違規廠商名稱或負責人', '處分機關', '處分日期', '處分法條', '違規情節', '刊播日期', '刊播媒體類別', '刊播媒體', '查處情形'], ['"《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏"', '"Y7868533113/鍾青砡"', '""', '"08 15 2017 12:00AM"', '""', '"無照藥商"', '"02 3 2017 12:00AM"', '"網路"', '"Yahoo！奇摩拍賣"', '"相關案件已處分"'], ['"《現貨》大正漢方腸胃藥 60錠"', '"Y9159169900/鍾青砡"', '""', '"08 15 2017 12:00AM"', '""', '"無照藥商"', '"02 3 2017 12:00AM"', '"網路"', '"Yahoo！奇摩拍賣"', '"相關案件已處分"']]
10


In [10]:
# print element by index with two dimensions
print(all_list[1][-2])

"Yahoo！奇摩拍賣"


## Read by csv.reader()

In [12]:
import csv
with open("data/14196_drug_adv.csv", "r", encoding="utf-8-sig") as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    data_list  = list(csv_reader)

In [13]:
print(data_list[0])
print(data_list[1])

# for row in data_list: # never do this if you are not sure that the number of lines
#     print(row)
print(data_list[1][-2])
print(len(data_list))

['違規產品名稱', '違規廠商名稱或負責人', '處分機關', '處分日期', '處分法條', '違規情節', '刊播日期', '刊播媒體類別', '刊播媒體', '查處情形']
['《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏', 'Y7868533113/鍾青砡', '', '08 15 2017 12:00AM', '', '無照藥商', '02 3 2017 12:00AM', '網路', 'Yahoo！奇摩拍賣', '相關案件已處分']
Yahoo！奇摩拍賣
1761


## Read by pandas data.frame

In [15]:
import pandas as pd
df = pd.read_csv('data/14196_drug_adv.csv', error_bad_lines=False)

In [16]:
df.head()

Unnamed: 0,違規產品名稱,違規廠商名稱或負責人,處分機關,處分日期,處分法條,違規情節,刊播日期,刊播媒體類別,刊播媒體,查處情形
0,《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏,Y7868533113/鍾青砡,,08 15 2017 12:00AM,,無照藥商,02 3 2017 12:00AM,網路,Yahoo！奇摩拍賣,相關案件已處分
1,《現貨》大正漢方腸胃藥 60錠,Y9159169900/鍾青砡,,08 15 2017 12:00AM,,無照藥商,02 3 2017 12:00AM,網路,Yahoo！奇摩拍賣,相關案件已處分
2,《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏,Y9159169900/鍾青砡,,08 15 2017 12:00AM,,無照藥商,02 3 2017 12:00AM,網路,Yahoo！奇摩拍賣,相關案件已處分
3,日本小林製藥 - 喉嚨噴劑 (現貨),**VIOLA Shop**/代號 Y0899501333/蔡佩蓉,,05 16 2017 12:00AM,,無照藥商,02 3 2017 12:00AM,網路,Yahoo！奇摩拍賣,相關案件已處分
4,《現貨》日本 小林製藥 命之母 生命之 840錠 女性更年期保養,日本藥妝全職服務現貨快速出/代號 Y4681313568/鍾青砡,,08 15 2017 12:00AM,,無照藥商,02 3 2017 12:00AM,網路,Yahoo！奇摩拍賣,相關案件已處分


In [19]:
print(df.刊播媒體類別)

0         網路
1         網路
2         網路
3         網路
4         網路
5         網路
6         網路
7         網路
8         網路
9         網路
10        網路
11        網路
12        網路
13        網路
14        網路
15        網路
16        網路
17        網路
18        網路
19        網路
20        網路
21        網路
22        網路
23        網路
24        網路
25        網路
26        網路
27        網路
28        網路
29        網路
        ... 
1730      網路
1731      網路
1732      網路
1733      網路
1734      網路
1735      網路
1736      網路
1737      網路
1738      網路
1739      網路
1740      網路
1741      網路
1742      網路
1743    平面媒體
1744    平面媒體
1745      其他
1746      其他
1747      其他
1748      網路
1749      網路
1750      網路
1751      網路
1752      網路
1753      網路
1754      網路
1755      網路
1756      網路
1757      網路
1758      網路
1759      網路
Name: 刊播媒體類別, Length: 1760, dtype: object


In [20]:
print(df.iloc[1])
print(df.iloc[1, 5])
df.loc[df.index[1], "刊播媒體類別"]

違規產品名稱           《現貨》大正漢方腸胃藥 60錠
違規廠商名稱或負責人       Y9159169900/鍾青砡
處分機關                         NaN
處分日期          08 15 2017 12:00AM
處分法條                         NaN
違規情節                        無照藥商
刊播日期           02 3 2017 12:00AM
刊播媒體類別                        網路
刊播媒體                  Yahoo！奇摩拍賣
查處情形                     相關案件已處分
Name: 1, dtype: object
無照藥商


'網路'

### (Option) Computing items manually

In [18]:
# list(df["刊播媒體"])

type_dict = {}
for item in list(df.刊播媒體類別):
    type_dict[item] = 0
for item in list(df.刊播媒體類別):
    type_dict[item] += 1
print(type_dict)

{'網路': 1479, '平面媒體': 111, '其他': 13, '廣播電台': 71, '電視': 86}


### (Option) Counting by Counter

In [21]:
from collections import Counter
type_dict = Counter(df.刊播媒體類別)
print(type_dict)

Counter({'網路': 1479, '平面媒體': 111, '電視': 86, '廣播電台': 71, '其他': 13})


# Typical json
我們最常見的資料呈現型態是用CSV、Google Sheets或Excel等表述為以下表格型態。我們將用JSON格式來表達這樣的典型資料，藉此看出JSON格式的特性。

|site|AQI|PM25|
|---|---|---|
|基隆|38|8|
|新店|40|9|
|苗栗|76|11|

JSON內容的存法很自由，但一般來說，開放資料（表格型態的資料）會表示為List of Dictionary(s)的型態（注意，中括號為List、大括號為Dictionary），例如下方的JSON就是上述表格的JSON表示法。

```
[{"site":"基隆","AQI":38,"PM25":8},{"site":"新店","AQI":40,"PM25":9},{"site":"苗栗","AQI":76,"PM25":11}]
```

## Dump and load JSON
通常把資料寫到檔案中稱為dump out（或者save、write視程式語言的函式而不同），而把資料從檔案中讀成程式語言所能處理的結構則稱為load（或read）。無論是讀入資料或寫出資料，都要先開啟檔案（如`open('sample.json', 'w')`）。檔案開啟後，才可以將資料寫入。完整的寫法如下：
```
json.dump(sample_data, open('sample.json', 'w'))
```
一個更常見的寫法如下，其將開檔後的結果指到一個變項`fout`，藉此把資料dump到檔案中。
```
with open('sample.json', 'w') as fout:
    json.dump(sample_data, fout)
```
讀取JSON則分讀取字串和直接讀取檔案兩種：
* `json.loads(str)`讀取字串：例如像讀取ubike的線上資料，就是先把抓回來的資料轉文字後當成字串讀取入json。
* `json.load(f)`直接讀取檔案：例如適才把一個list of dictionary存成json後，可以用`json.load(f)`讀成python的list of dictionary

In [24]:
## dump out
import json
sample_data = [{"site":"基隆","AQI":38,"PM25":8},\
               {"site":"新店","AQI":40,"PM25":9},\
               {"site":"苗栗","AQI":76,"PM25":11}]
json.dump(sample_data, open('sample.json', 'w'))

In [25]:
## load back
with open("sample.json", "r") as f:
    new_data = json.load(f)
new_data

[{'site': '基隆', 'AQI': 38, 'PM25': 8},
 {'site': '新店', 'AQI': 40, 'PM25': 9},
 {'site': '苗栗', 'AQI': 76, 'PM25': 11}]

# Load ubike to pandas
這個例子載入了台北市ubike的即時資料，該資料以JSON格式儲存，但他並非List of dict(s)的型態，而是Dict of dict(s)的型態，在最外面亦多一層Dictionary包裹著資料和回傳是否傳輸成功的確認碼。因此，和一般的例子比較起來，這個例子必須要找到資料的節點，在解出為Python的物件時，也要考慮如何處理資料中兩層的Dictionary。

## requests to get data from internet
在以下的程式碼中，我用`requests`這個套件發出一個`get()`要求，然後我嘗試列印出一些該要求的回傳資料，以確認我成功地獲得我要求的資料。

In [54]:
import requests
import json
response = requests.get('https://tcgbusfs.blob.core.windows.net/blobyoubike/YouBikeTP.gz')
print(response)
print(response.status_code)
print(response.headers)
print(type(response)) # <class 'requests.models.Response'>
print(type(response.text)) # <class 'str'>

<Response [200]>
200
{'Content-Length': '32757', 'Content-Type': 'application/octet-stream', 'Content-Encoding': 'gzip', 'Content-MD5': 'zRnz2Uv5A9LSI3/TwJ7fjA==', 'Last-Modified': 'Sat, 14 Mar 2020 14:59:01 GMT', 'ETag': '0x8D7C8283B83CBA7', 'Server': 'Windows-Azure-Blob/1.0 Microsoft-HTTPAPI/2.0', 'x-ms-request-id': '6352e524-301e-0092-7e11-fa6d65000000', 'x-ms-version': '2009-09-19', 'x-ms-lease-status': 'unlocked', 'x-ms-blob-type': 'BlockBlob', 'Access-Control-Allow-Origin': '*', 'Date': 'Sat, 14 Mar 2020 14:59:13 GMT'}
<class 'requests.models.Response'>
<class 'str'>


把前500個字元印出來可以看到這裡面只有大括號，而且在資料（`retVal`所對應到的那個大括號）外面還有一層，也就是`retCode`和`retVal`所在的那一層大括號。

In [56]:
response.text[:500]

'{"retCode":1,"retVal":{"0001":{"sno": "0001", "sna": "捷運市政府站(3號出口)", "tot": "180", "sbi": "46", "sarea": "信義區", "mday": "20200314225731", "lat": "25.0408578889", "lng": "121.567904444", "ar": "忠孝東路/松仁路(東南側)", "sareaen": "Xinyi Dist.", "snaen": "MRT Taipei City Hall Stataion(Exit 3)-2", "aren": "The S.W. side of Road Zhongxiao East Road & Road Chung Yan.", "bemp": "132", "act": "1"},"0002":{"sno": "0002", "sna": "捷運國父紀念館站(2號出口)", "tot": "48", "sbi": "29", "sarea": "大安區", "mday": "20200314225728",'

## Convert json text to python object

In [59]:
json_obj = json.loads(response.text)
print(type(json_obj))
print(type(json_obj["retVal"]))
print(type(json_obj["retCode"]))

<class 'dict'>
<class 'dict'>
<class 'int'>


## (try to) Load by pandas

如果要載入的JSON資料檔是表述為**a List of dict**，那麼pandas套件有函式可以將JSON字串轉為data frame。可以從以下的stackoverflow網站找到類似的函式。但如果資料並非典型List of dict的型態，那麼被解出來的資料就不會是預期所見。Youbike的資料正是如此。
https://stackoverflow.com/questions/20638006/convert-list-of-dictionaries-to-dataframe

In [41]:
import pandas as pd
df = pd.DataFrame(json_obj)
df.head()

Unnamed: 0,retCode,retVal
1,1,"{'sno': '0001', 'sna': '捷運市政府站(3號出口)', 'tot': ..."
2,1,"{'sno': '0002', 'sna': '捷運國父紀念館站(2號出口)', 'tot'..."
3,1,"{'sno': '0003', 'sna': '台北市政府', 'tot': '40', '..."
4,1,"{'sno': '0004', 'sna': '市民廣場', 'tot': '60', 's..."
5,1,"{'sno': '0005', 'sna': '興雅國中', 'tot': '60', 's..."


## Convert to typical json
現在我嘗試要把Dictionary of dictionry的資料整理為List of dictionary的型態。要這麼做並不難，我只需要把所有內層的dictionary取出來，一一`append()`到一個空的List即可。最後，我把這樣的結構用`pd.DataFrame()`轉為一個pandas的Data frame。

In [60]:
import pandas as pd

all_list = []
for k, v in json_obj["retVal"].items():
    all_list.append(v)
    
## convert a list of dictionries to a data frame
df = pd.DataFrame(all_list)

## Pandas: Slicing dataframe
https://pandas.pydata.org/pandas-docs/stable/indexing.html


In [44]:
df.sarea[:5]

0    信義區
1    大安區
2    信義區
3    信義區
4    信義區
Name: sarea, dtype: object

In [46]:
df[1:5] # get 1 to 4 data records

Unnamed: 0,act,ar,aren,bemp,lat,lng,mday,sarea,sareaen,sbi,sna,snaen,sno,tot
1,1,忠孝東路四段/光復南路口(西南側),"Sec,4. Zhongxiao E.Rd/GuangFu S. Rd",20,25.041254,121.55742,20200314204827,大安區,Daan Dist.,27,捷運國父紀念館站(2號出口),MRT S.Y.S Memorial Hall Stataion(Exit 2.),2,48
2,1,台北市政府東門(松智路) (鄰近信義商圈/台北探索館),Taipei City Government Eastgate (Song Zhi Road),12,25.0377972222,121.565169444,20200314204823,信義區,Xinyi Dist.,28,台北市政府,Taipei City Hall,3,40
3,1,市府路/松壽路(西北側)(鄰近台北101/台北世界貿易中心/台北探索館),The N.W. side of Road Shifu & Road Song Shou.,30,25.0360361111,121.562325,20200314204820,信義區,Xinyi Dist.,28,市民廣場,Citizen Square,4,60
4,1,松仁路/松仁路95巷(東南側)(鄰近信義商圈/台北信義威秀影城),"The S.E. side of Road Songren & Ln. 95, Songre...",21,25.0365638889,121.5686639,20200314204841,信義區,Xinyi Dist.,37,興雅國中,Xingya Jr. High School,5,60


In [47]:
df[::2] # get even position data records

Unnamed: 0,act,ar,aren,bemp,lat,lng,mday,sarea,sareaen,sbi,sna,snaen,sno,tot
0,1,忠孝東路/松仁路(東南側),The S.W. side of Road Zhongxiao East Road & Ro...,62,25.0408578889,121.567904444,20200314204831,信義區,Xinyi Dist.,116,捷運市政府站(3號出口),MRT Taipei City Hall Stataion(Exit 3)-2,0001,180
2,1,台北市政府東門(松智路) (鄰近信義商圈/台北探索館),Taipei City Government Eastgate (Song Zhi Road),12,25.0377972222,121.565169444,20200314204823,信義區,Xinyi Dist.,28,台北市政府,Taipei City Hall,0003,40
4,1,松仁路/松仁路95巷(東南側)(鄰近信義商圈/台北信義威秀影城),"The S.E. side of Road Songren & Ln. 95, Songre...",21,25.0365638889,121.5686639,20200314204841,信義區,Xinyi Dist.,37,興雅國中,Xingya Jr. High School,0005,60
6,1,松智路/信義路(東北側) (鄰近台北101),The N.E. side of Road Song Zhi & Road Xinyi.,27,25.0330388889,121.565619444,20200314204837,信義區,Xinyi Dist.,51,信義廣場(台北101),Xinyi Square(Taipei 101),0007,80
8,1,台北市信義區松德路300號,"No.300, Songde Rd.(32)",24,25.031785,121.57448,20200314204843,信義區,Xinyi Dist.,15,松德站,Songde,0009,40
10,1,光復南路/基隆路一段364巷(鄰近大安親子館),"The S.E. side of Road Guangfu South & Ln. 346,...",32,25.034937,121.55762,20200314204821,信義區,Xinyi Dist.,18,三張犁,Sanchangli,0011,50
12,1,大道路/福德街路口北西側,The N.W. side of Road Dadao & St. Fude.,47,25.03809,121.58367,20200314204817,信義區,Xinyi Dist.,10,福德公園,Fude Park,0013,58
14,1,林口街/福德街(東南側),The S.E. side of St. Linkou & St. Fude.,30,25.036084,121.579135,20200314204822,信義區,Xinyi Dist.,18,松山家商,Songshan Vocational High School,0016,48
16,1,北寧路34號 對側(鄰近台北田徑場),"No.25, Sec. 3, Bade Rd.",32,25.049408,121.55261,20200314204820,松山區,Songshan Dist.,8,臺北市藝文推廣處,Taipei City Arts Promotion Office,0018,40
18,1,科技大樓站對面(復興南路2段西側)(鄰近資訊科學展示中心),"No.235, Sec. 2, Fusing S. Rd.",37,25.025896,121.543293,20200314171117,大安區,Daan Dist.,19,捷運科技大樓站,MRT Technology Bldg. Sta.,0020,58


# More: Convert csv to json
現在我想做的是，假設我有一個檔案是CSV檔，但我希望用手動方式把它改為JSON檔，要怎麼做？做法其實就是先把CSV第一列取出來儲存為Key，然後把這個Key一一和每一列的值給對應起來結合成一個又一個的Dictionary，最後把每列所產生的Dictionary用`append()`加入一個List中，就會是一個List of dictionaries結構的JSON格式。
* https://stackoverflow.com/questions/17912307/u-ufeff-in-python-string

In [24]:
all_list = []
with open("data/14196_drug_adv.csv", "r", encoding="utf-8-sig") as f:
    for line in f.read().split("\n"):
        row = line.split(",")
        all_list.append(row)
#         print(len(row))
print(all_list[1][-2])
print(all_list[1])

keys = all_list[0]

"Yahoo！奇摩拍賣"
['"《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏"', '"Y7868533113/鍾青砡"', '""', '"08 15 2017 12:00AM"', '""', '"無照藥商"', '"02 3 2017 12:00AM"', '"網路"', '"Yahoo！奇摩拍賣"', '"相關案件已處分"']


In [25]:
json_list = []
for row in all_list[1:]:
    temp_dict = dict(zip(keys, row))
    json_list.append(temp_dict)
json_list

[{'違規產品名稱': '"《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏"',
  '違規廠商名稱或負責人': '"Y7868533113/鍾青砡"',
  '處分機關': '""',
  '處分日期': '"08 15 2017 12:00AM"',
  '處分法條': '""',
  '違規情節': '"無照藥商"',
  '刊播日期': '"02 3 2017 12:00AM"',
  '刊播媒體類別': '"網路"',
  '刊播媒體': '"Yahoo！奇摩拍賣"',
  '查處情形': '"相關案件已處分"'},
 {'違規產品名稱': '"《現貨》大正漢方腸胃藥 60錠"',
  '違規廠商名稱或負責人': '"Y9159169900/鍾青砡"',
  '處分機關': '""',
  '處分日期': '"08 15 2017 12:00AM"',
  '處分法條': '""',
  '違規情節': '"無照藥商"',
  '刊播日期': '"02 3 2017 12:00AM"',
  '刊播媒體類別': '"網路"',
  '刊播媒體': '"Yahoo！奇摩拍賣"',
  '查處情形': '"相關案件已處分"'},
 {'違規產品名稱': '"《現貨》日本熱銷 超人氣SS製藥 痘痘乳膏"',
  '違規廠商名稱或負責人': '"Y9159169900/鍾青砡"',
  '處分機關': '""',
  '處分日期': '"08 15 2017 12:00AM"',
  '處分法條': '""',
  '違規情節': '"無照藥商"',
  '刊播日期': '"02 3 2017 12:00AM"',
  '刊播媒體類別': '"網路"',
  '刊播媒體': '"Yahoo！奇摩拍賣"',
  '查處情形': '"相關案件已處分"'},
 {'違規產品名稱': '"日本小林製藥 - 喉嚨噴劑 (現貨)"',
  '違規廠商名稱或負責人': '"**VIOLA Shop**/代號 Y0899501333/蔡佩蓉"',
  '處分機關': '""',
  '處分日期': '"05 16 2017 12:00AM"',
  '處分法條': '""',
  '違規情節': '"無照藥商"',
  '刊播日期': '"02 3 2017 12:00AM"',
 