In [1]:
# csv → comma-separated values
import csv
# json → javascript object notation
import json
from pathlib import Path

In [2]:
p1 = Path.cwd() / 'attachments'
p2 = Path.cwd() / 'result_attachments' / 'walnut2'

In [3]:
# csv파일은 이진 형식이 아니라 텍스트 형식이므로 읽기 전용 모드로 활용
exampleFile = open(p1 / 'example.csv')
# csv.reader()를 통해 csv읽기 객체 생성
exampleReader = csv.reader(exampleFile)
# 리스트를 활용하여 일반 파이썬 중첩 리스트 형식의 데이터로 추출
exampleData = list(exampleReader)
exampleData

[['4/5/2014 13:34', 'Apples', '73'],
 ['4/5/2014 3:41', 'Cherries', '85'],
 ['4/6/2014 12:46', 'Pears', '14'],
 ['4/8/2014 8:59', 'Oranges', '52'],
 ['4/10/2014 2:07', 'Apples', '152'],
 ['4/10/2014 18:10', 'Bananas', '23'],
 ['4/10/2014 2:40', 'Strawberries', '98']]

In [5]:
# csv파일은 한 번 돌리면 커서가 끝까지 가는듯?
list(exampleReader)

[]

In [6]:
exampleFile.close()

In [9]:
with open(p1 / 'example.csv') as exampleFile:
    exampleReader = csv.reader(exampleFile)
    for row in exampleReader:
        # line_num 속성을 통해 현재 행의 번호 출력 가능
        # 한번 읽어들여서 Data로 추출하고 나면 현재 행이 마지막 행으로 전환 → 순환문을 위해서는 다시 읽어야
        print(f'Row #{exampleReader.line_num} {str(row)}')

Row #1 ['4/5/2014 13:34', 'Apples', '73']
Row #2 ['4/5/2014 3:41', 'Cherries', '85']
Row #3 ['4/6/2014 12:46', 'Pears', '14']
Row #4 ['4/8/2014 8:59', 'Oranges', '52']
Row #5 ['4/10/2014 2:07', 'Apples', '152']
Row #6 ['4/10/2014 18:10', 'Bananas', '23']
Row #7 ['4/10/2014 2:40', 'Strawberries', '98']


In [10]:
# csv.writer() 함수를 통해 csv쓰기 객체 생성 가능
# 파일 생성 시 newline='' 인자를 전달해야 한 줄씩 띄어지는 현상 방지
with open(p2 / 'output.csv', mode='w', newline='') as outputFile:
    outputWriter = csv.writer(outputFile)
    # writerow() 메서드를 통해 내용 추가 가능(한 줄)
    outputWriter.writerow(['spam', 'egg', 'bacon', 'ham'])
    # writerows() 메서드로 여러 줄도 내용 추가 가능
    outputWriter.writerows([['kim', 'lee', 'park', 'choi'], [1, 3, 5, 7]])

In [11]:
# csv.writer() 활용 시 delimiter와 lineterminator를 통해 셀 구분 및 줄 간격 조절 가능
# delimiter를 탭으로 지정했기 때문에 확장자가 tsv(tab-separated values)
with open(p2 / 'example.tsv', mode='w', newline='') as outputFile:
    csvWriter = csv.writer(outputFile, delimiter='\t', lineterminator='\n\n')
    csvWriter.writerows([['spam', 'egg', 'bacon', 'ham'], ['kim', 'lee', 'park', 'choi'], [1, 3, 5, 7]])

In [12]:
# 헤더 행이 있는 csv 파일의 경우 DictReader 혹은 DictWriter 객체 사용 가능 → 내부 값이 리스트가 아닌 딕셔너리로 출력
# 전체 값은 리스트로 출력해야
with open(p1 / 'exampleWithHeader.csv') as exampleFile:
    exampleDictReader = csv.DictReader(exampleFile)
    for row in exampleDictReader:
        print(row['Timestamp'], row['Fruit'], row['Quantity'])

4/5/2014 13:34 Apples 73
4/5/2014 3:41 Cherries 85
4/6/2014 12:46 Pears 14
4/8/2014 8:59 Oranges 52
4/10/2014 2:07 Apples 152
4/10/2014 18:10 Bananas 23
4/10/2014 2:40 Strawberries 98


In [16]:
with open(p1 / 'exampleWithHeader.csv') as exampleFile:
    exampleDictReader = csv.DictReader(exampleFile)
    print(list(exampleDictReader))

[{'Timestamp': '4/5/2014 13:34', 'Fruit': 'Apples', 'Quantity': '73'}, {'Timestamp': '4/5/2014 3:41', 'Fruit': 'Cherries', 'Quantity': '85'}, {'Timestamp': '4/6/2014 12:46', 'Fruit': 'Pears', 'Quantity': '14'}, {'Timestamp': '4/8/2014 8:59', 'Fruit': 'Oranges', 'Quantity': '52'}, {'Timestamp': '4/10/2014 2:07', 'Fruit': 'Apples', 'Quantity': '152'}, {'Timestamp': '4/10/2014 18:10', 'Fruit': 'Bananas', 'Quantity': '23'}, {'Timestamp': '4/10/2014 2:40', 'Fruit': 'Strawberries', 'Quantity': '98'}]


In [17]:
# 헤더 정보가 없는 경우에는 DictReader 객체를 사용할 경우 첫 행을 딕셔너리 키로 사용
with open(p1 / 'example.csv') as exampleFile:
    # DictReader() 함수에 두 번째 인자로 헤더 이름 전달 가능 → 위치 전달인자로 사용해야
    exampleDictReader = csv.DictReader(exampleFile, ['Timestamp', 'Fruit', 'Quantity'])
    for row in exampleDictReader:
        print(row['Timestamp'], row['Fruit'], row['Quantity'])

4/5/2014 13:34 Apples 73
4/5/2014 3:41 Cherries 85
4/6/2014 12:46 Pears 14
4/8/2014 8:59 Oranges 52
4/10/2014 2:07 Apples 152
4/10/2014 18:10 Bananas 23
4/10/2014 2:40 Strawberries 98


In [18]:
# DictWriter 객체는 csv파일을 생성하기 위해 딕셔너리 사용
header = ['Name', 'Pet', 'Phone']
with open(p2 / 'output2.csv', mode='w', newline='') as outputFile:
    # 두 번째 인자에 위치 전달인자로 헤더 행 지정
    outputWriter = csv.DictWriter(outputFile, header)
    # writeheader() 메서드를 통해 헤더 행 삽입
    outputWriter.writeheader()
    # writerow() 메서드에 딕셔너리 삽입 또는 writerows() 메서드에 딕셔너리들의 리스트 삽입
    outputWriter.writerow(dict(zip(header, ['Alice', 'cat', '555-1234'])))
    outputWriter.writerow(dict(zip(header, ['Bob', 'dog', '555-9999'])))

In [19]:
# API가 반환하는 값은 json 등의 형식으로 되어 있음 → API를 사용하여 원시 데이터 스크랩, 데이터 가져오기 등 가능
# json.loads(), json.dumps() 함수로 json 데이터와 파이썬 값을 서로 변환
stringOfJsonData = '{"name": "Zophie", "isCat": true, "miceCaught": 0, "felineIQ": null}'
jsonToPython = json.loads(stringOfJsonData)
# json.loads()는 null 값을 None으로 반환
jsonToPython

{'name': 'Zophie', 'isCat': True, 'miceCaught': 0, 'felineIQ': None}

In [20]:
# json.dumps()는 문자열을 넘기다(dump string)의 의미
# 딕셔너리, 리스트, 정수, 부동소수점수, 문자열, 불린, None 중 하나여야
pythonValue = {'isCat': True, 'miceCaught': 0, 'name': 'Zophie', 'felineIQ': None}
pythonToJson = json.dumps(pythonValue)
# json.dumps()는 파이썬의 None 값을 null로 반환
pythonToJson

'{"isCat": true, "miceCaught": 0, "name": "Zophie", "felineIQ": null}'