## 2. 다양한 데이터 포멧 이해하기: CSV

- 주요 데이터 포멧
  - csv, xml, json, plain text

### 2.1 파일 읽기 (Plain Text)
- 파일디스크립터변수 = open(파일이름, 파일열기모드)

```
data_file = open('00_data/USvideos.csv', 'r', encoding='utf-8-sig')
```
    
- 파일 디스크립터 (file descriptor) 변수: 오픈한 파일 객체를 가리키고 있는 변수
- 파일 이름 명시시, open 함수 실행 위치와 파일 이름이 저장된 위치를 파일 절대 경로 또는 상대 경로로 정확히 명시해야 함
- 파일 열기 모드

| 파일열기모드 | 설명                                                                 |
|:------------:|:----------------------------------------------------------------------|
|       r      | 읽기 모드: 파일을 읽기만 할 때 사용함                                |
|       w      | 쓰기 모드: 파일에 데이터를 쓸 때 사용함 (기존 파일 데이터는 삭제됨)  |
|       a      | 추가 모드: 파일의 기존 데이터 끝에서부터 데이터를 추가할 때 사용함   |

- encoding
  - open(파일이름, 파일열기모드, encoding='utf-8-sig') 와 같이 끝에 encoding 구문 추가 가능 (옵션)
  - 파일 오픈시, 해당 파일의 인코딩 방식을 명시해주는 것임

### 2.2. csv 파일 읽기

* CSV(Comma-Separated Values): 스프레드시트 데이터를 저장할 때 가장 널리 쓰이는 파일 형식
* 엑셀등 여러 응용프로그램에서도 지원
* CSV 형식 (각 열은 콤마로 구분, 각 행은 줄바꿈 문자로 구분)
<pre>
  dave, david
  apple, 2
  korea, japan, chian
</pre>

* 파이썬에서 CSV 파일로 저장/읽기 방법
  - csv 라이브러리 사용

### csv 라이브러리
- anaconda 에 포함
- 만약 다음 코드 실행시 No module 에러 메세지가 나오면, csv 라이브러리 설치 후, 재실행

```
pip install csv
```

In [12]:
import csv

### csv.reader(오픈한 파일 디스크립터, delimiter=',')
- open 함수를 통해 오픈한 파일 디스크립터
- delimiter=데이터구분자: csv 파일 내에 데이터 구분자를 명시할 수 있음 (옵션)

    ```
    data_file = open('00_data/USvideos.csv', 'r', encoding='utf-8-sig')
    data_lines = csv.reader(data_file, delimiter=',')
    ```

### 데이터 읽기
- 각 라인별 데이터를 읽기 위해, for 문을 사용하면 됨
    ```
    data_lines = csv.reader(data_file, delimiter=',')
    for data_line in data_lines:
        print (data_line)
    ```


### 파일 닫기 (close)
- 오픈한 파일은 반드시 닫아야 함, 닫지 않으면 파일이 오픈된 채로 남아있을 수 있음

```
data_file = open('00_data/USvideos.csv', 'r', encoding='utf-8-sig')
data_lines = csv.reader(data_file, delimiter=',')
for data_line in data_lines:
    print (data_line)
data_file.close()
```

### 예 (한줄만 출력해봄)

In [17]:
import csv

data_file = open('00_data/USvideos.csv', 'r', encoding='utf-8-sig')
data_lines = csv.reader(data_file, delimiter=',')
for data_line in data_lines:
    print (data_line[0])
    break
    
data_file.close()

video_id


### csv 파일 읽기 다른 기법

- with 문법을 사용해서, 파일 데이터를 읽은 후, with 내부 구문 실행 완료 후, 자동으로 파일을 닫을 수 있음

In [16]:
import csv
with open('00_data/USvideos.csv', 'r', encoding='utf-8-sig') as reader_csv:
    reader = csv.reader(reader_csv, delimiter=',')
    
    for row in reader:
        print (row)
        break


['video_id', 'title', 'channel_title', 'category_id', 'tags', 'views', 'likes', 'dislikes', 'comment_total', 'thumbnail_link', 'date']


### 2.3 csv 파일 쓰기
- open 시 'w' 로 옵션을 설정
  - open() 함수에 newline='' 를 넣어주는 이유는 윈도우의 경우에만 csv 모듈에서 데이타를 쓸 때 각 라인 뒤에 빈 라인이 추가되는 문제가 있기 때문
  - 이를 없애기 위해 (파이썬 3 에서) 파일을 open 할 때 newline='' 와 같은 옵션을 지정

```
data_file = open('00_data/data.csv', 'w', encoding='utf-8-sig', newline='')
```
- csv.reader 대신, csv.writer 함수 사용

```
data_write = csv.writer(data_file, delimiter=',')
```
- writerow 함수에 리스트 형식으로 데이터를 넣으면, 한 라인씩 파일에 추가 됨
- 파일 close 는 파일 읽기와 동일함

In [18]:
import csv
data_file = open('00_data/tmp_csv.csv', 'w', encoding='utf-8-sig', newline='')
data_write = csv.writer(data_file, delimiter=',')
data_write.writerow(['1', '2', '3'])
data_file.close()

### csv 파일 쓰기 다른 기법 (with)

- with 문법을 사용해서, with 내부 구문 실행 완료 후, 자동으로 파일을 닫을 수 있음

In [19]:
import csv
with open('00_data/tmp_csv.csv', 'w', encoding='utf-8-sig', newline='') as writer_csv:
    writer = csv.writer(writer_csv, delimiter=',')
    writer.writerow(['love']*3 + ['banana'])   # ['love', 'love', 'love', 'banana'] 와 동일 
    writer.writerow(['apple', 2])   # 문자열 외에도 다양한 타입 데이터 쓰기 가능
    writer.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam']) 

### csv 파일 쓰기 다른 기법 (사전 타입으로 파일 쓰기)
- csv.writer 함수 대신에, csv.DictWriter 함수 사용
- field 이름 선언 후, 데이터 넣기

In [20]:
import csv

with open('00_data/tmp_csv.csv', 'w', encoding='utf-8-sig', newline='') as writer_csv:
    field_name_list =['First Name', 'Last Name']  # 필드명 정의
    writer = csv.DictWriter(writer_csv, fieldnames=field_name_list)  # 필드명을 미리 선언할 수 있음
    writer.writeheader()  # 보통 csv 파일 상단에는 필드명을 넣기 때문에, 선언된 필드명을 writerheader() 함수로 넣을 수 있음
    writer.writerow({'First Name': 'Dave', 'Last Name': 'Lee'})  # 각 데이터는 사전 타입으로 저장 가능
    writer.writerow({'First Name': 'David', 'Last Name': 'Kim'})
    writer.writerow({'First Name': 'Robin', 'Last Name': 'Park'})

- 사전 타입으로 읽기 가능

In [23]:
import csv

with open('00_data/tmp_csv.csv', 'r', encoding='utf-8-sig') as reader_csv:
    reader = csv.DictReader(reader_csv)
    for row in reader:
        print(row['First Name'], row['Last Name'])

Dave Lee
David Kim
Robin Park


### 2.4 pandas 라이브러리로 csv 파일 읽기
- csv 파일을 pandas dataframe 으로 읽기 위해 read_csv() 함수를 사용함
- csv 구분자는 quotechar=구분자 옵션을 넣어서 구분자가 다른 경우도 읽기 가능

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', quotechar=',')
```

- 에러 나는 데이터는 항상 있을 수 있음, 해당 데이터는 생략하는 것이 일반적임

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', error_bad_lines=False)
```

In [18]:
import pandas as pd
doc = pd.read_csv("00_data/USvideos.csv", encoding='utf-8-sig', error_bad_lines=False)
doc

b'Skipping line 2401: expected 11 fields, saw 21\nSkipping line 2800: expected 11 fields, saw 21\nSkipping line 5297: expected 11 fields, saw 12\nSkipping line 5299: expected 11 fields, saw 12\nSkipping line 5300: expected 11 fields, saw 12\nSkipping line 5301: expected 11 fields, saw 12\n'


Unnamed: 0,video_id,title,channel_title,category_id,tags,views,likes,dislikes,comment_total,thumbnail_link,date
0,XpVt6Z1Gjjo,1 YEAR OF VLOGGING -- HOW LOGAN PAUL CHANGED Y...,Logan Paul Vlogs,24,logan paul vlog|logan paul|logan|paul|olympics...,4394029,320053,5931,46245,https://i.ytimg.com/vi/XpVt6Z1Gjjo/default.jpg,13.09
1,K4wEI5zhHB0,iPhone X — Introducing iPhone X — Apple,Apple,28,Apple|iPhone 10|iPhone Ten|iPhone|Portrait Lig...,7860119,185853,26679,0,https://i.ytimg.com/vi/K4wEI5zhHB0/default.jpg,13.09
2,cLdxuaxaQwc,My Response,PewDiePie,22,[none],5845909,576597,39774,170708,https://i.ytimg.com/vi/cLdxuaxaQwc/default.jpg,13.09
3,WYYvHb03Eog,Apple iPhone X first look,The Verge,28,apple iphone x hands on|Apple iPhone X|iPhone ...,2642103,24975,4542,12829,https://i.ytimg.com/vi/WYYvHb03Eog/default.jpg,13.09
4,sjlHnJvXdQs,iPhone X (parody),jacksfilms,23,jacksfilms|parody|parodies|iphone|iphone x|iph...,1168130,96666,568,6666,https://i.ytimg.com/vi/sjlHnJvXdQs/default.jpg,13.09
...,...,...,...,...,...,...,...,...,...,...,...
7987,xlu6i6lT_vk,How Do MASSIVE Sinkholes Form?,Life Noggin,27,sinkhole|how do sinkholes form|sinkhole in wat...,440393,14362,390,1575,https://i.ytimg.com/vi/xlu6i6lT_vk/default.jpg,22.10
7988,qRoVlH1OcI4,Trump slams Clinton for defending NFL anthem p...,Business Insider,25,Business Insider|Donald Trump|Hillary Clinton|...,55762,1265,760,1873,https://i.ytimg.com/vi/qRoVlH1OcI4/default.jpg,22.10
7989,EoejGgUNmVU,LP - Lost On You (A Night at The McKittrick Ho...,LP,10,LP|Death Valley|Other People|Lost On You|The M...,142908,7088,68,437,https://i.ytimg.com/vi/EoejGgUNmVU/default.jpg,22.10
7990,MT1CMTI0EVw,Tré Melvin @ #YouTubeBlack FanFest Washington ...,YouTube FanFest,24,YouTube FanFest|#YTFF|Washington DC|USA|YTFF|#...,24532,2148,77,0,https://i.ytimg.com/vi/MT1CMTI0EVw/default.jpg,22.10


- 헤더 제거하고 읽기

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', error_bad_lines=False, header=None)
```

In [19]:
import pandas as pd
doc = pd.read_csv("00_data/USvideos.csv", encoding='utf-8-sig', error_bad_lines=False, header=None)
doc

b'Skipping line 2401: expected 11 fields, saw 21\nSkipping line 2800: expected 11 fields, saw 21\nSkipping line 5297: expected 11 fields, saw 12\nSkipping line 5299: expected 11 fields, saw 12\nSkipping line 5300: expected 11 fields, saw 12\nSkipping line 5301: expected 11 fields, saw 12\n'


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,video_id,title,channel_title,category_id,tags,views,likes,dislikes,comment_total,thumbnail_link,date
1,XpVt6Z1Gjjo,1 YEAR OF VLOGGING -- HOW LOGAN PAUL CHANGED Y...,Logan Paul Vlogs,24,logan paul vlog|logan paul|logan|paul|olympics...,4394029,320053,5931,46245,https://i.ytimg.com/vi/XpVt6Z1Gjjo/default.jpg,13.09
2,K4wEI5zhHB0,iPhone X — Introducing iPhone X — Apple,Apple,28,Apple|iPhone 10|iPhone Ten|iPhone|Portrait Lig...,7860119,185853,26679,0,https://i.ytimg.com/vi/K4wEI5zhHB0/default.jpg,13.09
3,cLdxuaxaQwc,My Response,PewDiePie,22,[none],5845909,576597,39774,170708,https://i.ytimg.com/vi/cLdxuaxaQwc/default.jpg,13.09
4,WYYvHb03Eog,Apple iPhone X first look,The Verge,28,apple iphone x hands on|Apple iPhone X|iPhone ...,2642103,24975,4542,12829,https://i.ytimg.com/vi/WYYvHb03Eog/default.jpg,13.09
...,...,...,...,...,...,...,...,...,...,...,...
7988,xlu6i6lT_vk,How Do MASSIVE Sinkholes Form?,Life Noggin,27,sinkhole|how do sinkholes form|sinkhole in wat...,440393,14362,390,1575,https://i.ytimg.com/vi/xlu6i6lT_vk/default.jpg,22.10
7989,qRoVlH1OcI4,Trump slams Clinton for defending NFL anthem p...,Business Insider,25,Business Insider|Donald Trump|Hillary Clinton|...,55762,1265,760,1873,https://i.ytimg.com/vi/qRoVlH1OcI4/default.jpg,22.10
7990,EoejGgUNmVU,LP - Lost On You (A Night at The McKittrick Ho...,LP,10,LP|Death Valley|Other People|Lost On You|The M...,142908,7088,68,437,https://i.ytimg.com/vi/EoejGgUNmVU/default.jpg,22.10
7991,MT1CMTI0EVw,Tré Melvin @ #YouTubeBlack FanFest Washington ...,YouTube FanFest,24,YouTube FanFest|#YTFF|Washington DC|USA|YTFF|#...,24532,2148,77,0,https://i.ytimg.com/vi/MT1CMTI0EVw/default.jpg,22.10


### 2.5 pandas 라이브러리로 csv 파일 쓰기
- pandas dataframe 데이터를 csv 파일로 저장하기 위해, to_csv() 함수 사용
    ```
    doc.to_csv("00_data/students_default.csv")
    doc = pd.to_csv("00_data/students_default.csv", encoding='utf-8-sig')
    ```

- encoding 옵션 사용 가능
    ```
    doc.to_csv("00_data/students_default.csv", encoding='utf-8-sig')
    ```

- sep 옵션으로 csv 구분자 변경 가능 (디폴트는 콤마)
    ```
    doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', sep='|')
    ```

- na_rep 옵션으로 데이터가 없는 항목에 대해 특정값을 넣을 수 있음 (디폴트는 아무런 값도 들어가지 않음)
    ```
    doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', na_rep='없음')
    ```

- index=False 옵션으로 앞의 번호(인덱스) 없이 csv 파일로 작성할 수 있음 (디폴트는 인덱스도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_index.csv", encoding='utf-8-sig', index=False)
    ```

- header=False 옵션으로 위의 번호(헤더) 없이 csv 파일로 작성할 수 있음 (디폴트는 헤더도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_header.csv", encoding='utf-8-sig', header=False)
    ```

- header=False 옵션으로 위의 번호(헤더) 없이 csv 파일로 작성할 수 있음 (디폴트는 헤더도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_index_header.csv", encoding='utf-8-sig', index=False, header=False)
    ```


In [15]:
import pandas as pd
doc = pd.read_csv("00_data/students.csv", encoding='utf-8-sig', error_bad_lines=False, header=None)
doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', sep='|')
doc.to_csv("00_data/students_default_change_none.csv", encoding='utf-8-sig', na_rep='없음')
doc.to_csv("00_data/students_default_without_index.csv", encoding='utf-8-sig', index=False)
doc.to_csv("00_data/students_default_without_header.csv", encoding='utf-8-sig', header=False)
doc.to_csv("00_data/students_default_without_index_header.csv", encoding='utf-8-sig', index=False, header=False)