## 다양한 데이터 포멧 이해하기: CSV

### 1. csv 파일 읽기

* CSV(Comma-Separated Values): 스프레드시트 데이터를 저장할 때 가장 널리 쓰이는 파일 형식
* 엑셀등 여러 응용프로그램에서도 지원
* CSV 형식 (각 열은 콤마로 구분, 각 행은 줄바꿈 문자로 구분)
<pre>
  dave, david
  apple, 2
  korea, japan, chian
</pre>

* 파이썬에서 CSV 파일로 저장/읽기 방법
  - csv 라이브러리 사용

### csv 라이브러리


In [1]:
import csv

### csv 파일 읽기

- with 문법을 사용해서, 파일 데이터를 읽은 후, with 내부 구문 실행 완료 후, 자동으로 파일을 닫을 수 있음

In [2]:
import csv
with open(r'./data/벅스탑100크롤링_comma.csv', 'r', encoding='utf-8') as reader_csv:
    reader = csv.reader(reader_csv, delimiter=',')
    
    for row in reader:
        print (row)
        # break


['순위', '제목', '가수']
['1', 'UNFORGIVEN (feat. Nile Rodgers)', 'LE SSERAFIM (르세라핌)']
['2', 'I AM', 'IVE (아이브)']
['3', 'Kitsch', 'IVE (아이브)']
['4', 'Cupid', 'FIFTY FIFTY']
['5', '꽃', '지수(JISOO)']
['6', '손오공', '세븐틴(SEVENTEEN)']
['7', 'Ditto', 'NewJeans']
['8', 'Hype Boy', 'NewJeans']
['9', 'Teddy Bear', 'STAYC(스테이씨)']
['10', 'OMG', 'NewJeans']
[]


### csv 파일 쓰기(with)

- with 문법을 사용해서, with 내부 구문 실행 완료 후, 자동으로 파일을 닫을 수 있음
- open 시 'w' 로 옵션을 설정
  - open() 함수에 newline='' 를 넣어주는 이유는 윈도우의 경우에만 csv 모듈에서 데이타를 쓸 때 각 라인 뒤에 빈 라인이 추가되는 문제가 있기 때문
  - 이를 없애기 위해 (파이썬 3 에서) 파일을 open 할 때 newline='' 와 같은 옵션을 지정

In [3]:
import csv
with open(r'./data/벅스탑100크롤링_comma_w.csv', 'w', encoding='utf-8-sig', newline='') as writer_csv:
    writer = csv.writer(writer_csv, delimiter=',')
    writer.writerow(['love']*3 + ['banana'])   # ['love', 'love', 'love', 'banana'] 와 동일 
    writer.writerow(['apple', 2])   # 문자열 외에도 다양한 타입 데이터 쓰기 가능
    writer.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam']) 

### csv 파일 쓰기 다른 기법 (사전 타입으로 파일 쓰기)
- csv.writer 함수 대신에, csv.DictWriter 함수 사용
- field 이름 선언 후, 데이터 넣기

In [4]:
import csv

with open(r'./data/tmp_csv.csv', 'w', encoding='utf-8-sig', newline='') as writer_csv:
    field_name_list =['First Name', 'Last Name']  # 필드명 정의
    writer = csv.DictWriter(writer_csv, fieldnames=field_name_list)  # 필드명을 미리 선언할 수 있음
    writer.writeheader()  # 보통 csv 파일 상단에는 필드명을 넣기 때문에, 선언된 필드명을 writerheader() 함수로 넣을 수 있음
    writer.writerow({'First Name': 'Dave', 'Last Name': 'Lee'})  # 각 데이터는 사전 타입으로 저장 가능
    writer.writerow({'First Name': 'David', 'Last Name': 'Kim'})
    writer.writerow({'First Name': 'Robin', 'Last Name': 'Park'})

- 사전 타입으로 읽기 가능

In [5]:
import csv

with open(r'./data/tmp_csv.csv', 'r', encoding='utf-8-sig') as reader_csv:
    reader = csv.DictReader(reader_csv)
    for row in reader:
        print(row['First Name'], row['Last Name'])

Dave Lee
David Kim
Robin Park


### 2.4 pandas 라이브러리로 csv 파일 읽기
- csv 파일을 pandas dataframe 으로 읽기 위해 read_csv() 함수를 사용함
- csv 구분자는 quotechar=구분자 옵션을 넣어서 구분자가 다른 경우도 읽기 가능

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', quotechar=',')
```

- 에러 나는 데이터는 항상 있을 수 있음, 해당 데이터는 생략하는 것이 일반적임

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', on_bad_lines='skip')
```

In [13]:
import pandas as pd
doc = pd.read_csv(r"./data/USvideos.csv", encoding='utf-8-sig',on_bad_lines='skip')
print(doc.info())
doc.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7992 entries, 0 to 7991
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   video_id        7992 non-null   object 
 1   title           7992 non-null   object 
 2   channel_title   7992 non-null   object 
 3   category_id     7992 non-null   int64  
 4   tags            7992 non-null   object 
 5   views           7992 non-null   int64  
 6   likes           7992 non-null   int64  
 7   dislikes        7992 non-null   int64  
 8   comment_total   7992 non-null   int64  
 9   thumbnail_link  7992 non-null   object 
 10  date            7992 non-null   float64
dtypes: float64(1), int64(5), object(5)
memory usage: 686.9+ KB
None


Unnamed: 0,video_id,title,channel_title,category_id,tags,views,likes,dislikes,comment_total,thumbnail_link,date
0,XpVt6Z1Gjjo,1 YEAR OF VLOGGING -- HOW LOGAN PAUL CHANGED Y...,Logan Paul Vlogs,24,logan paul vlog|logan paul|logan|paul|olympics...,4394029,320053,5931,46245,https://i.ytimg.com/vi/XpVt6Z1Gjjo/default.jpg,13.09
1,K4wEI5zhHB0,iPhone X — Introducing iPhone X — Apple,Apple,28,Apple|iPhone 10|iPhone Ten|iPhone|Portrait Lig...,7860119,185853,26679,0,https://i.ytimg.com/vi/K4wEI5zhHB0/default.jpg,13.09
2,cLdxuaxaQwc,My Response,PewDiePie,22,[none],5845909,576597,39774,170708,https://i.ytimg.com/vi/cLdxuaxaQwc/default.jpg,13.09


- 헤더 제거하고 읽기

```
doc = pd.read_csv("USvideos.csv", encoding='utf-8-sig', on_bad_lines='skip', header=None)
```

In [14]:
import pandas as pd
doc = pd.read_csv(r"./data/USvideos.csv", encoding='utf-8-sig', on_bad_lines='skip', header=None)
doc.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,video_id,title,channel_title,category_id,tags,views,likes,dislikes,comment_total,thumbnail_link,date
1,XpVt6Z1Gjjo,1 YEAR OF VLOGGING -- HOW LOGAN PAUL CHANGED Y...,Logan Paul Vlogs,24,logan paul vlog|logan paul|logan|paul|olympics...,4394029,320053,5931,46245,https://i.ytimg.com/vi/XpVt6Z1Gjjo/default.jpg,13.09
2,K4wEI5zhHB0,iPhone X — Introducing iPhone X — Apple,Apple,28,Apple|iPhone 10|iPhone Ten|iPhone|Portrait Lig...,7860119,185853,26679,0,https://i.ytimg.com/vi/K4wEI5zhHB0/default.jpg,13.09


### 2.5 pandas 라이브러리로 csv 파일 쓰기
- pandas dataframe 데이터를 csv 파일로 저장하기 위해, to_csv() 함수 사용
    ```
    doc.to_csv("00_data/students_default.csv")
    doc = pd.to_csv("00_data/students_default.csv", encoding='utf-8-sig')
    ```

- encoding 옵션 사용 가능
    ```
    doc.to_csv("00_data/students_default.csv", encoding='utf-8-sig')
    ```

- sep 옵션으로 csv 구분자 변경 가능 (디폴트는 콤마)
    ```
    doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', sep='|')
    ```

- na_rep 옵션으로 데이터가 없는 항목에 대해 특정값을 넣을 수 있음 (디폴트는 아무런 값도 들어가지 않음)
    ```
    doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', na_rep='없음')
    ```

- index=False 옵션으로 앞의 번호(인덱스) 없이 csv 파일로 작성할 수 있음 (디폴트는 인덱스도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_index.csv", encoding='utf-8-sig', index=False)
    ```

- header=False 옵션으로 위의 번호(헤더) 없이 csv 파일로 작성할 수 있음 (디폴트는 헤더도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_header.csv", encoding='utf-8-sig', header=False)
    ```

- header=False 옵션으로 위의 번호(헤더) 없이 csv 파일로 작성할 수 있음 (디폴트는 헤더도 저장됨)
    ```
    doc.to_csv("00_data/students_default_without_index_header.csv", encoding='utf-8-sig', index=False, header=False)
    ```


In [None]:
import pandas as pd
doc = pd.read_csv("00_data/students.csv", encoding='utf-8-sig', error_bad_lines=False, header=None)
doc.to_csv("00_data/students_default_change_sep.csv", encoding='utf-8-sig', sep='|')
doc.to_csv("00_data/students_default_change_none.csv", encoding='utf-8-sig', na_rep='없음')
doc.to_csv("00_data/students_default_without_index.csv", encoding='utf-8-sig', index=False)
doc.to_csv("00_data/students_default_without_header.csv", encoding='utf-8-sig', header=False)
doc.to_csv("00_data/students_default_without_index_header.csv", encoding='utf-8-sig', index=False, header=False)