> 데이터 다운로드 - gdown 패키지

* 데이터 다운로드

In [4]:
import gdown
gdown.download('http://bit.ly/3eecMKZ','남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

Downloading...
From: http://bit.ly/3eecMKZ
To: /content/남산도서관 장서 대출목록 (2021년 04월).csv
100%|██████████| 58.1M/58.1M [00:00<00:00, 195MB/s]


'남산도서관 장서 대출목록 (2021년 04월).csv'

* 파일 출력 오류

In [6]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
  print(f.readline())

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb9 in position 0: invalid start byte

* 오류 해결: 파일 인토딩 형식 확인

In [8]:
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
  d = f.readline()
  print(chardet.detect(d))


{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


* 오류 해결: 인코딩 형식 지정

In [9]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
  print(f.readline())
  print(f.readline())

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,

"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",



> CSV파일을 데이터프레임으로 읽기 - 판다스 (Pandas)

* 데이터 읽기 오류

In [12]:
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR')

  df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR')


* 오류 해결: low_memory 매개변수 False 지정을 통해 파일 한 번에 읽기

In [17]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR',low_memory=False)

* 데이터를 제대로 불러왔는지 확인하기

In [18]:
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


* 데이터프레임을 CSV파일로 저장

In [21]:
df.to_csv('ns_202104.csv')

* 파일 확인

In [22]:
with open('ns_202104.csv') as f:
  for i in range(3):
    print(f.readline(), end='')

,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,


* 저장된 CSV파일을 데이터프레임으로 읽기

In [23]:
ns_df = pd.read_csv('ns_202104.csv', low_memory=False)
ns_df.head()

Unnamed: 0.1,Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


* CSV파일에 이미 인덱스가 있음을 알려주기

In [25]:
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


* 인덱스 빼고 CSV 파일 저장하기

In [26]:
df.to_csv('ns_202104.csv', index=False)