# 01-3 이 도서가 얼마나 인기가 좋을까요?

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.jupyter.org/github/rickiepark/hg-da/blob/main/01-3.ipynb"><img src="https://jupyter.org/assets/share.png" width="61" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-da/blob/main/01-3.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 도서 데이터 찾기

[공공데이터포털](https://www.data.go.kr/)

도서관 정보나루의 [남산도서관 장서/대출 목록](https://www.data4library.kr/openDataV?libcode=4707)

## 코랩에서 데이터 확인하기

In [1]:
import gdown

gdown.download('https://bit.ly/3eecMKZ', 
               '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

Downloading...
From: https://bit.ly/3eecMKZ
To: /content/남산도서관 장서 대출목록 (2021년 04월).csv
100%|██████████| 58.1M/58.1M [00:00<00:00, 77.9MB/s]


'남산도서관 장서 대출목록 (2021년 04월).csv'

## 파이썬으로 CSV 파일 출력하기

open() 함수의 mode 매개변수의 기본값은 텍스트 읽기 모드 'r'

In [5]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
    print(f.readline())

UnicodeDecodeError: ignored

파일 인코딩 형식 확인하기 : chardet.detect()

- UTF-8 : 전 세계 모든 문자를 컴퓨터에 표현하기 위해 만들어진 유니코드를 인코딩하는 방식
    - 최대 4바이트
- EUC-KR : 한글을 위한 완성형 인코딩
    - 2바이트

In [4]:
import chardet

with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()

print(chardet.detect(d))

{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


In [6]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr') as f:
    print(f.readline())
    print(f.readline())

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,

"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",



In [7]:
import os
import glob
import unicodedata

for filename in glob.glob('*.csv'):
  nfc_filename = unicodedata.normalize('NFC', filename)
  os.rename(filename, nfc_filename)

## 데이터프레임 다루기: 판다스

In [8]:
import pandas as pd

판다스는 CSV 파일을 읽을 때 메모리를 효율적으로 사용하기 위해 CSV 파일을 조금씩 나누어 읽는다. 이때 자동으로 파악한 데이터 타입이 달라지면 경고 발생
- 해결 방안 : low_memory=False (한 번에 읽기)

In [9]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr')

  df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr')


In [10]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr',
                 low_memory=False)

In [11]:
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


low_memory 매개변수를 False로 지정하면 경고는 발생하지 않지만, CSV 파일을 한번에 모두 읽기 때문에 많은 메모리 사용 -> 파일이 매우 큰 경우 메모리 부족 오류 발생
- 해결 방안 : dtype 지정 (데이터 타입을 자동으로 찾지 않도록)

In [12]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr',
                 dtype={'ISBN': str, '세트 ISBN': str, '주제분류번호': str})
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [13]:
df.to_csv('ns_202104.csv')

print() 함수에 end=''를 지정하면 줄바꿈 문자를 출력하지 않기 때문에 CSV 파일에 저장된 그대로를 출력

In [16]:
with open('ns_202104.csv') as f:
    for i in range(3):
        print(f.readline(), end='')


,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,


In [17]:
with open('ns_202104.csv') as f:
    for i in range(3):
        print(f.readline(),)

,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13

0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,

1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,



In [18]:
ns_df = pd.read_csv('ns_202104.csv', low_memory=False)
ns_df.head()

Unnamed: 0.1,Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


index 열 지정

In [19]:
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


데이터프레임을 CSV 파일로 저장할 때 인덱스를 빼고 저장
- index=False

In [20]:
df.to_csv('ns_202104.csv', index=False)

In [21]:
# 코랩을 사용하는 경우 xlsxwriter 패키지를 설치해 주세요.
!pip install xlsxwriter

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting xlsxwriter
  Downloading XlsxWriter-3.0.9-py3-none-any.whl (152 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m152.8/152.8 KB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xlsxwriter
Successfully installed xlsxwriter-3.0.9


In [22]:
ns_df.to_excel('ns_202104.xlsx', index=False, engine='xlsxwriter')