<a href="https://colab.research.google.com/github/hjkang2035/main/blob/main/hg_da_01_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01-3 이 도서가 얼마나 인기가 좋을까요?

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.jupyter.org/github/rickiepark/hg-da/blob/main/01-3.ipynb"><img src="https://jupyter.org/assets/share.png" width="61" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-da/blob/main/01-3.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 도서 데이터 찾기-

- 문제에 맞는 데이터가 없는 상황은 종종 발생함.
- 이럴 때는 딱 맞는 데이터는 아니더라도 어느 정도 비슷한 데이터를 찾을 수 없는지 생각해 봐야 함.
    - 공개 데이터셋을 찾아보거나
    - 데이터 과학 관련 온라인 포럼에 질문을 올려서 도움을 요청할 수도 있음.
- 여기서는 국내 대표적인 데이터 포털인 공공데이터포털에서 도서 관련 데이터가 있는지 찾아보겠음.
- 도서관 대출 데이터가 도서 판매 데이터를 대신할 수 있을 거라고 가정함.
- 네이버에 검색어 ‘도서관 대출 데이터’ 검색
- 도서관 정보나루 사이트 발견
    - 공공 도서관에서 발생하는 다양한 데이터를 제공하는 서비스로 국립중앙도서관이 운영하고 있음.
- [공공데이터포털](https://www.data.go.kr/)
- 도서관 정보나루의 [남산도서관 장서/대출 목록](https://www.data4library.kr/openDataV?libcode=4707)

## 코랩에서 데이터 확인하기

In [None]:
import gdown

gdown.download('https://bit.ly/3eecMKZ',
               '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

Downloading...
From: https://bit.ly/3eecMKZ
To: /content/남산도서관 장서 대출목록 (2021년 04월).csv
100%|██████████| 58.1M/58.1M [00:00<00:00, 147MB/s]


'남산도서관 장서 대출목록 (2021년 04월).csv'

## 파이썬으로 CSV 파일 출력하기

In [None]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
    print(f.readline())

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb9 in position 0: invalid start byte

- 참고) 데이터 과학 분야에서는 응용 프로그램을 사용해 파일 내용을 봐야 하는 엑셀보다는 단순한 텍스트 파일인 CSV 파일을 더 선호함.
- `UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb9 in position 0: invalid start byte`
    - 파이썬의 open() 함수는 기본적으로 텍스트 파일이 UTF-8 형식으로 저장되어 있다고 가정함.
    - 하지만 한글 텍스트는 여전히 완성형 인코딩인 EUC-KR을 사용하는 일이 잦음.
    - 도서관 정보나루에서 제공하는 CSV 파일의 문자 인코딩 방식이 무엇인지부터 확인해야겠음.
        - chardet 패키지의 chardet.detect() 함수를 사용하면 문자 인코딩 방식을 알아낼 수 있음.
    - rb, 즉 바이너리 모드로 지정하면 문자 인코딩 방식에 관계없이 파일을 열 수 있음.

In [None]:
import chardet

with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()

print(chardet.detect(d))

{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


- 사실 CSV 파일은 판다스 등으로 읽는 것이 좀 더 편리함.
- 다만, 아주 큰 CSV 파일인 경우, 열 때 오랜 시간이 걸리거나 아예 열 수 없을 때도 있음.
    - 그래서 파이썬의 open() 함수와 readline() 메서드로 처음 몇 줄을 출력해보는 것이 빠르게 파일 내용을 확인할 수 있는 좋은 방법임.

In [None]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr') as f:
    print(f.readline())
    print(f.readline())

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,

"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",



- 윈도우, 리눅스는 NFC 방식
    - 예. 혼공
- 맥은 NFD 방식
    - 예. ㅎㅗㄴㄱㅗㅇ
    - 맥에서 만든 파일을 윈도우에서 보면 파일 이름의 자음, 모음이 모두 분리되어 보이게 됨.
    - 맥 사용자에게 파일을 받았거나 NFD 방식의 이름이라고 의심된다면 다음 코드를 실행하여 NFC 방식의 이름으로 바꿀 수 있음.
- 주의! 코랩의 파일 브라우저나 주피터 노트북은 NFD 방식의 파일 이름이 NFC처럼 보임.

In [None]:
import os
import glob
import unicodedata

for filename in glob.glob('*.csv'):
  nfc_filename = unicodedata.normalize('NFC', filename)
  os.rename(filename, nfc_filename)

## 데이터프레임 다루기: 판다스

- 판다스의 데이터 구조
    - 데이터프레임: 2차원 배열
        - 각각의 열은 시리즈
    - 시리즈: 1차원 배열
- 배열: 같은 종류의 데이터가 순서대로 나열된 데이터 구조

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr')

  df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr')


- `DtypeWarning: Columns (5,6,9) have mixed types. Specify dtype option on import or set low_memory=False.`
    - 이런 경고가 발생하는 이유
        - 판다스는 CSV 파일을 읽을 때 '도서명'과 '대출건수' 같은 열의 자료형을 자동으로 파악함.
        - 이때 메모리를 효율적으로 사용하기 위해 CSV 파일을 조금씩 나누어 읽음. 이때 자동으로 파악한 자료형이 달라지면 경고가 발생함.
            - 첫 번째 덩어리를 읽음: Pandas가 첫 번째 덩어리에서 특정 열을 읽었더니 모든 데이터가 정수처럼 보임. 그래서 이 열을 정수형으로 판단함.
            - 두 번째 덩어리를 읽음: 그런데 두 번째 덩어리에서 같은 열을 읽었더니 소수점이 있는 것.
            - 이렇게 되면 Pandas는 "처음에 정수라고 생각했는데, 뒤에 가니 다른 자료형이 섞여 있네? 자료형이 혼합되어 있으니 확인해봐"라고 경고를 보내는 것임.


In [None]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr',
                 low_memory=False)

In [None]:
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


- low_memory 매개변수를 False로 지정하면 경고는 발생하지 않지만, CSV 파일을 한번에 모두 읽기 때문에 많은 메모리를 사용함.
    - CSV 파일이 아주 큰 경우 메모리 부족 오류가 발생할 수 있음.
- low_memory 매개변수를 사용하지 않는 다른 방법: 열의 자료형을 자동으로 찾지 않도록 dtype 매개변수로 자료형을 지정하는 방법

In [None]:
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr',
                 dtype={'ISBN': str, '세트 ISBN': str, '주제분류번호': str})
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


- CSV를 데이터프레임으로 읽으면 첫 행을 열 이름으로 자동 인식함.
    - 열 이름이 없다는 것을 알려주려면 read_csv() 함수 호출 시 매개변수에 header = None, names = ['열1', '열2', ...]을 포함해야 함.

In [None]:
df.to_csv('ns_202104.csv')

In [None]:
with open('ns_202104.csv') as f:
    for i in range(3):
        print(f.readline(), end='')

,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,


In [None]:
ns_df = pd.read_csv('ns_202104.csv', low_memory=False)
ns_df.head()

Unnamed: 0.1,Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [None]:
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [None]:
df.to_csv('ns_202104.csv', index=False)

In [None]:
# 코랩을 사용하는 경우 xlsxwriter 패키지를 설치해 주세요.
!pip install xlsxwriter

Collecting xlsxwriter
  Downloading XlsxWriter-3.2.0-py3-none-any.whl.metadata (2.6 kB)
Downloading XlsxWriter-3.2.0-py3-none-any.whl (159 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/159.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━[0m [32m153.6/159.9 kB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m159.9/159.9 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xlsxwriter
Successfully installed xlsxwriter-3.2.0


In [None]:
ns_df.to_excel('ns_202104.xlsx', index=False, engine='xlsxwriter')