[예제 코드](https://github.com/rickiepark/hg-da)

> gdown.download()

- 이 함수를 사용하면 Google Drive에 공유된 파일을 다운로드할 수 있습니다.

```python
import gdown
url = 'https://drive.google.com/your_file_link'
output = 'your_output_file_name'
gdown.download(url, output, quiet=False)
```


In [None]:
# 코랩에서 데이터 다운하기
import gdown
gdown.download('https://bit.ly/3eecMKZ', '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

Downloading...
From: https://bit.ly/3eecMKZ
To: /content/남산도서관 장서 대출목록 (2021년 04월).csv
100%|██████████| 58.1M/58.1M [00:00<00:00, 106MB/s]


'남산도서관 장서 대출목록 (2021년 04월).csv'

> 이진 data

- 이진 데이터는 0과 1로 이루어진 데이터를 말합니다. 컴퓨터의 모든 데이터는 기본적으로 이진 형태로 저장되고 처리됩니다. 이진 데이터는 일반적으로 비트(bit)와 바이트(byte) 단위로 표현됩니다.
- 비트: 0 또는 1의 값을 갖는 가장 작은 데이터 단위입니다. 두 가지 상태를 표현할 수 있으므로 이진(binary)이라고 부릅니다.
- 바이트: 8개의 비트로 구성된 데이터 단위입니다. 컴퓨터에서 가장 기본적인 데이터 단위로 사용되며, 0부터 255까지의 값을 나타낼 수 있습니다.
- 이진 데이터는 텍스트, 이미지, 오디오, 비디오 등 모든 종류의 데이터를 포함합니다. 예를 들어, 텍스트 파일은 문자와 기호를 이진 형태로 저장합니다. 이미지 파일은 픽셀의 색상과 밝기를 이진 형태로 표현합니다. 오디오 파일은 소리의 진폭을 이진 형태로 저장합니다.

> **인코딩 : 데이터를 컴퓨터가 이해할 수 있는 형식(0 & 1)으로 변환하는 과정**

- 텍스트 데이터의 경우 문자를 이진 형태로 변환하는 과정을 인코딩
- 이진 데이터로 저장되는 텍스트는 컴퓨터에서 처리하기 쉽도록 특정한 형식으로 인코딩


> **파일의 인코딩이 명시적으로 지정되어 있지 않은 경우**
- 예를 들어, 텍스트 파일을 다른 환경에서 작성하고 해당 파일의 인코딩을 모르는 경우가 있습니다. 이런 경우에는 파일을 이진 모드로 읽은 후에 인코딩을 감지하여 적절한 인코딩으로 디코딩할 수 있습니다.

- 일반적으로 텍스트 파일의 인코딩을 확인하려면 파일을 텍스트 모드로 열고,  언어나 문자열의 구조를 기반으로 인코딩을 추론하는 방법이 더 일반적입니다.

- 그러나 때로는 **파일의 인코딩이 명시적으로 지정되어 있지 않은 경우가 있을 수 있습니다**. 이런 경우에는 **파일을 이진 모드로 읽은 후에 인코딩을 감지하는 방법**을 사용할 수 있습니다. 일반적으로 이는 어떤 인코딩을 사용해야 하는지 확신할 수 없는 경우에 유용합니다.

- **특히 텍스트 파일의 경우 파일의 맨 앞에 특정 인코딩 방식을 명시하는 헤더(header)가 있을 수 있습니다. 그러나 이 헤더가 누락되거나 잘못된 경우에는 파일의 인코딩을 정확하게 알 수 없습니다. 이런 경우에는 파일을 이진(binary) 모드로 읽은 후에 인코딩을 감지하는 방법을 사용할 수 있습니다.** 이 방법은 파일의 데이터를 분석하여 가장 적합한 인코딩 방식을 찾아내는 방법입니다.

- 대표적으로 사용되는 라이브러리 중 하나는 chardet입니다. 이를 사용하여 코딩이 명시되어 있지 않은 경우에는 이진 데이터를 분석하여 인코딩을 감지하는 방법으로 해당 데이터의 인코딩을 알아낼 수 있습니다.

```python
import chardet
with open('file.txt', 'rb') as f:
    data = f.read()
    encoding = chardet.detect(data)['encoding']
print("File encoding:", encoding)
```

> - 바이너리 읽기 모드인 'rb'는 파일을 이진(binary) 데이터로 읽기 위한 모드입니다. 이 모드는 텍스트 파일 뿐만 아니라 이미지, 오디오, 비디오 등의 이진 파일을 읽을 때 사용됩니다.
- 파이썬에서 파일을 열 때 기본적으로 텍스트 모드인 'r'을 사용하여 텍스트 파일을 읽습니다. 이 모드에서는 파일을 문자열로 읽어들이며, 문자열을 처리하는데 적합합니다.
- 바이너리 읽기 모드에서 파일을 읽으면 파일의 내용을 바이트(byte) 단위로 읽어들입니다. 이진 파일은 텍스트 파일과 달리 특정 문자 인코딩이 적용되지 않으며, 이진 데이터를 정확히 그대로 읽어들입니다.

In [None]:
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode = 'rb') as f:
  d = f.readline()
print(chardet.detect(d))

{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


In [4]:
# csv 파일은 텍스트 파일이기에 파이썬의 open() 함수로 읽어올 수 있다
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode = 'rb') as f:
  d = f.readline()
print(chardet.detect(d))

{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


### 인코딩 형식 지정하기

In [5]:
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding = 'EUC-KR') as f:
  print(f.readline())
  print(f.readline())

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,

"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",



- 크기가 큰 csv 파일을 읽어볼 떄는 파이썬의 open()과 readline() 메서드로 처음 몇 줄을 출력해보면 파일의 내용을 빠르게 알 수 있다.

### 데이터 프레임 다루기 : 판다스

> 판다스는 csv 파일을 읽을 때, 각 열에 어떤 종류의 데이터가 저장되어 있는 지 자동으로 파악한다. 그런데 메모리를 효율적으로 사용하기 위해 csv 파일을 조금씩 나누어 읽는다. 이때 자동으로 파악한 데이터 타입이 달라지면 경고가 발생한다.

- 이 경고는 주로 데이터프레임의 열(column)에 다양한 데이터 유형이 혼합되어 있는 경우에 발생합니다. 즉, 같은 열에 숫자와 문자열이 혼합되어 있거나, 데이터가 일관되게 파싱되지 않은 경우에 발생할 수 있습니다.

- DtypeWarning이 발생하는 원인은 주로 데이터를 읽을 때 열의 데이터 유형을 정확하게 파악하지 못하여 발생합니다. 예를 들어, Pandas가 열의 데이터 유형을 자동으로 추론하는데 실패하거나, 데이터가 일관되게 구성되어 있지 않은 경우에 이런 경고가 발생할 수 있습니다.

> DtypeWarning이 발생하는 원인을 해결하려면 데이터를 정확하게 파싱하거나, **데이터프레임을 생성할 때 dtype 옵션을 사용하여 각 열의 데이터 유형을 명시적으로 지정해야 합니다.**

In [8]:
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='euc-kr', dtype = {'ISBN' : str, '세트 ISBN' : str, '주제분류번호' : str})

In [9]:
df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


- 판다스에서는 행마다 0부터 시작하는 index를 붙여줌

- csv 파일의 첫 행이 0이 아니면 read_csv()의 header 매개변수를 Nonde으로 지정해서 데이터 첫 행에 열 이름이 없다는 것을 알려주고, names 매개변수에 열 이름 리스트를 별도로 전달해준다. => 리스트로 전달해준다고 해서 중복이 있으면 안 된다.

In [10]:
df.to_csv('ns_202104.csv')

In [11]:
with open('ns_202104.csv') as f:
    for i in range(3):
        print(f.readline(), end='')

,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,


csv 파일의 첫 번째 열에 인덱스가 이미 있다는 것을 알려주기 위해 index_col  = 0으로 설정

In [12]:
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [13]:
df.to_csv('ns_202104.csv', index=False)