# Character Encodings

## 환경 설정

In [57]:
import pandas as pd
import numpy as np

# 인코딩 추정 도구
import charset_normalizer

np.random.seed(0)

## 인코딩이란?
- 0/1의 바이트열(ex. 01101000 01101001)을 사람이 읽는 문자(ex. "hi")로 맵핑하는 규칙
- 인코딩이 서로 다르면, 문자가 깨지는 현상 발생 (ex. æ–‡å—åŒ–ã??)
- 표준: UTF-8

### Python 3에서 텍스트 관련 2가지 핵심 타입
- str: 기본 텍스트 (문자열)
- bytes: 정수 시퀀스 (문자열을 특정 인코딩으로 인코드하면 bytes가 됨)

In [59]:
# str

before = "This is the euro symbol: €"
type(before)

str

In [62]:
# bytes

after = before.encode("utf-8", errors="replace")
type(after)

bytes

In [64]:
# bytes는 출력시 ASCII로 가정해 보여줌
# 그래서 유로 기호는 \xe2\x82\xac 같은 이스케이프로 표현됨

after

b'This is the euro symbol: \xe2\x82\xac'

In [66]:
# 올바른 디코딩

print(after.decode("utf-8"))

This is the euro symbol: €


In [69]:
# 잘못된 인코딩으로 디코드하면 에러 발생

print(after.decode("ascii"))

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 25: ordinal not in range(128)

In [71]:
# 잘못된 인코딩으로 인코드하면?
# 문자열은 기본적으로 UTF-8인데, 이를 ASCII로 인코드하며 errors="replace"를 주면 ASCII에 없는 문자를 ?로 바꿔버림

before = "This is the euro symbol: €"
after = before.encode("ascii", errors="replace")
print(after.decode("ascii"))

This is the euro symbol: ?


## 파일 읽기 시 인코딩 문제

In [72]:
# 이 파일은 UTF-8이 아니므로 에러 발생

kickstarter_2016 = pd.read_csv("Data/ks-projects-201612.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x99 in position 7955: invalid start byte

In [78]:
# 처음 일부 바이트(10000)만 읽어 인코딩 추정

with open("Data/ks-projects-201612.csv", 'rb') as rawdata:
    result = charset_normalizer.detect(rawdata.read(10000))
    
print(result)

{'encoding': 'windows-1250', 'language': 'English', 'confidence': 1.0}


In [80]:
# 예측된 인코딩으로 다시 읽기

kickstarter_2016 = pd.read_csv("Data/ks-projects-201612.csv", encoding="Windows-1252")

kickstarter_2016.head()

  kickstarter_2016 = pd.read_csv("Data/ks-projects-201612.csv", encoding="Windows-1252")


Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09 11:36:00,1000,2015-08-11 12:12:28,0,failed,0,GB,0,,,,
1,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26 00:20:50,45000,2013-01-12 00:20:50,220,failed,3,US,220,,,,
2,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16 04:24:11,5000,2012-03-17 03:24:11,1,failed,1,US,1,,,,
3,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29 01:00:00,19500,2015-07-04 08:35:03,1283,canceled,14,US,1283,,,,
4,1000014025,Monarch Espresso Bar,Restaurants,Food,USD,2016-04-01 13:38:27,50000,2016-02-26 13:38:27,52375,successful,224,US,52375,,,,


In [82]:
# Python 기본이 UTF-8이므로, 읽어온 후 저장하면 자동으로 UTF-8로 저장됨

kickstarter_2016.to_csv("ks-projects-201801-utf8.csv")