## 데이터 주무르기

## 텍스트 문자열

## 유니코드

In [1]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print('value="%s", name="%s", value2="%s"' % (value, name, value2))

In [2]:
unicode_test('A')

value="A", name="LATIN CAPITAL LETTER A", value2="A"


In [3]:
unicode_test('$')

value="$", name="DOLLAR SIGN", value2="$"


In [4]:
unicode_test('\u00a2')

value="¢", name="CENT SIGN", value2="¢"


In [5]:
unicode_test('\u20ac')

value="€", name="EURO SIGN", value2="€"


In [6]:
unicode_test('\u2603')

value="☃", name="SNOWMAN", value2="☃"


In [7]:
place = 'café'
place

'café'

In [10]:
import unicodedata

In [11]:
unicodedata.name('\u00e9')

'LATIN SMALL LETTER E WITH ACUTE'

In [13]:
unicodedata.lookup('LATIN SMALL LETTER E WITH ACUTE')

'é'

In [14]:
place = 'caf\u00e9'
place

'café'

In [15]:
place = 'caf\N{LATIN SMALL LETTER E WITH ACUTE}'
place

'café'

In [16]:
u_umlaut = '\N{LATIN SMALL LETTER U WITH DIAERESIS}'
u_umlaut

'ü'

In [17]:
drink = 'Gew' + u_umlaut + 'rztraminer'
print('Now I can finally have my', drink, 'in a', place)

Now I can finally have my Gewürztraminer in a café


In [18]:
len('$')

1

In [19]:
# 문자열 len 함수는 유니코드의 바이트가 아닌 문자의 수를 센다
len('\U0001f47b')

1

## 인코딩

In [20]:
snowman = '\u2603'
len(snowman)

1

In [23]:
# 유니코드 문자를 바이트 시퀀스로 인코딩
ds = snowman.encode('utf-8')
ds

b'\xe2\x98\x83'

In [24]:
# utf-8은 가변길이인코딩이다. 이 경우 snowman 유니코드 문자를 인코딩 하기 위해 3바이트를 사용한다
len(ds)

3

In [25]:
# 아스키 인코딩을 사용할 때, 유니코드 문자가 유효한 아스키 문자가 아닌 경우 에러가 발생한다
ds = snowman.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

In [32]:
# encode() 함수는 인코딩 예외를 피하기 위해 두 번재 인자를 취한다.

# ignore 는 알 수 없는 문자를 인코딩하지 않는다
snowman.encode('ascii', 'ignore')

b''

In [33]:
# replace 는 알 수 없는 문자를 ? 로 대체한다
snowman.encode('ascii', 'replace')

b'?'

In [34]:
# backslashreplace 는 유니코드 이스케이프처럼 파이썬 유니코드 문자의 문자열을 만든다
snowman.encode('ascii', 'backslashreplace')

b'\\u2603'

In [35]:
# xmlcharrefreplace 는 유니코드 이스케이프 시퀀스를 출력할 수 있는 문자열로 만든다
snowman.encode('ascii', 'xmlcharrefreplace')

b'&#9731;'

## 디코딩

In [36]:
place = 'caf\u00e9'
place

'café'

In [37]:
type(place)

str

In [38]:
place_bytes = place.encode('utf-8')
place_bytes

b'caf\xc3\xa9'

In [39]:
type(place_bytes)

bytes

In [40]:
place2 = place_bytes.decode('utf-8')
place2

'café'

In [41]:
place3 = place_bytes.decode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [42]:
place4 = place_bytes.decode('latin-1')
place4

'cafÃ©'

In [44]:
place5 = place_bytes.decode('windows-1252')
place5

'cafÃ©'

In [45]:
# 결국 이 예제들의 교훈은 뭐냐, 가능하면 utf-8을 사용하자는 것이다.

## 포맷

## 옛 스타일 : %

In [47]:
# 문자열
'%s' % 42

'42'

In [48]:
# 10진 정수
'%d' % 42

'42'

In [49]:
# 16진 정수
'%x' % 42

'2a'

In [50]:
# 8진 정수
'%o' % 42

'52'

In [51]:
'%s' % 7.03

'7.03'

In [52]:
'%f' % 7.03

'7.030000'

In [53]:
'%e' % 7.03

'7.030000e+00'

In [54]:
'%g' % 7.03

'7.03'

In [55]:
'%d%%' % 100

'100%'

In [56]:
actor = 'Richard Gere'
cat = 'Chester'
weight = 28

In [57]:
"My wife's favorite actor is %s" % actor

"My wife's favorite actor is Richard Gere"

In [59]:
"Our cat %s weighs %s pounds" % (cat, weight)

'Our cat Chester weighs 28 pounds'

In [60]:
n = 42
f = 7.03
s = 'string cheese'

In [61]:
'%d %f %s' % (n,f,s)

'42 7.030000 string cheese'

In [62]:
'%10d %10f %10s' % (n,f,s)

'        42   7.030000 string cheese'

In [63]:
'%-10d %-10f %-10s' % (n,f,s)

'42         7.030000   string cheese'

In [64]:
'%10.4d %10.4f %10.4s' % (n,f,s)

'      0042     7.0300       stri'

In [65]:
'%*.*d %*.*f %*.*s' % (10,4,n,10,4,f,10,4,s)

'      0042     7.0300       stri'

## 새로운 스타일의 포매팅 : {} 와 format

In [66]:
'{} {} {}'.format(n, f, s)

'42 7.03 string cheese'

In [67]:
'{2} {0} {1}'.format(n, f, s)

'string cheese 42 7.03'

In [68]:
'{n} {f} {s}'.format(n=42, f=7.03, s='string cheese')

'42 7.03 string cheese'

In [69]:
d = {'n':42, 'f':7.03, 's':'string cheese'}

In [70]:
'{0[n]} {0[f]} {0[s]} {1}'.format(d, 'other')

'42 7.03 string cheese other'

In [71]:
'{0:d} {1:f} {2:s}'.format(n, f, s)

'42 7.030000 string cheese'

In [72]:
'{n:d} {f:f} {s:s}'.format(n=42, f=7.03, s='string cheese')

'42 7.030000 string cheese'

In [73]:
'{0:10d} {1:10f} {2:10s}'.format(n, f, s)

'        42   7.030000 string cheese'

In [74]:
'{0:>10d} {1:>10f} {2:>10s}'.format(n, f, s)

'        42   7.030000 string cheese'

In [75]:
'{0:<10d} {1:<10f} {2:<10s}'.format(n, f, s)

'42         7.030000   string cheese'

In [76]:
'{0:^10d} {1:^10f} {2:^10s}'.format(n, f, s)

'    42      7.030000  string cheese'

In [79]:
# format 형태에서는 정수에 사용할 수 없다
'{0:>10.4d} {1:>10.4f} {2:>10.4s}'.format(n, f, s)

ValueError: Precision not allowed in integer format specifier

In [80]:
'{0:>10d} {1:>10.4f} {2:>10.4s}'.format(n, f, s)

'        42     7.0300       stri'

In [81]:
'{0:!^20s}'.format('BIG SALE')

'!!!!!!BIG SALE!!!!!!'

## 정규표현식

In [2]:
ignore test

SyntaxError: invalid syntax (<ipython-input-2-192aec6d4f23>, line 1)