# **처음 시작하는 파이썬**
---



# Chapter 12 | 데이터 길들이기
---

## 12.1 텍스트 문자열 : 유니코드

### 1) 파이썬 3 유니코드 문자열

1. **unicodedata** 모듈은 유니코드 식별다와 이름으로 검색할 수 있는 함수 제공
* `lookup` : 인수로 대소문자를 구분하지 않는 이름을 취하고, 유니코드 문자 반환
* `name` : 인수로 유니코드 문자를 취하고, 대문자 이름 반환

### 2) 인코딩

In [1]:
snowman = '\u2603'

len(snowman)

1

In [3]:
#바이트 시퀀스로 인코딩

ds = snowman.encode('utf-8')

len(ds)

3

In [4]:
snowman.encode('ascii','ignore') #알수 없는 문자 인코딩하지 않음

b''

In [5]:
snowman.encode('ascii','replace') #알수없는 문자 ?로 대체

b'?'

### 3) 디코딩

In [6]:
place = 'caf\u00e9'

place

'café'

In [7]:
type(place)

str

In [8]:
#UTF-8 형식으로 인코딩하여 변수에 할당

place_bytes = place.encode('utf-8')
place_bytes

b'caf\xc3\xa9'

### 4) HTML 엔티티

In [9]:
pip install html

Collecting htmlNote: you may need to restart the kernel to use updated packages.

  Downloading html-1.16.tar.gz (7.6 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'error'


  error: subprocess-exited-with-error
  
  × Getting requirements to build wheel did not run successfully.
  │ exit code: 1
  ╰─> [20 lines of output]
      Traceback (most recent call last):
        File "c:\Users\DaBin\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
          main()
        File "c:\Users\DaBin\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
          json_out['return_val'] = hook(**hook_input['kwargs'])
                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "c:\Users\DaBin\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel
          return hook(config_settings)
                 ^^^^^^^^^^^^^^^^^^^^^
        File "C:\Users\DaBin\AppData\Local\Temp\pip-build-env-pw_hsj7k\

In [10]:
import html
html.unescape('&egrave;')

'è'

In [11]:
html.unescape('&#233;')

'é'

In [14]:
from html.entities import html5

html5['egrave']

'è'

In [15]:
#단일 파이썬 유니코드 문자에서 HTML 엔티티 이름으로 변환

import html
char = '\u00e9'
dec_value = ord(char)
html.entities.codepoint2name[dec_value]

'eacute'

### 5) 정규화

In [3]:
eacute1 = 'é' #UTF - 8
eacute2 = '\u00e9' #유니코드 코드 포인트

eacute1 == eacute2

True

In [4]:
import unicodedata

unicodedata.name(eacute1)

'LATIN SMALL LETTER E WITH ACUTE'

In [5]:
#10진수 정수

ord(eacute1)

233

In [6]:
#그냥 e와 양음 악센트를 결합

eacute_combined1 = 'e\u0301'
eacute_combined2 = 'e\N{COMBINING ACUTE ACCENT}'
eacute_combined3 = "e" + "\u0301"

eacute_combined1 == eacute_combined2 == eacute_combined3

True

In [7]:
eacute1 == eacute_combined1

False

In [8]:
#사용하는 소스가 다른 유니코드 텍스트 문자열이 있으면 같은 문자로 보여도 똑같이 동작하지 않음

import unicodedata
eacute_normalized = unicodedata.normalize('NFC', eacute_combined1)
len(eacute_normalized)

1

In [9]:
eacute_normalized == eacute1

True

## 12.2 정규 표현식

* You 는 **패턴**이고, YoungFrankenstein은 확인하고자 하는 문자열 **소스**

In [10]:
import re
result = re.match('You','Young Frankenstein')

1. `search` : 첫 번쨰 일치하는 항목 반환
2. `findall` : 중첩에 상관없이 패턴에 일치하는 모든 문자열 리스트 반환
3. `split` : 패턴에 맞게 소스를 쪼갠 후 문자열 조각의 리스트 반환
4. `sub` : 대체 인수를 하나 더 받아서, 패턴에 일치하는 모든 소스 부분을 대체 인수로 변경

### 1) 시작부터 일치하는 패턴 찾기 : `match`

In [11]:
import re

source = 'Young Frankenstein'
m = re.match('You',source) #소스의 시작부터 일치하는지 확인

if m :
    print(m.group())

You


In [12]:
m = re.match('^You',source)

if m :
    print(m.group())

You


In [13]:
#Frank로 찾아봄 => 아무것도 반환되지 않음

import re
source = 'Young Frankenstein'
m = re.match('Frank', source)
if m :
    print(m.group())

In [14]:
import re

source = 'Young Frankenstein'
if m := re.match('Frank', source) :
    print(m.group())

In [15]:
#search

import re

source = 'Young Frankenstein'
m = re.search('Frank', source)
if m :
    print(m.group())

Frank


* '.*Frank' 패턴

1. .은 한 문자를 의미
2. *은 어떤 패턴이 0회 이상 올 수 있다는 것을 의미
3. Frank는 포함되어야할 문구 의미

In [16]:
#패턴을 바꿔서 match 다시 사용

import re
source = 'Youg Frankenstein'
m = re.match('.*Frank',source)
if m : 
    print(m.group())

Youg Frank


### 2) 첫 번째 일치하는 패턴 찾기 : `search()`

In [17]:
import re
source = 'Young Frankenstein'
m = re.search("Frank", source)
if m : #search라는 객체 반환
    print(m.group())

Frank


### 3) 일치하는 모든 패턴 찾기 : `findall()`


In [18]:
#문자열에 n이 몇 개 있는지 
import re

source = 'Young Frankenstein'
m = re.findall('n',source)
m

['n', 'n', 'n', 'n']

In [19]:
print('Found',len(m), 'matches')

Found 4 matches


In [20]:
#n 다음에 어떤 문자가 오는지
#마지막 n은 패턴에 포함되지 않음

import re
source = 'Young Frankenstein'
m = re.findall('n.', source)
m

['ng', 'nk', 'ns']

* `.?` : 한 문자 뒤에 0 또는 1회 올 수 있다는 뜻

In [21]:
import re

source = 'Young Frankenstein'
m = re.findall('n.?', source)
m

['ng', 'nk', 'ns', 'n']

### 4) 패턴으로 나누기 : `split()`

In [22]:
import re
source = 'Young Frankenstein'
m = re.split('n',source)
m 

['You', 'g Fra', 'ke', 'stei', '']

### 5) 일치하는 패턴 대체하기 : `sub()`

* 리터럴 문자열이 아닌 패턴 사용

In [23]:
import re
source = 'Young Frankenstein'
m = re.sub('n','?', source)
m

'You?g Fra?ke?stei?'

### 6) 패턴 : 특수문자

|패턴일치||
|---|---|
|\d|숫자|
|\D| 비숫자 |
|\w|알파벳 문자|
|\W|비알파벳 문자|
|\s|공백 문자|
|\S|비공백 문자|
|\b|단어 경계|

* **string** 모듈은 테스트에 사용할 수 있는 문자열 상수 정의되어있음

In [1]:
import string
printable = string.printable
len(printable)

100

In [2]:
printable[0:50]

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN'

In [4]:
#printable에서 숫자는?

import re
re.findall('\d', printable)

  re.findall('\d', printable)


['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [5]:
#숫자와 문자, 언더바

re.findall('\w',printable)

  re.findall('\w',printable)


['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']

In [6]:
re.findall('\s',printable)

  re.findall('\s',printable)


[' ', '\t', '\n', '\r', '\x0b', '\x0c']

### 7) 패턴 : 지정자

In [7]:
#소스 문자열 정의

source = '''I wish I may, I wish I might Have a dish of fish tonight.'''

In [8]:
#wish 모두 찾기

re.findall('wish',source)

['wish', 'wish']

In [9]:
#wish 또는 fish

re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [10]:
#wish로 시작하는 것

re.findall('^wish',source)

[]

In [11]:
#I wish로 시작하는 것
re.findall('^I wish', source)

['I wish']

In [12]:
#fish로 끝나는 것

re.findall('fish$',source)

[]

* 문자 **^** : 검색 문자열의 시작 위치
* 문자 **$** : 검색 문자열의 마지막 위치에 고정

In [13]:
#fish tonight.으로 끝나는 것

re.findall('fish tonight.$', source)

['fish tonight.']

In [14]:
#w 또는 f 다음에 ish가 오는 것

re.findall('[wf]ish',source)

['wish', 'wish', 'fish']

In [15]:
#w,s,h가 하나 이상 인 것

re.findall('[wsh]+',source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [16]:
#ght 다음에 알파벳 문자가 아닌 것

re.findall('ght\W', source)

  re.findall('ght\W', source)


['ght ', 'ght.']

In [17]:
#wish 이전에 나오는 I

re.findall('I (?=wish)', source)

['I ', 'I ']

In [18]:
#I 다음에 나오는 wish

re.findall('(?<=I) wish', source)

[' wish', ' wish']

* 정규표현식의 패턴을 입력하기 전에 항상 **문자 r**을 입력해야 충돌이 일어나는 것 피할 수 있음

### 8) 패턴 : 매칭 결과 지정하기

In [23]:
m = re.search(r'(. dish\b).*(\bfish)',source)
m.group() #객체 m으로부터 결과 반환

'a dish of fish'

In [25]:
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)',source)

m.group()

'a dish of fish'

## 12.3 이진 데이터

### 1) 바이트와 바이트 배열

1. 바이트 : 바이트의 튜플처럼 불변
2. 바이트 배열 : 바이트의 리스트처럼 가변

In [26]:
blist = [1,2,3,255]
the_bytes = bytes(blist) #바이트 변수
the_bytes

b'\x01\x02\x03\xff'

In [27]:
the_byte_array = bytearray(blist) #바이트 배열 변수
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [28]:
#바이트 변수가 불변함

blist = [1,2,3,255]
the_bytes = bytes(blist)
the_bytes[1] = 127

TypeError: 'bytes' object does not support item assignment

In [29]:
#바이트 배열 변수는 변경 가능

the_byte_array = bytearray(blist)
the_byte_array[1] = 127 

### 2) 이진 데이터 변환하기 : `struct`

* ``>`는 정수가 **빅 엔디언** 형식으로 저장되었다는 것 의미
* 각각의 L은 4바이트의 부호 없는 long 정수 지정

In [31]:
import struct

valid_png_header = b'\x89PNG\r\n\x1a\n'
data = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR' + b'\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0'
if data[:8] == valid_png_header : 
    width, height = struct.unpack('>LL', data[16:24])
    print('Valid PNG, width', 'height',height)
 
else :
    print('Not a valid PNG')   

Valid PNG, width height 36104


In [32]:
data[16:20]

b'\x00\x00\x9a\x00'

In [33]:
#가로와 세로의 길이는 255이하이므로 각 시퀀스의 마지막 바이트와 일치
0x9a

154

In [34]:
#파이썬 데이터를 바이트로 변환 가능

import struct

struct.pack('>L',154)

b'\x00\x00\x00\x9a'

### 3) 기타 이진 데이터 도구

In [36]:
pip install construct

Note: you may need to restart the kernel to use updated packages.Collecting construct
  Obtaining dependency information for construct from https://files.pythonhosted.org/packages/3d/ca/36191d582a2db51c079094439fc7fca305c9082b95549f3e351b3c9e299e/construct-2.10.69-py3-none-any.whl.metadata
  Downloading construct-2.10.69-py3-none-any.whl.metadata (4.1 kB)
Downloading construct-2.10.69-py3-none-any.whl (62 kB)
   ---------------------------------------- 0.0/62.5 kB ? eta -:--:--
   ---------------------------------------- 0.0/62.5 kB ? eta -:--:--
   ------ --------------------------------- 10.2/62.5 kB ? eta -:--:--
   ------ --------------------------------- 10.2/62.5 kB ? eta -:--:--
   ------------- -------------------------- 20.5/62.5 kB 81.9 kB/s eta 0:00:01
   -------------------------- ------------- 41.0/62.5 kB 178.6 kB/s eta 0:00:01
   ---------------------------------------- 62.5/62.5 kB 239.6 kB/s eta 0:00:00
Installing collected packages: construct
Successfully installed co


[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from construct import Struct, Magic, UBI