## 문자의 표현
- 컴퓨터에서의 문자표현
  - 영어는 알파벳이 대소문자 합쳐서 52개 이므로 6(64가지)비트면 모두 표현할 수 있다. 이를 코드체계라고 한다.
  - 표준 코드체계 지정 - 아스키 코드(ASCII): 7비트, 128문자
  - 다국어 처리 표준 - 유니코드
    - 바이트 순서에 대해 표준화하지 못했음
    - UCS-2, UCS-4 각 경우를 구분해서 모두 다르게 구현해야 하는 문제 발생
    - 적당한 외부 인코딩 필요

## 문자열
- 파이썬에서의 문자열 처리
  - char 타입 없음
  - 텍스트 데이터의 취급방법이 통일되어 있음
  - 시퀀스 자료형으로 인덱스, 슬라이싱 연산들 사용 가능
  - 튜플과 같이 요소값을 변경 할 수 없음(immutable)
- 문자열 뒤집기
- 문자열 비교
- 문자열 정수로 변환

In [5]:
# 문자열 뒤집기
s = 'abcd'
for a in s[::-1]:
    print(''.join(a),end='')

dcba

In [None]:
# 문자열 비교
s1 = 'abc'
s2 = 'abc'
s3 = 'def'
s4 = s1
s5 = s1[:2] + 'c'
print(s1 == s2)
print(s1 is s2)
print(s1 == s4)
print(s1 is s4)
print(s2 == s4)
print(s2 is s4)
print(s1 == s5)
print(s1 is s5)


In [13]:
# int()와 같은 atoi()함수 만들기
def atoi(s):
    i = 0
    for x in s:
        i = i*10 + ord(x) - ord('0')
    return i
print(atoi('123'))

123


In [10]:
# str()와 같은 itoa()함수 만들기
def itoa(x):
    s = []
    if x < 0:
        x = abs(x) 
        while True:
            c = x % 10
            s.append(chr(c + ord('0')))
            x = x//10
            if x == 0:
                break
        s.reverse()
        return '-' + ''.join(s)
    else:
        while True:
            c = x % 10
            s.append(chr(c + ord('0')))
            x = x//10
            if x == 0:
                break
        s.reverse()
        return ''.join(s)
print(ord('0'))
print(itoa(123))
print(itoa(-123))





48
123
-123


## 패턴 매칭
  - 고지식한 패턴 검색 알고리즘
  - 카프-라빈 알고리즘
  - KMP 알고리즘
  - 보이어-무어 알고리즘

### 고지식한 알고리즘(Brute Force)
- 본문 문자열을 처음부터 끝까지 차례대로 순회하면서 패턴 내의 문자들을 일일이 비교하는 방식으로 동작
- 시간 복잡도
  - 최악의 경우 O(MN)
  - M: 찾고자 하는 문자열 패턴의 길이, N: 총 문자열의 길이

In [55]:
p = 'is'
t = 'This is a book~!'
M = len(p)
N = len(t)

def BruteForce(p, t):
    i = 0   # t의 인덱스
    j = 0   # p의 인덱스
    while j < M and i < N:
        if t[i] != p[j]:
            i = i - j
            j = -1
        i += 1
        j += 1
    if j == M: return i - M # i = 4, M = 2 인덱스 2에서 일치
    else: return -1 # 검색 실패
print(BruteForce(p, t))

2


### KMP 알고리즘
- 불일치가 발생한 텍스트 스트링의 앞 부분에 어떤 문자가 있는지를 미리 알고 있으므로, 불일치가 발생한 앞 부분에 대하여 다시 비교하지 않고 매칭을 수행
- 패턴을 전처리하여 배열 next[M]을 구해서 잘못된 시작을 최소화 (next[M]: 불일치가 발생한 경우 이동할 다음 위치)
- 시간 복잡도: O(M + N)

In [None]:
M = len(p)
lps = [0] * (M+1)
# preprocessing
j = 0 # 일치한 개수== 비교할 패턴 위치
lps[0] = -1
for i in range(1, M):
    lps[i] = j          # p[i]이전에 일치한 개수
    if p[i] == p[j]:
        j += 1
    else:
        j = 0
lps[M] = j
# search
i = 0   # 비교할 텍스트 위치
j = 0   # 비교할 패턴 위치
while i < N and j <= M:
    if j==-1 or t[i]== p[j]:     # 첫글자자 불일치했거나, 일치하면
        i += 1
        j += 1
    else:               # 불일치
        j = lps[j]
    if j==M:    # 패턴을 찾을 경우
        print(i-M, end = ' ')    # 패턴의 인덱스 출력
        j = lps[j]

    print()
    return


t = 'zzzabcdabcdabcefabcd'
p = 'abcdabcef'
kmp(t, p)
t = 'AABAACAADAABAABA'
p = 'AABA'
kmp(t, p)
t = "AAAAABAAABA"
p =  "AAAA"
kmp(t, p)
t = "AAAAABAAABA"
p =  "AA"
kmp(t, p)

### 보이어-무어 알고리즘
- 패턴의 오른쪽부터 비교
- 대부분의 상용 소프트웨어에서 채택
- 패턴에 오른쪽 끝에 있는 문자가 불일치 한 경우
  - 이 문자가 패턴 내에 존재하지 않으면 패턴의 길이만큼 이동하고
  - 이 문자가 패턴 내에 존재할 경우 패턴에서 일치하는 문자만큼 이동
- 시간 복잡도
  - 최악의 경우 O(MN)이지만 일반적으로 O(N)보다 짧음
  

## 문자열 암호화
- 시저 암호
- 단일 치환 암호
- bit열의 암호화

## 문자열 압축
- Run-length encoding 알고리즘
  - 같은 값이 몇 번 반복되는가
  - ABBBBBBBBA -> A1B8A1
  - BMP 파일포맷의 압축 방법
- 많이 사용하는 알고리즘으로 허프만 코딩 알고리즘이 있음

In [2]:
lst = []
lst.append('a')
print(lst)

['a']
