In [1]:
## 문자열 조작이란 문자열을 변경하거나 분리하는 등의 여러 과정을 말한다.
## 원래 문자열은 low level에서 조작하거나, C처럼 문자형이 따로 없는 언어에서는 
## 조작이 매우 까다로운 편이다.
## 하지만 대부분의 언어에서는 별도의 문자열 자료형과 문자열을 조작하기 위한 다양한 기능들을 기본적으로 제공하고 있다.

In [2]:
## 문자열 조작은 코딩 테스트에서 매우 빈번하게 출제되는 주제 중 하나며,
## 특히 실무에서도 다양한 분야에 쓰이는 상당히 실용적인 주제다.

In [3]:
## 이 장에서는 문자열과 관련한 문제를 풀이하면서 
## 파이썬의 문자열 자료형에는 어떠한 기능들이 제공되고
## 문자열 조작과 처리에 어떠한 기법들이 쓰이는지 하나씩 살펴본다.

# 1. 유효한 팰린드롬

### LeetCode 125. Valid Palindrome

#####         주어진 문자열이 팰린드롬인지 확인하라. 대소문자를 구분하지 않으며, 영문자와 숫자만을 대상으로 한다.

In [4]:
# 예제 1
    # input: "A man, a plan, a canal: Panama"
    # output: true
    
# 예제 2
    # input: "race a car"
    # output: false

In [5]:
## 팰린드롬이란?
## 앞뒤가 똑같은 단어나 문장으로, 뒤집어도 같은 말이 되는 단어 또는 문장을 말한다.

##### 풀이 1 리스트로 변환

In [6]:
## 여기서는 직접 문자열을 입력 받아 판별한다.
## 이 문제는 대소문자를 구분하지 않으며 영문자, 숫자만을 대상으로 한다.

In [40]:
## 전체 코드

def isPalindrome(s: str) -> bool:
    strs = []
    for char in s:
        if char.isalnum(): # 영문자, 숫자 여부 판별 함수
            strs.append(char.lower()) # 소문자로 변경해주는 함수
            
    # 팰린드롬 여부 판별
    while len(strs) > 1:
        if strs.pop(0) != strs.pop():
            return False
        
    return True

In [34]:
import timeit

In [35]:
s = "race a car"
s_2 = "A man, a plan, a canal: Panama"

In [41]:
start = timeit.default_timer()

print(isPalindrome(s))

print("time: ", timeit.default_timer() - start)

False
time:  0.00014109999938227702


In [42]:
start = timeit.default_timer()

print(isPalindrome(s_2))

print("time: ", timeit.default_timer() - start)

True
time:  0.0001934000001710956


##### 풀이 2 Deque을 이용한 최적화

In [43]:
## Deque를 이용하면 좀 더 속도를 높일 수 있다.

import collections

def isPalindrome(s: str) -> bool:
    # 자료형 데크로 선언
    strs: Deque = collections.deque()
        
    for char in s:
        if char.isalnum():
            strs.append(char.lower())
            
    while len(strs) > 1:
        if strs.popleft() != strs.pop():
            return False
        
    return True

In [44]:
start = timeit.default_timer()

print(isPalindrome(s))

print("time: ", timeit.default_timer() - start)

False
time:  0.00011960000028921058


In [46]:
start = timeit.default_timer()

print(isPalindrome(s_2))

print("time: ", timeit.default_timer() - start)

True
time:  0.00012319999950705096


##### 풀이 3 슬라이싱 사용

In [47]:
## 여기서는 별달리 알고리즘이라 부를 만한 게 없다. 
## 정규식으로 불필요한 문자를 필터링하고, 문자열을 조작할 수 있는 파이썬의 슬라이싱을 사용했다.

In [48]:
## 앞서 풀이에서는 isalnum()으로 모든 문자를 일일이 점검했다.
## 여기서는 문자열 전체를 한 번에 영숫자만 걸러내도록 정규식으로 처리했다.

In [52]:
## 문자열을 바꿀 때
## re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수)

import re

re.sub('apple|orange', 'fruit', 'apple box orange tree') # apple 또는 orange를 fruit으로 바꿈

'fruit box fruit tree'

In [53]:
## 문자열에서 숫자만 찾아서 다른 문자로 바꿀 수 있다.

re.sub('[0-9]+', 'n', '1 2 Fizz 4 Buzz Fizz 7 8')

'n n Fizz n Buzz Fizz n n'

In [89]:
## 정규 표현식 Regular Expression
## 정규 표현식이란 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다.
## 정규 표현식에서 대괄호안에 문자를 넣게 되면 그 문자열을 포함시키라는 의미이다.
## [0-9]는 0부터 9까지 즉, [0123456789] == [0-9]가 되고 모든 숫자를 match시키라는 의미이다.

In [58]:
## [^0-9]에서 ^는 반대를 의미하므로 0-9가 들어간 문자열을 제외하라는 의미이다.
## [a-z]
## [^a-z]
## [A-Z]
## [^A-Z]
## [a-z0-9A-Z]
## [^a-z0-9A-Z] ## 대소문자 숫자 모두 제외
## [a-k0-5A-F] ## 이런 식으로도 사용할 수 있다.

In [59]:
def isPalindrome(s: str) -> bool:
    s = s.lower()
    # 정규식으로 불필요한 문자 필터링
    s = re.sub('[^a-z0-9]', '', s)
    
    return s == s[::-1]    ## 슬라이싱 : 인덱스 처음부터 끝까지 -1 step씩 == 리스트 역순으로 뒤집음

In [60]:
isPalindrome(s)

False

In [61]:
isPalindrome(s_2)

True

##### 풀이  4 C 구현

In [64]:
# bool isPalindrome(char * s){
#     int bias_left = 0;
#     int bias_right = 1;
    
#     int str_len = strlen(s);
    
#     for(int i = 0; i < str_len; i++){
    
#         while(!isalnum(s[i + bias_left])){
#             bias_left++;
#             if(i + bias_left == str_len)
#                 return true;
#         }
        
#         while(!isalnum(s[str_len - i - bias_right])){
#             bias_right++;
#         }
        
#         if(i + bias_left >= str_len - i - bias_right)
#             break;
            
#         // 팰린드롬 비교
#         if(tolower(s[i + bias_left]) != tolower(s[str_len - i - bias_right]))
#             return false;
#     }
    
#     return true;
# }

In [65]:
## **** 참고 ****

    ## 문자열 '안녕하세요'를 슬라이싱 해보는 예제
    
        ## S[1:4] == 녕하세
        ## S[1:-2] == 녕하
        ## S[1:] == 녕하세요
        ## S[:] == 안녕하세요
        ## S[1:100] == 녕하세요
        ## S[-1] == 요
        ## S[-4] == 녕
        ## S[:-3] == 안녕
        ## S[-3:] == 하세요
        ## S[::1] == 안녕하세요
        ## S[::-1] == 요세하녕안
        ## S[::2] == 안하요

# 2. 문자열 뒤집기

### LeetCode 344. Reverse String

##### 문자열을 뒤집는 함수를 작성하라. 입력값은 문자 배열이며, 리턴 없이 리스트 내부를 직접 조작하라.

In [66]:
## 예제 1
    ## input : ["h", "e", "l", "l", "o"]
    ## output : ["o", "l", "l", "e", "h"]
    
## 예제 2
    ## input : ["H", "a", "n", "n", "a", "h"]
    ## output : ["h", "a", "n", "n", "a", "H"]

##### 풀이 1 투 포인터를 이용한 스왑

In [67]:
## 두 개의 포인터를 이용해 범위를 조정해가며 풀이하는 방식

In [69]:
from typing import List

def reverseString(s: List[str]) -> None:
    left, right = 0, len(s) - 1
    while left < right:
        s[left], s[right] = s[right], s[left]
        left += 1
        right -= 1

##### 풀이 2 파이썬다운 방식

In [70]:
## 이 문제는 파이썬의 기본 기능을 이용하면 단 한 줄로 쉽게 풀이할 수 있다.
## 이러한 방식들을 흔히 Pythonic way 라 부른다.
## 입력값이 리스트로 제공되므로 reverse() 함수를 이용하면 뒤집을 수 있다.

In [71]:
def reverseString(s: List[str]) -> None:
    s.reverse()

In [72]:
## reverse()는 리스트에만 제공된다. 만약 입력값이 문자열이라면 문자열 슬라이싱을 사용할 수 있다.
## s = s[::-1]
## 그러나 leetcode에서는 오루가 발생한다. 원래는 [::-1]도 정상적으로 처리되어야 하지만 
## 이 문제의 경우 처리되지 않는데, 공간 복잡도를 O(1)로 제한하다 보니 변수 할당을 처리하는데
## 다소 제약이 있다. 이때는 다음과 같은 트릭을 사용하면 잘 동작한다.
## s[:] = s[::-1]
## 이런 트릭은 쉽게 알아내기 어려우며, 실제 코딩 테스트 시에도 이 같은 문제가 발생하면
## 디버깅에 상당히 애를 먹을 수 있으므로 플랫폼의 특징에 대해 충분한 숙지가 필요하다.

# 3. 로그파일 재정렬

### LeetCode 937. Reorder Log Files

#### 로그를 재정렬하라. 기준은 다음과 같다.

#####         - 1. 로그의 가장 앞 부분은 식별자다
#####         - 2. 문자로 구성된 로그가 숫자 로그보다 앞에 온다.
#####         - 3. 식별자는 순서에 영향을 끼치지 않지만, 문자가 동일한 경우 식별자 순으로 한다.
#####         - 4. 숫자 로그는 입력 순서대로 한다.

##### 풀이 1 람다와  +연산자를 이용

In [77]:
## 예제 1
    ## input : logs = ["dig1 8 1 5 1", "let1 art can", "dig2 3 6", "let2 own kit dig", "let3 art zero"]
    ## output : ["let1 art can", "let3 art zero", "let2 own kit dig", "dig1 8 1 5 1", "dig2 3 6"]

In [83]:
def reoderLogFiles(logs: List[str]) -> List[str]:
    letters, digits = [], []
    for log in logs:
        if log.split()[1].isdigit():
            digits.append(log)
        else:
            letters.append(log)
    
    # 2개의 키를 람다 표현식으로 정렬
    letters.sort(key=lambda x: (x.split()[1:], x.split()[0]))
    return letters + digits

In [84]:
## **** 람다 표현식 ****
    
    ## 람다 표현식이란 식별자 없이 실행 가능한 함수를 말하며, 함수 선언 없이도 하나의 식으로 
    ## 함수를 단순하게 표현할 수 있다. 
    ## 그러나 이 책에서는 람다 표현식보다 훨씬 더 간결하고 가독성이 높은 리스트 컴프리헨션을
    ## 주로 사용할 것이다. 그러나 람다로 풀이하는 게 더 편할 경우에 한해 일부 사용할 것이다.
    
    ## s = ['2 A', '1 B', '4 C', '1 A']
    ## sorted(s)
    ## ['1 A', '1 B', '2 A', '4 C']
    
    ## 그러나 우리가 원하는 결과는 각 요소의 번호 순 정렬이 아니라 문자 순 정렬이며, 
    ## 문자가 동일한 경우에만 그 앞 번호순으로 정렬되는 형태를 희망한다.
    ## 이때 리스트의 각 요소를 풀어서 별도 처리를 해줘야 하는데, 이때 람다 표현식을 사용할 수 있다.
    ## 만약 람다 표현식을 사용하지 않고 직접 함수를 선언하면 다음과 같은 형태가 된다.
    
    ## def func(x):
    ##     return x.split()[1], x.split()[0]
    
    ## s.sort(key=func)
    ## ['1 A', '2 A', '1 B', '4 C']
    
    ## 이제 람다 표현식을 사용하면, 다음과 같이 처리할 수 있다.
    
    ## s.sort(key=lambda x: (x.split()[1], x.split()[0]))
    ## ['1 A', '2 A', '1 B', '4 C']
    
    ## 그러나 람다 표현식은 코드가 길어지고 map이나 filter와 함께 섞어서 사용하기 시작하면 가독성이 매우 떨어질 수 있다.

In [74]:
## 요구 조건을 얼마나 깔끔하게 처리할 수 있는지를 묻는 문제이다.
## 실무에서도 이 같은 로직은 자주 쓰이는 만큼 매우 실용적인 문제로 볼 수 있다.

In [85]:
## 먼저 문자로 구성된 로그가 숫자 로그보다 이전에 오며, 숫자 로그는 입력 순서대로 둔다.
## 그렇다면 문자와 숫자를 구분하고, 숫자는 나중에 그대로 이어 붙인다.
## 로그 자체는 숫자 로그도 모두 문자열로 지정되어 있으므로, 타입을 확인하면 모두 문자로 출력된다.
## 따라서 isdigit()을 이용해서 숫자 여부인지를 판별해 구분해본다.

# 4. 가장 흔한 단어

### LeetCode 819. Most Common Word

##### 금지된 단어를 제외한 가장 흔하게 등장하는 단어를 출력하라. 대소문자 구분을 하지 않으며, 구두점(마침표, 쉼표 등) 또한 무시한다.

In [87]:
## 예제 1
    ## input : paragraph = "Bob hit a ball, the hit BALL flew far after it was hit."
    ##         banned = ["hit"]
    ## output: "ball"

##### 풀이 1 리스트 컴프리헨션, Counter 객체 사용

In [90]:
## 입력값에는 대소문자가 섞여 있으며 쉼표 등 구두점이 존재한다.
## 따라서 데이터 클렌징이라 부르는 입력값에 대한 전처리 작업이 필요하다.

In [91]:
## 편하게 처리하기 위해 정규식을 섞어 쓸 수 있다.
## 정규 표현식이란 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다.

## Meta characters, 메타 문자는 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자를 말한다.
## 정규 표현식에서 사용되는 메타 문자는 다음과 같다.

## ^ $ . * + ? \ | ( ) { } [ ] 

## 정규 표현식에서 대괄호는 대괄호 안에 포함된 문자들 중 하나와 매치를 뜻한다.
## 자주 사용하는 문자 클래스
## \d : 숫자 [0-9]와 같다
## \D : 비숫자 [^0-9]와 같다
## \w : 숫자 + 문자 [a-zA-Z0-9]와 같다
## \W : 비숫자 + 비문자 [^a-zA-Z0-9]와 같다
## \s : 공백 [\t\n\r\f\v]와 같다.
## \S : 비공백 [^\t\n\r\f\v]와 같다.

## 파이썬 정규 표현식 모듈
## import re

## raw string
## 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로의 문자열로 반환
## a = 'abcdef\n'
## print(a)
## abcdef
## b = 'abcedf\n'
## print(b)
## abcdef\n



In [109]:
import collections

def mostCommonWord(paragraph: str, banned: List[str]) -> str:
    # 문자와 숫자가 아닌 것 공백으로 치환하고, 소문자로 변경, 그리고 banned에 포함되지 않는 단어 스플릿해서 리스트에 담는다
    words = [word for word in re.sub(r'[^\w]', ' ', paragraph).lower().split() if word not in banned]
    
    counts = collections.Counter(words)
    #print(counts)
    # 가장 흔하게 등장하는 단어의 첫 번째 인덱스 리턴
    return counts.most_common(1)[0][0]

In [93]:
paragraph = "Bob hit a ball, the hit BALL flew far after it was hit."
banned = ["hit"]

In [108]:
mostCommonWord(paragraph, banned)

'ball'

# 5. 그룹 애너그램

### LeetCode 49. Group Anagrams

##### 문자열 배열을 받아 애너그램 단위로 그룹핑하라.

In [110]:
## 예제 1
    ## input : ["eat", "tea", "tan", "ate", "nat", "bat"]
    ## output : [
    ##              ["ate", "eat", "tea"],
    ##             ["nat", "tan"],
    ##            ["bat"]
    ##          ]

In [112]:
## **** 참고 ****
    ## 애너그램이란 일종의 언어유희로 문자를 재배열하여 다른 뜻을 가진 단어로 바꾸는 것을 말한다.

##### 풀이 1 정렬하여 딕셔너리에 추가

In [114]:
## 애너그램을 판단하는 가장 간단한 방법은 정렬하여 비교하는 것이다.
## 애너그램 관계인 단어들을 정렬하면, 서로 같은 값을 갖게 되기 때문이다.

In [158]:
def groupAnagrams(strs: List[str]) -> List[List[str]]:
    anagrams = collections.defaultdict(list)
    
    for word in strs:
        # 정렬하여 딕셔너리에 추가
        anagrams[''.join(sorted(word))].append(word)
    return anagrams.values()

# 여러 가지 정렬 방법

In [159]:
## 파이썬은 정렬 함수를 기본으로 제공한다. 
## 여기서는 정렬 알고리즘 자체보다는 파이썬 정렬 함수의 기능과 관련한 내용을 간단히 다룬다.

In [160]:
a = [2, 5, 1, 9, 7]
sorted(a)

[1, 2, 5, 7, 9]

In [161]:
## 당연하게도 이처럼 리스트를 잘 정렬하며, 비단 숫자뿐만 아니라 문자도 정렬이 가능하다.

In [162]:
b = 'zbdaf'
sorted(b)

['a', 'b', 'd', 'f', 'z']

In [163]:
## 문자열을 알파벳 순서대로 정렬한 리스트를 결과로 리턴한다.
## 다시 문자열로 결합하려면 다음과 같이 join()을 이용하면 된다.

In [164]:
"".join(sorted(b))

'abdfz'

In [165]:
## sorted()라는 별도 함수 외에도 리스트 자료형은 sort() 메소드를 함께 제공하며, 리스트 자체를 정렬할 수 있다.
## 이를 제자리 정렬(In-place Sort)이라고 부르는데, 일반적으로 제자리 정렬 알고리즘은
## 입력을 출력으로 덮어 쓰기 때문에 별도의 추가 공간이 필요하지 않으며,
## 리턴값이 없다. 따라서 정렬 결과를 별도로 리턴하는 sorted()와 다르므로 주의가 필요하다.

In [166]:
## alist.sort() 
## sort()는 리스트 자체를 제자리 정렬
## alist = blist.sort() --> 잘못된 구문, sort()는 None을 리턴하므로 주의 필요

In [167]:
## sorted()는 또한 key= 옵션을 지정해 정렬을 위한 키 또는 함수를 별도로 지정할 수 있다.

In [169]:
## 정렬을 휘한 함수로 길이를 구하는 len 함수를 지정한 경우

c = ['ccc', 'aaaa', 'd', 'bb']
sorted(c, key=len)

['d', 'bb', 'ccc', 'aaaa']

In [170]:
## 이 경우 알파벳 순서가 아닌 문자열의 길이 순서로 정렬된다.

In [171]:
## 다음은 함수를 이용해 첫 문자열과 마지막 문자열 순으로 정렬하도록 지정했다.

In [172]:
a = ['cde', 'cfc', 'abc']

def fn(s):
    return s[0], s[-1]

print(sorted(a, key=fn))

['abc', 'cfc', 'cde']


In [173]:
## 만약 그냥 sorted()로 처리했다면 c가 동일해 다음 문자열인 d와 f를 비교해 
## ['abc', 'cde', 'cfc'] 순으로 출력됐을 것이다.

In [174]:
## 다음과 같이 람다 표현식을 이용하면 함수를 별도로 정의하지 않고 한 줄로 처리할 수 있다.

In [175]:
a = ['cde', 'cfc', 'abc']

sorted(a, key=lambda s: (s[0], s[-1]))

['abc', 'cfc', 'cde']

# 6. 가장 긴 팰린드롬 부분 문자열

### LeetCode 5. Longest Palindrome Substring

##### 가장 긴 팰린드롬 부분 문자열을 출력하라

In [176]:
## 예제 1
    ## input : "babad"
    ## output: "bab"
    
## 예제 2
    ## input : "cbbd"
    ## output : "bb"


In [181]:
## 컴퓨터과학의 오랜 문제 중에 '최장 공통 부분 문자열(Longest Common Substring)'이라는 문제가 있다.
## 여러 개의 입력 문자열이 있을 때 서로 공통된 가장 긴 부분 문자열을 찾는 문제로
## 다이내믹 프로그래밍으로 풀 수 있는 전형적인 문제다
## 이 문제 또한 동일한 유형의 문제로서, 다이내믹 프로그래밍으로 풀 수 있다.
## 그러나 이 문제의 경우 일반적인 예상과는 달리 실행 속도가 늦다.
## 따라서 여기서는 좀 더 직관적이면서도 훨씬 더 성능이 좋은
## 투 포인터가 중앙을 중심으로 확장하는 형태로 풀이한다.

In [182]:
def longestPalindrome(s: str) -> str:
    # 팰린드롬 판별 및 투 포인터 확장
    def expand(left: int, right: int) -> str:
        while left >= 0 and right <= len(s) and s[left] == s[right-1]:
            left -= 1
            right += 1
        return s[left + 1:right-1]
    
    # 해당 사항이 없을 때 빠르게 리턴
    if len(s) < 2 or s == s[::-1]:
        return s
    
    result = ''
    # 슬라이딩 윈도우 우측으로 이동
    ## 홀수(3칸), 짝수(2칸)의 2개의 포인터
    for i in range(len(s) - 1):
        result = max(result, expand(i, i + 1), expand(i, i + 2), key=len)
        
    return result

In [183]:
strs = "babad"

longestPalindrome(strs)

'bab'

# 유니코드와 UTF-8

In [177]:
## 초기에 문자를 표현하던 대표적인 방식은 ASCII 인코딩 방식으로 
## 1 byte에 모든 문자를 표현했다.
## 게다가 1 bit는 checksum으로 제외하여 7 bit, 즉 128글자로 문자를 표현했다.
## 그러다 보니 한글이나 한자 같은 문자는 2개 이상의 특수 문자를 합쳐서 표현하곤 했는데
## 이러한 방식은 비정상적이며, 경우에 따라서는 깨지거나 제대로 표현되지 않는 경우가 잦았다.

In [178]:
## 이런 문제를 해결하기 위해 2~4 byte의 공간에 여유 있게 문자를 할당하고자 등장한 방식이 바로 유니코드다.
## 그러나 유니코드 자체는 1 byte로 표현이 가능한 영문자도 2 byte 이상의 공간을 사용하기 때문에
## 메모리 낭비가 심하고 따라서 이를 가변 길이 문자 인코딩 방식으로 효율적으로 인코딩하는 
## 대표적인 방식이 바로 우리가 잘 아는 UTF-8이다. 

In [180]:
## 만약 모든 문자를 4 byte로 표현한다면 python이라는 영문자열은 24 byte의 메모리를 차지하게 된다.
## 영문자는 ASCII 코드로도 충분히 표현이 가능하기 때문에 각 문자당 1 byte로 충분한데,
## 사실상 문자당 3 byte씩 낭비되고 있는 것이다.
## 이런 문제를 해결하기 위한 여러가지 가변 인코딩 방식이 등장했고 그중 가장 유명한 방식이 바로 UTF-8이다.