### 1. 유효한 팰린드롬
- 이 단어가 팰린드롬인지 확인하기
- 팰린드롬 : 앞뒤가 똑같은 단어나 문장 (즉, 뒤집어도 같은 말이 되는 단어 또는 문장)  
  ex) 소수 만 병만 주소

In [38]:
s = input()

A man, a plan, a canal: Panama


#### 시도

In [39]:
s = s.lower().replace(' ', '').replace(',', '').replace(':', '')

In [40]:
s == s[::-1]

True

#### 정답
#### 1) 리스트로 변환 (304ms)

In [45]:
def isPalindrome(self, s: str) -> bool:
    strs = []
    for char in s:
        if char.isalnum(): 
            strs.append(char.lower())
            
    # 팰린드롬 여부 판별
    while len(strs) > 1:  # 홀수인 경우 하나 남았을 때 
                           # 짝수인 경우 하나도 안남았을 때를 처리
        if strs.pop(0) != strs.pop():
            return False

- .isalnum() : 문자 or 숫자, isalpha() : 문자

#### 2) Deque 자료형을 이용한 최적화 (64ms)
-  list의 pop(0)은 O(n)인 데 반해, 덱의 popleft()는 O(1)이므로 이를 n번 반복하면 각각 O(n^2), O(n)

In [54]:
def isPalindrome(self, s: str) -> bool:
    # 자료형 데크로 선언
    strs: Deque = collections.deque()  # strs라는 변수가 Deque형으로 선언된다는 
                                      # 타입 힌트
    for char in s:
        if char.isalnum():
            strs.append(char.lower())
            
    while len(strs) > 1:
        if strs.popleft() != strs.pop():
            return False
    
    return True

- 덱(Deque)은 deque(double-ended queue)이며 front와 rear에서 삽입/삭제 연산이 모두 가능한 큐이다  
<img src='img/6_1.png' width='300'>

    cf) [자료구조 - 스택, 큐, 덱](https://hini7.tistory.com/92)

#### 3) 슬라이싱 사용 (36ms)

In [55]:
def isPalindrome(self, s: str) -> bool:
    s = s.lower()
    
    # 정규식으로 불필요한 문자 필터링
    s = re.sub('[^a-z0-9]', '', s)
    
    return s == s[::-1]

- 문자열 슬라이싱은 연결된 객체를 찾아 실제 값을 찾아내므로, 매우 빠름
- 대부분의 문자열 작업은 __*슬라이싱으로 처리*__하는 편이 가장 빠름

### 2. 문자열 뒤집기
- 입력값은 문자 배열이며, 리턴 없이 리스트 내부를 직접 조작하라

In [8]:
s = ['h', 'e', 'l', 'l', 'o']
s

['h', 'e', 'l', 'l', 'o']

#### 시도

In [70]:
def rev(s):
    for i in range(len(s)//2):
        s[-(i+1)], s[i] = s[i], s[-(i+1)]
    return s

In [71]:
rev(s)

['e', 'l', 'l', 'e', 'h']

#### 정답

#### 1) 투 포인터를 이용한 스왑

In [2]:
def reverseString(s: list) -> None:
    left, right = 0, len(s) - 1
    while left < right:
        s[left], s[right] = s[right], s[left]
        left += 1
        right -= 1

In [5]:
reverseString(s)

In [6]:
s

['o', 'l', 'l', 'e', 'h']

#### 2) 파이썬다운 방식

In [10]:
def reverseString(s: list) -> None:
    s.reverse()

In [11]:
s = ['h', 'e', 'l', 'l', 'o']
reverseString(s)
s

['o', 'l', 'l', 'e', 'h']

- reverse()는 리스트에서만 제공
- s가 문자열일 경우, s = s[::-1]로 사용할 순 있지만 공간 복잡도를 O(1)로 제한하다보니 변수 할당 처리하는데 다소 제약이 있음  
    => __s[:] = s[::-1] 사용!__

In [12]:
'hello'[::-1]  # 에시

'olleh'

### 3. 로그 파일 재정렬
<img src='img/6_2.png' width='400'>

In [1]:
logs = ['dig1 8 1 5 1', 'let1 art can', 'dig2 3 6', 'let2 own kit dig', 'let3 art zero']

#### 시도 
   - 문자로그는 어떻게 처리해야하는 거지?

In [6]:
let = [log for log in logs if 'let' in log[:3]]
dig = [log for log in logs if 'dig' in log[:3]]

In [7]:
print(let)
print(dig)

['let1 art can', 'let2 own kit dig', 'let3 art zero']
['dig1 8 1 5 1', 'dig2 3 6']


In [27]:
first = [let[i].split()[1] for i in range(len(let))]
first_sort = sorted(first)
first_set = set(first_sort)

In [43]:
first

['art', 'own', 'art']

In [25]:
for word in first_set:  # 모르겠다
    while True:
        first.index(word)
        find = sorted([let[i] for i in [0, 2]])
        first.index(find)

ValueError: 'art' is not in list

#### 정답
#### 1) 람다와 + 연산자 이용

In [41]:
def reorderLogFiles(logs: list) -> list:
    
    # 문자로 이루어진 로그와 숫자로 이루어진 로그 분리
    letters, digits = [], []
    for log in logs:
        if log.split()[1].isdigit():
            digits.append(log)
        else:
            letters.append(log)
            
    # 2개의 키를 람다 표현식으로 정렬
    letters.sort(key=lambda x: (x.split()[1:], x.split()[0]))
    
    return letters + digits

In [42]:
reorderLogFiles(logs)

['let1 art can',
 'let3 art zero',
 'let2 own kit dig',
 'dig1 8 1 5 1',
 'dig2 3 6']

- 람다 표현식보다 훨씬 더 간결하고 가독서이 높은 리스트 컴프리헨션을 주로 사용하지만, 
꼭 필요한 경우에는 람다 표현식을 사용

- 그러나, 람다 표현식은 코드가 길어지고 map이나 filter와 섞어서 사용하면 가독성이 떨어지므로 주의!

### 4. 가장 흔한 단어
- 금지된 단어를 제외한 가장 흔하게 등장하는 단어를 출력하기 
- 대소문자 구분을 하지않으며, 구두점(마침표, 쉼표 등) 또한 무시

In [116]:
paragraph = "Bob hit a ball, the hit BALL flew far after it was hit"
banned = ['hit']

#### 시도

In [79]:
import re

In [94]:
paragraph = re.sub('[^a-zA-Z\s]', '', paragraph)  # 정규표현식으로 문자 아닌거 제거
words = paragraph.split()
words

['Bob',
 'hit',
 'a',
 'ball',
 'the',
 'hit',
 'BALL',
 'flew',
 'far',
 'after',
 'it',
 'was',
 'hit']

In [95]:
# 단어 count 사전만들기

dic = {}  

for word in words:
    
    word = word.lower()
    if word in banned:
        next
    else:
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] += 1

In [96]:
# max value 찾기

max_value = max(dic.values())

for k, v in dic.items():
    if v == max_value:
        print(k)

ball


#### 정답
#### 1) 리스트 컴프리헨션, Counter 객체 사용

In [89]:
import collections

In [119]:
def mostCommonWord(paragraph: str, banned: list) -> str:
    words = [word for word in re.sub(r'[^\w]', ' ', paragraph).lower().split()
            if word not in banned]
    
    counts = collections.Counter(words)
    # 가장 흔하게 등장하는 단어의 첫 번째 인덱스(키) 리턴
    return counts.most_common(1)[0][0]

In [120]:
mostCommonWord(paragraph, banned)

'ball'

- 정규표현식 \w는 단어 문자를 의미, \s는 공백
- defaultdict(int)를 사용해 int가 기본값으로 하는 딕셔너리만듦 (유무 확인 안해도 됨)

In [121]:
# max함수로 argmax 사용하기

words = [word for word in re.sub(r'[^\w]', ' ', paragraph).lower().split()
            if word not in banned]
counts = collections.Counter(words)  # 위의 함수와 동일한 코드

max(counts, key=counts.get)  # key를 설정해서 argmax를 간접적으로 추출가능

'ball'

In [113]:
# dictionary의 get() 메서드

dic.get('ball')

2

### 5. 그룹 애너그램
- 문자열 배열을 받아 애너그램 단위로 그룹핑하라 (출력 : [['ab', 'ba'], ['ae']])
- 애너그램 : 문자를 재배열하여 다른 뜻을 가진 단어로 바꾸기

In [188]:
words = ['eat', 'tea', 'tan', 'ate', 'nat', 'bat']

#### 시도

In [154]:
{'a', 'b'} == {'b', 'a'}

True

In [182]:
result = []


for i in range(len(words)):
    if words[i] == '':
        continue
    
    tmp = [words[i]]
    
    for j in range(i+1, len(words)):  # i+1번째 단어부터 같은 문자들을 갖는지 확인
        if set(list(words[i])) == set(list(words[j])):
            tmp.append(words[j])
            words[j] = ''
    
    result.append(tmp)

In [183]:
result

[['eat', 'tea', 'ate'], ['tan', 'nat'], ['bat']]

In [185]:
words  # 입력을 바꿔버리는 안 좋은 방법같다

['eat', '', 'tan', '', '', 'bat']

#### 정답
#### 1) 정렬하여 딕셔너리에 추가
- 애너그램을 판단하는 가장 간단한 방법은 정렬하여 비교하기
- 문자를 sort한 것을 키로 하는 딕셔너리 만들기

In [172]:
anagrams = collections.defaultdict(list)
anagrams[''.join(sorted(word))].append(word)

In [173]:
anagrams

defaultdict(list,
            {'atebateatnattantea': [['eat',
               'tea',
               'tan',
               'ate',
               'nat',
               'bat']]})

In [186]:
def groupAnagrams(strs: list) -> list:
    anagrams = collections.defaultdict(list)
    
    for word in strs:
        # 정렬하여 딕셔너리에 추가
        anagrams[''.join(sorted(word))].append(word)
    
    return list(anagrams.values())

In [189]:
groupAnagrams(words)

[['eat', 'tea', 'ate'], ['tan', 'nat'], ['bat']]

#### cf) 여러가지 정렬 방법
- __sorted 함수__

In [190]:
a = [2, 5, 1, 9, 7]
sorted(a)

[1, 2, 5, 7, 9]

In [193]:
b = 'zbaf'

print(sorted(b))
print(''.join(sorted(b)))

['a', 'b', 'f', 'z']
abfz


In [None]:
c = ['ccc', 'aaaa', 'd', 'bb']
sorted(c, key=len)  # key이용해서 길이를 기준으로 정렬하기

- __.sort() 메서드로 제자리 정렬(In-place Sort)하기__  
    : 입력을 출력으로 덮어 쓰기 때문에 별도의 추가 공간 필요 X

In [194]:
a = [2, 5, 1, 9, 7]
a.sort()  # 제자리 정렬 (in-place-sort)
a

# b = a.sort()    -- 잘못된 코드 sort()함수는 None을 리턴

[1, 2, 5, 7, 9]

- __함수를 이용하여 정렬하기__

In [196]:
# 함수를 이용해 키를 정의하는 방법 
# 첫 문자열과 마지막 문자열 순으로 정렬하도록 지정

a = ['cde', 'cfc', 'abc']

def fn(s):
    return s[0], s[-1]

print(sorted(a, key=fn))

['abc', 'cfc', 'cde']


In [197]:
# lambda 이용

sorted(a, key=lambda s: (s[0], s[-1]))

['abc', 'cfc', 'cde']

- __*정렬 알고리즘과 팀소트*__  
    ○ 정렬 알고리즘 중에서 가장 인기 있는 알고리즘 : __병합 정렬(Merge Sort)__  
    ○ 퀵 정렬이 더 빠르지만 데이터에 따라 편차가 큰 반면, 병합 정렬은 일정하게 $O(nlogn)$의 안정적인 성능을 보이고, 안정 정렬(Stable Sort)라는 점에서 많이 선호됨
    
    
- 그렇다면 sorted()는 어떤 알고리즘? : __팀소트(Timesort)__  
    ○ 실제 데이터는 대부분 이미 정렬되어 있을 것이라 가정하고 실제 데이터에서 고성능을 낼 수 있도록 설계한 알고리즘  
    ○ 단일 알고리즘이 아니라 __삽입 정렬과 병합 정렬을 휴리스틱하게 적절히 조합__해 사용하는 정렬 알고리즘  
    ○ 대부분의 경우, 정렬이 필요할 때 __파이썬의 정렬함수를 사용하는 것이 가장 빠름__  
    ○ 자바나 스위프트 등의 개발 언어나 안드로이드, 크롬 등의 플랫폼에까지 다양하게 영향줌
    
    
- 정렬 알고리즘별 시간복잡도
    
    <img src='img/6_3.png' width='400'>

### 6. 가장 긴 팰린드롬 부분 문자열

In [244]:
text = 'babad'   # 출력이 'bab'

#### 시도

In [232]:
def longPalindrome(text : str) -> bool:
    
    pal = []
    for i in range(len(text)-1):
        for j in range(i+1, len(text)):
            s = text[i:j]

            for i in range(len(s)):
                if s == s[::-1]:
                    pal.append(s)
    
    return max(pal, key=len)
#     return pal

In [230]:
longPalindrome(text)

'aba'

In [233]:
longPalindrome(text)  # 내가 원하는 대로 안된 듯 하다

['b', 'aba', 'aba', 'aba', 'a', 'bab', 'bab', 'bab', 'b', 'a']

#### 정답
#### 1) 중앙을 중심으로 확장하는 풀이
- 여러 개의 입력 문자열이 있을 때, 공통된 가장 긴 부분 문자열을 찾는 문제는 다이나믹 프로그래밍(23장)으로 풀 수 있는 전형적인 문제! But, 직관적으로 이해가 어렵고, 속도가 늦음


- 따라서, 여기서는 좀 더 직관적이면서도 성능이 좋은 투 포인터가 중앙을 중심으로 확장하는 형태로 풀이

In [245]:
def longestPalindrome(s: str) -> str:
    
    # 팰린드롬 판별 및 투 포인터 확장
    def expand(left: int, right: int) -> str:
        # 같을 때까지 계속 확장
        while left >= 0 and right < len(s) and s[left] == s[right]:
            left -= 1
            right +=1
        return s[left + 1:right]  # while문의 마지막 루프에서 조건은 False이지만,
                             # 그 전 루프에서 left에 1 빼주고, right에 1 더해줘서
                             # left + 1 해줘야!
            
    # 해당 사항이 없을 때 빠르게 리턴 (ex. 문자열이 'bb'인 경우)
    if len(s) < 2 or s == s[::-1]:
        return s
    
    result = ''
    # 슬라이딩 윈도우 우측으로 이동
    for i in range(len(s) - 1):
        result = max(result, expand(i, i+1),   # 2칸, 3칸으로 구성된 포인터로 
                     expand(i, i+2), key=len)  # 시작해서 계속 확장
    
    return result

In [246]:
longestPalindrome(text)

'bab'

#### cf) 유니코드와 UTF-8
- 초기에 문자를 표현하던 대표적인 방식은 __ASCII__ 인코딩 방식 (But, 1바이트 -> 한글이나 한자는 표현 X)
- __유니코드__의 등장 : 2~4 바이트의 공간에 여유 있게 문자를 할당하고자 (But, 1바이트로 표현가능 한 것도 이를 그대로 사용 -> 메모리 낭비가 심함)
- 유니코드를 가변 길이 문자 인코딩 방식으로 효율적으로 인코딩하는 대표적인 방식 : __UTF-8__


- UTF-8의 내부구조 (UTF-8 바이트 순서의 이진 포맷과 유니코드 문자의 UTF-6 인코딩)
<img src='img/6_4.png' width='400'>
<img src='img/6_5.png' width='500'>


- 파이썬 3에서는 문자열이 모두 유니코드 기반으로 전환되었지만, UTF-8 인코딩은 X (why? 각 문자마다 바이트 길이가 다르면 인덱스를 통해 개별 문자에 접급하기 어려우므로)  

=> __문자열 단위로 다른 고정 길이 인코딩 방식 적용__ (바이트가 가장 큰 문자를 기준으로 길이 고정)