## 1.리스트
* 파이썬 리스트는 순서대로 저장하는 시퀀스이자 변경 가능한 목록을 말한다.
* 입력 순서가 유지되며, 내부적으로 동적 배열로 구현되어 있다.
* 파이썬 리스트의 가장 좋은 점은 매우 다양한 기능을 제공한다는 점이다.
    * 이 기능 중 O(1) 에 해당하는 기능 .append() , .pop() 이있다.
* 반면 요소를 삭제하거나 큐의 연산이기도 한 첫 번째 요소를 추출하는 .pop(0) 는 O(n) 이므로 큐의 연산을 사용할 때는 주의가 필요하다. 이 때는 데크 같은 자료형으로 성능을 높일 수 있다.
* 리스트의 경우 탐색 시 값의 존재 유무를 확인하려면 정렬된 경우에는 이진 검색이 효울적이다. 그러나 매번 정렬이 필요하고 대개는 리스트가 정렬된 상태가 이니므로 리스트의 경우에는 모든 엘리먼트를 순차적으로 조회하는 형태로 구현되어 있다. (이 경우 최악은 항상 O(n) 이 소요된다.)

## 2. 딕셔너리
* 파이썬 딕셔너리는 키/값 구조로 이루어져 있다.
* 3.7+ 부터 입력 순서가 유지되며 내부적으로 해시 테이블로 구현되어 있다.
* 인덱스를 숫자로만 지정할 수 있는 리스트와 다르게 딕셔너리는 해시할 수만 있다면 숫자뿐만 아니라, 문자 집합까지 불변 객체를 모두 키로 사용할 수 있다. 
    * 이 과정을 해싱이라고 하며, 해시 테이블을 이용해 자료를 저장한다.
* 딕셔러니는 대부분의 연산이 O(1) 에 처리 가능한 매우 우수한 자료형이다.
* 파이썬 딕셔너리를 효율적으로 생성하기 위한 추가 모듈이 많이 있다.

## 딕셔너리 활용과 모듈
* 딕셔너리와 관련된 특수한 형태의 컨테이너 자료형인 defaultdict, Counter, OrderedDict 에 대해 살펴보면 아래와 같다.
### defaultdict 객체
* defaultdict 객체는 존재하지 않는 키를 조회할 경우, 에러 메시지를 출력하는 대신 디폴트 값을 기준으로 해당 키에 대한 딕셔너리 아이템을 생성해준다.
* 아래 예시처럼 존재하지 않는 키에 대해 바로 연산이 가능하고 이 int 로 할 경우에 디폴트인 0을 기준으로 자동 생성후에 연산이 되는 것을 볼 수 있다.

In [1]:
from collections import defaultdict, Counter, OrderedDict

In [2]:
a =defaultdict(int)
a['A']= 5
a['B']= 4
a

defaultdict(int, {'A': 5, 'B': 4})

In [3]:
a['C']+=1
a

defaultdict(int, {'A': 5, 'B': 4, 'C': 1})

### Counter 객체
* Counter 객체는 아이템에 대한 개수를 계산해 딕셔너리로 반환한다.

In [4]:
a = [1,1,1,1,2,2,2,2,3,3,4,4,5,6,7]
b = Counter(a)
b

Counter({1: 4, 2: 4, 3: 2, 4: 2, 5: 1, 6: 1, 7: 1})

In [5]:
type(b)

collections.Counter

* most_common() 과같은 매서드로 가장 빈도수가 높은 요소를 추출할 수 있다.
    * 그 밖에도 값의 합산을 구하는 .total() , 특정 키를 기준으로 빼기 연산을 하는 .subtract() 매서드가 있다.

In [6]:
b.most_common(1)

[(1, 4)]

### OrderdDcit 객체
* 파이썬 3.6 이하에서는 입력 순서가 유지되는 OrderedDict 라는 별도의 객체를 제공했다.
* 그 이후 버전부터는 딕셔너리 내부적으로 인덱스를 이용해 입력순서가 유지되도록 개선되었다.

----
# 문자열 조작
## 1. 유효한 팰린드롬
* 주어진 문자열이 팰린드롬인지 확인하라. 대소문자를 구분하지 않으며 영문자와 숫자만을 대상으로 한다.
    * 팰린드롬은 앞뒤가 똑같은 단어나 문장으로 뒤집어도 같은 말이 되는 단어 또는 문장을 의미한다.

In [7]:
# my answer
import re
def is_palindrome(s):
    pat = re.compile('\w')
    s_pat = "".join(pat.findall(s))
    if s_pat.lower() == s_pat.lower()[::-1]:
        return True
    else:
        return False

In [8]:
s1 = "A man, a plan, a canal: Panama"
s2 = "race a car"

In [9]:
print(is_palindrome(s1))
print(is_palindrome(s2))

True
False


### 풀이-1
* 대소문자 여부를 구분하지 않고 영문자, 숫자만을 대상으로 한다는 제약 조건의 처리는 아래와 같이 구현한다.
* 그 이후에 pop 함수를 통해 인덱스를 지정해 맨앞의 값과 맨 뒤에 값을 가져오는 반복으로 팰린드롬을 판별한다.


In [10]:
strs = []
for char in s1:
    if char.isalnum():
        strs.append(char.lower())
strs

['a',
 'm',
 'a',
 'n',
 'a',
 'p',
 'l',
 'a',
 'n',
 'a',
 'c',
 'a',
 'n',
 'a',
 'l',
 'p',
 'a',
 'n',
 'a',
 'm',
 'a']

In [11]:
while len(strs) > 1:
    if strs.pop(0) != strs.pop():
        print(False)
        # return False

* 전체 코드를 정리하면 아래와 같다.

In [12]:
def is_palindrome(self, s:str) -> bool:    
    strs = []
    for char in s:
        if char.isalnum():
            strs.append(char.lower())
    while len(strs) > 1:
        if strs.pop(0) != strs.pop():
            print(False)
    return True

In [13]:
is_palindrome(None, s= s1)

True

* 만약 데크Deque 를 명시적으로 선언하면 좀 더 속도를 높일 수 있다.
* strs: Deque = collections.deque() 와 같이 자료형을 데크로 선언하는 것만으로 기존 방식 대비 5배 가까이 더 속도를 높일 수 있다.
    * 리스트 구현은 $O(n^2)$, 데크 구현은 O(n) dmfh tjdsmd ckdlrk zmek.

In [14]:
import collections

def is_palindrome(self, s:str) -> bool:
    strs: Deque = collections.deque()

    for char in s:
        if char.isalnum():
            strs.append(char.lower())

    while len(strs) > 1:
        if strs.popleft() != strs.pop():
            return False
    return True

In [15]:
is_palindrome(None, s1)

True

* 슬라이싱을 사용해 문제 풀이를 할 수 있다.
    * 문자열 전체를 정규식으로 처리해 문자 및 숫자만 포함시킬 수 있다.
    * 리스트ㅡ이 경우 [::-1] 을 이용해 뒤집을 수 ㅣㅇㅆ다. 이는 내부적으로 C로 구현되어 있어 훨씬 더 좋은 속도를 기대할 수 있다.

In [16]:
def is_palindrome(self, s:str) -> bool:
    s = s.lower()
    s = re.sub('[^a-z0-9]', '', s)

    return s == s[::-1]

is_palindrome(None, s1)

True

* 슬라이싱 기능은 매우 편리하면서 대부분의 문자열 작업은 슬라이싱으로 처리하는 편이 가장 빠르다.
    * 아래의 예시를 통해 슬라이싱 결과를 기억하자.

In [17]:
s = "안녕하세요"
print(s[1:4])
print(s[1:-2])
print(s[1:])
print(s[:])
print(s[1:100])
print(s[-1])
print(s[:-3])
print(s[-3:])
print(s[::1])
print(s[::-1])
print(s[::2])

녕하세
녕하
녕하세요
안녕하세요
녕하세요
요
안녕
하세요
안녕하세요
요세하녕안
안하요


## 2. 문자열 뒤집기
* 문자열을 뒤집는 함수를 작성하라. 입력값은 무자 배열이며, 리턴 없이 리스트 내부를 직접 조작하라.
    * 입력 : ["h","e","l","l","o"]
    * 출력 : ["o","l","l","e","h"]

In [18]:
# my answer
def reveres_string(s:list) -> None:
    s.reverse()

In [19]:
l1 = ["h","e","l","l","o"]
reveres_string(l1)
l1

['o', 'l', 'l', 'e', 'h']

### 풀이 1
* 투 포인터를 활용한 전통적인 방식
    * 2개의 포인터를 이용해 범위를 조정해가면 풀이하는 방식
    * 이 문제에서는 양 끝쪽에서 좁혀나가면서 서로 교체(스왑)하는 형식으로 풀이

In [20]:
from typing import List

def reveres_string(self, s:List[str]) -> None:
    left, right = 0, len(s)-1
    while left < right:
        s[left], s[right] = s[right], s[left]
        left += 1
        right -= 1

l1 = ["h","e","l","l","o"]
reveres_string(None,s=l1)
l1

['o', 'l', 'l', 'e', 'h']

In [21]:
# pythonic
def reveres_string(self, s:List[str]) -> None:
    s.reverse()

## 3. 로그 파일 재정렬
* 로그를 재정렬하라. 기준은 다음과 같다.
    * 1. 로그의 가장 앞 부분은 식별자다.
    * 2. 문자로 구성된 로그가 숫자 로그보다 앞에 온다.
    * 3. 식별자는 순서에 영향을 끼치지 않지만, 문자가 동일한 경우 식별사 준으로 한다.
    * 4. 숫자로그는 입력 순서대로 한다.
* 입력 예시
    - logs = ["dig1 8 1 5 1", "let1 art can", "dig2 3 6", "let2 own kit dig", "let3 art zero"]
* 출력 예시
    - logs = ["let1 art can", "let3 art zero", "let2 own kit dig", "dig1 8 1 5 1", "dig2 3 6"]


In [22]:
# answer
def reorder_logfile(logs:List[str]) -> List[str]:
    strings, digits = [], []
    
    for log in logs:
        if log.split()[1].isdigit():
            digits.append(log)
        else:
            strings.append(log)
    
    strings = sorted(strings, key= lambda x: (x.split()[1:], x.split()[0]))
    results = strings + digits
    return results

In [23]:
logs = ["dig1 8 1 5 1", "let1 art can", "dig2 3 6", "let2 own kit dig", "let3 art zero"]
reorder_logfile(logs)

['let1 art can',
 'let3 art zero',
 'let2 own kit dig',
 'dig1 8 1 5 1',
 'dig2 3 6']

* 요구 조건을 얼마나 깔끔하게 처리할 수 있는지를 묻는 문제
* 먼저 isdigit() 를 이용해서 숫자 여부인지를 판별해 구분한다.
    * 숫자로 변환 가능하면 digits 리스트에 담고 나머지는 strings 에 담는다
* 다음 문자로 구분된 strings 에서 lambda 표현식을 활용해서 다시 재정렬하고 digits 리스트와 합쳐서 결과를 반환한다.

## 4. 가장 흔한 단어
* 금지된 단어를 제외한 가장 흔하게 등장하는 단어를 출력하라. 대소문자를 구분하지 않으며 구두점(마침표, 쉼표 등) 또한 무시한다.

In [24]:
# answer
def get_frequent_word(paragraph:str, banned:List[str]) -> str:
    from collections import Counter
    preprocessed_words = [word for word in re.sub(r'[^\w]', ' ', paragraph).lower().split() if word not in banned]

    word_count = Counter(preprocessed_words)
    common_word = word_count.most_common()[0][0]
    return common_word

In [25]:
paragraph= "Bob hit a ball, the hit BALL flew far after it was hit"
banned = ["hit"]
get_frequent_word(paragraph, banned)

'ball'

* 문자열 데이터 전처리가 필요한데 정규식을 아래와 같이 섞어서 구성해 처리할 수 있다.
    * [word for word in re.sub(r'[^\w]', ' ', paragraph).lower().split()]
    * 정규식에서 \w 는 단어 문자를 뜻하며, ^ 은 not을 의미한다. 즉, 단어 문자가 아닌 모든 경우를 공백으로 바꾸는 것이다.
* 갯수를 세는 작업은 Counter 객체를 활용하면 쉽게 해결할 수 있다.

## 5. 그룹 애너그램
* 문자열 배열을 받아 애너그램 단위로 그룹핑하라.
    * 애너그램은 문자를 재배열하여 다른 뜻을 가진 단어로 바꾸는 것을 말한다.
* 예시 입력
    * ["eat","tea","tan","ate","nat","bat"]
* 예시 출력
    * [
        ["ate","eat","tea"],["nat","tan"], ["bat]
    ]

In [26]:
"".join(sorted("wwww"))

'wwww'

In [27]:
# my answer
from collections import defaultdict
def anigram_group(words:List[str]) -> List[List[str]]:
    words_group = defaultdict(list)
    for word in words:
        group_key = "".join(sorted(word.lower()))
        words_group[group_key].append(word)
    
    results = []
    
    for group in list(words_group.values()):
        results.append(sorted(group))

    return results

In [28]:
words = ["eat","tea","tan","ate","nat","bat"]
anigram_group(words)


[['ate', 'eat', 'tea'], ['nat', 'tan'], ['bat']]

In [29]:
#answer 
def gruop_anagrams(strs: List[str])  -> List[List[str]]:
    anagrams= collections.defaultdict(list)

    for word in strs:
        anagrams[''.join(sorted(word))].append(word)
    return anagrams.values()

gruop_anagrams(words)

dict_values([['eat', 'tea', 'ate'], ['tan', 'nat'], ['bat']])

* 여러 가지 정렬 방법
    * 파이썬은 정렬 함수를 기본으로 제공하는데 아래의 간단한 기능들을 숙지하는 것이 좋다.

In [30]:
a = [2,5,1,9,7]
print(sorted(a))

b= 'zbasfwed'
print(sorted(b))
print("".join(sorted(b)))

[1, 2, 5, 7, 9]
['a', 'b', 'd', 'e', 'f', 's', 'w', 'z']
abdefswz


In [31]:
c = ['ccc','aaaaa','d','bbb']
sorted(c, key=len)

['d', 'ccc', 'bbb', 'aaaaa']

In [32]:
# 첫번째 문자와 마지막 문자 순으로 정렬
a = ['cde','cffw','abc','abs']
def fn(s):
    return s[0],s[-1]

print(sorted(a, key=fn))
print(sorted(a, key=lambda x: (x[0],x[-1])))

['abc', 'abs', 'cde', 'cffw']
['abc', 'abs', 'cde', 'cffw']


## 6. 가장 긴 팰린드롬 부분 문자열
* 가장 긴 팰린드롬 부분 문자열을 출력하라
* 예시 
    * "cbbd" >> "bb" , "babad" >> "bab" | "aba"

* 다이나믹 프로그래밍의 전형적인 문제이나 이 문제의 경우 다이나믹 프로그래밍을 이용한 풀이는 직관적으로 이해가 어렵고, 성능이 좋지 못하다.
* 여기서 해결책으로 투 포인터가 중앙을 중심으로 확장하는 형태로 풀이해본다.
    * 2칸, 3칸으로 구성된 투 포인터가 슬라이딩 윈도우처럼 계속 앞으로 전진해나간다. 이 때 윈도우에 들어온 문자열이 팰린드롬인지를 판별해 맞는 경우에 그 자리에서 멈추고, 투 포인터가 점점 확장해가는 방ㅅ기이다.
    * 팰린드롬은 짝수일때도 있고, 홀수일 때도 있다. 두 포인터가 계속 우측이로 이동하다가 팰린드롬이 잡히면 그 자리에서 양쪽으로 확장해가며 다시 팰린드롬을 판별한다.
* 코드 풀이 과정은 아래와 같다.
    1. 먼저 예외 처리를 진행한다. 문자가 1개이거나 전체 문자열 자체가 팰린드롬인 경우 바로 반환한다.
    2. 슬라이싱과 인덱스를 직접 조회하는 것은 숫자 표기하는 방식이 다르므로 포인터를 정의할 때 주의가 필요하다.

In [39]:
def longest_palindrome(s:str) -> str:
    # 팰린드롬 판별 및 투 포인터 확장
    def expand(left:int, right:int) -> str:
        while left >=0 and right <=len(s) and s[left] == s[right-1]:
            left -=1
            right +=1
        return s[left +1:right-1]

    if len(s) < 2 or s == s[::-1]:
        return s
    
    result = ''
     
    # 슬라이딩 윈도우 우측으로 이동
    for i in range(len(s)-1):
        result = max(result, expand(i,i+1), expand(i, i+2), key=len)
    return result

In [40]:
s = "cbbbddbddbb"
longest_palindrome(s)

'bbddbddbb'

In [41]:
s = "eaabbbaaaf"
longest_palindrome(s)

'aabbbaa'