# **08 해시**

## **08-1 해시의 개념** 

어떠한 값이 저장되는 위치를 어떤 규칙으로 정할 수 있다면 굳이 탐색할 필요 없이 바로 데이터를 찾아 낼수 있을 것이다. 이런 생각을 바탕으로 만든 자료구조가 hash이다. **<span style="color:yellow">해시는 해시 함수를 사용해 변환한 값을 인덱스로 삼아 키와 값을 저장해서 빠른 데이터 탐색을 제공하는 자료구조 이다. 보통은 인덱스를 활용해서 탐색을 빠르게 만들지만 해시는 key를 활용해 데이터 탐색을 빠르게 한다. </span>**

### **해시 자세히 알아보기**

해시의 가장 쉽게 볼수 닜는 예시는 연락처 이다.  
![image.png](attachment:image.png)  

전화번호는 값(value)이고, 값을 검색하기 위해 활용하는 정보는 키(key)이다. 그리고 그 사이에 키를 이용해 해시값 또는 인덱스로 변환하는 해시 함수가 있다. 해시 함수는 이렇게 키를 일정한 해시값으로 변환시키켜 값을 찾을 수 있게 해준다.

### **해시의 특징**

1. 단방향으로 동작한다. 즉 키를 통해 값을 찾을 수 있지만 값을 통해 키를 찾을수는 없다. 
2. 찾고자 하는 값을 O(1)에서 바로 찾을 수 있다. **<span style="color:yellow">키 자체가 해시 함수에 의해 값이 있는 인덱스가 되므로 값을 찾기 위한 탐색 과정이 필요 없다.</span>**
3. 값을 인덱스로 활용하려면 적절한 변환 과정을 거쳐야 한다.

- ### 해시를 사용하지 않는다면 어떻게 될까?

만약 해시를 사용하지 않는다면 우리는 값의 위치에 대한 어떤 정보도 알 수 없을 것이다. 그래서 어떤 데이터를 찾으러면 전체 데이터를 확인해보는 방법밖에 없을 것이다.  
![image.png](attachment:image.png)  

그림으로만 봐도 탐색 효율이 떨어진다.  

![image-2.png](attachment:image-2.png)  

반면 해시를 사용하면, 순차 탐색할 필요 없이 해시 함수를 활용해서 특정값이 있는 위치를 바로 찾을 수 있어 탐색 효율이 좋다. 해시 테이블은(hash table)은 키와 대응한 값이 저장되어 있는 공간이고 해시 테이블의 각 데이터를 버킷(bucket)이라고 부른다.

### **해시의 특성을 활용하는 분야**

해시는 단방향으로 검색하는 대신 빠르게 원하는 값을 검색할 수 있다. 이런 해시의 특성은 데이터를 저장하고 검색하거나, 보안이 팔요할 때에 사용된다. 

1. 비밀번호 관리
2. 데이터베이스 인덱싱
3. 블록체인

## **08-2 해시 함수** 

코딩 테스트에서 해시 함수를 직접 구현하라는 문제가 나오는 경우는 거의 없다. 그리고 **<span style="color:yellow">파이썬에는 딕셔너리하는 자료형을 제공하는데 이 자료형은 해시와 거의 동일하게 동작하므로 해시를 쉽게 사용할 수 있다.</span>**

### **해시의 특성을 활용하는 분야**

1. 해시 함수가 변환하는 값은 인덱스로 활용해야 하므로 해시 테이블의 크기를 넘으면 안 된다. 현재 해시 함수의 결과는 해시 테이블의 크기인 0과 N-1사이의 값을 내야 한다.

![image.png](attachment:image.png)

2. 해시 함수가 변환란 값의 충돌은 최대한 적개 발생해야 한다. **<span style="color:yellow">충돌의 의미는 서로 다른 두 키의 대해 해싱 함수를 적용한 결과가 동일한 것을 의미한다.</span>** 다음과 같이 홍길동과 홍길서를 해시 함ㅅ구에 넣었을 때 둘 다 결과값이 1이면 저장 위치가 같다.즉 충돌이 발생한다.

![image-2.png](attachment:image-2.png)

### **자주 사용하는 해시 함수 알아보기**

#### **나누셈법**

나눗셈법은 키를 소수로 나눈 나머지를 활용한다. 이처럼 나머지를 취하는 연산을 모듈러 연산이라고 하며 연산자는 %로 표시한다. $$h(x) = x \;  mod \; m$$   x는 키, k는 소수이다. 키를 소수로 나눈 나머지를 인덱스를 사용하는 것이다.   
![image.png](attachment:image.png)  

소수를 사용하는 이유는 다은 수를 사용할 때보다 충돌이 적기 떄문이다. k가 15일때 예로 들면 x가 3의 배수 인 경우 $h(x) = x \;  mod \; 15$가 된다. 이 식을 활용하면 해시값은 3,6,9,12,0이 반복이 된다. 해시값을 보면 동일한 값들이 계속 방복되며, 이를 해시값이 충돌되었다고 표현한다. x가 k의 약수 중 하나인 3의 배수이기 때문에 충돌한다는 표현을 한것이다. x를 5의 배수로 해도 충돌이 발생한다.    
![image-2.png](attachment:image-2.png)  

충돌이 발생하는 이유는 N의 약수 중 하나를 M이라고 한다면 임의의 수 k에 대해 M * K = N이 되는 수가 반드시 있다. 위 그림에서는 N = 15 이고 M = 3 인 경우이다.  3 * 5 = 15이므로 K = 5가 된다. 그리고 그림은 k를 주기로 같은 해시값이 반복됨을 알 수 있다. 따라서 k는 1과 자기 자신 뺴고는 약수가 없는 수, 즉 소수를 사용하는 것이 좋다. 

그리고 나눗셈범은 해시 테이블의 크기가 자연스럽게 k가 된다. 왜나하면 k에 대해 모듈러 연산을 했을 때 나올 수 있는 값은 0 ~ (k-1)이기 때문이다. 즉 상황에 따라 아주 많은 데이터를 저장해야 한다면 굉장히 큰 소수가 필요할 수도 있다. 하지만 매우 큰 소수를 구하는 효율적인 방법은 아직 없고 필요한 경우 기계적인 방법으로 구해야한다. 나눗셈법의 단점 중 하나이다.

#### **곱셈법**

나눗셈법은 때에 따라 큰 소수를 사용해야 하는데 큰 소수를 쿠라기 쉽지 않자는 단접이 있다. 곱셈법은 나눗셈법과 비슷하게 모듈러 연산을 활용하지만 소수은 활용하지 않는다. $$h(x) = (((x*A)mod \; 1)* m)$$  m은 최대 버킷의 개수, A는 황금비이다. A는 황금비의 일부인 0.6183만 사용했다.

## **08-3 충돌 처리** 

서로 다른 키에 대해서 해시 함수의 결과값이 같으면 충돌이라고 한다. 하나의 버킷에 2개의 값을 넣을 수는 없으므로 해시 테이블을 관리할 때는 반드시 충돌을 처리해야 한다.

### **체이닝으로 처리하기** 

체이닝은 해시 테이블에 데이터를 저장할 떄 해싱한 값이 같은 경우 충돌을 해결하는 간단한 벙법이다. 충돌이 발생하면 해당 버킷에 링크드리스트로 같은 해시값을 가지는 데이터를 연결한다.
![image.png](attachment:image.png)  
그림을 보면 B와C를 해싱했을 때 3이다. 해시테이블의 같은 위치를 가리키므로 데이터를 저장할 떄 충돌이 발생한다. 이때 체이닝은 링크드리스트로 충돌한 데이터를 연결하는 방식으로 충돌을 해결한다. 이후 어떤 데이터가 해시 테이블 상 같은 위치에 저장되어야 하면 이런 방식으로 데이터를 저장한다. 이처럼 체이닝은 충돌을 링크드리스트로 간단히 해결한다는 장점이 있지만 2가지 단점이 이있다.

#### **해시 데이블 공간 활용성이 떨어짐**
충돌이 많아지면 그만큼 링크드리스트의 길이가 길어지고 다른 해시 테이블의 공간은 덜 사용하므로 공간활용이 떨어진다.

#### **검색 성능이 떨어짐**
충돌이 많으면 링크드리스트 자체의 한계 때문에 검색 성늘이 떨어진다. 링크드리스트로 연결한 값을 찾으려면 링크드리스트의 맨 앞 데이터부터 검색하야 하기 때문이다. 아래 그림을 살펴보면 키K에 해당하는 값을 검색하려면 B,C,K를 거처 확인해야 한다. 시간 복잡도는 O(N)이다.

![image-2.png](attachment:image-2.png)  


### **개방 주소법으로 처리하기** 

개방 주소법은 체이닝에서 링크등리스트로 충돌한 값을 연결한 것과 다르게 빈 버킷을 찾아 충돌값을 삽입한다. 이 방법은 해시 테이블을 최대한 활용하므로 체이닝보다 메모리를 더 효율적으로 사용한다.

#### **선형 탐사 방식** 

성형 탐사 방식은 충돌이 발생하면 다른 빈 버킷을 찾을 떄까지 일정한 간격으로 이동한다. 수식은 다음과 같다. $$ h(k,i) = (h(k)+i)mod \;m $$

m릉 수용할 수 있는 최대 버킷이다. 선형 탐사 시 테이블의 범위를 넘으면 안되므로 모듈러 연산을 적용한 것이다. 

![image.png](attachment:image.png) 

키 5에 해시 함수를 적용하면 값2가 있는 위치 정보를 참조하므로 충돌이지만 선형 탐사 방법으로 1칸씩 아래로 내려간다. 하지만 이 방법도 단점이 있다. 충돌 발생 시 1칸씩 이동하며 해시 테이블 빈 곳에 값을 넣으면 해시 충돌이 발생한 값끼리 모이는 영역시 생깁니다. 이를 클러스터를 형성한다고 한다. 이런 군집이 생기면 해시값은 겹칠 확률이 더 올라간다.


#### **이중 해싱 방식**

말 그대로 함수를 2개 사용한다. 때에 따라 해시 함수를 N개로 늘리기도 한다. 두 번째 해시 함수의 역할은 첫 번째 해시 함수로 충돌이 발생하면 해당 위치를 기준으로 어떻게 위치를 정할지 결장하는 역할을 한다. $$ h(k,i) = (h_1(k) + i *h_2 (k))mod \; m$$

수식을 보면 선형 탐사롸 비슷하게 더하는 방식으로 데이터의 위치를 정하지만 클러스터를 줄이기 위해 m을 제곱수로 하거나 소수로 한다. 이는 주어지는 키마다 점푸하는 위치를 해시 함수로 다르게 해서 클러스터 형성을 최대한 피하기 위함이다.

## **08-4 몸풀기 문제** 

#### 두 개의 수로 특정값 만들기

![image.png](attachment:image.png)

arr에서 특정 원소 두 개를 뽑아 두 수의 합이 target과 같을 수 있는지 확인하는 문제이다. 첫 번째 무작정 가능한 모든 경우의 합을 확인하여 두 수의 합이 되는지 확인하는 방법. 두 번째 해시를 활용하는 방법이다.

#### 무작정 더하며 찾기

가장 간단한 방법이지만 시간 복잡도 $O(N^2)$이므로 데이터가 10000개 까지 들어오는 것을 가정하면 1억 번의 연산이 수행될 수 있으므로 효율이 떨어진다.

#### 해시를 활용해 찾기

arr에서 임의의 원소 x에 대해 x + k = target이 되는 원소 k가 arr에 있는지 확인하기 여기서 핵심은 k를 확인하는 동작의 효율이다.

In [4]:
def count_sort(arr, k):
  # ➊ 해시 테이블 생성 및 초기화
  hashtable = [0] * (k + 1)

  for num in arr:
    # ➋ 현재 원소의 값이 k 이하인 때에만 처리
    if num <= k:
      # ➌ 현재 원소의 값을 인덱스로 해 해당 인덱스의 해시 테이블 값을 1로 설정
      hashtable[num] = 1
  return hashtable

def solution(arr, target):
  hashtable = count_sort(arr, target)

  for num in arr:
    complement = target - num
    # ➍ target에서 현재 원소를 뺀 값이 해시 테이블에 있는지 확인
    if (
      complement != num
      and complement >= 0
      and complement <= target
      and hashtable[complement] == 1
    ):
      return True
  return False
  

print(solution([1, 2, 3, 4, 8], 6)) # 반환값 : True
print(solution([2, 3, 5, 9], 10)) # 반환값 : False

True
False


➊ count_sort()함수를 호출해 해시 테이블을 생성한 후 배열 arr을 순회하며 다음 작업을 수행한다.   
➋ 현재 원소  num에 대하여 target - num을 계산해 그 값이 해시 테이블에 있는지 확인한다. 이때 target에서 현재 원소와 다르고  0 이상이며 target이하인지 확인하고, 해시 테이블의 값이 1인지 확인한다. 이 조건을 만족하면 True 아니면 False

N은 arr의 길이이고 K는 target의 길이이다.  count_sort()함수의 시간 복잡도는 해시 테이블을 초기화할 때 시간 복잡도는 O(K) 배열 arr을 순회할 때 시간 복잡도는 O(N)이므로 O(K+N).

#### 문자열 해싱을 이용한 검색 함수 만들기

![image.png](attachment:image.png)

#### 문제 분석하고 풀기

string_list의 각 문자열들을 아스키코드값과 문자열 해싱으로 생성한 해시 값을 활용해서 해시에 저장한다. 이후 query_list의 각 문자열들도 해싱한 흐 해당 값이 해시에 있으면 True 아니면 False

In [3]:
# ➊ polynomial hash를 구현한 부분
def polynomial_hash(str):
  p = 31  # 소수
  m = 1_000_000_007  # 버킷 크기
  hash_value = 0
  for char in str:
    hash_value = (hash_value * p + ord(char)) % m
  return hash_value
  
def solution(string_list, query_list):
  # ➋ string_list의 각 문자열에 대해 다항 해시값을 계산
  hash_list = [polynomial_hash(str) for str in string_list]

  # ➌ query_list의 각 문자열이 string_list에 있는지 확인
  result = [ ]
  for query in query_list:
    query_hash = polynomial_hash(query)
    if query_hash in hash_list:
      result.append(True)
    else:
      result.append(False)
  return result

[True, False, False, True]


➊ 문자열 해싱을 구현한 부분이다. 문자열 해싱을 하려면 각 문자의 아스키코드의 값이 필요하다. ord()함수는 툭정 문자의 유니코드값을 반환하지만 예제에서는 영어 소문자만을 사용하므로 아스키코드값을 반환한다. 

➋ 각 string_list의 문자열들을 해상하고 이를 기준으로 해시 테이블을 완성한다. 

➌ query_list의 각 문자열 해싱값이 해시 테이블에 있으면 True 아니면 False

## **08-5 합격자가 되는 모의 테스트** 

#### 완주하지 못한 선수

![image.png](attachment:image.png)

##### 하나하나 대조하며 완주하지 못한 사람 찾기 
 - 참가자 리스트에 있는 이름을 하나씩 대조해 가며 완료한 리스트에 있는지 찾는다. 하지만 이렇게 문제를 풀면 테스트 케이스를 통과하지 못한다. 왜냐하면 알고리즘의 시간 복잡도가 $O(N^2)$ 이기 때문에 마라톤 경기에 참여한 선수는 최대 10만명으로 가정했기 떄문이다.

##### 알고리즘 개선하기

완주자의 이름을 참여자에서 바로 찾을 수 있다면 알고리즘의 시간 복잡도를 많이 낮출 수 있을 것 이다. 키는 마라톤 탐여자 이름으로, 값은 마라토너가 몇명인지로 설정하면 된다.  이 문제는 동명이까지 고려해야 하는데 키-값을 해당 이름(키)를 가진 마라토너의 수로 표시하면 자연스럽게 해결된다.

1. 참가자들의 이름을 해시테이블레 추가하되 키-값은 이름 개수로 한다.
2. 완주한 선수드르이 이름을 해시 테이블에서 찾아 값을 1씩 줄인다.
3. 1번에서 만든 해시를 순회해 값이 0이 아닌 키(이름)을 반환한다.


![image.png](attachment:image.png)  

participant를 순회하며 particioant_hash를 만든다. 키는 이름 값음 이름 개수

![image-2.png](attachment:image-2.png)


completion을 순회하며 partipant_hash의 값을 1씩 줄인다. 순회가 끝난 다음에는 partipant_hash에서 값이 0이아닌 이름을 반환한다.


![image-3.png](attachment:image-3.png)  

In [2]:
def solution(participant, completion):
  # ➊ 해시 테이블을 생성
  dic = { }

  # ➋ 참가자들의 이름을 해시 테이블에 추가
  for p in participant:
    if p in dic:
      dic[p] += 1
    else:
      dic[p] = 1

  # ➌ 완주한 선수들의 이름을 키로 하는 값을 1씩 감소
  for c in completion:
    dic[c] -= 1

  # ➍ 해시 테이블에 남아 있는 선수가 완주하지 못한 선수
  for key in dic.keys( ) :
    if dic[key] > 0:
      return key
    
print(solution(["mislav", "stanko", "mislav","ana"], ["stanko", "ana", "mislav"] ))

mislav


#### 할인 행사

![image.png](attachment:image.png)

![image.png](attachment:image.png)  이렇게 입력값의 관계를 보고 그림을 그리면서 어떤 자료구조를 떠올릴 수 있어야 한다. 


![image-2.png](attachment:image-2.png) 

문제를 풀려면 특정 일에 회원가입시 할인받을 수 있는 제품과 제품의 개수가 필요하다. 

In [2]:
def solution(want, number, discount):
  # ➊ want 리스트를 딕셔너리로 변환
  want_dict = { }
  for i in range(len(want)):
    want_dict[want[i]] = number[i]

  answer = 0  # ➋ 총 일수를 계산할 변수 초기화

  # ➌ 특정일 i에 회원가입 시 할인받을 수 있는 품목 체크
  for i in range(len(discount) - 9):
    discount_10d = { }  # ➍ i일 회원가입 시 할인받는 제품 및 개수를 담을 딕셔너리

    # ➎ i일 회원가입 시 할인받는 제품 및 개수로 딕셔너리 구성
    for j in range(i, i + 10):
      if discount[j] in want_dict:
        discount_10d[discount[j]] = discount_10d.get(discount[j], 0) + 1

    # ➏ 할인하는 상품의 개수가 원하는 수량과 일치하면 정답 변수에 1 추가
    if discount_10d == want_dict:
      answer += 1

  return answer

print(solution(['banana','apple','rice','pork','pot'],[3,2,2,2,1],['chicken','apple','apple','banana','rice','apple','pork','banana','pork','rice','pot','banana','apple','banana']))

3


#### 오픈 채팅방

![image.png](attachment:image.png)



- 문제에서 요구하는 것은 최종으로 보는 메시지
- 유저 아이디는 유일하다
- 닉네임은 유저의 상태가 enter과 change인 떄에만 바뀔 수 있다.

1.  최종으로 구하고자 하는 건 뭐지?->최종으로 보는 메시지
2.  입력값 중 수정되지 않는 건 뭐지? -> 유저 아이디
3. 입력값 중 수정되는 건 뭐지? -> 닉네임
 - 3-1 입력값이 수정될 떄 어디가 영향받지? -> 오픈 채팅방의 내용 변경 
 - 3-2 입력값은 어느 조건에서 수정되지? -> Enter와 Change인 경우


![image.png](attachment:image.png)   
첫 입력이 Enter이므로 딕셔너리에 저장   
![image-2.png](attachment:image-2.png)   
첫 입력이 Enter이므로 기존에 없는 데이터이므로 새로 추가  
![image-3.png](attachment:image-3.png)   
첫 입력이 Leave이므로 추가할게 없음  
![image-4.png](attachment:image-4.png)  
첫 입력이 Enter이나 이미 딕셔너리에 있는 유저아이디 이므로 닉네임만 수정  
![image-5.png](attachment:image-5.png)  
첫 입력이 Change이므로 이미 딕셔너리에 있으나 닉네임만 수정


In [2]:
def solution(record):
  answer = [ ]
  uid = { }
  for line in record:  # ➊ record의 각 줄을 하나씩 처리
    cmd = line.split(" ")
    if cmd[0] != "Leave":  # ➋ Enter 또는 Change인 경우
      uid[cmd[1]] = cmd[2] # {'uid1234': 'Muzi'}
  for line in record:  # ➌ record의 각 줄을 하나씩 처리
    cmd = line.split(" ")
    # ➍ 각 상태에 맞는 메시지를 answer에 저장
    if cmd[0] == "Enter":
      answer.append("%s님이 들어왔습니다." % uid[cmd[1]])
    elif cmd[0] == "Change":
      pass
    else:
      answer.append("%s님이 나갔습니다." % uid[cmd[1]])
  return answer

print(solution(['Enter uid1234 Muzi','Enter uid4567 Prodo','Leave uid1234','Enter uid1234 Prodo','Change uid4567 Ryan']))

['Prodo님이 들어왔습니다.', 'Ryan님이 들어왔습니다.', 'Prodo님이 나갔습니다.', 'Prodo님이 들어왔습니다.']


![image.png](attachment:image.png)  
answer은 최종 매시지들을 담고 있는 반환용 배열이고 uid는 최종으로 유저 아이디가 가질 닉네임을 저장한다. ➋ 해당 유저 아이디에 일대일 대능하는 uid값을 변경


#### 시간 복잡도 계산하기

N은 record의 길이이다. 첫번째 반목문에서 record의 모든 항목을 순회하므로 O(N) 두 번쨰 반복문의 시간 복잡도는 O(N) 그러므로 최종 O(N)

### 베스트 앨범(다시보자)

![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)


classic 장르는 1450회 재생
- 3 : 800회 재생
- 0 : 500회 재생
- 2 : 150회 재생

pop 장르는 3100회 재생

- 4 : 2500회 재생
- 1 : 600회 재생

따라서 pop장르의 [4,1]번 노래를 먼저 classic 장르의 [3,0]번 노래를 그자음에 수록

#### 문제 분석하고 풀기

- 총 재생 횟수를 기준으로 장르를 내림차순으로 정렬
- 각 장르별 2곡씩 선정해서 플레이리스트 만들기

![image.png](attachment:image.png) 



In [4]:
def solution(genres, plays):
  answer = [ ]
  genres_dict = { }
  play_dict = { }

  # ➊ 장르별 총 재생 횟수와 각 곡의 재생 횟수를 저장
  for i in range(len(genres)):
    genre = genres[i]
    play = plays[i]
    if genre not in genres_dict:
      genres_dict[genre] = [ ]
      play_dict[genre] = 0
    genres_dict[genre].append((i, play))
    play_dict[genre] += play

  # ➋ 총 재생 횟수가 많은 장르순으로 정렬
  sorted_genres = sorted(play_dict.items( ) , key=lambda x: x[1], reverse=True)

  # ➌ 각 장르 내에서 노래를 재생 횟수 순으로 정렬해 최대 2곡까지 선택
  for genre, _ in sorted_genres:
    sorted_songs = sorted(genres_dict[genre], key=lambda x: (-x[1], x[0]))
    answer.extend([idx for idx, _ in sorted_songs[:2]])

  return answer

print(solution(['classic','pop','classic','classic','pop'],[500,600,150,800,2500]))

[4, 1, 3, 0]


➊ 정렬에 사용할 딕셔너리를 구성하는 과정. 각 장르에 속한 노래의 총 재생 횟수를 계산하는데 사용할 play_dict를 보면 키는 장르 값은 재생 횟수 이다. 이후 장르 내에서 가장 많이 재생한 곡, 고유 번호가 낮은 곡을 기준으로 정렬하는데 genres_dict딕셔너리를 사용한다. 키는 장르, 값은(고유 번호, 재생횟수 )튜플 이다. 그리고 딕셔너리를 구현 부분을 보면 실수하는 지점이 있다. 바로 if부분이다. 파이썬은 키에 해당하는 값이 없는 경우 반드시 초기화를 명시해야 한다. 여기서는 geners_dict[gener]의 값을 빈 리스트로 초기화 했다. 


이렇게 하면 이후 등장하는 키들을 다은과 같이 리스트로 관리할 수 있다. play_dict[genre] = 0으로 초기화 함

In [5]:
genre ={}

genre['dance'] = []
genre['dance'].append((5,300))
genre['dance'].append((4,300))

print(genre['dance'])

[(5, 300), (4, 300)]


만약 이렇게 딕셔너리의 키를 초기화하지 않으면 오류가 발생한다.

In [7]:
price ={}

price['banana'] = 5
price(price['apple']) #KeyError: 'apple'

➋ play_dict의 키는 장르,값은 총 재생 횟수인 딕셔너리이다. sorted()함수를 보면 정렬기분이 play_dict의 값 즉 총 재생 횟수이가. reverse = True이므로 내림차 순으로 정렬, 첫 번째 인수가 items()이므로 키-값 쌍의 튜플로 된 리스트를 반환한다. 

➌ sorted_genres,play_dict는 값 기준, 즉, 각 장르의 총 재생 횟수를 기준으로 내림차순 정렬한 리스트를 참조한다. 각 장르에서 재생 횟수가 가장 많은 노래를 우선으로 해 정렬하고 재생 횟수가 같다면 고유 번호가 낮은 노래로 정렬한다. x[1]에 음수를 취한 이우는 '장르 내에서 재생 횟수가 같다면 고유 번호가 낮은 노래를 먼저 수록하라'고 했디 떄문이다. 재생 횟수는 높을 수록, 고유번호는 낮을수록 우선순위가 높으므로 이를 표현한 것이다.

![image.png](attachment:image.png) 



#### **신고 결과 받기**

각 유저는 한 번에 한 명의 유저를 신고할 수 있다. 
 - 신고 횟수에 제한은 없다. 서로 다른 유저를 계속해서 신고할 수 있다.
 - 한 유저를 여러번 신고할 수도 있지만 동일한 유저에 대한 신고는 1회로 처리

K번 이상 신고된 유저는 정지 해당 유저를 신고한 모든 유저에게 정지 사실 메일 발송

![image.png](attachment:image.png)


각 신고당한 횟수는 다음과 같다.

![image-2.png](attachment:image-2.png)

위 그림에서 보듯 frodo와 neo는 게시판 이용이 정지당한다. 

![image-3.png](attachment:image-3.png)

![image.png](attachment:image.png)


#### 문제 분석하고 풀기

위의 그림을 보니 2번 이상 신고당한 유저는 frodo와 neo이다. 그렇다면 이 신고한 유저들에게 메일을 보내면 된다. id_list 순서대로 메일을 보내는 횟수를 나열하면 muzi부터 neo까지 각 [2,1,1,0]회의 메일을 보내주면 된다. 

![image-2.png](attachment:image-2.png)

위 그림의 핵심은 신고한 유저를 어떻게 표현할 것인가 이다. frodo를 신고한 유저가 muzi muzi muzi면 이것은 하나로 처리해야 한다는 것이다. 즉 딕셔너리의 값은 집합을 사용해야 한다. 여기까지 하면 어떤 유저가 누구에게 신고당헀는지 알 수 있다. 하지마 문제가 요구하는 건 정지당한 유저가 있을 때 이를 신고한 우저에게 알린 횟 수 이다. 정답을 출력하기 위해서는 count룰 하나 더 만든다. 키는 신고한 유저, 값은 처리 결과 메일을 받은 횟수 count는 다음과 같은 과정으로 만든다. 

1. reported_user를 순회하면서 신고자가 K명 이상인지 확인
2. 신고자가 k명 이상이면 정지된 것으로, 신고자의 결과 통보 메일 수신 횟 수 +1 


![image-3.png](attachment:image-3.png)



In [3]:
def solution(id_list, report, k):
  reported_user = { }  # 신고당한 유저 - 신고 유저 집합을 저장할 딕셔너리
  count = { }  # 처리 결과 메일을 받은 유저 - 받은 횟수를 저장할 딕셔너리
  # ➊ 신고 기록 순회
  for r in report:
    user_id, reported_id = r.split( ) 
    if reported_id not in reported_user:  # ➋ 신고당한 기록이 없다면
      reported_user[reported_id] = set( ) 
    reported_user[reported_id].add(user_id)  # ➌ 신고한 사람의 아이디를 집합에 담아 딕셔너리에 연결
  for reported_id, user_id_lst in reported_user.items( ) :
    if len(user_id_lst) >= k:  # ➍ 정지 기준에 만족하는지 확인
      for uid in user_id_lst:  # ➎ 딕셔너리를 순회하며 count 계산
        if uid not in count:
          count[uid] = 1
        else:
          count[uid] += 1
  answer = [ ]
  for i in range(len(id_list)):  # ➏ 각 아이디별 메일을 받은 횟수를 순서대로 정리
    if id_list[i] not in count:
      answer.append(0)
    else:
      answer.append(count[id_list[i]])
  return answer

print(solution(['muzi','frodo','apeach','neo'],['muzi frodo','apeach frodo','frodo neo','muzi neo','apeach muzi'],2))

[2, 1, 1, 0]
