# 1. 문제 정의
- 문제에 대한 솔루션이 있어야 하고, 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음


# 2. 데이터 수집 및 분석
- 다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유로 데이터셋 또는 웹 크롤링을 사용하여 수집
- https://paperswithcode.com/datasets?mod=texts&task=question-answering
- 웹크롤링을 통해 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 함
- 레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 함

# 3. 데이터 전처리
- 학습에 용이하게 데이터를 수정/보완하는 작업
- 자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요함
- 토큰화(Tokenization) : 주어진 데이터셋에서 문장이나 문서들을 토큰이라 불리는 단위로 나누는 작업
- 정제(Cleaning) : 갖고 있는 데이터셋으로부터 노이즈 데이터(이상치, 편향 등)을 제거하는 작업
- 정규화(normalizaition) : 표현 방법이 다른 데이터들을 통합시켜서 같은 항목으로 합침

### 3-1. 토큰화(Tokenization)
- 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의
- 사이버 보안, NFT 생성에 사용되는 것으로 유명, 자연어 프로세스의 중요한 부분을 차지함
- 토큰화 작업은 주어진 코퍼스내 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업

- 코퍼스는 자연어처리 연구나 애플리케이션 활용을 염두에 두고 수집된 텍스트 데이터셋을 의미

# 과제.
"BPE", "WordPiece Tokenizer" 알고리즘에 대해 조사하고, 해당 알고리즘을 잘 설명할 수 있는 예제와 실습과정을 기술해보자.

### 3-2. 토큰화 과정의 필요성
- 언어 모델의 자연어 이해 능력 향상
- 다양한 자연어를 효율적으로 표현 가능
  - 중복을 제거한 대규모 자연어 코퍼스 내 토큰의 집합(단어 사전) 사용
  - 적절한 정보량을 내포하면서 전체 단어 사전의 개수가 많아지지 않도록 토큰의 단위를 잘 정의해야 함
  - 상황에 따라 다르지만, 일발적인 자연어 처리 작업에서 단어 사전의 규모는 약 10,000 ~ 50,000개 정도로 구성

### 3-3. 토큰화 방법
- 문장 토큰화 : 토큰의 기준을 문장으로 하는 토큰화 방법
  - 문장의 끝에 오는 문장 부호를 기준으로 코퍼스를 잘라냄(. 또는 ! 또는 ?)
  - 단어 토큰화 : 토큰의 기준을 단어로 하는 토큰화 방법
    - 보편적으로 기분기호를 가지고 텍스트를 나누게 되며, 기본적으로 공백을 구분자로 사용
    - 한국어의 경우 교착어이기 때문에 공백으로 단어 토큰화를 하면 성능이 좋지 않음
    - 새로운 단어가 추가될수록 단어 사전의 크기가 계속 증가
    - OOV(Out of Vocabulary) 문제

- 문자 토큰화 : 토큰의 기준을 문자로 하는 토큰화 방법
    - 단어 토큰화의 한계점들을 해결하기 위한 방법
    - 영어는 26개의 알파벳에 따라 분리, 한국어는 자음 19개와 모음 21개의 글자에 따라 분리
    - 문장 하나를 생성하는데 너무 많은 추론이 필요함
    - 단어 사전은 작지만 모델의 예측 시간에 문제가 생길 수 있음
- 서브워드 토큰화 : 토큰의 기준을 서브워드로 하는 토큰화 방법
  - 문자 토큰화의 확장된 버전으로 토큰의 단위를 n개의 문자로 정의하고 해당 기준에 따라 텍스트를 분절하는 방법
  - 단어 토큰화와 문자 토큰화의 한계점을 해결하기 위한 방법
  - 형태소 분절 기반의 서브워드 토큰화로 확장될 수 있어 한국어에서도 좋은 성능을 가짐
  - 서브워드를 만드는 알고리즘 중에서 가장 유명한 것은 BPE
    

# 4. 서브워드 토큰화

### 4-1. 서브워드(subword)
- 단어보다 더 작은 의미의 단위
- 단어를 여러 서브워드로 분리해서 단어사전을 구축하겠다는 토큰화 방법
- 신조어에서 주로 발생하는 OOV 문제를 완화
- 예) Birthday = birth + day, 아침밥 = 아침 + 밥

### 4-2. BPE(Byte Pair Encoding)
- 코퍼스내 단어의 등장 빈도에 따라 서브워드를 구축하는데 사용
- [Neural Machine Translation of Rare Words with Subword Units](https://arxiv.org/abs/1508.07909)
- 글자단위에서 점진적으로 서브워드 집합을 만들어내는 Bottom-up 방식의 접근방식으로 자연어 코퍼스에 있는 모든 단어들을 글자 단위로 분리한 뒤에 등장 빈도에 따라  글자들을 서브워드로 통합하는 방식

### 4-3. WordPiece Tokenizer
- 구글이 2016년도 [Google's Neural Mashine Translation System Bridging the Gap between Human and Machine Translation](https://arxiv.org/abs/1609.08144) 논문에 처음 공개한 BPE의 변형 알고리즘
- 병합할 두 문자가 있을 떄 각각의 문자가 따로 있을 때를 더 중요시 여기는지, 병합되었을 떄를 더 중요시 여기는지에 차이점을 둠
- GPT 모델과 같은 생성 모델의 경우에는 BPE 알고리즘을 사용
- BERT, ELECTRA 같은 자연어 이해 모델에서는 WordPiece Tokenizer를 주로 사용

# 5. 정제(Cleaning)
- 토큰화 작업에 방해가 되는 부분들을 필터링 하거나 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 이뤄지는 전처리 과정
- 어떤 특성이 노이즈인지 판단하거나 모든 노이즈를 완벽하게 제거하는 것은 어렵기 때문에 일종의 합의점을 찾아야 함

### 5-1. 정제 작업의 종류
- 불용어(stopword)처리
  - 불용어의 정의는 가변적이기 때문에 추가하고 싶은 불용어가 있다면 직접 정의할 수 있음
  - 보편적으로 선택 할 수 있는 한국어 불용어 리스트 https://www.ranks.nl/stopwords/korean
- 불필요한 태그 및 특수 문자 제거
- 코퍼스 내 등장빈도가 적은 단어 제거
  - 코퍼스 내 단어들의 빈도를 분석하여 분포를 보고 특정 threeshold를 설정한후, 해당 threshold 아래의 단어들을 필터링하는 방식으로 정제
  

### 5-2. 정제 과정에서 유의해야할 점
- @와 같은 특수 문자는 일발적인 작업에서는 정보량이 적은 토큰일 수 있지만 이메일과 관련된 내용을 판단해야 하는 작업에서는 유용한 토큰으로 사용될 수 있음
- 자연어 처리 작업에서 데이터를 수집한 이후에는 항상 목적에 맞지 않는 노이즈가 있진 않은지 검사하고 발견한 노이즈를 정제하기 위한 노력이 필요

# 6. 정규화(Normalization)
- 일반적인 머신러닝 작업에서 데이터 정규화는 학습 데이터의 값들이 적당한 범위를 유지하도록 데이터의 범위를 변환하거나 스케일링하는 과정
-정규화 목표는 모든 데이터가 같은 정도의 스케일로 반영되도록 하는 것
- 자연어처리 정규화의 핵심은 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어주는 과정

### 6-1. 정규화 작업이 필요한 이유
- 단어 사전내의 단어 토큰들이 모두 중요하게 고려되길 원함
- 자연어의 특성 상 의미가 같은데 표기가다른 단어들이 있을 수 있고, 의미는 같지만 사용 빈도가 낮은 동의어들은 학습에 유용하게 활용되지 않을 수 있음
- 의미가 같지만 표기가 다른 단어들을 통합할 수 있다면, 통합된 단어의 사용 빈도가 높아질 것이고 빈도가 낮은 단어들의 중요도가 높아질 수 있음

### 6-2. 정규화 작업의 종류
- 어간 추출 : 형태학적 분석을 단순화간 버전으로 정해진 규칙만 보고 단어의 이미를 자르는 어림짐작 작업
- 표제어 추출 : 단어들이 다른 형테를 가지디더라도, 그 뿌리 단어를 찾아가서 개수를 줄일수 있는지 판단하는방법
- 대소문자 통합


### 6-3. 정규화 시 유의할 점
- 규칙이 너무 엄격한 정류화 방법은 부작용이 심해 학습에 악영향을 줄 수 있음
- 원본 의미를 최대한 유지하는것이 학습에 도움됨
- 대화에서 사용하는 의미가 비슷한 이모티콘들을 통합하는 정규화 작업

# 7. 한국어 데이터 전처리

### 7-1. 한국어의 특성
- 영어는 합성어나 줄임말에 대한 예최처리만 한다면 띄어쓰리그를 기준으로 하는 토큰화 작업으로도 어느 정도 성능 보장간ㅇ
- 한국어에서는 조사나 어미가 발달되어 있기때문에 띄어쓰기만으로 단어를 분리하면 의미적인 훼손이 일어날수 있음
- 띄어쓰기 단위가 되는 단위를 "어절"이라고 하는데 어절 토큰화의 단어 토큰화가 같지 않ㄱ뚠

### 7-2. 형태소 분석
- 형태소를 비롯하여, 어근/접두사/ 접미사/ 품사 등 다양한 언어적 속성의 구조물 파악하는 것에 의미
- 형태소 분석과정은 한국어 단어에서 형태소를 추출하여 분리하 분리하는 작업이며, 이후에 필요에 따라 사전 정의된 품사를 해당 단어에 테킹하는 작업함
- 태깅 : 형토소의 뜻과 문맥을 고려하여 단어에 품사를 매핑하는 것


# 8. 데이터 전처리 실습


In [None]:
#뉴스 기사 크롤링 라이브러리
!pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.1/211.1 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting cssselect>=0.9.2 (from newspaper3k)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Collecting feedparser>=5.2.1 (from newspaper3k)
  Downloading feedparser-6.0.11-py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.3/81.3 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting tldextract>=2.0.1 (from newspaper3k)
  Downloading tldextract-5.1.1-py3-none-any.whl (97 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m97.7/97.7 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting feedfinder2>=0.0.4 (from newspaper3k)
  Downloading feedfinder2-0.0.4.tar.gz (3.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jieba3k>=0.35.1 (from newspaper3k)
  Downloading jieba3k-0.35.1.zip (

In [None]:
from newspaper import Article

In [None]:
url = 'https://v.daum.net/v/ySnyNE6FqA'
article = Article(url, language='ko')

In [None]:
article.download()
article.parse()

print('title', article.title)
print('content', article.text)

title '기생충' 봉준호가 제작하고 '미나리' 정이삭이 감독하는 신작
content 기생충 + 미나리 = 어떤 영화가 될까?

기생충/미나리

'기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다? K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.

imdb

정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.

특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.

아카데미 시상식

그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다. 그야말로 한국 영화의 어벤져스랄까요?

게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.

스티븐연/썬더볼츠

스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.

작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자. 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.

칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티

영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.

정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.


In [None]:
additional_info = [
    "※ 기자 김사과(apple@apple.com) 취재 반하나(banana@banana.com)",
    "<h2>'기생충' 봉준호가 제작하고 '마니라' 정이삭이 감독하는 신작</h2>",
    "이 기사는 임시 데이터임을 알립니다 ••• ",
    "Copyright@koreait.com",
    "<br> → 이 기사는 문화 섹션으로 분류했습니다 ••• <br>",
    "#기사 #문화 #기생충 #미나리"
]

context = article.text.split('\n')
context += additional_info

In [None]:
for i, text in enumerate(context):
  print(i, text)

0 기생충 + 미나리 = 어떤 영화가 될까?
1 
2 기생충/미나리
3 
4 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다? K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
5 
6 imdb
7 
8 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
9 
10 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
11 
12 아카데미 시상식
13 
14 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다. 그야말로 한국 영화의 어벤져스랄까요?
15 
16 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
17 
18 스티븐연/썬더볼츠
19 
20 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
21 
22 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자. 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
23 
24 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
25 
26 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
27 
28 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
29 

In [None]:
# 불용어 제거하기
# delete_stopwords()
# 불용어 사전 정의 ['→', '※', '•••']

# def delete_stopwords2(context):
#   stopwords = ['→', '※', '•••']
#   cleaned_context = [text for text in context if all(stopword not in text for stopword in stopwords)]
#   return cleaned_context

# cleaned_context = delete_stopwords2(context)
# for i, text in enumerate(cleaned_context):
#     print(i, text)


# 교수님 정답
stopwords = ['→', '※', '•••']

def delete_stopwords(context):
  preprocessed_text = []
  for text in context:
    text = [w for w in text.split(' ') if w not in stopwords]
    preprocessed_text.append(' '.join(text))

  return preprocessed_text

In [None]:
preprocessed_context = delete_stopwords(context)

for i , text in enumerate(preprocessed_context):
  print(i, text)


0 기생충 + 미나리 = 어떤 영화가 될까?
1 
2 기생충/미나리
3 
4 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다? K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
5 
6 imdb
7 
8 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
9 
10 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
11 
12 아카데미 시상식
13 
14 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다. 그야말로 한국 영화의 어벤져스랄까요?
15 
16 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
17 
18 스티븐연/썬더볼츠
19 
20 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
21 
22 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자. 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
23 
24 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
25 
26 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
27 
28 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
29 

In [None]:
# HTML 태그 제거
# delete_html_tag() : 데이터를 넣으면 HTML을 제거한 후 데이터 반환
# 정규식 사용
import re

def delete_html_tag(context):
  preprocessed_text = []
  html_tag = re.compile('<.*?>')

  for text in context:
    text = re.sub(html_tag, '', text).strip()

    if text:
      preprocessed_text.append(text)
  return preprocessed_context

In [None]:
preprocessed_context = delete_html_tag(preprocessed_context)

for i,text in enumerate(preprocessed_context):
  print(i, text)

0 기생충 + 미나리 = 어떤 영화가 될까?
1 
2 기생충/미나리
3 
4 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다? K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
5 
6 imdb
7 
8 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
9 
10 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
11 
12 아카데미 시상식
13 
14 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다. 그야말로 한국 영화의 어벤져스랄까요?
15 
16 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
17 
18 스티븐연/썬더볼츠
19 
20 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
21 
22 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자. 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
23 
24 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
25 
26 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
27 
28 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
29 

In [None]:
# 문장 분리
# 학습 데이터를 구성할 때 입력 데이터의 단위를 설정하기 애매해지므로 문장단위로
# 모델이 학습하도록 유도하기 위해 문장 분리가 필요
# 한국어 문장 분리기 중 kss 라이브러리 사용
!pip install kss

Collecting kss
  Downloading kss-4.5.4.tar.gz (79 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl (131 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m131.3/131.3 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: kss, pecab
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-4.5.4-py3-none-any.whl size=54464 sha256=cde99f10453a893e7a6f3f43be3631f29dcf00030562888b44413de37e07ce5b
  Stored in directory: /root/.cache/pip/wheels/61/7b/ba

In [None]:
import kss
# https://github.com/hyunwoongko/kss

In [None]:
def sentence_seperator(context):
  splited_context = []

  for text in context:
    text = text.strip()
    if text:
      splited_text = kss.split_sentences(text)
      splited_context.extend(splited_text)
  return splited_context

In [None]:
preprocessed_context = sentence_seperator(preprocessed_context)
for i,text in enumerate(preprocessed_context):
  print(i, text)

0 기생충 + 미나리 = 어떤 영화가 될까?
1 기생충/미나리
2 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다?
3 K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
4 imdb
5 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
6 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
7 아카데미 시상식
8 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다.
9 그야말로 한국 영화의 어벤져스랄까요?
10 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
11 스티븐연/썬더볼츠
12 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
13 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자.
14 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
15 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
16 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
17 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
18 기자 김사과(apple@apple.com) 취재 반하나(banana@banana.co

In [None]:
!pip install python-mecab-kor

Collecting python-mecab-kor
  Using cached python-mecab-kor-1.2.8.tar.gz (12 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: python-mecab-kor
  Building wheel for python-mecab-kor (setup.py) ... [?25l[?25hdone
  Created wheel for python-mecab-kor: filename=python_mecab_kor-1.2.8-cp310-cp310-linux_x86_64.whl size=4057410 sha256=6a0db57a6177bf670ff87c9c57f5c592239b0fe03edc9579126063651494b9cf
  Stored in directory: /root/.cache/pip/wheels/e2/5c/68/390a1ec44b132551c3b17ac8f6e57c05c962382b94ba8d7223
Successfully built python-mecab-kor
Installing collected packages: python-mecab-kor
Successfully installed python-mecab-kor-1.2.8


In [None]:
# 이메일 제거
# delete_email()
def delete_email(context):
    preprocessed_text = []
    for text in context:
        text = re.sub('[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', '', text).strip()
        if text:
            preprocessed_text.append(text)
    return preprocessed_text

preprocessed_context = delete_email(preprocessed_context)
for i, text in enumerate(preprocessed_context):
    print(i, text)

0 기생충 + 미나리 = 어떤 영화가 될까?
1 기생충/미나리
2 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다?
3 K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
4 imdb
5 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
6 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
7 아카데미 시상식
8 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다.
9 그야말로 한국 영화의 어벤져스랄까요?
10 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
11 스티븐연/썬더볼츠
12 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
13 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자.
14 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
15 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
16 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
17 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
18 기자 김사과() 취재 반하나()
19 <h2>'기생충' 봉준호가 제작하고 '마니라' 

In [None]:
# 해시태그 제거
def delete_hashtag(context):
  preprocessed_text = []
  for text in context:
    text = re.sub('#\S+', '',text).strip()
    if text:
      preprocessed_text.append(text)
  return preprocessed_text
preprocessed_context = delete_email(preprocessed_context)
for i, text in enumerate(preprocessed_context):
    print(i, text)

0 기생충 + 미나리 = 어떤 영화가 될까?
1 기생충/미나리
2 '기생충'의 봉준호 감독 그리고 '미나리'의 정이삭 감독과 스티븐 연이 만난다?
3 K-무비의 힘을 보여준 아카데미 위너들이 한 프로젝트로 힘을 합친다고 밝혀 전세계 영화팬들의 가슴을 두근거리게 하고 있습니다.
4 imdb
5 정이삭 감독은 오래된 재난 영화 "트위스터"의 후속작 "트위스터즈"의 촬영을 마친 후, "작은 사랑 이야기"라고 임시로 이름을 붙인 프로젝트에 착수했는데요.
6 특히, 이 영화는 정이삭 감독과 스티븐 연이 '미나리' 이후 다시 한번 손을 잡아 화제가 되고 있습니다.
7 아카데미 시상식
8 그리고 이 영화의 제작자로 아카데미 작품상을 수상한 '기생충'의 봉준호 감독이 프로듀서로 참여한다는 소식입니다.
9 그야말로 한국 영화의 어벤져스랄까요?
10 게다가 각본은 "포레스트 검프", "벤자민 버튼의 시간은 거꾸로 간다", "스타 이즈 본", 마틴 스콜세지의 최근작 "플라워 킬링 문"의 각본을 집필한 에릭 로스가 맡았습니다.
11 스티븐연/썬더볼츠
12 스티븐 연은 '미나리'에서의 인상적인 연기로 오스카 후보에 오른 바 있으며, 마블의 '썬더볼츠'에 합류한다는 소식인데요.
13 작가, 배우 조합의 파업 등으로 촬영 일정이 밀리며 '썬더볼츠'와 이 영화의 스케줄이 겹치자.
14 단호하게 MCU 합류를 포기하며 정이삭 감독과의 의리를 과시했습니다.
15 칸영화제에 참가한 '옥자팀' / 온라인 커뮤니티
16 영화의 구체적인 줄거리와 출연진, 개봉 날짜 등에 대한 정보는 아직 공개되지 않았지만, 제작자, 감독, 배우, 각본의 조합만으로 팬들과 영화 애호가들 사이에서 프로젝트에 대한 기대는 이미 한껏 높아져 있는데요.
17 정이삭 감독의 연출, 스티븐연의 연기, 에릭 로스의 각본, 그리고 봉준호의 제작이 어우러져 만들어낼 이 영화가 과연 한국 영화계에 또 어떤 족적을 남기게 될지 두근거리게 합니다.
18 기자 김사과() 취재 반하나()
19 <h2>'기생충' 봉준호가 제작하고 '마니라' 

In [None]:
# 반복 횟수가 많은 문자 정규화
!pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m416.8/416.8 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [None]:
from soynlp.normalizer import *

In [None]:
print(repeat_normalize('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', num_repeats=2))

ㅋㅋ


In [None]:
print(repeat_normalize('야!!! 너!!!! 지금 뭐함? ㅠㅠㅠㅠ', num_repeats=2))

야!!! 너!!!! 지금 뭐함? ㅠㅠ


In [None]:
# 중복 문장 정규화
# duplicated_sentence_normalizer()

from collections import OrderedDict

In [None]:
def duplicated_sentence_normalizer(context):
    context = list(OrderedDict.fromkeys(context))
    return context

In [None]:
#preprocessed_context = ['apple', 'banana', 'apple', 'orange', 'banana', 'melon']
preprocessed_context = duplicated_sentence_normalizer(preprocessed_context)

for i, text in enumerate(preprocessed_context):
  print(i,text)

In [None]:
# 문장 길이 기반 필터링
# min_max_filter(min_len, max_len, context):
# min_len 보다 길고, max_len 보다 짧은 문장만 필터링

def min_max_filter(min_len, max_len, context):
    preprocessed_text = []

    for text in context:
      if min_len < len(text) and len(text) < max_len:
        preprocessed_text.append(text)
    return preprocessed_text


In [None]:
preprocessed_context =  min_max_filter(10,100, preprocessed_context)

for i ,text in enumerate(preprocessed_context):
  print(i, text)

In [None]:
#토큰화
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_context)
tokenizer

<keras.src.preprocessing.text.Tokenizer at 0x7aabebac6e30>

In [None]:
word2idx = tokenizer.word_index
word2idx

{'이': 1,
 '정이삭': 2,
 '영화의': 3,
 '기생충': 4,
 '미나리': 5,
 '그리고': 6,
 '스티븐': 7,
 '아카데미': 8,
 '의': 9,
 'com': 10,
 '어떤': 11,
 '영화가': 12,
 "'기생충'의": 13,
 '봉준호': 14,
 '감독': 15,
 '감독과': 16,
 '연이': 17,
 '힘을': 18,
 '두근거리게': 19,
 '있습니다': 20,
 '영화': 21,
 '프로젝트에': 22,
 '한국': 23,
 '에릭': 24,
 '배우': 25,
 '대한': 26,
 'apple': 27,
 'banana': 28,
 'h2': 29,
 '기사는': 30,
 'br': 31,
 '문화': 32,
 '될까': 33,
 "'미나리'의": 34,
 '만난다': 35,
 'k': 36,
 '무비의': 37,
 '보여준': 38,
 '위너들이': 39,
 '한': 40,
 '프로젝트로': 41,
 '합친다고': 42,
 '밝혀': 43,
 '전세계': 44,
 '영화팬들의': 45,
 '가슴을': 46,
 '하고': 47,
 'imdb': 48,
 '감독은': 49,
 '오래된': 50,
 '재난': 51,
 '트위스터': 52,
 '후속작': 53,
 '트위스터즈': 54,
 '촬영을': 55,
 '마친': 56,
 '후': 57,
 '작은': 58,
 '사랑': 59,
 '이야기': 60,
 '라고': 61,
 '임시로': 62,
 '이름을': 63,
 '붙인': 64,
 '착수했는데요': 65,
 '특히': 66,
 '영화는': 67,
 "'미나리'": 68,
 '이후': 69,
 '다시': 70,
 '한번': 71,
 '손을': 72,
 '잡아': 73,
 '화제가': 74,
 '되고': 75,
 '시상식': 76,
 '제작자로': 77,
 '작품상을': 78,
 '수상한': 79,
 '감독이': 80,
 '프로듀서로': 81,
 '참여한다는': 82,
 '소식입니다': 83,
 '그야말로': 84

In [None]:
idx2word = {value : key for key, value in word2idx.items()}
idx2word

{1: '이',
 2: '정이삭',
 3: '영화의',
 4: '기생충',
 5: '미나리',
 6: '그리고',
 7: '스티븐',
 8: '아카데미',
 9: '의',
 10: 'com',
 11: '어떤',
 12: '영화가',
 13: "'기생충'의",
 14: '봉준호',
 15: '감독',
 16: '감독과',
 17: '연이',
 18: '힘을',
 19: '두근거리게',
 20: '있습니다',
 21: '영화',
 22: '프로젝트에',
 23: '한국',
 24: '에릭',
 25: '배우',
 26: '대한',
 27: 'apple',
 28: 'banana',
 29: 'h2',
 30: '기사는',
 31: 'br',
 32: '문화',
 33: '될까',
 34: "'미나리'의",
 35: '만난다',
 36: 'k',
 37: '무비의',
 38: '보여준',
 39: '위너들이',
 40: '한',
 41: '프로젝트로',
 42: '합친다고',
 43: '밝혀',
 44: '전세계',
 45: '영화팬들의',
 46: '가슴을',
 47: '하고',
 48: 'imdb',
 49: '감독은',
 50: '오래된',
 51: '재난',
 52: '트위스터',
 53: '후속작',
 54: '트위스터즈',
 55: '촬영을',
 56: '마친',
 57: '후',
 58: '작은',
 59: '사랑',
 60: '이야기',
 61: '라고',
 62: '임시로',
 63: '이름을',
 64: '붙인',
 65: '착수했는데요',
 66: '특히',
 67: '영화는',
 68: "'미나리'",
 69: '이후',
 70: '다시',
 71: '한번',
 72: '손을',
 73: '잡아',
 74: '화제가',
 75: '되고',
 76: '시상식',
 77: '제작자로',
 78: '작품상을',
 79: '수상한',
 80: '감독이',
 81: '프로듀서로',
 82: '참여한다는',
 83: '소식입니다',
 84: '그야말로'

In [None]:
encoded = tokenizer.texts_to_sequences(preprocessed_context)
encoded

[[4, 5, 11, 12, 33],
 [4, 5],
 [13, 14, 15, 6, 34, 2, 16, 7, 17, 35],
 [36, 37, 18, 38, 8, 39, 40, 41, 18, 42, 43, 44, 45, 46, 19, 47, 20],
 [48],
 [2,
  49,
  50,
  51,
  21,
  52,
  9,
  53,
  54,
  9,
  55,
  56,
  57,
  58,
  59,
  60,
  61,
  62,
  63,
  64,
  22,
  65],
 [66, 1, 67, 2, 16, 7, 17, 68, 69, 70, 71, 72, 73, 74, 75, 20],
 [8, 76],
 [6, 1, 3, 77, 8, 78, 79, 13, 14, 80, 81, 82, 83],
 [84, 23, 3, 85],
 [86,
  87,
  88,
  89,
  90,
  91,
  92,
  93,
  94,
  95,
  96,
  97,
  98,
  99,
  100,
  101,
  102,
  103,
  9,
  104,
  105,
  24,
  106,
  107],
 [108, 109],
 [7, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122],
 [123, 25, 124, 125, 126, 127, 128, 129, 130, 1, 3, 131, 132],
 [133, 134, 135, 136, 2, 137, 138, 139],
 [140, 141, 142, 143, 144],
 [3,
  145,
  146,
  147,
  148,
  149,
  150,
  26,
  151,
  152,
  153,
  154,
  155,
  15,
  25,
  156,
  157,
  158,
  21,
  159,
  160,
  22,
  26,
  161,
  162,
  163,
  164,
  165],
 [2,
  166,
  167,
  16

In [None]:
vocab_size = len(word2idx)
print(f'단어 사전 크기 : {vocab_size}')

단어 사전 크기 : 201


In [None]:
print(encoded[0])

[4, 5, 11, 12, 33]
