## 정제(Cleansing) & 정규화(Normalization)
- 정제: 불필요한 특수 문자, 구두점 등 텍스트 데이터에 포함된 노이즈 제거
- 정규화: 같은 의미지만 표기가 다른 단어들을 일관된 표현으로 통일 (대소문자 , 문자 등)

### 정규화
- 규칙기반 정규화 : 특정 규칙들을 토대로 통일 시켜줌.
    - United Kingdom = UK
    - Uh-oh! = uhoh
    => 서로 다른 표현을 통일시킴

In [1]:
text = "The United Kingdom and UK have a long history together. \
Uh-oh! Something went wrong, uhoh."

In [3]:

# 규칙기반 정규화 : 정해진 룰에 따라 특정지어 치환 작업 
transformed_text = text.replace("United Kingdom", "UK").replace("uhoh", "uh-oh")
transformed_text

'The UK and UK have a long history together. Uh-oh! Something went wrong, uh-oh.'

In [4]:
# 대소문자 통합
text = "Theater attendance has decreased. The THEATER industry is adapting."
transformed_text = text.lower()
print(transformed_text)

theater attendance has decreased. the theater industry is adapting.


### 정규화 정제

- 불필요한 단어 제거
- 사용빈도가 매우 적은 단어
- 불용어 (자주 사용되지만 큰 의미를 갖지 않는 단어)
- 특수문자


In [5]:
text = "The quick brown fox jumps over the lazy dog. The fox is quick and agile."

In [7]:
##### 1. 빈도수 낮은 단어 제거 #####

from nltk.tokenize import word_tokenize
from collections import Counter  

# 토큰화 : 단어 단위로 분리(문장 -> 단어)
tokens = word_tokenize(text)

# 단어별 빈도수 계산
# Counter : 단어의 빈도수를 쉽게 계산할 수 있는 파이썬의 내장 라이브러리
#     - 단어를 key로, 빈도수를 value로 하는 딕셔너리 형태로 반환
token_counts = Counter(tokens)
print(token_counts)

# 빈도수가 2회 이상인 단어만 필터링
filtered_tokens = [token for token in tokens if token_counts[token] >= 2]
print(filtered_tokens)

Counter({'The': 2, 'quick': 2, 'fox': 2, '.': 2, 'brown': 1, 'jumps': 1, 'over': 1, 'the': 1, 'lazy': 1, 'dog': 1, 'is': 1, 'and': 1, 'agile': 1})
['The', 'quick', 'fox', '.', 'The', 'fox', 'quick', '.']


In [8]:
##### 2. 짧은 단어 제거 #####
# - 한국어에 대해서는 짧은 단어 제거가 효과적일 수 없음 -> 조사, 어미 등이 중요한 의미를 가질 수 있기 때문
# - 영어에서는 짧은 단어가 불필요한 경우가 많음

tokens = word_tokenize(text)

# 길이가 2자 초과인 단어만 필터링
filtered_tokens = [token for token in tokens if len(token) > 2]
print(filtered_tokens)



['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', 'The', 'fox', 'quick', 'and', 'agile']


In [10]:
##### 3. 불용어(stopword) 제거 #####

from nltk.corpus import stopwords

# 영어 불용어 사전 로드
# set 자료형 : 중복된 값을 허용하지 않음
en_stopwords = set(stopwords.words('english'))
print(en_stopwords)

# 토큰화
tokens = word_tokenize(text)

# 불용어 제거 => 소문자 변환 후 불용어 사전에 없는 단어만 필터링
filtered_tokens = [token for token in tokens if token.lower() not in en_stopwords]
print(filtered_tokens)

{"i'd", 'ma', "she's", 'needn', "i'll", 'those', 'whom', "that'll", 'hasn', "they're", 'below', 'then', "didn't", 'such', 'when', 'd', 'a', 'what', 'i', 'from', 'all', "couldn't", 'are', 'has', 'been', "shouldn't", "needn't", 'y', "wasn't", 'during', 'aren', 'again', 'further', "isn't", 'll', 'by', 'haven', 'mightn', "he'd", 'isn', "it'd", 'any', 'here', 'were', 'my', 'our', 'and', "we'll", 'there', "they'd", 'don', 'won', "wouldn't", "we've", 'is', "shan't", 'doing', "hasn't", 'of', "weren't", 'wouldn', 'his', 'themselves', "don't", 'off', "it's", 'an', 't', 'this', 'yourself', 'them', 'they', 'where', 'your', 'myself', 'on', 'under', "aren't", 'or', 'most', 'than', 'very', "we're", "she'd", "you'd", "he's", 'same', 'because', 'to', 'weren', 'these', 'it', 'did', 'about', 'can', 'me', 'no', 'why', 'didn', 'but', "haven't", 'as', 'being', 'doesn', 'him', 'which', "they've", 'hers', 'between', 'through', 'itself', 'theirs', 'after', 'ourselves', "won't", 'at', 'himself', 'over', 'was', 

In [11]:
##### 4. 한국어 불용어 제거 #####
# https://ranks.nl/stopwords/korean => 한국어 불용어 사전 참고
from konlpy.tag import Okt

text = "이 방법은 특히 빅데이터 분석에서 중요한 역할을 합니다. 이를 통해서 더 많은 정보를 얻을 수 있습니다."

# 토큰화
okt = Okt() 

# morphs() : 형태소 단위로 토큰화
tokens = okt.morphs(text)
print(tokens) 

['이', '방법', '은', '특히', '빅데이터', '분석', '에서', '중요한', '역할', '을', '합니다', '.', '이를', '통해', '서', '더', '많은', '정보', '를', '얻을', '수', '있습니다', '.']


In [16]:
# 한국어 불용어 사전 로드 함수
def load_stopwords(filepath):
    stopwords = set()
    with open(filepath, 'r', encoding='utf-8') as f:
        for line in f:
            stopwords.add(line.strip())
    return stopwords

ko_stopwords = load_stopwords('./ko_stopwords.txt')

print(ko_stopwords)

{'어떤것들', '무릎쓰고', '나', '제외하고', '중의하나', '쳇', '뿐이다', '그러면', '견지에서', '그런 까닭에', '이천팔', '도달하다', '기타', '것과 같이', '여기', '말할것도 없고', '기점으로', '콸콸', '까닭으로', '몇', '어떤', '엉엉', '반드시', '하지 않도록', '여섯', '하기는한데', '본대로', '연이서', '하면서', '고려하면', '버금', '어쨋든', '조차도', '곧', '지말고', '의해', '뒤따라', '부터', '타다', '어떤것', '시간', '툭', '결론을 낼 수 있다', '같다', '얼마큼', '조금', '자마자', '제', '차라리', '아니나다를가', '그래서', '하는것만 못하다', '할만하다', '일반적으로', '아이', '거바', '더구나', '남들', '둥둥', '허허', '헉', '자신', '상대적으로 말하자면', '각각', '불문하고', '더라도', '이상', '힘입어', '비록', '하려고하다', '일지라도', '어디', '이렇구나', '다음', '위하여', '응당', '하여야', '오직', '마음대로', '아이고', '이곳', '하느니', '지만', '우리들', '할줄알다', '과', '결국', '우에 종합한것과같이', '에 달려 있다', '점에서 보아', '이리하여', '말하자면', '하기보다는', '을', '모', '아니면', '더불어', '하는 편이 낫다', '얼마 안 되는 것', '허', '된바에야', '그렇지 않다면', '때가 되어', '매', '어느때', '이것', '아래윗', '않기 위해서', '예를 들면', '틈타', '어째서', '하기만 하면', '에 대해', '어떠한', '운운', '습니까', '이천칠', '다수', '왜', '각', '봐', '오', '이때', '얼마든지', '소인', '그렇지만', '하면 할수록', '라 해도', '하고 있다', '야', '다만', '휘익', '삼', '관련이 있다', '하나', '향하여', '응', '일단',

In [17]:
cleaned_tokens = [token for token in tokens if token not in ko_stopwords]
print(cleaned_tokens)

['방법', '은', '특히', '빅데이터', '분석', '중요한', '역할', '합니다', '.', '이를', '통해', '서', '더', '많은', '정보', '얻을', '수', '있습니다', '.']
