# 정제 (cleansing) & 정규화 (normalization)

- 정제: 불필요한거 제거 (특수문자, 이모지, 구두점 등 노이즈)
- 정규화: 같은 의미지만 표기가 다른 것들을 일관되게 통일 (대소문자 등)

In [1]:
text = "The United Kingdom and UK have a long history together. \
Uh-oh! Something went wrong, uhoh."

# 규칙기반 정규화: Rule base
transformed_text = text.replace("United Kingdom", "UK").replace("Uh-oh", "uhoh")
transformed_text

'The UK and UK have a long history together. uhoh! Something went wrong, uhoh.'

In [2]:
text = "Theater attendance has decreased. The THEATER industry is adapting."

transformed_text = text.lower()
transformed_text

'theater attendance has decreased. the theater industry is adapting.'

### 정제

불필요한 단어 제거
- 사용빈도 적은 단어
- 불용어
- 특수문자

In [3]:
corpus = [
    "The quick brown fox jumps over the lazy dog. The fox is quick and agile.",
    "Artificial intelligence is reshaping the future of technology. Data without context is meaningless.",
    "Go is designed for simplicity, concurrency, and performance.",
    "Python remains the dominant language for machine learning.",
    "Distributed systems require careful management of state and latency.",
    "Sustainable agriculture can benefit from predictive AI models. The server responded with a 500 internal error.",
    "Version control allows developers to collaborate safely.",
    "Training deep networks demands both data and computational power.",
    "Quantum computing may redefine the boundaries of encryption.",
    "Ethical AI must prioritize transparency and accountability. A scalable backend should handle thousands of concurrent users.",
    "The model’s performance improved after fine-tuning the parameters.",
    "React components make it easier to manage UI state."
]

text = corpus[0]

In [4]:
# 빈도수 낮은 단어 제거

from nltk.tokenize import word_tokenize
from collections import Counter

tokens = word_tokenize(text)
word_counts = Counter(tokens)

filtered_tokens = [token for token in tokens if word_counts[token] > 1]

In [5]:
filtered_tokens

['The', 'quick', 'fox', '.', 'The', 'fox', 'quick', '.']

In [6]:
# 짧은 단어 제거 (한국어엔 비적합)

tokens = word_tokenize(text)

filtered_tokens = [token for token in tokens if len(token) > 2]
filtered_tokens

['The',
 'quick',
 'brown',
 'fox',
 'jumps',
 'over',
 'the',
 'lazy',
 'dog',
 'The',
 'fox',
 'quick',
 'and',
 'agile']

In [8]:
# 불용어 제거
from nltk.corpus import stopwords

en_stopwords = set(stopwords.words('english'))

tokens = word_tokenize(text.lower())
filtered_tokens = [token for token in tokens if token not in en_stopwords]

filtered_tokens

['quick',
 'brown',
 'fox',
 'jumps',
 'lazy',
 'dog',
 '.',
 'fox',
 'quick',
 'agile',
 '.']

- 한국어 불용어 제거

https://ranks.nl/stopwords/korean

In [11]:
from konlpy.tag import Okt

text = "ㅁ옹ㅁ ㅈㅁㅇ 미ㅏㅓㅇㅈ먀ㅓㅣㅏㅓ ㅁ"

okt = Okt()
tokens = okt.morphs(text)
tokens

['ㅁ', '옹', 'ㅁ', 'ㅈㅁㅇ', '미', 'ㅏㅓㅇㅈ', '먀', 'ㅓㅣㅏㅓ', 'ㅁ']

In [None]:
ko_stopwords = set("아 이구 이쿠 이고 리 희 라 해 로 게 이다 거하여 거하여 각하여 준으로 하면 를 들면 를 들자면 인 생 희 말고 지마 지마라 른 론 한 리고 길수 없다 서는 안된다 만 아니라 이 아니다 은 아니다 론하고 계없이 치지 않다 러나 런데 지만 간에 하지 않다 지지 않다 사 록 라도 니면  못하다 는 편이 낫다 문하고 하여 해서 하다 으로 타 용하여 다 르다 외하고  외에  밖에 여야 로소 다면 몰라도 에도 곳 기 터 점으로 라서  생각이다 려고하다 리하여 리하여 렇게 함으로써 지만 때 때 에서 에서 는데서 로써 써 지 야한다 것이다 드시 줄알다 수있다 수있어 에 틀림없다 다면 등 우 지 만 뿐 동 그 해서 하여 하면 씬 마나 마만큼 마큼 짓 마간 간 소 금 수 마 만 물며 한 러나 렇지만 지만 외에도 해 말하자면 이다 음에 대로 대로 말하자면 와 반대로 꾸어서 말하면 꾸어서 한다면 약 렇지않으면 악 걱거리다 드득 걱거리다 당 당 야한다  가서 각 러분 종 자 각기 도록하다 러므로 래서 로  까닭에 기 때문에 니와 지만 하여 하여 한 연 로 니나다를가 각한대로 짜로 적이있다 곤하였다 하 허 하 바 째서 엇때문에 찌 겠는가 슨 디 느곳 군다나 물며 욱이는 느때 제 봐 이 보시오 흐 헉 떡헐떡 차 차 기여차 끙 야 야 콸 졸 좍 뚝 룩주룩 르르 래도 리고 꾸어말하면 꾸어말하자면 은 시 다 에 따르는 가 되어 든지 령 령 더라도 지라도 지라도 든지 의 마터면 젠 젠 바에야 이상 큼	어찌됏든 위에 다가 에서 보아 추어 보아 려하면 게될것이다 것이다 교적 다더 하면 키다 게하다 만하다 해서 이서 어서 따라 따라 이어 국 지하여 대여 하여 마자 욱더 구하고 마든지 음대로 저하지 않고 시 로 장 자마자 에 안된다 면된다 래 렇지 컨대 시 말하자면 꿔 말하면 체적으로 하자면 작하여 초에 상 걱 와같이 도좋다 도된다 다가 구나 물며 르르 렁 안 래 고있었다 었다 서 부터 지 하면 어요 요 께 이 불어 저 저도 자 두 니다 까스로 려고하다 음하여 른 른 방면으로 봐요 니까 어요 할것도 없고 릎쓰고 의치않고 는것만 못하다 는것이 낫다 번 느것 느 써 고말하자면 디 느쪽 느것 느해 느 년도  해도 젠가 떤것 느것 기 쪽 것 때 럼 러면 만한걸 래 때 것만큼 저 르기까지  줄 안다  힘이 있다 희 신 찌 마 라리 지언정 지라도 망정 지언정 토하다 우다 하다 쓰겁다 사람 거하여 거하여 해 라 입어 음 금 번째로 타 번째로 머지는 중에서 지에서 식으로 쓰여 장에서 해서 지 해되다 도록시키다 만아니라 대로 후 자 의것 시 깐 면서 렇지만 음에 러한즉 런즉 들 무거나 찌하든지 다 슷하다 컨대 럴정도로 떻게 약 일 에서 서술한바와같이  듯하다 지 않는다면 약에 엇 슨 느 떤 래윗 차 데 럼에도 불구하고 전히 지어 지도 차도 지 않도록 기 위하여 각 렵 간 안 때 떠한 여금 선 구 가 알겠는가 무도 은모른다 은 몰랏다 는 김에 사겸사 는바 런 까닭에  이유는 러니 러니까 문에 희 들 희들 인 들 하여 동으로 시에 기 위하여 찌하여 엇때문에 붕 윙 리 엉 익 윙 호 하 쨋든  못하다	하기보다는 라리 는 편이 낫다 흐 라다 대적으로 말하자면 치 니라면 렇지 않으면 렇지 않다면  그러면 니었다면 든지 니면 라면 아 았어 는것도 만이다 쩔수 없다 나 반적으로 단 켠으로는 자마자 렇게되면 와같다면 부 마디 항목 거로 기에 울러 지 않도록 기 위해서 르기까지  되다  인하여 닭으로 유만으로 로 인하여 래서  때문에 러므로 런 까닭에  수 있다 론을 낼 수 있다 로 인하여 다 떤것 계가 있다 련이 있다 관되다 떤것들  대해 리하여 리하여 부 기보다는 느니 면 할수록 운 러이러하다 구나 도다 시말하면 음으로  있다  달려 있다 리 리들 히려 기는한데 떻게 떻해 찌됏어 때 째서 대로 쪽 기 것 번 렇게말하자면 런 러한 와 같은 만큼 만한 것 마 안 되는 것 만큼  정도의 렇게 많은 것 와 같다 때 렇구나 과 같이 익 걱 위  같은 사람들 류의 사람들 냐하면 의하나 직 로지  한하다 기만 하면 착하다 지 미치다 달하다 도에 이르다  지경이다 과에 이르다 해서는 러분 고 있다  후 자 기 기집 신 에 종합한것과같이 적으로 보면 적으로 말하면 적으로 로 하다 로서 만이다  따름이다 탕 쾅 둥 라 이야 니 아 이 나 천육 천칠 천팔 천구 나 섯 섯 곱 덟 홉 ".split())
len(ko_stopwords)

459

In [14]:
cleaned_tokens = [t for t in tokens if t not in ko_stopwords]
cleaned_tokens

['ㅁ', '옹', 'ㅁ', 'ㅈㅁㅇ', '미', 'ㅏㅓㅇㅈ', '먀', 'ㅓㅣㅏㅓ', 'ㅁ']

In [20]:
def load_stopwords(filepath):
    with open(filepath, 'r', encoding='UTF-8') as f:
        stopwords = [line.strip() for line in f]
    return set(stopwords)

ko_stopwords = load_stopwords('./ko_stopwords.txt')

cleaned_tokens = [t for t in tokens if t not in ko_stopwords]
cleaned_tokens

['ㅁ', '옹', 'ㅁ', 'ㅈㅁㅇ', '미', 'ㅏㅓㅇㅈ', '먀', 'ㅓㅣㅏㅓ', 'ㅁ']