* 텍스트 데이터 전처리 과정

1. 데이터 정제(Cleaning)
- 불필요한 문자 제거: HMTL, 태그, 특수 문자, 이모지 등 제거
- 불용어 제거: 분석에 도움되지 않는 일반적인 단어들 제거 (the, is)
- 철자 오류 교정

2. 데이터 정규화(Normalization)
- 토큰화(Tokenization): 텍스트를 문장 또는 단어 단위로 분할
- 어간 추출(Stemming): 단어의 접미사나 어미를 제거하여 어간을 추출
- 원형 복원(Lemmatization): 단어의 문법적 의미와 문맥을 고려하여 사전적 원형 찾아 변환

3. 정형화(Structuring)
- 백터화(Vectorization): 텍스트 데이터를 수치 데이터로 변환
    - Bag-of-Words(BoW): 각 단어의 발생 빈도를 기반으로 벡터 생성
    - TF-IDF(Term Frequency-Inverse Document Frequency): 단어의 빈도와 문서 간의 반도를 고려하여 백터 생성
    - Word Embeddings: 단어를 밀집 벡터로 변환 (Word2Vec, GloVe)

1. 원시 텍스트 데이터를 수집하고 raw_data.txt 파일로 저장
2. Python 환경을 설정하고, 필요한 라이브러리(nltk, re, spellchecker) 설치
- pip install nltk psspellchecker / re는 내장함수로 설치 불필요

import nltk
nltk.download('gutenberg')
코드로 다운을 받을 수 있지만, 알 수 없는 이유로 설치가 안 됨 (인증서 문제인듯)

수동 설치 방법
- https://www.nltk.org/nltk_data/ 홈페이지에서 다운 가능하다. 
- 디렉토리 생성: mkdir -p /Users/username/nltk_data/corpora
- 파일 이동: mv ~/Downloads/gutenberg.zip /Users/username/nltk_data/corpora/
- 압축 해제: cd /Users/username/nltk_data/corpora
unzip gutenberg.zip


MacOS SSL 인증서 문제 해결 방법
- finder > applications > python > install certifications.command 파일 실행

In [20]:
import nltk 
from nltk.corpus import gutenberg

# Moby Dick 선택
raw_text = gutenberg.raw('melville-moby_dick.txt')

# raw_data.txt 파일로 저장
with open('raw_data.txt', 'w', encoding='utf-8') as file:
    file.write(raw_text)

3. [cleaning.py](http://cleaning.py/) 파일을 생성하여 텍스트 클리닝 작업을 시작합니다.
4. 불필요한 문장부호를 제거합니다.
5. 모든 텍스트를 소문자로 변환합니다.
6. nltk를 사용하여 불용어를 제거합니다.
7. spellchecker를 사용하여 철자 오류를 교정합니다.
8. 클리닝된 텍스트 데이터를 cleaned_data.txt 파일로 저장합니다.

re 라이브러리: 정규 표현식을 사용하여 텍스트 처리
stopwords 모듈: NLTK에서 제공하는 영어 불용어 리스트
SpellChecker 클래스: 철자 오류를 교정하는 라이브러리 

In [1]:
import nltk

# 필요한 NLTK 데이터 다운로드
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/baejuyeon/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /Users/baejuyeon/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/baejuyeon/nltk_data...


True

In [4]:
import re 
from nltk.corpus import stopwords
from spellchecker import SpellChecker

# 불용어 설정
stop_words = set(stopwords.words('english'))
print("Step 1: Stopwords set initialized.")

# raw_data.txt 파일에서 데이터 읽기
with open('raw_data.txt', 'r', encoding='utf-8') as file:
    raw_text = file.read()

print("Step 2: Raw data read from file.")

# 불필요한 문장부호 제거
cleaned_text = re.sub(r'[^\w\s]', '', raw_text)
print("Step 3: Punctuation removed.")

# 모든 텍스트를 소문자로 변환
cleaned_text = cleaned_text.lower()
print("Step 4: Converted text to lowercase.")

# 불용어 제거
cleaned_text = ' '.join([word for word in cleaned_text.split() if word not in stop_words])
print("Step 5: Stopwords removed.")

# 철자 오류 교정
spell = SpellChecker()
corrected_words = [
    spell.correction(word) if spell.correction(word) is not None else word
    for word in cleaned_text.split()
]
corrected_text = ' '.join(corrected_words)
print("Step 6: Spell correction done.")

# 클리닝된 텍스트 데이터를 cleaned_data.txt 파일로 저장
with open('cleaned_data.txt', 'w', encoding='utf-8') as file:
    file.write(corrected_text)

print("Step 7: Cleaned text saved to cleaned_data.txt.")

Step 1: Stopwords set initialized.
Step 2: Raw data read from file.
Step 3: Punctuation removed.
Step 4: Converted text to lowercase.
Step 5: Stopwords removed.
Step 6: Spell correction done.
Step 7: Cleaned text saved to cleaned_data.txt.


불용어(stop words): 분석에 큰 의미가 없는 일반적인 단어들
- 노이즈 감소
- 효율성 향상: 데이터 크기를 줄여 계산 비용을 감소시킴
- 모델 성능 개선: 의미 없는 단어 제거

9. [normalization.py] 파일을 생성하여 텍스트 정규화 작업을 시작합니다.
10. 단어 토큰화를 수행하여 각 단어를 개별적으로 처리합니다.
11. 어간 추출(Stemming) 또는 원형 복원(Lemmatization)을 적용합니다.
12. 정규화된 텍스트 데이터를 normalized_data.txt 파일로 저장합니다.

In [5]:
from nltk.tokenize import word_tokenize # 단어 토큰화 함수, 텍스트를 단어 단위로 분할
from nltk.stem import PorterStemmer # 어간 추출 클래스, 단어를 어간으로 변환
from nltk.stem import WordNetLemmatizer # 원형 복원 클래스, 단어를 원형으로 복원

# cleaned_data.txt 파일에서 데이터 읽기
with open('cleaned_data.txt', 'r', encoding='utf-8') as file:
    cleaned_text = file.read()

# 단어 토큰화
words = word_tokenize(cleaned_text)
print("Step 1: words are tokenized.")

# 어간 추출(Stemming) / running, ran, runs => run
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in words]
print("Step 2: words are stemmed.")

# 원형 복원(Lemmatization) / running, ran => run 
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
print("Step 3: words are lemmatized.")

# 정규화된 텍스트 데이터를 normalized_data.txt 파일로 저장
with open('normalized_data.txt', 'w', encoding='utf-8') as file:
    file.write(' '.join(lemmatized_words))

print("Step 4: Normalized data saved to normalized_data.txt.")

Step 1: words are tokenized.
Step 2: words are stemmed.
Step 3: words are lemmatized.
Step 4: Normalized data saved to normalized_data.txt.


Stemming 어간 추출
- 단어의 접미사나 어미를 단순히 잘라내어 어간을 추출
- 의미를 고려하지 않고 단순히 형태를 변환하기 때문에 때때로 부정확한 어간 생성될 수 있다. 

Lemmatization 원형 복원
- 단어의 문법적 의미와 문맥을 고려하여, 사전적 원형을 찾아 변환한다. 
- 문맥과 문법적 의미를 고려하여 더 정확한 원형을 제공한다. 

In [7]:
# cleaned_data.txt 파일 내용 출력
with open('cleaned_data.txt', 'r', encoding='utf-8') as file:
    cleaned_text = file.read()
    print(cleaned_text)

# normalized_data.txt 파일 내용 출력
with open('normalized_data.txt', 'r', encoding='utf-8') as file:
    normalized_text = file.read()
    print(normalized_text)




In [8]:
import os

# 현재 작업 디렉토리 출력
print("Current Working Directory:", os.getcwd())


Current Working Directory: /Users/baejuyeon/Documents/GitHub/kakaotech_bootcamp/private_mission
