#6.2. 텍스트 정제의 기본 기술

##(1) NLTK (Natural Language Toolkit) - 전통적인 NLP 라이브러리

In [None]:
!pip install nltk

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

##(2) spaCy: 빠르고 효율적인 NLP 라이브러리.

In [None]:
pip install spacy

##예제1)	Punkt 모델 다운로드 및 단어 토큰화- word_tokenize(text)

In [None]:
import nltk
from nltk.tokenize import word_tokenize

In [None]:
nltk.download('punkt')
nltk.download('punkt_tab')

In [None]:
# Punkt 모델 다운로드 (최초 1회 실행 필요)
nltk.download('punkt')
nltk.download('punkt_tab')

text = "I love Python programming."
tokens = word_tokenize(text)
print(tokens)

##예제2)	문장 단위 토큰화- sent_tokenize()

In [None]:
import nltk
from nltk.tokenize import sent_tokenize
# 필요한 리소스 다운로드
nltk.download('punkt')
texts = "Python is amazing. I love coding! Do you like programming?"
# 문장 단위로 토큰화
sentences = sent_tokenize(texts)
print(sentences)


##예제3)	NLTK에서 제공하는 영어 불용어 목록

In [None]:
import nltk
from nltk.corpus import stopwords

# 필요한 데이터 다운로드
nltk.download('stopwords')

# 영어 불용어 목록 확인
english_stopwords = stopwords.words('english')
print(english_stopwords)

##예제4)	불용어 제거

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# 필요한 리소스 다운로드
nltk.download('stopwords')
nltk.download('punkt')

# 샘플 텍스트 데이터
text = "I love programming in Python. It's amazing to work on data science projects."

# 1. 텍스트 토큰화
tokens = word_tokenize(text)

# 2. 불용어 목록 가져오기
stop_words = set(stopwords.words('english'))

# 3. 불용어 제거 (대소문자 구분 유지)
filtered_tokens = [word for word in tokens if word not in stop_words] #간결한 리스트 내포 문법 형식

# for word in tokens:
#     if word not in stop_words:  # 조건: word가 불용어 목록에 없으면
#         filtered_tokens.append(word)  # 리스트에 추가

# 결과 출력
print("Original Tokens:", tokens)
print("Filtered Tokens:", filtered_tokens)

##예제5)	문자열 함수 lower()로 소문자 변환

In [None]:
text = "Python is Amazing"
lower_text = text.lower()
print(lower_text)

##예제6)	정규 표현식을 활용한 특수 문자 제거

In [None]:
import re
# 샘플 텍스트
text = "I love Python! :) #coding 😊"
# 특수문자 및 불필요한 기호 제거
cleaned_text = re.sub(r"[^a-zA-Z\s]", "", text)
print("Original Text:", text)
print("Cleaned Text:", cleaned_text)


##예제7)	어간추출- PorterStemmer

In [None]:
# NLTK에서 제공하는 PorterStemmer 클래스를 가져옵니다.
from nltk.stem import PorterStemmer
# PorterStemmer 객체를 생성합니다.
stemmer = PorterStemmer()
# 어간 추출을 수행할 단어를 정의합니다.
word = 'running'
# 'running' 단어의 어간을 추출합니다.
stemmed_word = stemmer.stem(word)
# 추출된 어간을 출력합니다.
print(stemmed_word)


##예제8)	표제어 추출(Lemmatization)- WordNetLemmatizer

In [None]:
# NLTK 라이브러리 임포트
import nltk

# WordNetLemmatizer 클래스 가져오기
from nltk.stem import WordNetLemmatizer

# WordNet 리소스 다운로드 (표제어 추출에 필요)
nltk.download('wordnet')

# WordNetLemmatizer 객체 생성
lemmatizer = WordNetLemmatizer()

# 표제어 추출을 수행할 단어 정의
word = 'am'

# 'am' 단어를 동사(pos='v')로 간주하여 표제어를 추출
lemma = lemmatizer.lemmatize(word, pos='v')

# 추출된 표제어 출력
print(lemma)  # 출력 결과: 'be'

---
#6.3 정규 표현식으로 텍스트 다듬기

##예제9)	이메일 주소 추출

In [None]:
import re
# 검색할 텍스트
text = "My email is example@gmail.com"
# 이메일 주소를 찾는 정규 표현식 패턴
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
# 첫 번째 매칭된 이메일 주소 찾기
match = re.search(pattern, text)
# 결과 출력
if match:
    print(match.group())  # example@gmail.com


##예제10)	모든 매칭된 패턴 찾기

In [None]:
import re
# 검색할 텍스트
text = "Contact us at info@test.com and support@company.org"
emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", text)
print(emails)


In [None]:
text = "Contact us at info@test.com and support@company.org"
emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", text)
print(emails)  # ['info@test.com', 'support@company.org']

##예제11)	문자열 치환

In [None]:
import re
# 원본 문자열
text = "Price is $100 and $200"
# 정규식 패턴: '$' 기호 뒤에 오는 숫자 찾기
pattern = r"\$\d+"
# 패턴을 "XXX"로 치환
result = re.sub(pattern, "XXX", text)
print(result)


##예제12)	특정 패턴을 기준으로 문자열 분리

In [None]:
import re
# 원본 문자열
text = "apple,banana;grape|orange"
# 패턴을 기준으로 분리 (콤마, 세미콜론, 파이프)
result = re.split(r"[,;|]", text)
# 결과 출력
print(result)


---
#6.4. 실전 퀘스트 : 나만의 전처리 파이프라인 만들기

##예제13)	NLP 전처리 파이프라인 구축하기

In [None]:
# 필요한 라이브러리 설치 및 임포트
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import nltk

# 필요한 데이터 다운로드
nltk.download('stopwords')

# 1. 간단한 텍스트 데이터셋 생성
data = {
    "text": [
        "I love programming with Python! 😊👍",
        "This is an example of text preprocessing. #NLP",
        "123 numbers and @special #characters should be removed!",
        "NLTK is great for natural language processing."
    ]
}

# 데이터셋을 데이터프레임으로 변환
df = pd.DataFrame(data)

# 2. 불필요한 기호 및 숫자 제거
def clean_text(text):
    text = re.sub(r"[^a-zA-Z\s]", "", text)  # 알파벳과 공백만 남김
    text = re.sub(r"\s+", " ", text)  # 연속된 공백 제거
    text = text.strip()  # 앞뒤 공백 제거
    return text

df['cleaned_text'] = df['text'].apply(clean_text)
print(df['cleaned_text'] )
# 3. 불용어 제거
stop_words = set(stopwords.words('english'))
def remove_stopwords(text):
    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return " ".join(filtered_words)

df['no_stopwords'] = df['cleaned_text'].apply(remove_stopwords)
print(df['no_stopwords'] )
# 4. 어간 추출(Stemming)
stemmer = PorterStemmer()
def stem_words(text):
    words = text.split()
    stemmed_words = [stemmer.stem(word) for word in words]
    return " ".join(stemmed_words)

df['stemmed_text'] = df['no_stopwords'].apply(stem_words)
print(df['stemmed_text'] )
# 5. 결과 출력
print("전처리 결과:")
print(df)
# 결과를 CSV 파일로 저장 (옵션)
df.to_csv("preprocessed_text.csv", index=False)

---
#6.5. 도전 과제

##예제14)	"Let It Be 가사 속 'Let it be'는 몇 번 나올까?"

In [None]:
# "Let It Be" 가사
file_path = "/content/let_it_be.txt"  # 가사 파일 경로
with open(file_path, 'r') as file:
    lyrics = file.read()

In [None]:
import re

# "Let It Be" 가사
file_path = "/content/let_it_be.txt"  # 가사 파일 경로
with open(file_path, 'r') as file:
    lyrics = file.read()

# 1. 텍스트를 소문자로 변환
lyrics = lyrics.lower()

# 2. 특수문자를 제거하고 공백 정리
cleaned_lyrics = re.sub(r"[^\w\s]", "", lyrics)

# 3. "let it be" 등장 횟수 계산
count = len(re.findall(r"\blet it be\b", cleaned_lyrics))

# 4. 결과 출력
print(f"'Let it be'는 총 {count}번 등장합니다.")

In [None]:
#1. 필요 라이브러리
import re

#2 "Let It Be" 가사 파일 읽기
file_path = "/content/let_it_be.txt"  # 가사 파일 경로
with open(file_path, 'r') as file:
    lyrics = file.read()

#3. 데이터 정제 및 전처리
lyrics = lyrics.lower() #텍스트를 소문자로 변환

#특수문자를 제거하고 공백 정리
cleaned_lyrics = re.sub(r"[^\w\s]", "", lyrics)

# 4. "let it be" 등장 횟수 계산
count = len(re.findall(r"\blet it be\b", cleaned_lyrics))

# 5. 결과 출력
print(f"'Let it be'는 총 {count}번 등장합니다.")


In [None]:
!pip install nltk

#📝예제15 	"Let It Be 가사 속 자주 등장하는 단어는?

In [None]:
# 라이브러리 임포트
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from collections import Counter
import nltk
import matplotlib.pyplot as plt

# NLTK 리소스 다운로드 (불용어 리스트 및 토큰화 데이터)
nltk.download('stopwords')
nltk.download('punkt')

# "Let It Be" 가사 파일 로드
file_path = "/content/let_it_be.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lyrics = file.read()

# 1. 소문자로 변환 (대소문자 차이 제거)
lyrics = lyrics.lower()

# 2. 단어 단위로 분리 (토큰화)
tokens = word_tokenize(lyrics)

# 3. 특수 문자 제거 (알파벳과 단어만 남김)
tokens = [re.sub(r"[^\w']", "", token) for token in tokens if token.strip()]

# 4. 불용어(Stopwords) 제거 및 커스텀 불용어 추가
stop_words = set(stopwords.words('english'))
custom_stop_words = {"let", "be"}  # 가사에서 자주 반복되는 단어 제거
stop_words.update(custom_stop_words)
filtered_tokens = [token for token in tokens if token and token not in stop_words]

# 5. 단어 빈도 계산
word_counts = Counter(filtered_tokens)

# 6. 상위 10개 단어 추출
top_words = word_counts.most_common(10)
words, counts = zip(*top_words)
print("원본 토큰 상위 50개:\n", tokens[:50])  # 원래 가사에서 토큰화된 단어 확인
print("불용어 제거 후 단어 상위 50개:\n", filtered_tokens[:50])  # 필터링 후 남은 단어 확인
print("총 남은 단어 개수:", len(filtered_tokens))  # 불용어 제거 후 남은 단어 개수 확인
print("상위 10개 단어:\n", top_words)





# 7. 단어 빈도 그래프 시각화

plt.bar(words, counts, color='skyblue')
plt.title("Top 10 Most Frequent Words in 'Let It Be'", fontsize=16)
plt.xlabel("Words")
plt.ylabel("Frequency")
plt.xticks(rotation=45)
plt.show()
