#10.2.2. Bag of Words 구현 단계

In [None]:
pip install scikit-learn pandas numpy

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()  # BoW 생성기
X = vectorizer.fit_transform(["나는 사과를 좋아한다.", "나는 바나나를 좋아한다."])  # 문장 입력
print(X.toarray())  # BoW 행렬 출력


#예제1)	BoW 구현 단계

In [None]:
# 1단계 필요한 라이브러리 불러오기
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# 📌 2단계: 문장 데이터 준비
sentences = [
    "나는 사과를 좋아한다.",
    "나는 바나나를 좋아한다.",
    "나는 바나나와 사과를 좋아한다."
]

# 📌 3단계: CountVectorizer를 사용하여 BoW 생성
vectorizer = CountVectorizer()  # BoW 변환기 생성
X = vectorizer.fit_transform(sentences)  # 문장 리스트를 변환
print(X.toarray())  # BoW 행렬 출력

# 📌 4단계: 단어 사전(Vocabulary) 확인
vocab = vectorizer.get_feature_names_out()
print(vocab)

# 📌 5단계: BoW 행렬을 보기 쉽게 DataFrame으로 변환
df_bow = pd.DataFrame(X.toarray(), columns=vocab)

print(df_bow)

#10.3. Term Frequency-Inverse Document Frequency
      (TF-IDF)


##예제2)	TF-IDF 구현 단계

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

sentences = [
    "나는 사과를 좋아한다.",
    "나는 바나나를 좋아한다.",
    "나는 바나나와 사과를 좋아한다."
]
#(3) TF-IDF 변환기(TfidfVectorizer) 생성 및 적용
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(sentences)

vocab = vectorizer.get_feature_names_out()

df_tfidf = pd.DataFrame(x.toarray(), columns=vocab)
print(df_tfidf)

---
#10.4.1. 네이버 뉴스 헤드라인을 BoW와 TF-IDF로 변환하고 비교하기

##예제3)	네이버 뉴스 헤드라인을 BoW로 분석하기

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

#CSV 파일 불러오기
file_path="/content/naver_news_headlines.csv"
df = pd.read_csv(file_path, encoding="utf-8-sig")

#뉴스 제목 데이터를 리스트로 변환
sentences = df["뉴스 제목"].astype(str).tolist()

#BoW(Bag of Words) 변환기 생성 및 적용
vectorizer_bow = CountVectorizer()  # CountVectorizer 객체 생성 (BoW 변환기)
X_bow = vectorizer_bow.fit_transform(sentences)  # 뉴스 제목 데이터를 BoW 형식

#단어 리스트(어휘 사전) 생성
vocab_bow = vectorizer_bow.get_feature_names_out()
print(vocab_bow[:10])
#BoW 행렬을 DataFrame으로 변환
df_bow = pd.DataFrame(X_bow.toarray(), columns=vocab_bow)

#가장 많이 등장한 단어 10개 찾기 (BoW 기준)
top10 = df_bow.sum().sort_values(ascending=False).head(10)
df_top10_words = pd.DataFrame(top10, columns=["빈도수"]).reset_index()
df_top10_words.rename(columns={"index": "단어"}, inplace=True)

#결과 출력
print(df_top10_words)  # 가장 많이 등장한 단어 10개 출력


##예제4)	네이버 뉴스 헤드라인을 TF-IDF로 분석하기

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# CSV 파일 불러오기
file_path="/content/naver_news_headlines.csv"
df = pd.read_csv(file_path, encoding="utf-8-sig")

#뉴스 제목 데이터를 리스트로 변환
sentences = df["뉴스 제목"].astype(str).tolist()
#TF-IDF 변환기 생성 및 적용
vectorizer_tf = TfidfVectorizer()
X_tf = vectorizer_tf.fit_transform(sentences)
#단어 리스트(어휘 사전) 생성
vocab_tf = vectorizer_tf.get_feature_names_out()

#TF-IDF 행렬을 DataFrame으로 변환
df_tf = pd.DataFrame(X_tf.toarray(), columns=vocab_tf)

#가장 중요한 단어 10개 찾기 (TF-IDF 기준)
bow_top10 = df_tf.sum().sort_values(ascending=False).head(10)
df_bow_top10_words = pd.DataFrame(bow_top10, columns=["점수"]).reset_index()
df_bow_top10_words.rename(columns={"index": "단어"}, inplace=True)
#최종 결과 출력
print(df_bow_top10_words) # 가장 중요한 단어 10개를 포함한 데이터프레임 출력


---
#10.4.2. BTS 가사를 데이터 분석으로 살펴보기

##예제5)	BTS 가사 BoW 분석

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')  # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지


In [None]:
file_path="/content/BTS01.csv"
df = pd.read_csv(file_path, encoding="utf-8-sig")  #CSV파일을 pandas
sentences = df["가사"].astype(str).tolist()  # 가사 데이터를 리스트로 변환


In [None]:
vectorizer_bow = CountVectorizer()  # BoW 변환기 생성
X_bow = vectorizer_bow.fit_transform(sentences)  # 가사 데이터를 BoW로 변환
vocab = vectorizer_bow.get_feature_names_out()  # 단어 리스트(어휘 사전) 생성
df_bow = pd.DataFrame(X_bow.toarray(), columns=vocab)
print(df_bow)  # BoW 데이터 출력


In [None]:
top_10_words = df_bow.sum().sort_values(ascending=False).head(10)
df_top_10_words = pd.DataFrame(top_10_words, columns=["빈도수"]).reset_index()
df_top_10_words.rename(columns={"index": "단어"}, inplace=True)


---
> 한글 폰트 사용

In [None]:
!apt-get install -y fonts-nanum
!fc-cache -fv
!rm -rf ~/.cache/matplotlib

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')  # 또는 'NanumGothic' 사용 가능
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호가 깨지지 않도록 설정


In [None]:
import matplotlib.pyplot as plt
# 상위 10개 단어 바 차트 시각화
plt.figure(figsize=(10, 6))
plt.bar(df_top_10_words["단어"], df_top_10_words["빈도수"], color="royalblue")
plt.xlabel("단어")
plt.ylabel("빈도수")
plt.title("BTS 가사에서 가장 많이 등장한 단어 TOP 10")
plt.show()


---
##예제5 전체 코드

In [None]:
#(1) 필수 라이브러리 불러오기
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')  # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지

#가사 불러오기
file_path="/content/BTS01.csv"
df = pd.read_csv(file_path, encoding="utf-8-sig")  #CSV파일을 pandas
sentences = df["가사"].astype(str).tolist()  # 가사 데이터를 리스트로 변환

#BoW변환
vectorizer_bow = CountVectorizer()  # BoW 변환기 생성
X_bow = vectorizer_bow.fit_transform(sentences)  # 가사 데이터를 BoW로 변환
vocab = vectorizer_bow.get_feature_names_out()  # 단어 리스트(어휘 사전) 생성
df_bow = pd.DataFrame(X_bow.toarray(), columns=vocab)
print(df_bow)  # BoW 데이터 출력

#가장 많이 등장한 단어10개 찾기
top_10_words = df_bow.sum().sort_values(ascending=False).head(10)
df_top_10_words = pd.DataFrame(top_10_words, columns=["빈도수"]).reset_index()
df_top_10_words.rename(columns={"index": "단어"}, inplace=True)


# 상위 10개 단어 바 차트 시각화
plt.figure(figsize=(10, 6))
plt.bar(df_top_10_words["단어"], df_top_10_words["빈도수"], color="royalblue")
plt.xlabel("단어")
plt.ylabel("빈도수")
plt.title("BTS 가사에서 가장 많이 등장한 단어 TOP 10")
plt.show()