#7.2. KoNLPy 라이브러리 소개

##예제1)	설치 및 확인

In [None]:
!pip install konlpy

In [None]:
from konlpy.tag import Okt

okt = Okt()
print(okt.morphs("KoNLPy를 설치하면 한국어 형태소 분석이 가능해요!"))

#7.2.2. 주요 형태소 분석기

##예제2)	Okt (Open Korea Text)

In [None]:
from konlpy.tag import Okt
# Okt 객체 생성
okt = Okt()
# 입력 텍스트
text = "아버지가 방에 들어가신다."
# 형태소 분석
print('형태소 분석:\n',okt.morphs(text))  # ['아버지', '가', '방', '에', '들어가신다']
# 품사 태깅
print('품사 태깅:\n',okt.pos(text))  # [('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ...]
# 명사 추출
print('명사 추출:\n',okt.nouns(text))  # ['아버지', '방']
# 어간 추출 (동사 원형 복원)
print('어간 추출:\n',okt.morphs(text, stem=True))  # ['아버지', '가', '방', '에', '들어가다']

##예제3)	Komoran 형태소 분석

In [None]:
from konlpy.tag import Komoran

# Komoran 객체 생성
komoran = Komoran()

# 형태소 분석
print('형태소 분석:\n',komoran.morphs(text))

# 품사 태깅
print('품사 태깅:\n',komoran.pos(text))

##예제4)	Hannanum 형태소 분석

In [None]:
from konlpy.tag import Hannanum

# Hannanum 객체 생성
hannanum = Hannanum()

# 형태소 분석
print('형태소 분석:\n',hannanum.morphs(text))

# 품사 태깅
print('품사 태깅:\n',hannanum.pos(text))

---
#7.3. KoNLPy로 한국어 텍스트 전처리 단계

In [None]:
# 예제 텍스트
text = "*한국어 자연어 처리는 복잡하지만 흥미로운 분야입니다!."

import re
# 텍스트 정제: 특수문자 제거
cleaned_text = re.sub(r"[^\w\s]", "", text)  # 특수문자 제거
print(cleaned_text)

In [None]:
from konlpy.tag import Okt  # Okt 형태소 분석기 불러오기

okt = Okt()

# 형태소 분석을 통한 토큰화
tokens = okt.morphs(cleaned_text)
print(tokens)

In [None]:
# 어간 추출 (동사의 원형 복원)
stemmed_tokens = okt.morphs(cleaned_text, stem=True)
print(stemmed_tokens)

In [None]:
# 품사 태깅
pos_tags = okt.pos(cleaned_text)
print(pos_tags)

In [None]:
# 불용어 리스트
stop_words = ['는', '의', '이', '가', '에', '를', '입니다']

# 불용어 제거
filtered_tokens = [word for word in tokens if word not in stop_words]
print(filtered_tokens)


In [None]:
from collections import Counter

# 단어 빈도 계산
word_counts = Counter(filtered_tokens)
print(word_counts)

In [None]:
from nltk import ngrams

bigrams = list(ngrams(filtered_tokens, 2))
print(bigrams)

##예제5)	한국어 텍스트 전처리 단계 전체 코드

In [None]:
import re
from konlpy.tag import Okt
from collections import Counter
from nltk import ngrams
text = "*한국어 자연어 처리는 복잡하지만 흥미로운 분야입니다!." # 1. 데이터 수집
# 2. 텍스트 정제 (특수문자 제거)
cleaned_text = re.sub(r"[^\w\s]", "", text)
# 3. 토큰화
okt = Okt()
tokens = okt.morphs(cleaned_text)
# 4. 어간추출
stemmed_tokens = okt.morphs(cleaned_text, stem=True)
# 5. 품사 태깅
pos_tags = okt.pos(cleaned_text)
# 6. 불용어 제거
stop_words = ['는', '의', '이', '가', '에', '를', '입니다']
filtered_tokens = [word for word in tokens if word not in stop_words]
# 7. 단어 빈도 계산
word_counts = Counter(filtered_tokens)
# 8. N-그램 생성 함수
bigrams = list(ngrams(filtered_tokens, 2))
print("텍스트 정제:", cleaned_text)
print("토큰화:", tokens)
print("어간 추출:", stemmed_tokens)
print("품사 태깅:", pos_tags)
print("불용어 제거:", filtered_tokens)
print("단어 빈도 계산:", word_counts)
print("N-그램 생성:", bigrams)


---
#7.4. 실전 퀘스트 “잃어버린 강아지를 찾는 이야기”

##예제6)	“잃어버린 강아지를 찾는 이야기” 전체 코드

In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt
import matplotlib.pyplot as plt
plt.rc('font', family='NanumGothic')  # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호가 깨지지 않도록 설정
# 예제 데이터: 강아지를 찾는 SNS/블로그 게시글
# 한글 텍스트 데이터 준비
text_data = [
    "강아지가 공원에서 놀다가 사라졌어요!!!",
    "어제 강아지를 산책시키다 잃어버렸습니다.",
    "공원 근처에서 비숑을 본 사람 없나요?",
    "강아지가 빨간 목줄을 하고 있어요.",
    "강아지를 찾습니다! 마지막으로 본 곳은 한강공원입니다.",
    "흰색 비숑이 시장 근처에서 돌아다니는 걸 봤어요.",
    "빨간 목줄 강아지를 시장에서 봤어요!"
    "실종된 강아지는 흰색 비숑이에요. 이름은 코코입니다.",
    "비숑이 지나가는 사람을 따라갔다는 목격 정보가 있어요.",
    "마지막으로 본 곳은 지하철역 근처입니다.",
    "강아지가 겁이 많아서 사람을 보면 도망칠 수도 있어요.",
    "한 남성이 시장에서 강아지를 데리고 가는 걸 봤다는 제보가 있어요.",
    "잃어버린 강아지는 비숑이고, 흰 털이 너무 귀여워요.^*^",
    "우리 강아지는 이름을 부르면 달려옵니다. '코코'라고 불러 주세요!",
    "빨간 목줄을 한 강아지를 찾습니다. 특징은 체구가 작은 비숑입니다.",
    "어떤 분이 SNS에 비숑같은 강아지 사진을 올렸다고 하는데, 확인할 방법이 있을까요?",
    "강아지가 강변을 따라 걸어갔을 수도 있어요. 그쪽에서 본 분 없나요?",
    "흰색 강아지가 아파트 단지에서 발견되었다는 소식을 들었어요.",
    "동네 슈퍼 근처에서 흰색 강아지를 본 것 같아요. 자세한 정보가 필요합니다."
    "빨간 목줄을 한 흰색 비숑을 시장 옆 아파트에서 봤어요."
]
# 텍스트 정제 (특수문자 제거)
cleaned_text = [re.sub(r"[^\w\s]", "", sentence) for sentence in text_data]
# 형태소 분석기 초기화
okt = Okt()
# 형태소 분석 (단어 토큰화)
tokenized_text = [okt.morphs(sentence, stem=True) for sentence in cleaned_text]
# 리스트를 하나의 리스트로 합치기
flat_tokens = [word for sublist in tokenized_text for word in sublist]


In [None]:
# 불용어 리스트 정의
stop_words = ["에서", "하다", "을", "를", "이", "가", "은", "는", "에", "도", "있다", "없다", "본", "있는", "이다", "으로"]
# 불용어 제거
filtered_tokens = [word for word in flat_tokens if word not in stop_words]

# 단어 빈도 분석 (1-그램)
word_counts = Counter(filtered_tokens)
print("[1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력
# 2-그램 (Bigram) 생성
bigrams = list(ngrams(filtered_tokens, 2))
bigram_counts = Counter(bigrams)
print("[2-그램] 단어 연관성 분석:")
print(bigram_counts.most_common(10))  # 상위 10개 단어 쌍 출력
# 3-그램 (Trigram) 생성
trigrams = list(ngrams(filtered_tokens, 3))
trigram_counts = Counter(trigrams)
print("[3-그램] 단어 흐름 분석:")
print(trigram_counts.most_common(10))  # 상위 10개 단어 조합 출력



In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt

# 1️⃣ 영화 리뷰 데이터
reviews = [
    "타이타닉은 정말 감동적인 영화였어요.",
    "타이타닉 배가 침몰하는 장면은 너무 슬펐어요.",
    "타이타닉은 로맨스와 드라마 요소가 강한 영화입니다.",
    "타이타닉 하면 떠오르는 건 사랑 이야기죠.",
    "잭과 로즈의 사랑이 너무 아름다웠어요.",
    "배가 침몰하는 장면에서 사람들의 절박함이 전해졌어요.",
    "영화 속 음악이 정말 감동적이었어요. 특히 My Heart Will Go On은 최고였어요.",
    "타이타닉은 실화 바탕이라 더 감명 깊었어요.",
    "영화의 비주얼과 CG가 매우 인상적이었어요.",
    "로즈와 잭의 마지막 장면은 정말 슬펐어요.",
    "타이타닉은 단순한 로맨스 영화가 아니라, 희생과 감동을 담은 작품이에요.",
    "잭이 로즈를 위해 희생하는 모습이 너무 감동적이었어요.",
    "타이타닉을 볼 때마다 눈물이 나요.",
    "배가 가라앉는 장면은 너무 현실적이었고, 공포감이 느껴졌어요.",
    "이 영화는 몇 번을 봐도 질리지 않아요.",
    "사랑, 감동, 희생이 어우러진 최고의 명작입니다.",
    "타이타닉을 보면 가슴이 먹먹해지고 여운이 오래 남아요.",
    "역사적인 사건을 아름다운 로맨스로 표현한 영화라고 생각해요.",
    "타이타닉의 영상미와 음악은 시대를 초월한 명작입니다.",
    "로즈와 잭의 사랑은 영원할 것 같아요."
]


# 2️⃣ 텍스트 정제 (특수문자 제거)
cleaned_reviews = [re.sub(r"[^\w\s]", "", review) for review in reviews]

# 3️⃣ 형태소 분석 (Okt 사용)
okt = Okt()
tokens = [okt.morphs(review) for review in cleaned_reviews]

# 4️⃣ 리스트를 하나의 리스트로 합치기
flat_tokens = [word for sublist in tokens for word in sublist]

# 5️⃣ 불용어 제거 (예: 조사, 어미 등)
stop_words = ["은", "는", "이", "가", "을", "를", "과", "한", "함께", "합니다", "했어요"]
filtered_tokens = [word for word in flat_tokens if word not in stop_words]

# 6️⃣ 단어 빈도 계산 (1-그램)
word_counts = Counter(filtered_tokens)
print("\n✅ [1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력

# 7️⃣ 2-그램 (Bigram) 생성
bigrams = list(ngrams(filtered_tokens, 2))
bigram_counts = Counter(bigrams)
print("\n✅ [2-그램] 단어 연관성 분석:")
print(bigram_counts.most_common(10))  # 상위 10개 단어 쌍 출력

# 8️⃣ 3-그램 (Trigram) 생성
trigrams = list(ngrams(filtered_tokens, 3))
trigram_counts = Counter(trigrams)
print("\n✅ [3-그램] 단어 흐름 분석:")
print(trigram_counts.most_common(10))  # 상위 10개 단어 조합 출력


In [None]:
!pip install konlpy

In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt
import matplotlib.pyplot as plt # 시각화

# 1️⃣ 예제 데이터: 강아지를 찾는 SNS/블로그 게시글
# 한글 텍스트 데이터 준비
text_data = [
    "강아지가 공원에서 놀다가 사라졌어요!!!",
    "어제 강아지를 산책시키다 잃어버렸습니다.",
    "공원 근처에서 비숑을 본 사람 없나요?",
    "강아지가 빨간 목줄을 하고 있어요.",
    "강아지를 찾습니다! 마지막으로 본 곳은 한강공원입니다.",
    "흰색 비숑이 시장 근처에서 돌아다니는 걸 봤어요.",
    "빨간 목줄 강아지를 시장에서 봤어요!"
    "실종된 강아지는 흰색 비숑이에요. 이름은 코코입니다.",
    "비숑이 지나가는 사람을 따라갔다는 목격 정보가 있어요.",
    "마지막으로 본 곳은 지하철역 근처입니다.",
    "강아지가 겁이 많아서 사람을 보면 도망칠 수도 있어요.",
    "한 남성이 시장에서 강아지를 데리고 가는 걸 봤다는 제보가 있어요.",
    "잃어버린 강아지는 비숑이고, 흰 털이 너무 귀여워요.^*^",
    "우리 강아지는 이름을 부르면 달려옵니다. '코코'라고 불러 주세요!",
    "빨간 목줄을 한 강아지를 찾습니다. 특징은 체구가 작은 비숑입니다.",
    "어떤 분이 SNS에 비숑같은 강아지 사진을 올렸다고 하는데, 확인할 방법이 있을까요?",
    "강아지가 강변을 따라 걸어갔을 수도 있어요. 그쪽에서 본 분 없나요?",
    "흰색 강아지가 아파트 단지에서 발견되었다는 소식을 들었어요.",
    "동네 슈퍼 근처에서 흰색 강아지를 본 것 같아요. 자세한 정보가 필요합니다."
    "빨간 목줄을 한 흰색 비숑을 시장 옆 아파트에서 봤어요."
]


# 2️⃣ 텍스트 정제 (특수문자 제거)
cleaned_text = [re.sub(r"[^\w\s]", "", sentence) for sentence in text_data]
# print(cleaned_text)

# 3️⃣ 형태소 분석기 초기화
okt = Okt()

# 4️⃣ 형태소 분석 (단어 토큰화)
tokenized_text = [okt.morphs(sentence, stem=True) for sentence in cleaned_text]

# 5️⃣ 리스트를 하나의 리스트로 합치기
flat_tokens = [word for sublist in tokenized_text for word in sublist]
# print(flat_tokens)
# 6️⃣ 불용어 리스트 정의
stop_words = ["에서", "하다", "을", "를", "이", "가", "은", "는", "에", "도", "있다", "없다", "본", "있는", "이다", "으로"]

# 7️⃣ 불용어 제거
filtered_tokens = [word for word in flat_tokens if word not in stop_words]
# print(filtered_tokens)

# 8️⃣ 단어 빈도 분석 (1-그램)
word_counts = Counter(filtered_tokens)
print("[1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력

# 9️⃣ 2-그램 (Bigram) 생성
bigrams = list(ngrams(filtered_tokens, 2))
bigram_counts = Counter(bigrams)
print("\n[2-그램] 단어 연관성 분석:")
print(bigram_counts.most_common(10))  # 상위 10개 단어 쌍 출력

# 🔟 3-그램 (Trigram) 생성
trigrams = list(ngrams(filtered_tokens, 3))
trigram_counts = Counter(trigrams)
print("\n[3-그램] 단어 흐름 분석:")
print(trigram_counts.most_common(10))  # 상위 10개 단어 조합 출력


#예제6)	단어 빈도 분석 시각화 (막대 그래프)

In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt
import matplotlib.pyplot as plt

plt.rc('font', family='NanumGothic')  # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호가 깨지지 않도록 설정


# 1️⃣ 예제 데이터: 강아지를 찾는 SNS/블로그 게시글
# 한글 텍스트 데이터 준비
text_data = [
    "강아지가 공원에서 놀다가 사라졌어요!!!",
    "어제 강아지를 산책시키다 잃어버렸습니다.",
    "공원 근처에서 비숑을 본 사람 없나요?",
    "강아지가 빨간 목줄을 하고 있어요.",
    "강아지를 찾습니다! 마지막으로 본 곳은 한강공원입니다.",
    "흰색 비숑이 시장 근처에서 돌아다니는 걸 봤어요.",
    "빨간 목줄 강아지를 시장에서 봤어요!"
    "실종된 강아지는 흰색 비숑이에요. 이름은 코코입니다.",
    "비숑이 지나가는 사람을 따라갔다는 목격 정보가 있어요.",
    "마지막으로 본 곳은 지하철역 근처입니다.",
    "강아지가 겁이 많아서 사람을 보면 도망칠 수도 있어요.",
    "한 남성이 시장에서 강아지를 데리고 가는 걸 봤다는 제보가 있어요.",
    "잃어버린 강아지는 비숑이고, 흰 털이 너무 귀여워요.^*^",
    "우리 강아지는 이름을 부르면 달려옵니다. '코코'라고 불러 주세요!",
    "빨간 목줄을 한 강아지를 찾습니다. 특징은 체구가 작은 비숑입니다.",
    "어떤 분이 SNS에 비숑같은 강아지 사진을 올렸다고 하는데, 확인할 방법이 있을까요?",
    "강아지가 강변을 따라 걸어갔을 수도 있어요. 그쪽에서 본 분 없나요?",
    "흰색 강아지가 아파트 단지에서 발견되었다는 소식을 들었어요.",
    "동네 슈퍼 근처에서 흰색 강아지를 본 것 같아요. 자세한 정보가 필요합니다."
    "빨간 목줄을 한 흰색 비숑을 시장 옆 아파트에서 봤어요."
]


# 2️⃣ 텍스트 정제 (특수문자 제거)
cleaned_text = [re.sub(r"[^\w\s]", "", sentence) for sentence in text_data]
# print(cleaned_text)

# 3️⃣ 형태소 분석기 초기화
okt = Okt()

# 4️⃣ 형태소 분석 (단어 토큰화)
tokenized_text = [okt.morphs(sentence, stem=True) for sentence in cleaned_text]

# 5️⃣ 리스트를 하나의 리스트로 합치기
flat_tokens = [word for sublist in tokenized_text for word in sublist]
# print(flat_tokens)
# 6️⃣ 불용어 리스트 정의
stop_words = ["에서", "하다", "을", "를", "이", "가", "은", "는", "에", "도", "있다", "없다", "본", "있는", "이다", "으로"]

# 7️⃣ 불용어 제거
filtered_tokens = [word for word in flat_tokens if word not in stop_words]
# print(filtered_tokens)

# 8️⃣ 단어 빈도 분석 (1-그램)
word_counts = Counter(filtered_tokens)
print("[1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력

most_common_words = word_counts.most_common(10)  # 빈도수가 높은 10개 단어 추출
words, counts = zip(*most_common_words)  # 단어와 빈도를 각각 리스트로 분리

# 막대 그래프 생성
plt.bar(words, counts, color="skyblue")  # 단어별 빈도를 막대 그래프로 표현
plt.xlabel("단어", fontsize=12)  # x축 라벨
plt.ylabel("빈도수", fontsize=12)  # y축 라벨
plt.title("강아지 실종 관련 주요 단어 빈도 분석", fontsize=14)  # 그래프 제목
plt.xticks(rotation=45)  # x축 단어 회전 (가독성 개선)
plt.show()


전체 코드

In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt
import matplotlib.pyplot as plt
plt.rc('font', family='NanumGothic')  # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호가 깨지지 않도록 설정
# 1️⃣ 예제 데이터: 강아지를 찾는 SNS/블로그 게시글
# 한글 텍스트 데이터 준비
text_data = [
    "강아지가 공원에서 놀다가 사라졌어요!!!",
    "어제 강아지를 산책시키다 잃어버렸습니다.",
    "공원 근처에서 비숑을 본 사람 없나요?",
    "강아지가 빨간 목줄을 하고 있어요.",
    "강아지를 찾습니다! 마지막으로 본 곳은 한강공원입니다.",
    "흰색 비숑이 시장 근처에서 돌아다니는 걸 봤어요.",
    "빨간 목줄 강아지를 시장에서 봤어요!"
    "실종된 강아지는 흰색 비숑이에요. 이름은 코코입니다.",
    "비숑이 지나가는 사람을 따라갔다는 목격 정보가 있어요.",
    "마지막으로 본 곳은 지하철역 근처입니다.",
    "강아지가 겁이 많아서 사람을 보면 도망칠 수도 있어요.",
    "한 남성이 시장에서 강아지를 데리고 가는 걸 봤다는 제보가 있어요.",
    "잃어버린 강아지는 비숑이고, 흰 털이 너무 귀여워요.^*^",
    "우리 강아지는 이름을 부르면 달려옵니다. '코코'라고 불러 주세요!",
    "빨간 목줄을 한 강아지를 찾습니다. 특징은 체구가 작은 비숑입니다.",
    "어떤 분이 SNS에 비숑같은 강아지 사진을 올렸다고 하는데, 확인할 방법이 있을까요?",
    "강아지가 강변을 따라 걸어갔을 수도 있어요. 그쪽에서 본 분 없나요?",
    "흰색 강아지가 아파트 단지에서 발견되었다는 소식을 들었어요.",
    "동네 슈퍼 근처에서 흰색 강아지를 본 것 같아요. 자세한 정보가 필요합니다."
    "빨간 목줄을 한 흰색 비숑을 시장 옆 아파트에서 봤어요."
]
# 2️⃣ 텍스트 정제 (특수문자 제거)
cleaned_text = [re.sub(r"[^\w\s]", "", sentence) for sentence in text_data]
# print(cleaned_text)
# 3️⃣ 형태소 분석기 초기화
okt = Okt()
# 4️⃣ 형태소 분석 (단어 토큰화)
tokenized_text = [okt.morphs(sentence, stem=True) for sentence in cleaned_text]
# 5️⃣ 리스트를 하나의 리스트로 합치기
flat_tokens = [word for sublist in tokenized_text for word in sublist]
# print(flat_tokens)
# 6️⃣ 불용어 리스트 정의
stop_words = ["에서", "하다", "을", "를", "이", "가", "은", "는", "에", "도", "있다", "없다", "본", "있는", "이다", "으로"]
# 7️⃣ 불용어 제거
filtered_tokens = [word for word in flat_tokens if word not in stop_words]
# print(filtered_tokens)

# 8️⃣ 단어 빈도 분석 (1-그램)
word_counts = Counter(filtered_tokens)
print(word_counts)
print("---"*10)
print("[1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력
word_freq = dict(word_counts)
print(word_freq)
# # 9️⃣ 2-그램 (Bigram) 생성
# bigrams = list(ngrams(filtered_tokens, 2))
# bigram_counts = Counter(bigrams)
# print("\n[2-그램] 단어 연관성 분석:")
# print(bigram_counts.most_common(10))  # 상위 10개 단어 쌍 출력
# # 🔟 3-그램 (Trigram) 생성
# trigrams = list(ngrams(filtered_tokens, 3))
# trigram_counts = Counter(trigrams)
# print("\n[3-그램] 단어 흐름 분석:")
# print(trigram_counts.most_common(10))  # 상위 10개 단어 조합 출력
# most_common_words = word_counts.most_common(10)  # 빈도수가 높은 10개 단어 추출
# words, counts = zip(*most_common_words)  # 단어와 빈도를 각각 리스트로 분리
# # 막대 그래프 생성
# plt.bar(words, counts, color="skyblue")  # 단어별 빈도를 막대 그래프로 표현
# plt.xlabel("단어", fontsize=12)  # x축 라벨
# plt.ylabel("빈도수", fontsize=12)  # y축 라벨
# plt.title("강아지 실종 관련 주요 단어 빈도 분석", fontsize=14)  # 그래프 제목
# plt.xticks(rotation=45)  # x축 단어 회전 (가독성 개선)
# plt.show()


In [None]:
import re
from collections import Counter
from nltk import ngrams
from konlpy.tag import Okt
text_data = [
    "강아지가 공원에서 놀다가 사라졌어요!!!",
    "어제 강아지를 산책시키다 잃어버렸습니다.",
    "공원 근처에서 강아지 본 사람 없나요?",
    "강아지가 빨간 목줄을 하고 있어요.",
    "강아지를 찾습니다! 마지막으로 본 곳은 한강공원입니다.",
    "강아지가 시장 근처에서 돌아다니는 걸 봤어요.",
    "실종된 강아지는 흰색 푸들이에요. 이름은 코코입니다.",
    "강아지가 지나가는 사람을 따라갔다는 목격 정보가 있어요.",
    "어제 오후 3시쯤 산책하던 강아지를 놓쳤어요. 도와주세요!",
    "마지막으로 본 곳은 지하철역 근처입니다.",
    "강아지가 비 오는 날 사라졌어요. 혹시 발견하신 분 계신가요?",
    "강아지가 겁이 많아서 사람을 보면 도망칠 수도 있어요.",
    "한 남성이 강아지를 데리고 가는 걸 봤다는 제보가 있어요.",
    "잃어버린 강아지는 갈색 포메라니안이고, 귀가 쫑긋 서 있어요.",
    "우리 강아지는 이름을 부르면 달려옵니다. '코코'라고 불러 주세요!",
    "강아지를 찾습니다. 특징은 작은 체구에 꼬리가 말려 있습니다.",
    "어떤 분이 SNS에 강아지 사진을 올렸다고 하는데, 확인할 방법이 있을까요?",
    "강아지가 강변을 따라 걸어갔을 수도 있어요. 그쪽에서 본 분 없나요?",
    "강아지가 아파트 단지에서 발견되었다는 소식을 들었어요.",
    "동네 슈퍼 근처에서 강아지를 본 것 같아요. 자세한 정보가 필요합니다."
]
cleaned_text = [re.sub(r"[^\w\s]", "", sentence) for sentence in text_data]
okt = Okt()
tokenized_text = [okt.morphs(sentence, stem=True) for sentence in cleaned_text]
flat_tokens = [word for sublist in tokenized_text for word in sublist]
stop_words = ["에서", "하다", "을", "를", "이", "가", "은", "는", "에", "도", "있다", "없다", "본", "있는", "이다"]
filtered_tokens = [word for word in flat_tokens if word not in stop_words]
word_counts = Counter(filtered_tokens)
print("\n✅ [1-그램] 단어 빈도 분석:")
print(word_counts.most_common(10))  # 상위 10개 단어 출력
bigrams = list(ngrams(filtered_tokens, 2))
bigram_counts = Counter(bigrams)
print("\n✅ [2-그램] 단어 연관성 분석:")
print(bigram_counts.most_common(10))  # 상위 10개 단어 쌍 출력
trigrams = list(ngrams(filtered_tokens, 3))
trigram_counts = Counter(trigrams)
print("\n✅ [3-그램] 단어 흐름 분석:")
print(trigram_counts.most_common(10))  # 상위 10개 단어 조합 출력

import matplotlib.pyplot as plt
from wordcloud import WordCloud
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
# 단어 빈도 데이터 준비
word_freq = dict(word_counts)
# 워드 클라우드 생성
wordcloud = WordCloud(font_path=font_path, width=800, height=400, background_color='white').generate_from_frequencies(word_freq)
# 시각화
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")  # 축 제거
plt.title("강아지 실종 관련 주요 단어", fontsize=16)
plt.show()



In [None]:
import networkx as nx
import matplotlib.pyplot as plt # Import the matplotlib.pyplot module

# 1️⃣ 네트워크 그래프 초기화
G = nx.Graph()

# 2️⃣ 상위 15개의 2-그램(연관 단어 쌍) 추가
for (word1, word2), freq in bigram_counts.most_common(15):
    G.add_edge(word1, word2, weight=freq)

# 3️⃣ 그래프 시각화
plt.figure(figsize=(10, 6))
pos = nx.spring_layout(G, seed=42)  # 노드 배치
nx.draw(G, pos, with_labels=True, node_size=3000, node_color="lightblue", font_size=12, edge_color="gray", width=2)
plt.title("강아지 실종 관련 연관 단어 네트워크", fontsize=16)
plt.show()

In [None]:
!apt-get update
!apt-get install -y fonts-nanum
!fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
# Install the NanumGothic font
!apt-get update && apt-get install -y fonts-nanum

In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
# 단어 빈도 데이터 준비
word_freq = dict(word_counts)
# 워드 클라우드 생성
wordcloud = WordCloud(font_path=font_path, width=800, height=400, background_color='white').generate_from_frequencies(word_freq)
# 시각화
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")  # 축 제거
plt.title("강아지 실종 관련 주요 단어", fontsize=16)
plt.show()


In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')  # 또는 'NanumGothic' 사용 가능
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호가 깨지지 않도록 설정

most_common_words = word_counts.most_common(10)  # 빈도수가 높은 10개 단어 추출
words, counts = zip(*most_common_words)  # 단어와 빈도를 각각 리스트로 분리
# 막대 그래프 생성
plt.bar(words, counts, color="skyblue")  # 단어별 빈도를 막대 그래프로 표현
plt.xlabel("단어", fontsize=12)  # x축 라벨
plt.ylabel("빈도수", fontsize=12)  # y축 라벨
plt.title("강아지 실종 관련 주요 단어 빈도 분석", fontsize=14)  # 그래프 제목
plt.xticks(rotation=45)  # x축 단어 회전 (가독성 개선)
plt.show()


In [None]:
import matplotlib.pyplot as plt
from collections import Counter

# 한글 폰트 설정 (NanumBarunGothic 또는 NanumGothic 사용 가능)
plt.rc('font', family='NanumGothic')
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지

# 샘플 데이터 (예제)
sample_text = ["강아지", "실종", "찾기", "강아지", "보호", "강아지", "신고", "실종", "신고", "보호", "보호", "실종", "강아지", "강아지", "강아지"]
word_counts = Counter(sample_text)  # 단어 빈도수 계산

# 빈도수가 높은 10개 단어 추출
most_common_words = word_counts.most_common(10)
words, counts = zip(*most_common_words)  # 단어와 빈도를 각각 리스트로 분리

# 막대 그래프 생성
plt.figure(figsize=(10, 6))  # 그래프 크기 설정
plt.bar(words, counts, color="skyblue")  # 단어별 빈도를 막대 그래프로 표현
plt.xlabel("단어", fontsize=12)  # x축 라벨
plt.ylabel("빈도수", fontsize=12)  # y축 라벨
plt.title("강아지 실종 관련 주요 단어 빈도 분석", fontsize=14)  # 그래프 제목
plt.xticks(rotation=45)  # x축 단어 회전 (가독성 개선)
plt.grid(axis='y', linestyle='--', alpha=0.7)  # 가독성을 위한 격자 추가
plt.show()


In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
# 단어 빈도 데이터 준비
word_freq = dict(word_counts)
# 워드 클라우드 생성
wordcloud = WordCloud(font_path=font_path, width=800, height=400, background_color='white').generate_from_frequencies(word_freq)
# 시각화
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")  # 축 제거
plt.title("강아지 실종 관련 주요 단어", fontsize=16)
plt.show()
