## 🐍 Chapter 1: 텍스트 분석의 세계로: 기본 다지기

본 챕터에서는 텍스트 분석의 기본 개념을 이해하고, 앞으로의 여정에 필요한 개발 환경을 설정 및 검증합니다. 텍스트 분석이 무엇이며 왜 중요한지 알아보고, 강력한 Python 라이브러리들을 준비하는 첫 단계를 함께 밟아봅시다.

### 1. 텍스트 분석(Text Analytics) 및 자연어 처리(NLP)란?

#### 💡 개념 (Concept)

**텍스트 분석(Text Analytics)** 또는 **자연어 처리(Natural Language Processing, NLP)** 는 컴퓨터를 사용하여 인간의 언어(텍스트 데이터)를 이해하고, 해석하며, 유의미한 정보를 추출하는 기술 분야입니다. 텍스트 데이터는 다음과 같은 특징 때문에 분석하기 까다롭습니다.

* **비정형성 (Unstructured):** 정해진 틀이나 구조가 없어 다루기 어렵습니다.
* **모호성 (Ambiguous):** 하나의 단어나 문장이 여러 의미로 해석될 수 있습니다 (예: "사과"는 과일일 수도, 용서를 구하는 행위일 수도 있습니다).
* **문맥 의존성 (Context-dependent):** 같은 단어라도 문맥에 따라 의미가 완전히 달라집니다.

이러한 어려움에도 불구하고 텍스트 분석은 다양한 분야에서 활발히 활용되며 엄청난 가치를 만들어내고 있습니다. 

* **정보 검색:** 검색 엔진의 정확도 향상
* **감성 분석:** 영화 리뷰, 제품 후기 등의 긍/부정 분석
* **챗봇 및 가상 비서:** 사용자의 질문 의도 파악 및 답변 생성
* **기계 번역:** 한 언어를 다른 언어로 자동 번역
* **뉴스 기사 요약 및 분류:** 방대한 기사를 주제별로 자동 분류하고 핵심 내용 요약

#### 💻 예시 코드 (Example Code)

텍스트 분석의 목표를 간단한 코드로 상상해봅시다. 아래 코드는 실제 동작하지는 않지만, 우리가 앞으로 배울 내용을 통해 구현할 목표를 보여줍니다.

In [None]:
# 최종 목표(가상 코드)
# from text_analysis_magic import analyze_sentiment

# review1 = "이 영화는 제 인생 최고의 영화입니다! 배우들의 연기가 정말 인상 깊었어요."
# review2 = "기대하고 봤는데 너무 실망스러웠어요. 스토리가 지루하고 예측 가능합니다."

# 긍정/부정을 분석하여 출력
# print(f"'{review1[:20]}...'의 감성 분석 결과: {analyze_sentiment(review1)}")
# print(f"'{review2[:20]}...'의 감성 분석 결과: {analyze_sentiment(review2)}")

#### ✏️ 연습 문제 (Practice Problems)

1.  <u>본인이 매일 사용하는 서비스(앱, 웹사이트 등) 중에서 텍스트 분석 기술이 사용되고 있을 것 같은 사례 3가지를 생각해보고, 어떤 기능에 어떻게 사용될지 구체적으로 설명해보세요.</u>
   
    1. **YouTube - 댓글 및 콘텐츠 필터링**
       - 악성 댓글이나 스팸 댓글을 자동으로 감지하여 삭제하거나 숨김 처리
       - 영상 제목과 설명을 분석하여 적절한 카테고리로 자동 분류
       - 자막 생성 및 다국어 번역 서비스 제공

    2. **인스타그램 - 해시태그 추천 및 콘텐츠 추천**
       - 게시물의 텍스트 내용을 분석하여 관련 해시태그 자동 추천
       - 사용자가 작성한 캡션의 감성을 분석하여 비슷한 취향의 콘텐츠 추천
       - 부적절한 콘텐츠나 혐오 발언을 자동으로 탐지하여 제재

    3. **네이버 쇼핑 - 상품 리뷰 분석**
       - 수많은 상품 리뷰를 분석하여 긍정/부정 평가 요약 제공
       - 리뷰 내용에서 핵심 키워드를 추출하여 상품의 장단점 정리
       - 가짜 리뷰나 광고성 리뷰를 자동으로 필터링

2.  <u>하나의 한국어 문장이 다르게 해석될 수 있는 예시를 직접 만들어 보세요.</u>
   
    다음은 한국어 문장이 다르게 해석될 수 있는 예시들입니다.

    **예시 1:** "나는 오늘 밤을 새웠다."
    - 해석 1: 잠을 자지 않고 밤을 지새웠다 (밤샘)
    - 해석 2: 새로운 밤을 경험했다 (새로운 경험)

    **예시 2:** "아버지가 방에 들어가신다."
    - 해석 1: 아버지가 어떤 방으로 들어가는 중이다
    - 해석 2: "아버지가방에들어가신다" - 띄어쓰기 없이 읽으면 "아버지 가방에 들어가신다"

    **예시 3:** "저 사람 말이 많아."
    - 해석 1: 저 사람이 말을 많이 한다(수다스럽다).
    - 해석 2: 저 사람이 키우는 말(horse)이 많다.

    **예시 4:** "방금 다녀온 집이 좋아 보여."
    - 해석 1: 방금 방문한 집(house)이 좋아 보인다.
    - 해석 2: 방금 다녀온 집(family, household)이 좋아 보인다(가정의 분위기 등).

    **예시 5:** "오늘 밤 별이 많아."
    - 해석 1: 하늘에 별(star)이 많이 떠 있다.
    - 해석 2: 오늘 밤에 별(grade, 예: 별 다섯 개)이 많다, 즉 평가가 좋다(리뷰 등 맥락에서).

    이러한 모호성은 자연어 처리에서 해결해야 할 중요한 과제 중 하나입니다.

---

In [12]:
# 라이브러리 임포트
import sys
import os
import requests
import json
import pandas as pd

### 2. 엘라스틱서치(검색엔진)을 활용한 텍스트 분석

엘라스틱서치(Elasticsearch)는 Apache Lucene 기반의 분산형 검색 및 분석 엔진입니다.

**엘라스틱서치의 주요 특징**
- **실시간 검색**: 거의 실시간으로 데이터를 색인하고 검색할 수 있습니다
- **분산 처리**: 여러 노드에 걸쳐 데이터를 분산 저장하고 처리합니다
- **RESTful API**: HTTP 기반의 간단한 API를 제공합니다
- **스키마리스**: 동적으로 데이터 구조를 파악하고 색인합니다

**일반적인 용도**
1. **로그 분석**: 시스템 로그, 웹 로그 등의 대용량 로그 데이터 분석
2. **전문 검색**: 웹사이트, 문서, 상품 검색 기능 구현
3. **실시간 모니터링**: 시스템 성능, 비즈니스 메트릭 모니터링
4. **데이터 시각화**: Kibana와 연동하여 데이터 대시보드 구성

**텍스트 분석에서의 활용**
- **형태소 분석**: 한국어 분석기(Nori)를 통한 단어 분리 및 품사 태깅
- **토큰화**: 텍스트를 의미 있는 단위로 분할
- **정규화**: 대소문자 변환, 불용어 제거, 어간 추출 등
- **색인 및 검색**: 분석된 텍스트를 효율적으로 저장하고 검색
- **집계 분석**: 단어 빈도, 통계 분석 등 다양한 텍스트 통계 제공

이번 실습에서는 엘라스틱서치의 한국어 분석기인 **Nori**를 사용하여 한국어 텍스트의 형태소 분석을 수행해보겠습니다.


In [13]:
# 프로젝트 루트 디렉토리를 sys.path에 추가
project_root_path = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root_path not in sys.path:
    sys.path.append(project_root_path)

In [14]:
# 검색엔진 접속 테스트
# url = 'http://elasticsearch:9200' # 도커 환경에서 실행시
# url = "http://es:9200" # ES 전용 도커 환경에서 실행시
url = 'http://localhost:9200' # 로컬 환경에서 실행시
headers = {'Content-Type': 'application/json'}
response = requests.get(url, headers=headers).json()
response

{'name': '8063e40e5668',
 'cluster_name': 'docker-cluster',
 'cluster_uuid': 'mWkra8roQOicha8uaydNDg',
 'version': {'number': '7.17.0',
  'build_flavor': 'default',
  'build_type': 'docker',
  'build_hash': 'bee86328705acaa9a6daede7140defd4d9ec56bd',
  'build_date': '2022-01-28T08:36:04.875279988Z',
  'build_snapshot': False,
  'lucene_version': '8.11.1',
  'minimum_wire_compatibility_version': '6.8.0',
  'minimum_index_compatibility_version': '6.0.0-beta1'},
 'tagline': 'You Know, for Search'}

In [16]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
!pip install elasticsearch

In [17]:
from lib.search import analyze_morph, create_index, DEFAULT_SETTINGS, DEFAULT_MAPPINGS
# 인덱스 생성하기
create_index(
    index_name="my_nori",
    settings=DEFAULT_SETTINGS,
    mappings=DEFAULT_MAPPINGS,
    hosts=url
)

ObjectApiResponse({'acknowledged': True, 'shards_acknowledged': True, 'index': 'my_nori'})

In [18]:
# 형태소 분석 테스트
result = analyze_morph(
    text="한라산과 백두산",
    analyzer="nori_analyzer",
    index="my_nori",
    hosts=url
)
pd.DataFrame(result.body['tokens'])

Unnamed: 0,token,start_offset,end_offset,type,position
0,한라,0,2,word,0
1,산,2,3,word,1
2,과,3,4,word,2
3,백두,5,7,word,3
4,산,7,8,word,4


#### ✏️ 연습 문제 (Practice Problems)

1. 다음 10개의 문장을 nori_analyzer로 분석하고, 단어별 등장횟수를 pandas DataFrame으로 정리해보세요
   - from collections import Counter 클래스를 활용하세요.
   - 강사가 공유한 analyze_morph 함수를 활용하세요.

2. 상위 10개 단어를 시각화해보세요.
    - plotly express 라이브러리를 활용하세요.

In [21]:
texts = [
    "안녕하세요. 오늘 날씨가 정말 좋네요!",
    "데이터 사이언스는 매우 흥미로운 분야입니다.",
    "엘라스틱서치를 이용한 텍스트 마이닝을 배우고 있어요.",
    "머신러닝과 딥러닝은 인공지능의 핵심 기술입니다.",
    "파이썬은 데이터 분석에 매우 유용한 프로그래밍 언어입니다.",
    "자연어 처리 기술이 빠르게 발전하고 있습니다.",
    "빅데이터 시대에 텍스트 마이닝의 중요성이 증가하고 있어요.",
    "검색 엔진은 우리 일상생활에서 없어서는 안 될 도구입니다.",
    "한국어 형태소 분석은 자연어 처리의 첫 번째 단계입니다.",
    "데이터 과학자는 다양한 분석 도구를 활용해야 합니다."
]

df = pd.DataFrame(texts, columns=["sentences"])

df['tokens'] = df.sentences.apply(lambda sent : analyze_morph(sent, analyzer="nori_analyzer", index="my_nori", hosts=url).body['tokens'])


In [26]:
data = df.tokens.apply(lambda tokens : [token['token'] for token in tokens]).values.tolist()

In [31]:
words = []
for record in data:
    words.extend(record)
words


['안녕',
 '하',
 '시',
 '어요',
 '오늘',
 '날씨',
 '가',
 '정말',
 '좋',
 '네요',
 '데이터',
 '사이언스',
 '는',
 '매우',
 '흥미',
 '롭',
 'ᆫ',
 '분야',
 '이',
 'ᄇ니다',
 '엘라스틱',
 '서치',
 '를',
 '이용',
 '하',
 'ᆫ',
 '텍스트',
 '마이닝',
 '을',
 '배우',
 '고',
 '있',
 '어요',
 '머신',
 '러닝',
 '과',
 '딥',
 '러닝',
 '은',
 '인공',
 '지능',
 '의',
 '핵심',
 '기술',
 '이',
 'ᄇ니다',
 '파이썬',
 '은',
 '데이터',
 '분석',
 '에',
 '매우',
 '유용',
 '하',
 'ᆫ',
 '프로그래밍',
 '언어',
 '이',
 'ᄇ니다',
 '자연',
 '어',
 '처리',
 '기술',
 '이',
 '빠르',
 '게',
 '발전',
 '하',
 '고',
 '있',
 '습니다',
 '빅',
 '데이터',
 '시대',
 '에',
 '텍스트',
 '마이닝',
 '의',
 '중요',
 '성',
 '이',
 '증가',
 '하',
 '고',
 '있',
 '어요',
 '검색',
 '엔진',
 '은',
 '우리',
 '일상',
 '생활',
 '에서',
 '없',
 '어서',
 '는',
 '안',
 '되',
 'ᆯ',
 '도구',
 '이',
 'ᄇ니다',
 '한국',
 '어',
 '형태',
 '소',
 '분석',
 '은',
 '자연',
 '어',
 '처리',
 '의',
 '첫',
 '번',
 '째',
 '단계',
 '이',
 'ᄇ니다',
 '데이터',
 '과학',
 '자',
 '는',
 '다양',
 '하',
 'ᆫ',
 '분석',
 '도구',
 '를',
 '활용',
 '하',
 '아야',
 '하',
 'ᄇ니다']

In [33]:
from collections import Counter

dict(Counter(words))

{'안녕': 1,
 '하': 8,
 '시': 1,
 '어요': 3,
 '오늘': 1,
 '날씨': 1,
 '가': 1,
 '정말': 1,
 '좋': 1,
 '네요': 1,
 '데이터': 4,
 '사이언스': 1,
 '는': 3,
 '매우': 2,
 '흥미': 1,
 '롭': 1,
 'ᆫ': 4,
 '분야': 1,
 '이': 7,
 'ᄇ니다': 6,
 '엘라스틱': 1,
 '서치': 1,
 '를': 2,
 '이용': 1,
 '텍스트': 2,
 '마이닝': 2,
 '을': 1,
 '배우': 1,
 '고': 3,
 '있': 3,
 '머신': 1,
 '러닝': 2,
 '과': 1,
 '딥': 1,
 '은': 4,
 '인공': 1,
 '지능': 1,
 '의': 3,
 '핵심': 1,
 '기술': 2,
 '파이썬': 1,
 '분석': 3,
 '에': 2,
 '유용': 1,
 '프로그래밍': 1,
 '언어': 1,
 '자연': 2,
 '어': 3,
 '처리': 2,
 '빠르': 1,
 '게': 1,
 '발전': 1,
 '습니다': 1,
 '빅': 1,
 '시대': 1,
 '중요': 1,
 '성': 1,
 '증가': 1,
 '검색': 1,
 '엔진': 1,
 '우리': 1,
 '일상': 1,
 '생활': 1,
 '에서': 1,
 '없': 1,
 '어서': 1,
 '안': 1,
 '되': 1,
 'ᆯ': 1,
 '도구': 2,
 '한국': 1,
 '형태': 1,
 '소': 1,
 '첫': 1,
 '번': 1,
 '째': 1,
 '단계': 1,
 '과학': 1,
 '자': 1,
 '다양': 1,
 '활용': 1,
 '아야': 1}

### 2. 한글 텍스트 분석을 위한 한글 전용 라이브러리 (MeCab) 기초 사용법

공식문서 : https://github.com/SamuraiT/mecab-python3

#### 💡 개념 (Concept)
* `nltk`, `mecab-python`: 자연어 처리를 위한 도구 모음입니다. **NLTK**는 주로 영문 텍스트, **mecab-python**은 한국어 텍스트의 형태소 분석(단어를 의미있는 최소 단위로 쪼개는 작업)에 필수적입니다.
* `wordcloud`: 단어의 빈도를 시각적으로 아름답게 표현하는 워드클라우드를 생성합니다.

#### 💻 예시 코드 (Example Code)

텍스트 분석 프로젝트 시작 시, 아래와 같이 필요한 라이브러리들을 `import` 하는 것으로 시작합니다. 각 라이브러리에 별칭(alias)을 부여하여(예: `pandas as pd`), 코드를 더 간결하게 작성할 수 있습니다.

In [2]:
# 데이터 시각화
import plotly.express as px

# 데이터 처리 및 연산
import pandas as pd
import numpy as np
pd.options.plotting.backend = "plotly"



In [3]:
import MeCab


라이브러리 임포트 준비 완료!


In [None]:
dir(MeCab)
"""
   ['DictionaryInfo',
 'DictionaryInfo_swigregister',
 'Lattice',
 'Lattice_swigregister',
 'MECAB_ALLOCATE_SENTENCE',
 'MECAB_ALL_MORPHS',
 'MECAB_ALTERNATIVE',
 'MECAB_ANY_BOUNDARY',
 'MECAB_BOS_NODE',
 'MECAB_EON_NODE',
 'MECAB_EOS_NODE',
 'MECAB_INSIDE_TOKEN',
 'MECAB_MARGINAL_PROB',
 'MECAB_NBEST',
 'MECAB_NOR_NODE',
 'MECAB_ONE_BEST',
 'MECAB_PARTIAL',
 'MECAB_SYS_DIC',
 'MECAB_TOKEN_BOUNDARY',
 'MECAB_UNK_DIC',
 'MECAB_UNK_NODE',
 'MECAB_USR_DIC',
 'Model',
 'Model_create',
 'Model_swigregister',
 'Model_version',
 'Node',
 'Node_swigregister',
 'Path',
 'Path_swigregister',
 'Tagger',
 'Tagger_create',
 'Tagger_swigregister',
 'Tagger_version',
 'VERSION',
...
] 
"""

In [10]:
MeCab.VERSION

'0.996/ko-0.9.0'

In [7]:
# MeCab 태거 객체 생성
mecab = MeCab.Tagger()

# 기본 형태소 분석
text = "안녕하세요. 오늘 날씨가 정말 좋네요!"
print("원문:", text)
print("형태소 분석 결과:")
print(mecab.parse(text))

print("\n" + "="*50 + "\n")

원문: 안녕하세요. 오늘 날씨가 정말 좋네요!
형태소 분석 결과:
안녕	NNG,행위,T,안녕,*,*,*,*
하	XSV,*,F,하,*,*,*,*
세요	EP+EF,*,F,세요,Inflect,EP,EF,시/EP/*+어요/EF/*
.	SF,*,*,*,*,*,*,*
오늘	MAG,성분부사|시간부사,T,오늘,*,*,*,*
날씨	NNG,*,F,날씨,*,*,*,*
가	JKS,*,F,가,*,*,*,*
정말	MAG,문장부사|양상부사,T,정말,*,*,*,*
좋	VA,*,T,좋,*,*,*,*
네요	EF,*,F,네요,*,*,*,*
!	SF,*,*,*,*,*,*,*
EOS





In [8]:
# 노드 단위로 상세 분석
print("노드 단위 상세 분석:")
node = mecab.parseToNode(text)
while node:
    if node.surface:  # 빈 노드가 아닌 경우만
        print(f"표면형: {node.surface}")
        print(f"품사 정보: {node.feature}")
        print(f"비용: {node.cost}")
        print("-" * 30)
    node = node.next

print("\n" + "="*50 + "\n")


노드 단위 상세 분석:
표면형: 안녕
품사 정보: NNG,행위,T,안녕,*,*,*,*
비용: 3602
------------------------------
표면형: 하
품사 정보: XSV,*,F,하,*,*,*,*
비용: 2823
------------------------------
표면형: 세요
품사 정보: EP+EF,*,F,세요,Inflect,EP,EF,시/EP/*+어요/EF/*
비용: 1035
------------------------------
표면형: .
품사 정보: SF,*,*,*,*,*,*,*
비용: 2605
------------------------------
표면형: 오늘
품사 정보: MAG,성분부사|시간부사,T,오늘,*,*,*,*
비용: 3105
------------------------------
표면형: 날씨
품사 정보: NNG,*,F,날씨,*,*,*,*
비용: 3349
------------------------------
표면형: 가
품사 정보: JKS,*,F,가,*,*,*,*
비용: 2357
------------------------------
표면형: 정말
품사 정보: MAG,문장부사|양상부사,T,정말,*,*,*,*
비용: 1947
------------------------------
표면형: 좋
품사 정보: VA,*,T,좋,*,*,*,*
비용: 2125
------------------------------
표면형: 네요
품사 정보: EF,*,F,네요,*,*,*,*
비용: 544
------------------------------
표면형: !
품사 정보: SF,*,*,*,*,*,*,*
비용: 2114
------------------------------




In [12]:
# 다양한 텍스트로 테스트
test_sentences = [
    "한국어 자연어 처리는 어렵지만 재미있습니다.",
    "서울대학교에서 공부하고 있어요.",
    "오늘은 2025년 2월 11일입니다."
]

for i, sentence in enumerate(test_sentences, 1):
    print(f"예제 {i}: {sentence}")
    result = mecab.parse(sentence)
    print(result)
    print()


예제 1: 한국어 자연어 처리는 어렵지만 재미있습니다.
한국어	NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
자연어	NNG,*,F,자연어,Compound,*,*,자연/NNG/*+어/NNG/*
처리	NNG,행위,F,처리,*,*,*,*
는	JX,*,T,는,*,*,*,*
어렵	VA,*,T,어렵,*,*,*,*
지만	EC,*,T,지만,*,*,*,*
재미있	VA,*,T,재미있,Inflect,VA,VA,재밌/VA/*
습니다	EF,*,F,습니다,*,*,*,*
.	SF,*,*,*,*,*,*,*
EOS


예제 2: 서울대학교에서 공부하고 있어요.
서울대	NNP,*,F,서울대,Compound,*,*,서울/NNG/*+대/NNG/*
학교	NNG,장소,F,학교,*,*,*,*
에서	JKB,*,F,에서,*,*,*,*
공부	NNG,행위,F,공부,*,*,*,*
하	XSV,*,F,하,*,*,*,*
고	EC,*,F,고,*,*,*,*
있	VX,*,T,있,*,*,*,*
어요	EF,*,F,어요,*,*,*,*
.	SF,*,*,*,*,*,*,*
EOS


예제 3: 오늘은 2025년 2월 11일입니다.
오늘	NNG,*,T,오늘,*,*,*,*
은	JX,*,T,은,*,*,*,*
2025	SN,*,*,*,*,*,*,*
년	NNBC,*,T,년,*,*,*,*
2	SN,*,*,*,*,*,*,*
월	NNBC,*,T,월,*,*,*,*
11	SN,*,*,*,*,*,*,*
일	NNBC,*,T,일,*,*,*,*
입니다	VCP+EF,*,F,입니다,Inflect,VCP,EF,이/VCP/*+ᄇ니다/EF/*
.	SF,*,*,*,*,*,*,*
EOS




### 워드 클라우드 시각화 간단 예시


In [14]:
data_sentences = [
    "빅데이터 분석을 통해 고객의 구매 패턴을 파악할 수 있습니다.",
    "머신러닝 알고리즘으로 데이터를 학습시켜 예측 모델을 만들었습니다.",
    "데이터베이스에서 필요한 정보를 쿼리로 추출하는 작업을 진행했습니다.",
    "데이터 시각화를 통해 복잡한 정보를 직관적으로 표현할 수 있습니다.",
    "인공지능 모델 훈련을 위해 대용량 데이터셋을 준비해야 합니다.",
    "데이터 전처리 과정에서 결측값과 이상치를 제거하는 것이 중요합니다.",
    "클라우드 플랫폼을 활용하여 데이터 저장소를 구축했습니다.",
    "실시간 데이터 스트리밍을 통해 즉시 분석 결과를 확인할 수 있습니다.",
    "데이터 마이닝 기법으로 숨겨진 패턴을 발견하는 것이 목표입니다.",
    "정형 데이터와 비정형 데이터를 통합하여 분석하는 프로젝트를 수행했습니다.",
    "데이터 웨어하우스 설계를 통해 효율적인 데이터 관리 시스템을 구축했습니다.",
    "통계 분석을 활용하여 데이터의 분포와 상관관계를 파악했습니다.",
    "데이터 품질 관리를 위해 정기적인 검증 프로세스를 도입했습니다.",
    "오픈 데이터를 활용하여 공공 서비스 개선 방안을 제시했습니다.",
    "데이터 거버넌스 정책을 수립하여 조직 내 데이터 활용을 체계화했습니다.",
    "센서 데이터를 수집하여 IoT 기반 모니터링 시스템을 개발했습니다.",
    "소셜 미디어 데이터 분석을 통해 브랜드 인지도를 측정했습니다.",
    "데이터 레이크 아키텍처를 도입하여 다양한 형태의 데이터를 저장했습니다.",
    "예측 분석 모델을 통해 미래 트렌드를 예측하는 시스템을 구축했습니다.",
    "데이터 보안과 개인정보 보호를 위한 암호화 기술을 적용했습니다.",
    "A/B 테스트 데이터를 분석하여 최적의 마케팅 전략을 수립했습니다.",
    "지리정보 데이터를 활용하여 위치 기반 서비스를 개발했습니다."
]

# 모든 문장을 하나의 텍스트로 결합
all_text = " ".join(data_sentences)

# MeCab으로 형태소 분석
node = mecab.parseToNode(all_text)
keywords = []

# 명사, 동사, 형용사만 추출 (핵심 키워드)
target_pos = ['NNG', 'NNP', 'VV', 'VA']  # 일반명사, 고유명사, 동사, 형용사

while node:
    if node.surface and len(node.surface) > 1:  # 한 글자 이상의 단어만
        pos = node.feature.split(',')[0]  # 품사 정보 추출
        if pos in target_pos:
            keywords.append(node.surface)
    node = node.next

In [16]:
# 키워드 빈도 계산
from collections import Counter
keyword_counts = Counter(keywords)

print(f"추출된 총 키워드 수: {len(keywords)}")
print(f"고유 키워드 수: {len(keyword_counts)}")
print("\n상위 20개 키워드:")
for keyword, count in keyword_counts.most_common(20):
    print(f"{keyword}: {count}회")

추출된 총 키워드 수: 156
고유 키워드 수: 103

상위 20개 키워드:
데이터: 24회
분석: 7회
활용: 5회
정보: 4회
예측: 3회
모델: 3회
구축: 3회
시스템: 3회
패턴: 2회
파악: 2회
정형: 2회
관리: 2회
도입: 2회
서비스: 2회
수립: 2회
기반: 2회
개발: 2회
고객: 1회
구매: 1회
머신: 1회


In [None]:
!pip install wordcloud

In [34]:
import requests
import os

# 나눔고딕 폰트 직접 다운로드
font_url = "https://github.com/google/fonts/raw/main/ofl/nanumgothic/NanumGothic-Regular.ttf"
font_path = "/usr/share/fonts/truetype/NanumGothic-Regular.ttf"

# 폰트 디렉토리 생성
os.makedirs(os.path.dirname(font_path), exist_ok=True)

# 폰트 파일 다운로드
response = requests.get(font_url)
if response.status_code == 200:
    with open(font_path, 'wb') as f:
        f.write(response.content)
    print(f"나눔고딕 폰트가 {font_path}에 성공적으로 다운로드되었습니다.")
else:
    print(f"폰트 다운로드 실패: {response.status_code}")

나눔고딕 폰트가 /usr/share/fonts/truetype/NanumGothic-Regular.ttf에 성공적으로 다운로드되었습니다.


In [35]:
# WordCloud 시각화
import plotly.graph_objects as go
from wordcloud import WordCloud
import numpy as np
from PIL import Image
import io
import base64

# WordCloud 생성
wordcloud = WordCloud(
    font_path=font_path,
    width=800, 
    height=600, 
    background_color='white',
    max_words=100,
    colormap='viridis'
).generate_from_frequencies(keyword_counts)


In [36]:
# WordCloud를 이미지로 변환
img_buffer = io.BytesIO()
wordcloud.to_image().save(img_buffer, format='PNG')
img_buffer.seek(0)
img_str = base64.b64encode(img_buffer.read()).decode()

# Plotly로 WordCloud 시각화
fig = go.Figure()

fig.add_layout_image(
    dict(
        source=f"data:image/png;base64,{img_str}",
        xref="x",
        yref="y",
        x=0,
        y=1,
        sizex=1,
        sizey=1,
        sizing="stretch",
        opacity=1,
        layer="below"
    )
)

fig.update_layout(
    title={
        'text': "데이터 관련 문장에서 추출한 핵심 키워드 워드클라우드",
        'x': 0.5,
        'xanchor': 'center',
        'font': {'size': 16}
    },
    xaxis=dict(showgrid=False, showticklabels=False, zeroline=False, range=[0, 1]),
    yaxis=dict(showgrid=False, showticklabels=False, zeroline=False, range=[0, 1]),
    width=800,
    height=600,
    margin=dict(l=20, r=20, t=60, b=20)
)

fig.show()


In [37]:
# 키워드 빈도 막대 그래프
top_keywords = dict(keyword_counts.most_common(15))

fig_bar = go.Figure(data=[
    go.Bar(
        x=list(top_keywords.values()),
        y=list(top_keywords.keys()),
        orientation='h',
        marker=dict(
            color=list(top_keywords.values()),
            colorscale='viridis',
            showscale=True
        )
    )
])

fig_bar.update_layout(
    title={
        'text': "상위 15개 핵심 키워드 빈도",
        'x': 0.5,
        'xanchor': 'center',
        'font': {'size': 16}
    },
    xaxis_title="빈도",
    yaxis_title="키워드",
    height=600,
    margin=dict(l=100, r=20, t=60, b=40)
)

fig_bar.show()

---

### 3. 유용한 최근 라이브러리

https://github.com/bab2min/kiwipiepy

#### 💻 예시 코드 (Example Code)

In [None]:
!pip install kiwipiepy cmake

In [3]:
from kiwipiepy import Kiwi

In [4]:
kiwi = Kiwi()

In [5]:
kiwi.tokenize("안녕하세요 형태소 분석기 키위입니다.")

[Token(form='안녕', tag='NNG', start=0, len=2),
 Token(form='하', tag='XSA', start=2, len=1),
 Token(form='세', tag='EC', start=3, len=1),
 Token(form='요', tag='JX', start=4, len=1),
 Token(form='형태소', tag='NNG', start=6, len=3),
 Token(form='분석기', tag='NNG', start=10, len=3),
 Token(form='키위', tag='NNG', start=14, len=2),
 Token(form='이', tag='VCP', start=16, len=1),
 Token(form='ᆸ니다', tag='EF', start=16, len=3),
 Token(form='.', tag='SF', start=19, len=1)]

In [6]:
kiwi.tokenize("ㅋㅋㅋ 이런 것도 분석이 될까욬ㅋㅋ?", normalize_coda=True)

[Token(form='ㅋㅋㅋ', tag='SW', start=0, len=3),
 Token(form='이런', tag='MM', start=4, len=2),
 Token(form='것', tag='NNB', start=7, len=1),
 Token(form='도', tag='JX', start=8, len=1),
 Token(form='분석', tag='NNG', start=10, len=2),
 Token(form='이', tag='JKC', start=12, len=1),
 Token(form='되', tag='VV', start=14, len=1),
 Token(form='ᆯ까요', tag='EF', start=14, len=3),
 Token(form='ㅋㅋㅋ', tag='SW', start=16, len=3),
 Token(form='?', tag='SF', start=19, len=1)]

In [7]:
from kiwipiepy.utils import Stopwords

In [8]:
stopwords = Stopwords()

In [9]:
kiwi.tokenize("분석 결과에서 불용어만 제외하고 출력할 수도 있다.", stopwords=stopwords)


[Token(form='분석', tag='NNG', start=0, len=2),
 Token(form='결과', tag='NNG', start=3, len=2),
 Token(form='불', tag='NNG', start=8, len=1),
 Token(form='용어', tag='NNG', start=9, len=2),
 Token(form='제외', tag='NNG', start=13, len=2),
 Token(form='출력', tag='NNG', start=18, len=2),
 Token(form='있', tag='VA', start=25, len=1)]

In [10]:
stopwords.add(('결과', 'NNG'))