#1. 텍스트 데이터 처리

### NLP & Text Mining
- 자연어처리: Natural Language Processing
- Text Mining: 텍스트 데이터를 자연어 처리 기술로 유용한 정보를 추출하여 분석
- 텍스트 마이닝 응용 분야: 분류, 감성 분석, 요약, 군집

- 텍스트 자료의 정형화
 - TDM 또는 DTM
 - Word2Vec, Doc2Vec 등 임베딩 기법


- 사용 라이브러리
 - NLTK(National Language Toolkit for python): 기본 필수 라이브러리, 속도 이슈.
 - Gensim : 토픽 모델링, 임베딩 등의 기능 제공
 - Word Colud : 시각화
 - KoNLPy: 한글처리

- NLP 단계
 - Cleansing: 불필요한 문자/문장부호/수치/태그 등 제거
 - 토큰(token): 문법적으로 최소 언어요소
 - 토큰화(Text Toeknization): Corpus로 부터 토큰 추출
 - Stop word 제거 : 분석에 큰 의미가 없는 단어(a, the, is, will등) 정리
 - Stemming / Lemmatization : 어근(단어 원형) 추출+단어원형 찾기
 - N-gram: 개별 단어 각각이 토큰이 되는 경우 문맥적 고려 어려움, N-gram은 연속된 n개의 단어를 하나의 토큰처럼 분리. n개 윈도우로 순서대로 토큰화


### 한글 처리
- 한국어 처리: 형태소 분석기 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)



- 형태소 분석:
 - KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 제공

 - Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.

 - http://semanticweb.kaist.ac.kr/hannanum/

 - Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.

 - http://kkma.snu.ac.kr/

 - Komoran: 코모란. Shineware에서 개발.

 - https://github.com/shin285/KOMORAN

 - Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.

 - https://bitbucket.org/eunjeon/mecab-ko

 - Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.

 - https://github.com/open-korean-text/open-korean-text

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m53.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m40.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
from konlpy.tag import Okt
okt=Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 텍스트를 형태로 단위로 나누는데,이때 각 단어에서 어간을 추출

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [None]:
print(okt.pos('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))
# 품사추출.

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [None]:
print(okt.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))
# 명사추출.

['코딩', '당신', '연휴', '여행']


- 1) morphs : 형태소 추출
- 2) pos : 품사 태깅
- 3) nouns : 명사 추출


- Kkma 이용 시

In [None]:
from konlpy.tag import Kkma
kkma=Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [None]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


#2. 토픽 발견

In [None]:
!pip install --upgrade pip setuptools wheel

Collecting pip
  Downloading pip-25.1.1-py3-none-any.whl.metadata (3.6 kB)
Collecting setuptools
  Downloading setuptools-80.8.0-py3-none-any.whl.metadata (6.6 kB)
Downloading pip-25.1.1-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m28.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading setuptools-80.8.0-py3-none-any.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m45.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 75.2.0
    Uninstalling setuptools-75.2.0:
      Successfully uninstalled setuptools-75.2.0
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behavio

In [None]:
!pip install --upgrade gensim

Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.7/26.7 MB[0m [31m60.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.3/18.3 MB[0m [31m80.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (38.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
#이후 세션 재시작 혹은 아래 코드
import os
os.kill(os.getpid(), 9)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm

In [None]:
# 정규 표현식을 통한 한글 외 문자 제거
train_data['articles'] = train_data['articles'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

In [None]:
train_data[:5] # 상위 5개 출력

Unnamed: 0.1,Unnamed: 0,label,articles
0,0,0,게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에...
1,1,0,"사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, ..."
2,2,0,이재익의 아재음악 열전전태관(왼쪽)과 김종진. <한겨레> 자료사진 2018년을 얼마...
3,3,0,서울대병원 제공서울대병원은 올해 1월부터 국내에서 독자적으로 개발한 인공지능 기술을...
4,4,0,ㆍ2.1㎓ 속도 ‘엑시노스 오토 V9’ㆍ2021년 생산 차량부터 탑재2021년 생산...


In [None]:
train_data['articles'][0]

"게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에 따르면 콩나물은 온 몸이 무겁고 저리거나 근육과 뼈가 아플 때 도움이 되고 제반 염증을 억제하는 효과가 뛰어나다고 돼 있다.콩나물에 들어있는 식물 단백질인 '아스파라긴산'은 1806년 프랑의 과학자 아스파라거스가 발견해 이름이 붙여졌다. 아스파라긴산은 암모니아 대사를 촉진해 독소를 흡수하고 혈액을 통해 제거하므로 간 건강에 도움이 된다. 이 때문에 숙취해소에 탁월한 효과를 보인다. 또 콩팥의 기능을 돕고 요산배설을 촉진시킴과 동시에 신경통이나 류머티즘에 효과를 보인다.콩나물은 대두 상태일 때는 비타민이 없지만 발아하는 과정에서 합성돼 비타민C가 풍부해진다. 비타민C는 피부를 맑고 투명하게 가꿔주고 면역력을 높여준다. 하지만 콩나물을 조리하는 과정에서 비타민C가 파괴되기 때문에 가볍게 조리해 섭취하는 게 좋다.정명진 의학전문기자 pompom@fnnews.com 정명진 기자 ▶ 세상의 모든 골 때리는 이야기 'fn파스'▶ 속보이는 연예뉴스 fn스타 ※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지"

In [None]:
tokenized_data = []

# 불용어 정의
stopwords = ['을','게티이미지뱅크', '부터', '까지' '적', '의','가','이','은','들',
             '는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다',
             '무단','전재재배포', '금지']

# 형태소 분석기 OKT를 사용한 토큰화 작업 (다소 시간 소요)
okt = Okt()

for sentence in tqdm(train_data['articles']):
    tokenized_sentence = okt.nouns(sentence)
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    stopwords_removed_sentence = [ i  for i in stopwords_removed_sentence if len(i) > 1]
    tokenized_data.append(stopwords_removed_sentence)

100%|██████████| 400/400 [00:55<00:00,  7.20it/s]


In [None]:
len(tokenized_data)
print( tokenized_data[10] )
train_data['articles'][10]

['새해', '금주', '목표', '성공', '무작정', '단기', '목표', '먼저', '기간', '점차', '식이', '도움', '사진', '클립아트', '코리아', '회사원', '김모', '새해', '건강', '위해', '결심', '문제', '결심', '반복', '고혈압', '진단', '금주', '목표', '달도', '올해', '회사', '업무', '조직', '개편', '스트레스', '금주', '자신감', '금주', '고민', '김씨', '새해', '금주', '결심', '사람', '작심삼일', '경우', '금주', '성공', '확률', '다사', '중앙', '병원', '정신건강', '의학과', '허성', '원장', '무작정', '방법', '오히려', '스트레스', '가중', '기간', '정해', '서서히', '음주', '빈도', '계획', '오늘', '하루', '생각', '금주', '기간', '일주일', '단위', '차차', '금주', '확률', '회사', '금주', '계획', '알리', '회식', '단호', '거절', '원장', '술잔', '시작', '중단', '일반', '우리나라', '음주', '문화', '이기', '때문', '자신', '금주', '계획', '선포', '실천', '공유', '방법', '실제', '영국', '새해', '금주', '각오', '서로', '실천', '독려', '드라이', '재뉴', '캠페인', '매년', '음주', '예방', '자선단체', '실시', '주최', '작년', '참가', '동안', '완전', '금주', '사람', '캠페인', '음주', '빈도', '일일', '주량', '감소', '대체', '즐거움', '원장', '알코올', '스트레스', '상황', '발생', '습관', '금주', '성공', '좌우', '만큼', '자신', '운동', '문화생활', '스트레스', '비책', '각오', '구체', '계획', '실천', '불구', '금주', '반복', '혼자', '상황', '이기', '때문', '지역', '중독', '관리'

'새해 금주 목표 성공을 위해서는 무작정 술을 참기보다 단기 목표를 먼저 세우고 기간을 점차 늘려가는 식이 도움이 된다./사진=클립아트코리아회사원 김모(45)씨는 새해를 맞아 건강을 위해 술을 끊기로 결심했다. 문제는 5년째 결심만 반복된다는 것이다. 5년 전 고혈압 진단을 받은 뒤부터 금주를 목표로 했지만 늘 한 달도 못 가 실패했다. 올해도 회사에서 주어진 새로운 업무와 조직 개편으로 스트레스를 받고 있어 금주에 성공할 것이라는 자신감이 없었다. 어떻게 해야 금주에 성공할지 고민이 됐다.김씨처럼 새해 금주를 결심하는 사람이 많지만 작심삼일로 끝나는 경우가 많다. 금주 성공 확률을 높이려면 어떻게 해야 할까?다사랑중앙병원 정신건강의학과 허성태 원장은 "무작정 술을 마시지 않고 참는 방법은 오히려 스트레스를 가중시킬 수 있다"며 "기간을 정해 서서히 음주 빈도를 줄이는 등의 계획이 필요하다"고 말했다. 이어 그는 "오늘 하루만 마시지 말자는 생각으로 금주하고, 이 기간을 일주일, 한 달 단위로 차차 늘리면 금주에 성공할 확률이 높아진다"고 덧붙였다.단, 회사에서는 금주 계획을 알리고 회식 중 첫 잔부터 단호하게 거절하는 게 좋다. 허 원장은 "술잔을 한 번 받기 시작하면 중단하기 어려운 것이 일반적인 우리나라 음주 문화이기 때문"이라고 말했다.SNS에 자신의 금주 계획을 선포하고 어떻게 실천하는지 공유하는 것도 방법이다. 실제 영국에서는 새해가 되면 SNS에 한 달간의 금주 각오를 올리고 서로 실천을 독려하며 1월 한 달 술을 끊는 \'드라이 재뉴어리\' 캠페인이 매년 음주예방 자선단체에 의해 실시되고 있다. 주최 측에 따르면 작년에 400만명이 참가했고, 1월 한 달 동안 ‘완전 금주’에 성공한 사람들은 캠페인 후 음주 빈도와 일일 음주량이 감소했다.술을 대체할 즐거움을 찾는 것도 중요하다. 허 원장은 “알코올에 민감해진 뇌는 스트레스 상황이 발생하면 습관적으로 술을 찾게 할 수 있다"며 “술 없이도 즐거울 수 있다는 것을 깨닫는 것이 금주 성공을 좌우하는 

2. lda 적용

In [None]:
from gensim import corpora
dictionary = corpora.Dictionary(tokenized_data) #사전 구성
corpus = [dictionary.doc2bow(text) for text in tokenized_data]  #Bag of Words 구성
corpus[1] # 수행된 결과에서 두번째 문서 출력, 첫번째 문서의 인덱스는 0

In [None]:
import gensim
NUM_TOPICS = 10
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
topics = ldamodel.print_topics(num_words=10)
for topic in topics:
    print(topic)

(0, '0.009*"기술" + 0.007*"시장" + 0.007*"한국" + 0.006*"더블" + 0.006*"지난해" + 0.006*"국내" + 0.005*"기자" + 0.005*"스마트폰" + 0.005*"판매" + 0.004*"산업"')
(1, '0.006*"암호" + 0.006*"비트코인" + 0.005*"기술" + 0.005*"블록" + 0.005*"체인" + 0.005*"리움" + 0.004*"앵커" + 0.004*"기자" + 0.004*"포크" + 0.004*"인터뷰"')
(2, '0.022*"간송" + 0.009*"게임" + 0.009*"전시" + 0.008*"미술관" + 0.005*"맥주" + 0.005*"서울" + 0.005*"미술" + 0.005*"문화재" + 0.005*"일본" + 0.005*"기자"')
(3, '0.006*"사람" + 0.005*"발레" + 0.005*"자신" + 0.005*"우리" + 0.004*"프린팅" + 0.004*"시간" + 0.004*"제품" + 0.004*"때문" + 0.003*"봄여름가을겨울" + 0.003*"사랑"')
(4, '0.032*"게임" + 0.028*"넥슨" + 0.021*"대표" + 0.014*"매각" + 0.012*"업계" + 0.010*"국내" + 0.009*"중국" + 0.008*"인수" + 0.007*"텐센트" + 0.007*"김정주"')
(5, '0.008*"중국" + 0.007*"지구" + 0.007*"탐사" + 0.007*"우주" + 0.006*"착륙" + 0.005*"미국" + 0.005*"기자" + 0.004*"마곡사" + 0.004*"라인" + 0.004*"지난해"')
(6, '0.019*"서비스" + 0.011*"콘텐츠" + 0.010*"시장" + 0.010*"택시" + 0.008*"사업" + 0.008*"텔레콤" + 0.008*"지상파" + 0.007*"국내" + 0.007*"플랫폼" + 0.005*"카카오"')
(7, '0.008*"환자" + 0.008*"애플" + 

In [None]:
ldamodel_mc = gensim.models.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=10)
topics = ldamodel_mc.print_topics(num_words=10)
for topic in topics:
    print(topic)

(0, '0.016*"서비스" + 0.012*"콘텐츠" + 0.012*"택시" + 0.009*"지상파" + 0.009*"텔레콤" + 0.007*"시장" + 0.006*"국내" + 0.006*"옥수수" + 0.006*"플랫폼" + 0.005*"대표"')
(1, '0.012*"전자" + 0.009*"시장" + 0.009*"기술" + 0.007*"판매" + 0.007*"지난해" + 0.006*"시스템" + 0.005*"차량" + 0.005*"전망" + 0.005*"공개" + 0.005*"자동차"')
(2, '0.012*"비트코인" + 0.006*"채굴" + 0.006*"통영" + 0.004*"화폐" + 0.004*"사람" + 0.004*"암호" + 0.003*"도전" + 0.003*"기자" + 0.003*"사진" + 0.003*"사랑"')
(3, '0.011*"애플" + 0.006*"아이폰" + 0.005*"중국" + 0.005*"경우" + 0.005*"때문" + 0.005*"매출" + 0.005*"기자" + 0.004*"경제" + 0.004*"사람" + 0.003*"미국"')
(4, '0.006*"환자" + 0.006*"중국" + 0.005*"우주" + 0.005*"지구" + 0.005*"탐사" + 0.005*"미국" + 0.004*"병원" + 0.004*"개발" + 0.004*"교수" + 0.004*"착륙"')
(5, '0.008*"리움" + 0.007*"포크" + 0.007*"하드" + 0.005*"치킨" + 0.005*"마곡사" + 0.005*"암호" + 0.004*"영상" + 0.004*"기자" + 0.004*"유성우" + 0.003*"최고"')
(6, '0.007*"미세먼지" + 0.006*"사람" + 0.006*"축제" + 0.005*"때문" + 0.005*"우리" + 0.004*"뉴스" + 0.004*"기자" + 0.004*"쇼팽" + 0.003*"산천어" + 0.003*"프레데릭"')
(7, '0.027*"게임" + 0.020*"넥슨" + 0.016

In [None]:
import re
from gensim.models.ldamodel import LdaModel
from gensim.models.callbacks import CoherenceMetric
from gensim import corpora
from gensim.models.callbacks import PerplexityMetric
import logging
import pickle
import pyLDAvis.gensim_models
from gensim.models.coherencemodel import CoherenceModel
import matplotlib.pyplot as plt

In [None]:
coherence_values = []
model_list = []
iters = [6,10, 14, 18, 22, 26]

for num_topics in iters:
     model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=num_topics, passes=15)
     model_list.append(model)
     coherencemodel = CoherenceModel(model=model, texts=tokenized_data, dictionary=dictionary, coherence='c_v')
     coherence_values.append(coherencemodel.get_coherence())


In [None]:
for i in range(0, len(iters)):
  print(model_list[i], coherence_values[i])  #topic num별로 coherence 가 높은 것을 찾기

LdaModel<num_terms=13790, num_topics=6, decay=0.5, chunksize=2000> 0.4248112839257618
LdaModel<num_terms=13790, num_topics=10, decay=0.5, chunksize=2000> 0.4263626359367646
LdaModel<num_terms=13790, num_topics=14, decay=0.5, chunksize=2000> 0.4559145558314543
LdaModel<num_terms=13790, num_topics=18, decay=0.5, chunksize=2000> 0.43692319374900235
LdaModel<num_terms=13790, num_topics=22, decay=0.5, chunksize=2000> 0.43929834998461176
LdaModel<num_terms=13790, num_topics=26, decay=0.5, chunksize=2000> 0.47049969713663603


In [None]:
!pip install pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl.metadata (4.2 kB)
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl.metadata (5.9 kB)
Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m59.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Installing collected packages: funcy, pyLDAvis
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [pyLDAvis]
[1A[2KSuccessfully installed funcy-2.0 pyLDAvis-3.4.1


In [None]:
import pyLDAvis.gensim_models
import gensim
from gensim import corpora
from pprint import pprint

# 예제 문서
documents = [
    "사과 바나나 오렌지",
    "컴퓨터 키보드 마우스",
    "사과 오렌지",
    "키보드 마우스 모니터",
    "사과 컴퓨터 오렌지"
]

# 전처리: 단어 분할
texts = [doc.split() for doc in documents]

# Dictionary 및 Corpus 생성
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# LDA 모델 학습
lda_model = gensim.models.LdaModel(
    corpus=corpus,
    id2word=dictionary,
    num_topics=2,
    random_state=42,
    passes=10,
    per_word_topics=True
)


##3, 트랜스포머

In [None]:
!pip install transformers torch datasets

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5

- 허깅페이스 활용

In [None]:
from transformers import pipeline

# 감성 분석 파이프라인 생성
classifier = pipeline("sentiment-analysis")   # 최적화된 사전 학습 모델을 자동으로 불러

# 테스트 문장
sentences = [
    "I love this movie, it was fantastic!",
    "I hate waiting in long lines.",
    "The product was okay, but could be better."
]

# 결과 출력
for sentence in sentences:
    result = classifier(sentence)[0]
    print( sentence, result["label"], result["score"])

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


I love this movie, it was fantastic! POSITIVE 0.9998763799667358
I hate waiting in long lines. NEGATIVE 0.9968921542167664
The product was okay, but could be better. NEGATIVE 0.9422469735145569


In [None]:
print(classifier.model.name_or_path)

- 모형 선택

In [None]:
classifier = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification  #파라미터, layer 출력 등 직접 조작 가능, logits 직접 받아서 해석해야 함, 모델 튜닝, 커스텀 학습 등 심화 작업
import torch

# 사전 학습된 모델과 토크나이저 로딩
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(model_name)   #모델 이름에 맞는 토크나이저 자동 로드 (문장 → 숫자)
model = AutoModelForSequenceClassification.from_pretrained(model_name)    #분류 작업에 맞게 사전학습 모델 + 분류기 로드

# 입력 문장
text = "I really enjoy using Hugging Face models."

# 토큰화로 텐서 변환
inputs = tokenizer(text, return_tensors="pt")

# 예측
with torch.no_grad():
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=1)
    predicted = torch.argmax(probs)

print("Predicted class:", predicted.item())
print("Probabilities:", probs)


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Predicted class: 1
Probabilities: tensor([[0.0018, 0.9982]])


- 한글

 - beomi/KcELECTRA-base	한국어 일상 언어 기반 모델
 - monologg/kobert	SKT KoBERT
 - snunlp/KR-FinBERT-SC	금융 텍스트 감성 분석
 - nlp04/korean-sentiment	네이버 영화리뷰 감정 분류

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# 모델 및 토크나이저 불러오기
model_name = "monologg/kobert"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained("snunlp/KR-FinBERT-SC")  # 감성분석 fine-tuned 버전 예시

# 파이프라인 구성
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# 입력 문장
texts = [
    "이 제품 정말 좋아요!",
    "서비스가 최악이었어요.",
    "가격은 비싼데 성능은 별로예요."
]

# 결과 출력
for text in texts:
    result = classifier(text)[0]
    print(text, result["label"], result["score"])


The repository `monologg/kobert` contains custom code which must be executed to correctly load the model. You can inspect the repository content at https://hf.co/monologg/kobert.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N] y


Device set to use cpu


이 제품 정말 좋아요! neutral 0.9914306998252869
서비스가 최악이었어요. neutral 0.8165387511253357
가격은 비싼데 성능은 별로예요. neutral 0.8831380009651184


In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# 모델 및 토크나이저
model_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained("klue/bert-base")

# 감성 분석 파이프라인 구성 (주의: 이 모델은 fine-tuned 안됨)
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)

# 입력 예시
text = "이 영화는 정말 감동적이었다."

# 예측
result = classifier(text)[0]
print(text, result["label"], result["score"])


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at klue/bert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


이 영화는 정말 감동적이었다. LABEL_1 0.5664965510368347
