# [KUGGLE] NLP 자연어 처리 과제

########## ⭐️ (과제) 문장을 넣어주세요 ############

이 부분에 자연어 처리로 분석해보고 싶은 문장을 넣어 코드를 돌려주세요!

결과값과 함께 깃허브에 풀리퀘로 제출해주세요.

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m32.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


# 1. 텍스트 토큰화 실습

In [6]:
from collections import Counter

def tokenize_text(text):
    # 텍스트를 공백 기준으로 토큰화
    tokens = text.split()
    # 각 토큰의 빈도수 계산
    token_counts = Counter(tokens)
    return token_counts

# 예제 문장
example_text = "안녕하세요. 쿠글 10기 장윤영입니다. 파이썬으로 텍스트를 토큰화해보세요. 좋은 하루 보내세요!"
print(tokenize_text(example_text))


Counter({'안녕하세요.': 1, '쿠글': 1, '10기': 1, '장윤영입니다.': 1, '파이썬으로': 1, '텍스트를': 1, '토큰화해보세요.': 1, '좋은': 1, '하루': 1, '보내세요!': 1})


#단어집합(vocabulary) 생성

In [7]:
def create_vocabulary(text):
    # 문장을 공백을 기준으로 분리하여 단어 집합 생성
    words = text.split()
    # 중복 제거를 위해 집합으로 변환 후 다시 리스트로 변환
    vocabulary = list(set(words))
    # 단어집합을 알파벳순으로 정렬
    vocabulary.sort()
    return vocabulary

# 예제 문장
example_text = "안녕하세요. 쿠글 10기 장윤영입니다. 파이썬으로 텍스트를 토큰화해보세요. 좋은 하루 보내세요!"

# 단어집합 생성
vocabulary = create_vocabulary(example_text)

# 단어집합 출력
print("단어집합:", vocabulary)


단어집합: ['10기', '보내세요!', '안녕하세요.', '장윤영입니다.', '좋은', '쿠글', '텍스트를', '토큰화해보세요.', '파이썬으로', '하루']


#정수인코딩 & 원-핫인코딩

In [8]:
import numpy as np

def onehot_encoding(word, vocabulary):
    # 단어의 인덱스 찾기
    index = vocabulary.index(word)
    # 원핫 인코딩 수행
    onehot = np.zeros(len(vocabulary))
    onehot[index] = 1
    return onehot

# 단어집합과 예제 단어
vocabulary = ['안녕', '하세요', '쿠글', '10기', '장윤영입니다', '파이썬', '텍스트', '토큰화해보세요', '좋은', '하루', '보내세요']
example_word = '쿠글'

# 원핫 인코딩 수행
onehot_vector = onehot_encoding(example_word, vocabulary)
print(f'"{example_word}"의 원핫 인코딩 벡터:', onehot_vector)

"쿠글"의 원핫 인코딩 벡터: [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]


#Bag-of-Words

In [9]:
from konlpy.tag import Okt
from collections import Counter

def bow_representation(text):
    # 형태소 분석기 초기화
    okt = Okt()
    # 텍스트를 형태소 단위로 분리
    tokens = okt.morphs(text)
    # 빈도수 계산
    vocab = Counter(tokens)
    # BoW 표현 생성
    bow = [vocab[token] for token in tokens]
    return vocab, bow

# 예제 문장
example_text = "안녕하세요. 쿠글 10기 장윤영입니다. 파이썬으로 텍스트를 토큰화해보세요. 좋은 하루 보내세요!"

# 단어집합과 BoW 표현 생성
vocab, bow = bow_representation(example_text)

# 결과 출력
print("단어집합 (vocabulary):")
for word, frequency in vocab.items():
    print(word + ":", frequency)

print("\nBag of Words (BoW) 벡터:")
print(bow)


단어집합 (vocabulary):
안녕하세요: 1
.: 3
쿠글: 1
10: 1
기: 1
장윤: 1
영: 1
입니다: 1
파이썬: 1
으로: 1
텍스트: 1
를: 1
토큰: 1
화: 1
해보세요: 1
좋은: 1
하루: 1
보내세요: 1
!: 1

Bag of Words (BoW) 벡터:
[1, 3, 1, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1]


# 2. 형태소 분석 실습

In [10]:
from konlpy.tag import Okt

def analyze_morphology(text):
    okt = Okt()
    # 형태소 분석과 품사 태깅
    morphs = okt.pos(text)
    return morphs

# (과제) 문장 넣기
example_text = " 쿠글 10기 화이팅 "
print(analyze_morphology(example_text))


[('쿠글', 'Noun'), ('10', 'Number'), ('기', 'Noun'), ('화이팅', 'Noun')]


# 3.N-gram 모델 생성

In [11]:
!pip install nltk



In [12]:
from nltk.util import ngrams
from collections import defaultdict, Counter

def generate_ngrams(text, N=2):
    tokens = text.split()
    n_grams = list(ngrams(tokens, N))
    n_gram_freq = Counter(n_grams)
    return n_gram_freq

# (과제) 문장 넣기
example_text = " 휴학 평생 하고싶다 "
print(generate_ngrams(example_text, 2))


Counter({('휴학', '평생'): 1, ('평생', '하고싶다'): 1})


# Word Embedding(GloVe)

In [13]:
!pip install glove-python3  #glove 라이브러리
from glove import Corpus, Glove
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize


Collecting glove-python3
  Downloading glove_python3-0.1.0.tar.gz (326 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m327.0/327.0 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: glove-python3
  Building wheel for glove-python3 (setup.py) ... [?25l[?25hdone
  Created wheel for glove-python3: filename=glove_python3-0.1.0-cp310-cp310-linux_x86_64.whl size=1065512 sha256=580b75050c1de2374f32f83efd5b78636ec0617490b46c707dabb7b0af0ce62e
  Stored in directory: /root/.cache/pip/wheels/fe/2f/79/34314d44a0907e90e323c8c182ec23f126eb460829e02d98cf
Successfully built glove-python3
Installing collected packages: glove-python3
Successfully installed glove-python3-0.1.0


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [14]:
# 샘플 텍스트 데이터
texts = [
    "GloVe is an unsupervised learning algorithm for obtaining vector representations for words.",
    "Training is performed on aggregated global word-word co-occurrence statistics from a corpus.",
    "The result is a set of word vectors that are interesting linear substructures of the word vector space.",
]

# 텍스트를 토큰화합니다.
tokenized_texts = [word_tokenize(text.lower()) for text in texts]

# Corpus 객체를 생성합니다.
corpus = Corpus()

# Corpus를 학습 데이터로 사용하여 GloVe 모델을 훈련합니다.
corpus.fit(tokenized_texts, window=5)

# GloVe 모델을 생성합니다.
glove = Glove(no_components=100, learning_rate=0.05)

# 사전 훈련된 Corpus를 사용하여 모델을 학습시킵니다.
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

Performing 30 training epochs with 4 threads
Epoch 0
Epoch 1
Epoch 2
Epoch 3
Epoch 4
Epoch 5
Epoch 6
Epoch 7
Epoch 8
Epoch 9
Epoch 10
Epoch 11
Epoch 12
Epoch 13
Epoch 14
Epoch 15
Epoch 16
Epoch 17
Epoch 18
Epoch 19
Epoch 20
Epoch 21
Epoch 22
Epoch 23
Epoch 24
Epoch 25
Epoch 26
Epoch 27
Epoch 28
Epoch 29


In [15]:
#GloVe로 워드 임베딩한 벡터
word = 'glove' #원하는 단어를 입력 ex) 'glove' -> '  '
vector = glove.word_vectors[glove.dictionary[word]]
print(f"Vector for '{word}': {vector}")

Vector for 'glove': [ 2.22104002e-04  3.54008080e-03 -2.01453329e-03  2.17267411e-04
  2.92882856e-03 -4.99714361e-03  3.72602451e-03  3.82430063e-03
 -1.00432090e-03 -5.06250252e-04 -7.57039033e-04 -1.62402279e-03
 -1.51141563e-03 -2.99730381e-03  3.34311349e-03  2.90179074e-03
  3.00253138e-03  1.98409894e-03 -4.79703355e-03 -3.91332117e-03
  3.40411723e-03  3.49101420e-03 -3.61705266e-03  5.62343664e-04
 -9.16892215e-04  2.18804573e-03  2.51406761e-03 -2.24673010e-03
  3.10729304e-04 -3.38292219e-03 -3.26697560e-04 -2.00729848e-04
  2.92006254e-03  2.21226732e-05 -2.16338328e-03  2.86046095e-03
  1.11050873e-03  3.93955459e-03  4.22170171e-03  2.98432492e-03
  2.97248522e-03  4.23843091e-03  4.69946237e-03  1.80367077e-03
  2.88205736e-03 -2.61418586e-03  2.18773155e-03  2.88573027e-03
 -2.11529134e-03 -3.53055162e-03  1.67830598e-03 -4.69759613e-03
 -2.10159231e-03  2.75902047e-03 -1.57074611e-03  3.27120125e-03
 -5.45050400e-04 -3.79789070e-03 -2.80234464e-03 -2.22567749e-03
  3.0

glove.most_similar()는 입력 단어의 가장 유사한 단어들의 리스트를 리턴합니다

In [16]:
print(glove.most_similar('glove'))

[('are', 0.18521116521379238), ('is', 0.15441259653416206), ('.', 0.13601614690410255), ('set', 0.13288811238574155)]


In [17]:
print(glove.most_similar('word'))

[('vector', 0.25847209275122257), ('global', 0.1411760276468419), ('from', 0.08414317762685553), ('the', 0.0671116837258068)]


# 4.트랜스포머를 사용한 감정 분석

In [18]:
!pip install transformers



In [19]:
from transformers import pipeline

def sentiment_analysis(text):
    # Hugging Face 파이프라인 사용
    classifier = pipeline('sentiment-analysis')
    results = classifier(text)
    return results

# (과제) 문장 넣기
example_review = " 응용통계학과 21학번 장윤영입니다. "
print(sentiment_analysis(example_review))


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.8245054483413696}]
