# [KUGGLE] NLP 자연어 처리 과제

########## ⭐️ (과제) 문장을 넣어주세요 ############

이 부분에 자연어 처리로 분석해보고 싶은 문장을 넣어 코드를 돌려주세요!

결과값과 함께 깃허브에 풀리퀘로 제출해주세요.

In [3]:
!pip install konlpy
!pip install nltk
!pip install glove-python3

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m13.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0
Collecting glove-python3
  Downloading glove_python3-0.1.0.tar.gz (326 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m327.0/327.0 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: glove-python3
  Building wheel for glove-python3 (setup.py) ... [?25l[?25hdone
  Created wheel for glove-python3: filename=glove_python3-0.1.0-cp31

# 1. 텍스트 토큰화 실습

In [5]:
from collections import Counter

def tokenize_text(text):
    # 텍스트를 공백 기준으로 토큰화
    tokens = text.split()
    # 각 토큰의 빈도수 계산
    token_counts = Counter(tokens)
    return token_counts



example_text = "안녕하세요. 쿠글 10기 최종렬입니다. 파이썬으로 텍스트를 토큰화했습니다"
print(tokenize_text(example_text))


Counter({'안녕하세요.': 1, '쿠글': 1, '10기': 1, '최종렬입니다.': 1, '파이썬으로': 1, '텍스트를': 1, '토큰화했습니다': 1})


#단어집합(vocabulary) 생성

In [6]:
def create_vocabulary(text):
    # 문장을 공백을 기준으로 분리하여 단어 집합 생성
    words = text.split()
    # 중복 제거를 위해 집합으로 변환 후 다시 리스트로 변환
    vocabulary = list(set(words))
    # 단어집합을 알파벳순으로 정렬
    vocabulary.sort()
    return vocabulary


example_text = "쿠글 9기 최종렬입니다. 파이썬으로 텍스트를 토큰화하였습니다."
# 단어집합 생성
vocabulary = create_vocabulary(example_text)

# 단어집합 출력
print("단어집합:", vocabulary)


단어집합: ['9기', '최종렬입니다.', '쿠글', '텍스트를', '토큰화하였습니다.', '파이썬으로']


#정수인코딩 & 원-핫인코딩

In [None]:
import numpy as np

def onehot_encoding(word, vocabulary):
    # 단어의 인덱스 찾기
    index = vocabulary.index(word)
    # 원핫 인코딩 수행
    onehot = np.zeros(len(vocabulary))
    onehot[index] = 1
    return onehot

# 단어집합과 예제 단어
vocabulary = ['안녕','하세요','최종렬','입니다','좋은 하루','보내세요']
example_word = '최종렬'

# 원핫 인코딩 수행
onehot_vector = onehot_encoding(example_word, vocabulary)
print(f'"{example_word}"의 원핫 인코딩 벡터:', onehot_vector)

"최종렬"의 원핫 인코딩 벡터: [0. 0. 1. 0. 0. 0.]


#Bag-of-Words

In [7]:
from konlpy.tag import Okt
from collections import Counter

def bow_representation(text):
    # 형태소 분석기 초기화
    okt = Okt()
    # 텍스트를 형태소 단위로 분리
    tokens = okt.morphs(text)
    # 빈도수 계산
    vocab = Counter(tokens)
    # BoW 표현 생성
    bow = [vocab[token] for token in tokens]
    return vocab, bow

# 예제 문장
example_text = "안녕하세요. 쿠글 9기 최종렬입니다."

# 단어집합과 BoW 표현 생성
vocab, bow = bow_representation(example_text)

# 결과 출력
print("단어집합 (vocabulary):")
for word, frequency in vocab.items():
    print(word + ":", frequency)

print("\nBag of Words (BoW) 벡터:")
print(bow)


단어집합 (vocabulary):
안녕하세요: 1
.: 2
쿠글: 1
9: 1
기: 1
최: 1
종렬: 1
입니다: 1

Bag of Words (BoW) 벡터:
[1, 2, 1, 1, 1, 1, 1, 1, 2]


# 2. 형태소 분석 실습

In [9]:
from konlpy.tag import Okt

def analyze_morphology(text):
    okt = Okt()
    # 형태소 분석과 품사 태깅
    morphs = okt.pos(text)
    return morphs

# (과제) 문장 넣기
example_text = " 안녕하세요 202011905 응용통계학과 최종렬 입니다!! "
print(analyze_morphology(example_text))


[('안녕하세요', 'Adjective'), ('202011905', 'Number'), ('응용', 'Noun'), ('통계학', 'Noun'), ('과', 'Josa'), ('최', 'Noun'), ('종렬', 'Noun'), ('입니다', 'Adjective'), ('!!', 'Punctuation')]


# 3.N-gram 모델 생성

In [None]:
!pip install nltk



In [14]:


from nltk.util import ngrams
from collections import defaultdict, Counter


def generate_ngrams(text, N=2):
    tokens = text.split()
    n_grams = list(ngrams(tokens, N))
    n_gram_freq = Counter(n_grams)
    return n_gram_freq

# (과제) 문장 넣기
example_text = " 품목보고번호는 19830358021-395(F1)입니다!!,123 "
example_text = " 저는 20학번 최종렬 입니다... "
print(generate_ngrams(example_text, 2))


Counter({('저는', '20학번'): 1, ('20학번', '최종렬'): 1, ('최종렬', '입니다...'): 1})


# Word Embedding(GloVe)

In [15]:
!pip install glove-python3
from glove import Corpus, Glove
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize




[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [16]:
# 샘플 텍스트 데이터
texts = [
    "GloVe is an unsupervised learning algorithm for obtaining vector representations for words.",
    "Training is performed on aggregated global word-word co-occurrence statistics from a corpus.",
    "The result is a set of word vectors that are interesting linear substructures of the word vector space.",
]

# 텍스트를 토큰화합니다.
tokenized_texts = [word_tokenize(text.lower()) for text in texts]

# Corpus 객체를 생성합니다.
corpus = Corpus()

# Corpus를 학습 데이터로 사용하여 GloVe 모델을 훈련합니다.
corpus.fit(tokenized_texts, window=5)

# GloVe 모델을 생성합니다.
glove = Glove(no_components=100, learning_rate=0.05)

# 사전 훈련된 Corpus를 사용하여 모델을 학습시킵니다.
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

Performing 30 training epochs with 4 threads
Epoch 0
Epoch 1
Epoch 2
Epoch 3
Epoch 4
Epoch 5
Epoch 6
Epoch 7
Epoch 8
Epoch 9
Epoch 10
Epoch 11
Epoch 12
Epoch 13
Epoch 14
Epoch 15
Epoch 16
Epoch 17
Epoch 18
Epoch 19
Epoch 20
Epoch 21
Epoch 22
Epoch 23
Epoch 24
Epoch 25
Epoch 26
Epoch 27
Epoch 28
Epoch 29


In [18]:
#GloVe로 워드 임베딩한 벡터
word = 'statistics' #원하는 단어를 입력 ex) 'glove' -> '  '
vector = glove.word_vectors[glove.dictionary[word]]
print(f"Vector for '{word}': {vector}")

Vector for 'statistics': [ 4.29192062e-03 -2.69141643e-03  2.03865945e-03  2.39072023e-03
 -2.04031051e-03 -1.98476020e-03 -1.27311417e-03 -8.93260182e-04
 -8.35213000e-05  3.82172088e-03  2.92981871e-03 -3.21929335e-03
 -3.88335333e-03 -4.94322681e-03 -2.73109879e-03  4.76178387e-03
  4.56808041e-03 -1.94333128e-03  2.55880755e-03  5.02353401e-04
 -9.33545325e-04  2.81645845e-03  2.60706630e-03  3.89001717e-03
  1.97241984e-03 -6.28630521e-05 -3.97875494e-03 -4.56094357e-03
  1.69812161e-03 -8.63531528e-04  2.82803302e-03 -3.96691240e-03
  7.69970042e-04  2.17811035e-03  1.62538458e-03 -4.40009493e-03
  4.69186010e-03 -5.87042146e-04 -4.06083484e-03  1.52808161e-04
  2.05654690e-03  1.88088082e-03 -2.25294626e-03 -1.98846977e-03
  3.16548552e-03 -1.75443129e-03  1.72991665e-03  3.47312191e-03
  2.42812033e-03  3.13825761e-04 -3.23931941e-03 -3.24836648e-03
  1.80347315e-03  9.90782264e-04  4.22942900e-03 -4.84745190e-03
  3.50922942e-03 -3.43923308e-03  1.68762963e-03 -2.10550483e-03


glove.most_similar()는 입력 단어의 가장 유사한 단어들의 리스트를 리턴합니다

In [19]:
print(glove.most_similar('statistics'))

[('is', 0.20404518151244622), ('word', 0.19447198266461269), ('an', 0.1841788470410009), ('interesting', 0.17384659632348334)]


In [22]:
print(glove.most_similar('glove'))

[('corpus', 0.19392091296104516), ('interesting', 0.1644688103374306), ('is', 0.14004105384128102), ('vector', 0.12522910145016314)]


# 4.트랜스포머를 사용한 감정 분석

In [23]:
!pip install transformers



In [27]:
from transformers import pipeline

def sentiment_analysis(text):
    # Hugging Face 파이프라인 사용
    classifier = pipeline('sentiment-analysis')
    results = classifier(text)
    return results

# (과제) 문장 넣기
example_review = " 응통 20학번 최종렬 입니다 트랜스포머를 사용한 감정 분석을 실습해보겠습니다 "
example_review = " 응통 20학번 최종렬 입니다 트랜스포머를 사용한 감정 분석을 실습해보겠습니다!! "
print(sentiment_analysis(example_review))


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9643539190292358}]


In [28]:
pip install --upgrade pip

Collecting pip
  Downloading pip-24.0-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m19.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
Successfully installed pip-24.0


In [None]:

!pip install tensorflow[and-cuda]

!pip install tensorflow





