# [KUGGLE] NLP 자연어 처리 과제

########## ⭐️ (과제) 문장을 넣어주세요 ############

이 부분에 자연어 처리로 분석해보고 싶은 문장을 넣어 코드를 돌려주세요!

결과값과 함께 깃허브에 풀리퀘로 제출해주세요.

In [1]:
!pip install konlpy

Defaulting to user installation because normal site-packages is not writeable
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
     --------------------------------------- 19.4/19.4 MB 11.1 MB/s eta 0:00:00
Collecting JPype1>=0.7.0
  Downloading JPype1-1.5.0-cp310-cp310-win_amd64.whl (351 kB)
     ------------------------------------- 351.5/351.5 kB 11.0 MB/s eta 0:00:00
Collecting lxml>=4.1.0
  Downloading lxml-5.2.2-cp310-cp310-win_amd64.whl (3.8 MB)
     ---------------------------------------- 3.8/3.8 MB 12.8 MB/s eta 0:00:00
Installing collected packages: lxml, JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0 lxml-5.2.2



[notice] A new release of pip available: 22.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


# 1. 텍스트 토큰화 실습

In [3]:
from collections import Counter

def tokenize_text(text):
    # 텍스트를 공백 기준으로 토큰화
    tokens = text.split()
    # 각 토큰의 빈도수 계산
    token_counts = Counter(tokens)
    return token_counts

# 예제 문장
example_text = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"
print(tokenize_text(example_text))


Counter({'안녕하세요,': 1, '쿠글': 1, '10기': 1, '박정빈입니다.': 1, '자연어': 1, '처리': 1, '처음해봐용~': 1})


#단어집합(vocabulary) 생성

In [4]:
def create_vocabulary(text):
    # 문장을 공백을 기준으로 분리하여 단어 집합 생성
    words = text.split()
    # 중복 제거를 위해 집합으로 변환 후 다시 리스트로 변환
    vocabulary = list(set(words))
    # 단어집합을 알파벳순으로 정렬
    vocabulary.sort()
    return vocabulary

# 예제 문장
example_text = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"

# 단어집합 생성
vocabulary = create_vocabulary(example_text)

# 단어집합 출력
print("단어집합:", vocabulary)


단어집합: ['10기', '박정빈입니다.', '안녕하세요,', '자연어', '처리', '처음해봐용~', '쿠글']


#정수인코딩 & 원-핫인코딩

In [5]:
import numpy as np

def onehot_encoding(word, vocabulary):
    # 단어의 인덱스 찾기
    index = vocabulary.index(word)
    # 원핫 인코딩 수행
    onehot = np.zeros(len(vocabulary))
    onehot[index] = 1
    return onehot

# 단어집합과 예제 단어
vocabulary = ['10기', '박정빈입니다.', '안녕하세요,', '자연어', '처리', '처음해봐용~', '쿠글']
example_word = '쿠글'

# 원핫 인코딩 수행
onehot_vector = onehot_encoding(example_word, vocabulary)
print(f'"{example_word}"의 원핫 인코딩 벡터:', onehot_vector)

"쿠글"의 원핫 인코딩 벡터: [0. 0. 0. 0. 0. 0. 1.]


#Bag-of-Words

In [8]:
from konlpy.tag import Okt
from collections import Counter

def bow_representation(text):
    # 형태소 분석기 초기화
    okt = Okt()
    # 텍스트를 형태소 단위로 분리
    tokens = okt.morphs(text)
    # 빈도수 계산
    vocab = Counter(tokens)
    # BoW 표현 생성
    bow = [vocab[token] for token in tokens]
    return vocab, bow

# 예제 문장
example_text = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"

# 단어집합과 BoW 표현 생성
vocab, bow = bow_representation(example_text)

# 결과 출력
print("단어집합 (vocabulary):")
for word, frequency in vocab.items():
    print(word + ":", frequency)

print("\nBag of Words (BoW) 벡터:")
print(bow)


JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

# 2. 형태소 분석 실습

In [10]:
from konlpy.tag import Okt

def analyze_morphology(text):
    okt = Okt()
    # 형태소 분석과 품사 태깅
    morphs = okt.pos(text)
    return morphs

# (과제) 문장 넣기
example_text = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"
print(analyze_morphology(example_text))


JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

# 3.N-gram 모델 생성

In [11]:
!pip install nltk

Defaulting to user installation because normal site-packages is not writeable
Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
     ---------------------------------------- 1.5/1.5 MB 7.4 MB/s eta 0:00:00
Collecting click
  Downloading click-8.1.7-py3-none-any.whl (97 kB)
     ---------------------------------------- 97.9/97.9 kB ? eta 0:00:00
Collecting tqdm
  Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
     ---------------------------------------- 78.3/78.3 kB ? eta 0:00:00
Collecting regex>=2021.8.3
  Downloading regex-2024.5.10-cp310-cp310-win_amd64.whl (268 kB)
     -------------------------------------- 269.0/269.0 kB 8.1 MB/s eta 0:00:00
Installing collected packages: tqdm, regex, click, nltk
Successfully installed click-8.1.7 nltk-3.8.1 regex-2024.5.10 tqdm-4.66.4



[notice] A new release of pip available: 22.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:
from nltk.util import ngrams
from collections import defaultdict, Counter

def generate_ngrams(text, N=2):
    tokens = text.split()
    n_grams = list(ngrams(tokens, N))
    n_gram_freq = Counter(n_grams)
    return n_gram_freq

# (과제) 문장 넣기
example_text = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"
print(generate_ngrams(example_text, 2))


Counter({('안녕하세요,', '쿠글'): 1, ('쿠글', '10기'): 1, ('10기', '박정빈입니다.'): 1, ('박정빈입니다.', '자연어'): 1, ('자연어', '처리'): 1, ('처리', '처음해봐용~'): 1})


# Word Embedding(GloVe)

In [13]:
!pip install glove-python3  #glove 라이브러리
from glove import Corpus, Glove
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize


Defaulting to user installation because normal site-packages is not writeable


ERROR: Invalid requirement: '#glove'

[notice] A new release of pip available: 22.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


ModuleNotFoundError: No module named 'glove'

In [14]:
# 샘플 텍스트 데이터
texts = [
    "GloVe is an unsupervised learning algorithm for obtaining vector representations for words.",
    "Training is performed on aggregated global word-word co-occurrence statistics from a corpus.",
    "The result is a set of word vectors that are interesting linear substructures of the word vector space.",
]

# 텍스트를 토큰화합니다.
tokenized_texts = [word_tokenize(text.lower()) for text in texts]

# Corpus 객체를 생성합니다.
corpus = Corpus()

# Corpus를 학습 데이터로 사용하여 GloVe 모델을 훈련합니다.
corpus.fit(tokenized_texts, window=5)

# GloVe 모델을 생성합니다.
glove = Glove(no_components=100, learning_rate=0.05)

# 사전 훈련된 Corpus를 사용하여 모델을 학습시킵니다.
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

NameError: name 'word_tokenize' is not defined

In [15]:
#GloVe로 워드 임베딩한 벡터
word = 'glove' #원하는 단어를 입력 ex) 'glove' -> '  '
vector = glove.word_vectors[glove.dictionary[word]]
print(f"Vector for '{word}': {vector}")

NameError: name 'glove' is not defined

glove.most_similar()는 입력 단어의 가장 유사한 단어들의 리스트를 리턴합니다

In [12]:
print(glove.most_similar('glove'))

[('aggregated', 0.1600752493209992), ('representations', 0.13338065666888174), ('performed', 0.12683858944943036), ('words', 0.09554533595967661)]


In [13]:
print(glove.most_similar('word'))

[('obtaining', 0.22424213839258034), ('words', 0.13534331728505425), ('set', 0.11336434884949313), ('from', 0.09543659772832654)]


# 4.트랜스포머를 사용한 감정 분석

In [17]:
!pip install transformers



In [16]:
from transformers import pipeline

def sentiment_analysis(text):
    # Hugging Face 파이프라인 사용
    classifier = pipeline('sentiment-analysis')
    results = classifier(text)
    return results

# (과제) 문장 넣기
example_review = "안녕하세요, 쿠글 10기 박정빈입니다. 자연어 처리 처음해봐용~"
print(sentiment_analysis(example_review))


ModuleNotFoundError: No module named 'transformers'