<a href="https://colab.research.google.com/github/Joyschool/ktcloud_genai/blob/main/103_LLM_%EC%96%B8%EC%96%B4AI%EC%9D%98_%EB%AC%B8%EC%A0%9C%ED%95%B4%EA%B2%B0_%EC%97%AD%EC%82%AC%ED%9D%90%EB%A6%84_%EC%99%84%EC%84%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **QuickTour : 2010년대 이후 언어 AI흐름**



---



- 💡**코드 내용**
    - 언어 AI의 2010년 이후의 대략적인 흐름

---

# **QuickTour**

## **예제 1: 딥러닝 이전의 방식 - 단어 빈도로 감성 분석하기 (TF-IDF)**

- 2010년대 이전, 단어의 출현 빈도를 중요한 특징(Feature)으로 사용했던 고전적인 방식
- scikit-learn 라이브러리를 사용
- **TfidfVectorizer**를 사용해 사람이 직접 **'단어의 빈도수'라는 특징을 추출** -->  '특징 공학'의 예시
- 딥러닝 모델처럼 단어의 의미나 문맥을 스스로 학습하는 것이 아니라 **통계에 기반**한다

In [1]:
# 필요한 라이브러리 설치
# pip install scikit-learn

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

print("----------- 예제 1: 딥러닝 이전의 고전적인 감성 분석 -----------")

# 훈련 데이터: 영화 리뷰와 긍정(1)/부정(0) 레이블
train_text = [
    "이 영화 정말 재미있어요. 배우들 연기도 최고!",
    "시간 가는 줄 모르고 봤네요. 강력 추천합니다.",
    "기대했는데 너무 실망했어요. 스토리가 지루해요.",
    "돈이 아까운 영화. 다시는 안 볼래요."
]
train_labels = [1, 1, 0, 0] # 1: 긍정, 0: 부정

# 1. 특징 공학(Feature Engineering): TF-IDF로 문장을 숫자 벡터로 변환
# TF-IDF: 단어의 중요도를 계산하는 통계적 방법
tfidf_vectorizer = TfidfVectorizer()
X_train = tfidf_vectorizer.fit_transform(train_text)

# 단어 사전과 변환된 벡터 확인
print("단어 사전:", tfidf_vectorizer.get_feature_names_out())
print("TF-IDF 벡터 (첫 번째 문장):", X_train[0].toarray())


# 2. 모델 학습: 로지스틱 회귀 모델로 학습
model = LogisticRegression()
model.fit(X_train, train_labels)

# 3. 새로운 데이터로 예측
test_text = ["배우들 연기가 아쉬웠지만 스토리는 흥미로웠어요."]
X_test = tfidf_vectorizer.transform(test_text)
prediction = model.predict(X_test)

print(f"\n테스트 문장: '{test_text[0]}'")
print("예측 결과:", "긍정 😀" if prediction[0] == 1 else "부정 😞")

----------- 예제 1: 딥러닝 이전의 고전적인 감성 분석 -----------
단어 사전: ['가는' '강력' '기대했는데' '너무' '다시는' '돈이' '모르고' '배우들' '볼래요' '봤네요' '스토리가' '시간'
 '실망했어요' '아까운' '연기도' '영화' '재미있어요' '정말' '지루해요' '최고' '추천합니다']
TF-IDF 벡터 (첫 번째 문장): [[0.         0.         0.         0.         0.         0.
  0.         0.42176478 0.         0.         0.         0.
  0.         0.         0.42176478 0.3325242  0.42176478 0.42176478
  0.         0.42176478 0.        ]]

테스트 문장: '배우들 연기가 아쉬웠지만 스토리는 흥미로웠어요.'
예측 결과: 긍정 😀


## **예제 2: 단어의 의미를 벡터로! - 분산 표현 (Word2Vec)**

- **gensim** : 문서 유사도 분석 등 여러 NLP 알고리즘을 구현한 라이브러리

In [5]:
# 필요한 라이브러리 설치
!pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.6/26.6 MB[0m [31m62.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.0 MB)
[2K   [90m━━━━━━━━━━━

In [7]:
from gensim.models import Word2Vec

print("\n\n----------- 예제 2: Word2Vec으로 단어의 분산 표현 학습하기 -----------")

# Word2Vec 학습을 위한 샘플 문장 (토크나이징 된 형태)
sentences = [
    ['왕', '남자', '강하다'],
    ['여왕', '여자', '아름답다'],
    ['남자', '힘', '일'],
    ['여자', '지혜', '사랑'],
    ['왕', '권력', '지배'],
    ['여왕', '권력', '우아함']
]

# 1. Word2Vec 모델 학습 (분산 표현 학습)
# vector_size: 단어를 표현할 벡터의 차원
# window: 주변 단어를 몇 개까지 볼 것인지
# min_count: 최소 등장 횟수
# sg=1: Skip-Gram 방식 사용 (주변 단어 예측)
model = Word2Vec(sentences, vector_size=100, window=2, min_count=1, sg=1)
print("\n✅ Word2Vec 모델 학습 완료!")


# 2. 학습된 단어 벡터 확인
king_vector = model.wv['왕']
print(f"\n✅ '왕'의 벡터 (일부): {king_vector[:5]}...")


# 3. 단어 간의 유사도 계산
# '왕'과 가장 유사한 단어는 무엇일까요?
similar_words = model.wv.most_similar('왕')
print("\n✅ '왕'과 가장 유사한 단어:", similar_words)


# 4. 재미있는 단어 산술 연산!
# '왕' - '남자' + '여자' = ?
try:
    result = model.wv.most_similar(positive=['여왕', '남자'], negative=['여자'])
    print("\n✅ '여왕' + '남자' - '여자' ≈", result)

    result = model.wv.most_similar(positive=['왕', '여자'], negative=['남자'])
    print("\n✅ '왕' - '남자' + '여자' ≈", result)
except KeyError as e:
    print(f"\n✅ 아쉽게도 '{e.args[0]}' 단어가 사전에 없어 계산할 수 없어요. 더 많은 데이터로 학습하면 가능해집니다!")




----------- 예제 2: Word2Vec으로 단어의 분산 표현 학습하기 -----------

✅ Word2Vec 모델 학습 완료!

✅ '왕'의 벡터 (일부): [-0.00824268  0.00929935 -0.00019766 -0.00196728  0.00460363]...

✅ '왕'과 가장 유사한 단어: [('지혜', 0.13149002194404602), ('우아함', 0.07497557997703552), ('여왕', 0.06797593086957932), ('사랑', 0.04157734289765358), ('일', 0.04130810499191284), ('힘', 0.012979976832866669), ('강하다', -0.0092534264549613), ('남자', -0.013514931313693523), ('지배', -0.013679763302206993), ('여자', -0.044617101550102234)]

✅ '여왕' + '남자' - '여자' ≈ [('우아함', 0.18702873587608337), ('일', 0.11586277931928635), ('왕', 0.06140701100230217), ('아름답다', 0.02766558900475502), ('힘', 0.014009358361363411), ('사랑', -0.001810746151022613), ('권력', -0.021962366998195648), ('지혜', -0.0405331514775753), ('지배', -0.05566801130771637), ('강하다', -0.06649230420589447)]

✅ '왕' - '남자' + '여자' ≈ [('지혜', 0.12799303233623505), ('여왕', 0.059659723192453384), ('강하다', 0.05856429785490036), ('지배', -0.024457387626171112), ('사랑', -0.043190695345401764), ('권력', -0.0540279671549

In [17]:
# 필요한 라이브러리 설치
# pip install gensim

from gensim.models import Word2Vec

print("----------- '여왕'이 반드시 정답으로 나오도록 강제 학습시킨 모델 -----------")

# 1. 데이터 재구성: 관계 강제 학습을 위한 초고반복/단순화 데이터
# '남자'와 '여자'의 벡터 차이가 '성별'임을 명확히 암기시키기 위해
# 동일한 구조의 문장을 여러 단어 쌍에 걸쳐 극단적으로 반복합니다.

force_learning_sentences = [
    # --- 핵심 평행 구조 (왕/여왕) 반복 ---
    ['왕', '남자', '군주'],
    ['여왕', '여자', '군주'],
    ['왕', '남자', '왕족'],
    ['여왕', '여자', '왕족'],
    ['왕', '남자', '리더'],
    ['여왕', '여자', '리더'],

    # --- 다른 단어 쌍으로 동일한 구조 반복 (성별 관계 일반화) ---
    ['왕자', '남자', '후계자'],
    ['공주', '여자', '후계자'],
    ['아버지', '남자', '부모'],
    ['어머니', '여자', '부모'],
    ['아들', '남자', '자식'],
    ['딸', '여자', '자식'],
    ['남편', '남자', '배우자'],
    ['아내', '여자', '배우자'],
    ['삼촌', '남자', '친척'],
    ['이모', '여자', '친척'],
    ['남배우', '남자', '배우'],
    ['여배우', '여자', '배우'],

    # --- 추가적인 문맥을 최소화하여 혼란 방지 ---
    ['남자', '강인함'],
    ['여자', '섬세함'],
    ['왕', '권위'],
    ['여왕', '품위']
]


# 2. 모델 학습 (epochs를 늘려 작은 데이터를 반복 학습)
model = Word2Vec(
    sentences=force_learning_sentences,
    vector_size=50,     # 작은 데이터셋이므로 벡터 차원을 줄여 집중 학습
    window=2,           # 주변 단어 범위
    min_count=1,        # 최소 단어 빈도
    sg=1,               # Skip-Gram 모델 사용
    epochs=1000,         # !! 작은 데이터를 500번 반복 학습하여 관계를 각인시킴
    seed=42             # 결과 재현을 위한 시드 값 고정
)
print("Word2Vec 모델 학습 완료!")


# 3. 결과 확인: '왕 - 남자 + 여자' 연산
try:
    # positive: 더할 벡터들, negative: 뺄 벡터
    result = model.wv.most_similar(positive=['왕', '여자'], negative=['남자'], topn=3)
    print(f"\n'왕' - '남자' + '여자' ≈ {result}")

except KeyError as e:
    print(f"\n계산에 필요한 단어 '{e.args[0]}'가 학습되지 않았습니다.")



----------- '여왕'이 반드시 정답으로 나오도록 강제 학습시킨 모델 -----------
관계 강제 학습 데이터로 Word2Vec 모델 학습 완료!

'왕' - '남자' + '여자' ≈ [('여왕', 0.9627423286437988), ('친척', 0.9590145945549011), ('부모', 0.9570060968399048)]


🎉 **드디어 성공! '여왕'이 첫 번째 결과로 정확하게 나왔습니다!** 🎉


## **예제 3: End-to-End 모델 수행하기**

- 원본 텍스트를 입력하면 바로 결과가 나오는 End-to-End 모델
- Hugging Face의 transformers 라이브러리를 사용

In [18]:
# 필요한 라이브러리 설치
# pip install transformers
# pip install torch # 또는 tensorflow

from transformers import pipeline

print("\n\n----------- 예제 3: End-to-End 모델로 즉시 감성 분석하기 -----------")

# 1. 미리 학습된 End-to-End 모델 로드
# Hugging Face 라이브러리는 수많은 최신 AI 모델을 몇 줄의 코드로 불러올 수 있게 해줍니다.
# 모델이 알아서 토크나이징, 임베딩, 추론까지 모든 과정을 처리합니다.
sentiment_analyzer = pipeline(
    'sentiment-analysis',
    model='matthewburke/korean_sentiment' # 한국어 감성 분석에 특화된 모델
)

# 2. 문장을 입력하고 바로 결과 확인
text1 = "이 강의는 정말 유익하고 미래에 큰 도움이 될 것 같아요!"
text2 = "내용이 너무 어려워서 하나도 이해가 안돼요..."

results = sentiment_analyzer([text1, text2])

# 3. 결과 출력
for text, result in zip([text1, text2], results):
    label = "긍정 😀" if result['label'] == 'positive' else "부정 😞"
    score = result['score'] * 100
    print(f"\n문장: '{text}'")
    print(f"결과: {label} ({score:.2f}% 확률)")



----------- 예제 3: End-to-End 모델로 즉시 감성 분석하기 -----------


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/887 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/498M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/552 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/498M [00:00<?, ?B/s]

Device set to use cuda:0



문장: '이 강의는 정말 유익하고 미래에 큰 도움이 될 것 같아요!'
결과: 부정 😞 (97.27% 확률)

문장: '내용이 너무 어려워서 하나도 이해가 안돼요...'
결과: 부정 😞 (95.91% 확률)




---





---

