## 개요 ##


- 자연어 데이터 수집 및 전처리.
- 자연어 처리를 통한 시 분류 인공지능 모델을 제작한다.
- 백석과 김수영의 시를 **‘자연어 처리’**하고 **나이브 베이지안 알고리즘**


## 알고리즘 설명 ##


- 지도 학습 분류(Classification)와 관련한 논문, 서적, 인터넷 자료를 보면 다양한 알고리즘이 나오는데, 그중에도 언급이 잘 되지 않는 분류 알고리즘이 바로 나이브 베이지안(Naive Bayes)이다.
- 나이브 베이지안 알고리즘이 많이 사용되는 분야가 바로 ‘자연어 처리’이다. -\
- 컴퓨터에서 사용하는 프로그래밍 언어와 구분하기 위해 인간이 일상생활에서 의사소통을 위해 사용하는 언어를 ‘자연어’라고 하고 컴퓨터를 활용하여 자연어를 분석하고 활용하는 것을 ‘자연어 처리(Natural Language Processing)’, 줄여서 ‘NLP’라고 한다.


## 나이브 베이지안 ##


- 나이브 베이지안 알고리즘은 베이즈 정리(Bayes’ theorem)에 기반한 분류 알고리즘으로, 베이즈 정리를 알기 위해서는 조건부 확률을 알아야 한다.
- 조건부 확률은 어떤 사건이 일어나는 경우에 다른 사건이 일어날 확률을 말한다.
- 즉, P(B|A)는 A와 B가 동시에 일어날 확률을 A가 일어날 확률로 나눈 것이고, 이러한 베이즈 정리를 곱셈 공식으로 변형한 것이 나이브 베이지안 알고리즘의 식이다.


## 나이브 베이지안 예시 ##


- 나이브 베이지안 알고리즘을 쉽게 이해하기 위해 토익 문제들을 학습하여 정답 분류 인공지능을 만든다고 가정한다.
- 먼저 다음 보기에 ‘probably’가 있는 10개의 문제만으로 머신러닝을 학습시킬 것이다.


 - 10개의 문제 중 'probably'가 정답일 확률: 7/10=0.7 - P(정답)
 - 10개의 문제 중 옳은 것을 물어볼 확률: 8/10=0.8 - P(옳은)
 - 10개의 문제 중 옳은 것을 물어보고, 'probably'가 정답일 확률: 7/8=0.875 - P(옳은|정답)


- 이제 ‘probably’가 보기에 있고 옳은 것을 물어보는 문제 중 ‘probably’가 정답일 조건부 확률.


- 위 예제를 대입하면 P(정답|옳은)=P(옳은|정답)×P(정답)/P(옳은)이고 0.875×
0.7/0.8=약 0.766이다.
- 위 가정을 토대로 하면 옳은 것을 물어보는 토익 문제에서 ‘probably’가 보기에 있으면 76.6%의 확률로 정답.


- 토익 한 문제에 나온 단어는 많지만 각각 단어의 빈도수는 적다.


- 위 예시의 ‘probably’처럼 열 번의 빈도수만으로도 확률을 구할 수 있다.
- 이것은 적은 데이터로도 머신러닝 학습이 가능하다는 뜻이다.
- 적은 데이터로도 ‘단순화’ 시켜서 쉽고 빠르게 판단을 내리는 특징이 있어 나이브 베이지안 알고리즘은 자연어 처리에 적합하다.


In [66]:
# 셀레니움 실행시 크롬 브라우저 블러킹을 우회할수 있도록 세팅 
from selenium import webdriver 



In [67]:
# import sys

# !sudo add-apt-repository ppa:saiarcot895/chromium-beta
# !sudo apt remove chromium-browser
# !sudo snap remove chromium
# !sudo apt install chromium-browser


# !pip3 install selenium
# !apt-get update
# !apt install chromium-chromedriver
# !cp /usr/lib/chromium-browser/chromedriver /usr/bin/

#  구글식 형태 


In [68]:
# 필요 라이브러리 로드


import pandas as pd  # 데이터 처리를 위한 라이브러리, 데이터프레임 생성 및 조작
import tensorflow as tf  # 딥러닝 모델 구축 및 학습을 위한 라이브러리
import numpy as np  # 수치 연산을 위한 라이브러리, 배열 및 행렬 연산
import matplotlib  # 데이터 시각화를 위한 라이브러리 (기본 설정)
import matplotlib.pyplot as plt  # 데이터 시각화를 위한 플롯팅 라이브러리
import konlpy  # 한국어 자연어 처리를 위한 라이브러리
from konlpy.tag import Okt  # 형태소 분석기, 한국어 텍스트 전처리에 사용
import tqdm  # 코드 진행 상황을 시각적으로 표시
from tqdm import tqdm  # 진행 상황 표시를 위한 프로그레스 바 제공
from tensorflow.keras.preprocessing.text import (
    Tokenizer,
)  # 텍스트 데이터 토크나이징을 위한 유틸리티
import time  # 시간 관련 작업 (수행 시간 측정 등)
from tqdm import tnrange  # 반복문에서 진행 상황 표시 (tqdm 변형)
from urllib.request import urlopen  # 웹 데이터 요청 및 다운로드
import requests  # HTTP 요청을 보내고 웹 데이터를 가져오는 라이브러리
import urllib.request  # URL을 열거나 파일 다운로드를 위한 유틸리티


In [69]:
# 데이터 로드
# 백석의 시와 김수영의 시를 모아둔 데이터를 불러온다


soo = pd.read_csv(
    "poet_soo.csv", delimiter=",", encoding="cp949"
)  # 김수영 시 데이터프레임 로드 : 한글 데이터 인코딩 cp949
baek = pd.read_csv(
    "poet_baek.csv", delimiter=",", encoding="cp949"
)  # 백석 시 데이터프레임 로드

print(soo.head())
print(baek.head())


                                             content
0  남묘(南廟) 문고리 굳은 쇠 문고리\n\n기어코 바람이 열고\n\n열사흘 달빛은\n...
1  백화(白花)의 의장(意匠)\n\n만화(萬華)의 거동의\n\n지금 고오히 잠드는 얼을...
2  꽃이 열매의 상부에 피었을 때\n\n너는 줄넘기 작란(作亂)을 한다\n\n \n\n...
3  가까이 할 수 없는 서적이 있다\n\n이것은 먼 바다를 건너온\n\n용이하게 찾아갈...
4  흘러가는 물결처럼\n\n지나인(支那人)의 의복\n\n나는 또 하나의 해협을 찾았던 ...
                                             content
0  가난한 내가\n아름다운 나타샤를 사랑해서\n오늘밤은 푹푹 눈이 나린다\n\n나타샤를...
1  당콩밥에 가지 냉국의 저녁을 먹고 나서\n바가지꽃 하이얀 지붕에 박각시 주락시 붕붕...
2  여승은 합장하고 절을 했다\n가지취의 내음새가 났다\n쓸쓸한 낯이 녯날같이 늙었다\...
3  가무락조개 난 뒷간거리에\n빚을 얻으려 나는 왔다\n빚이 안 되어 가는 탓에\n가무...
4  눈이 많이 와서\n산엣새가 벌로 나려 멕이고\n눈구덩이에 토끼가 더러 빠지기도 하면...


In [70]:
soo_new = soo["content"]  # 김수영의 시 내용만 호출
soo_new.reset_index(drop=True, inplace=True)  # 행 번호(인덱스) 초기화하고, 빈 칸 없애기
soo_new = soo_new.str.replace(
    "[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", " "
)  # 정규식으로 표현(한글만 남기고 필요없는 기호들 삭제)


baek_new = baek["content"]  # 백석의 시 내용만 가져오기
baek_new.reset_index(
    drop=True, inplace=True
)  # 행 번호(인덱스) 초기화하고, 빈 칸 없애기
baek_new = baek_new.str.replace(
    "[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", " "
)  # 정규식으로 표현(한글만 남기고 필요없는 기호들 삭제)


In [71]:
# 문자열 길이 계산 
for i in range(15): # 15개 확인
    print(i, ":길이:", len(soo_new[i]))

0 :길이: 229
1 :길이: 180
2 :길이: 222
3 :길이: 426
4 :길이: 261
5 :길이: 367
6 :길이: 383
7 :길이: 418
8 :길이: 458
9 :길이: 311
10 :길이: 804
11 :길이: 2735
12 :길이: 409
13 :길이: 951
14 :길이: 492


In [72]:
# 11번 시는 글자 수가 2409자나 된다.
# 글자 수가 많은 시를 웹 크롤링할 경우 오류가 발생하기 때문에, 안정적으로 400자 정도마다 시를 나눠 줘야 오류 없이 웹 크롤링이 가능하다.
# 250 글자로 쪼개줌 

import math


# Divide long poems and save to a new list
soo_divided = []
for poem in soo_new:
    if len(poem) > 250:
        num_segments = math.ceil(len(poem) / 250)
        for i in range(num_segments):
            segment = poem[i * 250 : (i + 1) * 250]
            soo_divided.append(segment)
    else:
        soo_divided.append(poem)


# Divide long poems and save to a new list
baek_divided = []
for poem in baek_new:
    if len(poem) > 250:
        num_segments = math.ceil(len(poem) / 250)
        for i in range(num_segments):
            segment = poem[i * 250 : (i + 1) * 250]
            baek_divided.append(segment)
    else:
        baek_divided.append(poem)


In [73]:
for i in range(15):  # 15개 확인
    print(i, ":길이:", len(soo_divided[i]))


0 :길이: 229
1 :길이: 180
2 :길이: 222
3 :길이: 250
4 :길이: 176
5 :길이: 250
6 :길이: 11
7 :길이: 250
8 :길이: 117
9 :길이: 250
10 :길이: 133
11 :길이: 250
12 :길이: 168
13 :길이: 250
14 :길이: 208


In [84]:
# - 시인은 개성이 드러나는 각자의 문체가 있다.


# - 백석의 시나 김수영의 시 속에 들어 있는 각자의 문체와 방언들을 표준어로 바꿔 그 결과를 원래 있던 시 데이터와 합친다.
# - 시를 표준어로 바꾸는 방법은 번역기(여기서는 네이버 ‘파파고’를 사용)를 활용해 영어로 번역한 후 다시 한글로 번역하는 것이다.
# - 이를 위해서는 코랩과 웹을 연결해야 한다.

##Selenium 관련 환경 설정
import time
import selenium
from selenium import webdriver as driver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service


# 인터넷 창이 안 뜨고 웹과 연결,
options = webdriver.ChromeOptions()


# 웹과 코랩 연동을 수월하게 하기 위해 보안을 약하게 만드는 코드.
options.add_argument("--headless")
options.add_argument("--no-sandbox")


# 공유 메모리를 \dev\shm 디렉터리를 사용하지 않고 바로 연결.
options.add_argument("disable-dev-shm-usage")





## 한자 및 영어, 일본어를 한국어로 변환 ##


- 미리 불러온 셀레늄(selenium) 모듈과 크롬 웹 드라이버를 이용해 준비한 시 파일을 네이버 파파고 번역기에 넣어 ‘한글 → 영어 → 한글’순으로 변환.
  - tqdm( )은 몇 % 진행되었는지, 얼마나 시간이 지났는지, 남았는지 등 반복문 진행률을 표시해 주어 긴 작업의 진행 상태를 표시.
  - 파파고 웹 주소에 번역할 언어와 글( https: //papago.naver.com/?sk=ko&tk=번역할 언어&st=번역할 글) 을 조합하면 코랩 내부에서 웹 크롤링으로 번역을 요청
  - find_element( ) 함수에 번역 결과 경로를 넣으면 번역된 데이터를 호출.
  - 원하는 리스트에 번역된 결과를 추가하는 함수: append( ).
  - 한글을 영어(kor_to_trans)로, 영어를 한글(trans_to_kor)로 번역.


In [85]:
def kor_to_trans(text_data, trans_lang):
    """trans_lang에 넣는 파라미터 값:
    'en' -> 영어
    'ja&hn=0' -> 일본어
    'zh-CN' -> 중국어(간체)"""
    for i in tqdm(range(len(text_data))):
        try:
            driver.get(
                "https://papago.naver.com/?sk=ko&tk="
                + trans_lang
                + "&st="
                + text_data[i]
            )
            # Wait for the translation to appear using explicit wait
            from selenium.webdriver.support.ui import WebDriverWait
            from selenium.webdriver.support import expected_conditions as EC

            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]/span'))
            )
            backtrans = driver.find_element("xpath", '//*[@id="txtTarget"]/span').text
            trans_list.append(backtrans)
        except:
            driver.get("https://papago.naver.com/?sk=ko&tk=" + trans_lang)
            # Wait for the input field to be visible using explicit wait
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtSource"]'))
            )
            driver.find_element("xpath", '//*[@id="txtSource"]').send_keys(text_data[i])
            # Wait for the translation to appear after input
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]/span'))
            )
            backtrans = driver.find_element("xpath", '//*[@id="txtTarget"]/span').text
            trans_list.append(backtrans)


def trans_to_kor(transed_list, transed_lang):
    for i in tqdm(range(len(transed_list))):
        try:
            driver.get(
                "https://papago.naver.com/?sk="
                + transed_lang
                + "&tk=ko&st="
                + transed_list[i]
            )
            # Wait for the translation to appear using explicit wait
            from selenium.webdriver.support.ui import WebDriverWait
            from selenium.webdriver.support import expected_conditions as EC

            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]/span'))
            )
            backtrans = driver.find_element("xpath", '//*[@id="txtTarget"]/span').text
            backtrans_list.append(backtrans)
        except:
            driver.get("https://papago.naver.com/?sk=" + transed_lang + "&tk=ko")
            # Wait for the input field to be visible using explicit wait
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtSource"]'))
            )
            driver.find_element("xpath", '//*[@id="txtSource"]').send_keys(
                transed_list[i]
            )
            # Wait for the translation to appear after input
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]/span'))
            )
            backtrans = driver.find_element("xpath", '//*[@id="txtTarget"]/span').text
            backtrans_list.append(backtrans)
