In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

import sklearn

## 데이터 로드 및 train test로 분할

In [2]:
df = pd.read_csv('38_Oasis.csv').drop(columns = ['Unnamed: 0']).reset_index().drop(columns=['index','link','target'])

In [3]:
df.head()

Unnamed: 0,title,date,content
0,[제목 : [오아시스]\n 팬데믹시대에 내마음의 표준을 바꾸는 유통 ],2020-09-04,이번 코로나가 유통시장의 판도를 5년이상 앞당겨진 변화를 가져 왔다?매장에서 인테넷...
1,[제목 : [오아시스] 오아시스 매수 했습니다. ],2021-04-17,"오아이스 주식 중 pe가 보유한 물량이 시장에서 움직이는 듯 하네요.어제, 아시는..."
2,[제목 : [오아시스] 오아시스 매수 했습니다. ],2021-04-17,얼마에 사셨어요? 저도 관심이 있는데요.
3,[제목 : [오아시스]\n 오아시스 주식이요 ],2021-04-17,오아시스 주식을 사고싶어게시판에 올려봅니다파실분 계시면**** 팔육일팔 삼육사일로연...
4,[제목 : [오아시스] 70만원이면 비싼건가요 ],2021-04-19,"30주 70만원에 살려고하는데, 비싼건가요"


## null 값 확인

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    136 non-null    object
 1   date     136 non-null    object
 2   content  133 non-null    object
dtypes: object(3)
memory usage: 3.3+ KB


In [5]:
# NULL 값 있는 행 확인
df[df['content'].isnull()]

Unnamed: 0,title,date,content
31,[제목 : [오아시스] 상장노력은 하는거죠? ],2021-07-09,
40,[제목 : [오아시스] 조용히 갑시다~~ ],2021-07-16,
43,[제목 : [오아시스] 지금 잘가고 있긴 한데 스피드 좀 올려~~ ],2021-07-29,


In [6]:
# 공백으로 NULL 값 채우기
df = df.fillna('')

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    136 non-null    object
 1   date     136 non-null    object
 2   content  136 non-null    object
dtypes: object(3)
memory usage: 3.3+ KB


내용에 빈 값이 있지만 title에서 추출할 것이 있지 않을까 해서 공백으로 채워줌

## index 날짜로 바꿔주기

In [8]:
# date를 오름차순 정렬
df.date = df.date.sort_index(ascending=True)
# index로 설정
df = df.set_index('date')
df

Unnamed: 0_level_0,title,content
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-09-04,[제목 : [오아시스]\n 팬데믹시대에 내마음의 표준을 바꾸는 유통 ],이번 코로나가 유통시장의 판도를 5년이상 앞당겨진 변화를 가져 왔다?매장에서 인테넷...
2021-04-17,[제목 : [오아시스] 오아시스 매수 했습니다. ],"오아이스 주식 중 pe가 보유한 물량이 시장에서 움직이는 듯 하네요.어제, 아시는..."
2021-04-17,[제목 : [오아시스] 오아시스 매수 했습니다. ],얼마에 사셨어요? 저도 관심이 있는데요.
2021-04-17,[제목 : [오아시스]\n 오아시스 주식이요 ],오아시스 주식을 사고싶어게시판에 올려봅니다파실분 계시면**** 팔육일팔 삼육사일로연...
2021-04-19,[제목 : [오아시스] 70만원이면 비싼건가요 ],"30주 70만원에 살려고하는데, 비싼건가요"
...,...,...
2022-08-31,[제목 : [오아시스] 우크라이나와 러시아 ],덩치 큰 러시아가 누구다 다 이길거라고 했지만 결과는? 길고 짧은건 대봐야 안다고우...
2022-08-31,"[제목 : [오아시스] 오늘 날짜(2022.08.31) 더벨 기사, 오아시스 기업...",코스닥 상장을 추진 중인 신선식품 새벽배송 기업 오아시스가 기업가치 목표를 최대 2...
2022-09-02,[제목 : [오아시스] 이 시기에 오히려 주목해야 할 기업 ],연일 금리가 급등하고 있다. 매출만을 키우기 위해 무한확장을 거듭했던 스타트업과 유...
2022-09-05,[제목 : [오아시스] 계획된 적자 ],한때 VC와 스타트업들이 힘을 합쳐 매출액을 늘려 시장 주도권을 가져가기위한 전략으...


## 특수문자 제거 정규표현식

In [9]:
df['title'] = df['title'].str.replace(r"[^\uAC00-\uD7A30-9a-zA-Z\s]",'')
df['content'] = df['content'].str.replace(r"[^\uAC00-\uD7A30-9a-zA-Z\s]",'')

  df['title'] = df['title'].str.replace(r"[^\uAC00-\uD7A30-9a-zA-Z\s]",'')
  df['content'] = df['content'].str.replace(r"[^\uAC00-\uD7A30-9a-zA-Z\s]",'')


In [10]:
df

Unnamed: 0_level_0,title,content
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-09-04,제목 오아시스\n 팬데믹시대에 내마음의 표준을 바꾸는 유통,이번 코로나가 유통시장의 판도를 5년이상 앞당겨진 변화를 가져 왔다매장에서 인테넷의...
2021-04-17,제목 오아시스 오아시스 매수 했습니다,오아이스 주식 중 pe가 보유한 물량이 시장에서 움직이는 듯 하네요어제 아시는 분...
2021-04-17,제목 오아시스 오아시스 매수 했습니다,얼마에 사셨어요 저도 관심이 있는데요
2021-04-17,제목 오아시스\n 오아시스 주식이요,오아시스 주식을 사고싶어게시판에 올려봅니다파실분 계시면 팔육일팔 삼육사일로연락주세요
2021-04-19,제목 오아시스 70만원이면 비싼건가요,30주 70만원에 살려고하는데 비싼건가요
...,...,...
2022-08-31,제목 오아시스 우크라이나와 러시아,덩치 큰 러시아가 누구다 다 이길거라고 했지만 결과는 길고 짧은건 대봐야 안다고우크...
2022-08-31,제목 오아시스 오늘 날짜20220831 더벨 기사 오아시스 기업가치 최대 2조 제시,코스닥 상장을 추진 중인 신선식품 새벽배송 기업 오아시스가 기업가치 목표를 최대 2...
2022-09-02,제목 오아시스 이 시기에 오히려 주목해야 할 기업,연일 금리가 급등하고 있다 매출만을 키우기 위해 무한확장을 거듭했던 스타트업과 유니...
2022-09-05,제목 오아시스 계획된 적자,한때 VC와 스타트업들이 힘을 합쳐 매출액을 늘려 시장 주도권을 가져가기위한 전략으...


## 토큰화

In [11]:
okt = Okt()



In [27]:

stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다','\n','\n ']



In [28]:
token = []
for sentence in tqdm(df['title']):
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    token.append(stopwords_removed_sentence)
    

100%|████████████████████████████████████████| 136/136 [00:00<00:00, 973.38it/s]


In [29]:
token[:3]

[['제목', '오아시스', '팬데믹', '시대', '내', '마음', '표준', '을', '바꾸다', '유통'],
 ['제목', '오아시스', '오아시스', '매수'],
 ['제목', '오아시스', '오아시스', '매수']]

## 정수 인코딩

In [30]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(token)

In [31]:
print(tokenizer.word_index)

{'오아시스': 1, '제목': 2, '코멘트': 3, '상장': 4, '주': 5, '일': 6, '되다': 7, '기': 8, '1조': 9, '청구': 10, '비싸다': 11, '액면': 12, '분할': 13, '오다': 14, '총': 15, '액': 16, '가다': 17, '사다': 18, '없다': 19, '가치': 20, '평': 21, '분': 22, '을': 23, '요': 24, '지금': 25, '거래': 26, '실적': 27, '보다': 28, '주식': 29, '기업': 30, '2조': 31, '매수': 32, '너무': 33, '하나요': 34, '가격': 35, '있다': 36, '지다': 37, '3': 38, '가요': 39, '언제': 40, '옆': 41, '집': 42, '수수': 43, '수지': 44, '그렇게': 45, '올리다': 46, '유상증자': 47, '공시': 48, '네': 49, '나오다': 50, '로': 51, '에서': 52, '투자': 53, '반기': 54, '후': 55, '신': 56, '신청': 57, '드리다': 58, '지': 59, '죠': 60, '컬리': 61, '내용': 62, '날짜': 63, '기준': 64, '및': 65, '70만원': 66, '이면': 67, '뭐': 68, '못': 69, '글': 70, '싸다': 71, '겁니다': 72, '그': 73, '놈': 74, '무상증자': 75, '알다': 76, '1': 77, '백만원': 78, '오늘': 79, '예상': 80, '년': 81, '안': 82, '임': 83, '이미': 84, '다르다': 85, '나': 86, '제대로': 87, '희망': 88, '무증': 89, 'ipo': 90, '3조': 91, '4': 92, '대': 93, '괜찮다': 94, '시': 95, '어디서': 96, '확인': 97, '빠르다': 98, '고객': 99, '센터': 100, '악의': 101, '적': 