# 데이터 전처리

## 텍스트 데이터

### 정규 표현식

In [5]:
import re

# 특수 문자 와 숫자 제거
string = "★안녕하세요 반갑습니다. 112312321"

#특수 문자 제거
p = re.compile("\W+") #단어가 아닌 - 숫자 나 문자가 아닌
result = p.sub(" ", string)
print(result)

#숫자 제거
p = re.compile("\d+") #숫자
result = p.sub(" ", result)
print(result)

 안녕하세요 반갑습니다 112312321
 안녕하세요 반갑습니다  


## 자연어 처리

### 필요한 패키지 설치

In [7]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\tj\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tj\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

### 토큰화

In [9]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

#문장 토큰화
string = "I am a boy. You are a girl."
#구두점을 기준으로 분할해서 list로 리턴
print(sent_tokenize(string))

#단어 토큰화 - 공백을 기준으로 분할해서 list로 리턴
print(word_tokenize(string))

['I am a boy.', 'You are a girl.']
['I', 'am', 'a', 'boy', '.', 'You', 'are', 'a', 'girl', '.']


### 불용어(stopword - 의미없는 단어) 제거

In [15]:
from nltk.corpus import stopwords
word_english = ['I', "am", "a", "boy", "and", "you", "movie"]
#word_english 의 모든 내용을 w에 대입하고
#w 가 stopwords.word('englisht')에 속하지 않은 경우만 가지고
#list를 생성
result = [w for w in word_english 
              if not w in stopwords.words('english')]
print(result)

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS
result = [w for w in word_english 
              if not w in ENGLISH_STOP_WORDS]
print(result)

#한글 불용어 처리
sentence = "나는 이번 주말에 서점에 가서 강화학습 책을 볼 예정입니다." 

#불용어 사전
stopwords_kor = ['나는', '가서']

from nltk.tokenize import word_tokenize
#문장을 단어 단위로 토큰화
words_kor = word_tokenize(sentence)

result = [i for i in words_kor if i not in stopwords_kor]
print(result)

['I', 'boy', 'movie']
['I', 'boy', 'movie']
['이번', '주말에', '서점에', '강화학습', '책을', '볼', '예정입니다', '.']


### 어간 추출

In [18]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

string = 'All pythoners have pythoned at least once'
print(string)

#단어 단위로 토큰화
words = word_tokenize(string)
print(words)

#어간 추출
ps_stemmer = PorterStemmer()
for w in words:
    print(ps_stemmer.stem(w), end=' ')
print()


from nltk.stem import LancasterStemmer
ls_stemmer = LancasterStemmer()
for w in words:
    print(ls_stemmer.stem(w), end=' ')
print()

All pythoners have pythoned at least once
['All', 'pythoners', 'have', 'pythoned', 'at', 'least', 'once']
all python have python at least onc 
al python hav python at least ont 


### n-gram

In [21]:
from nltk import ngrams
from nltk.tokenize import word_tokenize

sentence = "대한 민국 우리 나라 대한 민국"
#2개씩 묶기 - bigram
grams = ngrams(word_tokenize(sentence), 2)
for i in grams:
    print(i, end=' ')
print()

#3개씩 묶기 - trigram
grams = ngrams(word_tokenize(sentence), 3)
for i in grams:
    print(i, end=' ')

('대한', '민국') ('민국', '우리') ('우리', '나라') ('나라', '대한') ('대한', '민국') ('대한', '민국', '우리') ('민국', '우리', '나라') ('우리', '나라', '대한') ('나라', '대한', '민국') 

### 영문 형태소 분석

In [22]:
# 영문 형태소 분석을 위한 라이브러리 설치
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\tj\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [25]:
from nltk import pos_tag
from nltk import word_tokenize

sentence = 'I am a boy You are a girl'

tokens = word_tokenize(sentence)
print(tokens)

#품사 태깅
tags = pos_tag(tokens)
print(tags)

## 특정 품사만 골라내기
print([word for word, tag in tags 
       if tag in ['NN', 'NNS', 'NNP', 'NNPS']])

['I', 'am', 'a', 'boy', 'You', 'are', 'a', 'girl']
[('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('boy', 'NN'), ('You', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('girl', 'NN')]
['boy', 'girl']


In [27]:
#품사 태깅 후 원 핫 인코딩
maxims = ["The harder you work the more likely you can reach the goal",
         "Believe in yourself",
         "No pain No gain",
         "No sweat No sweet",
         "Courage is very important when it comes to anythin"]

#품사 태깅한 내용을 저장할 list
tagged_maxims = []
for maxim in maxims:
    maxim_tag = nltk.pos_tag(word_tokenize(maxim))
    tagged_maxims.append([tag for word, tag in maxim_tag])
    
#품사 확인
for temp in tagged_maxims:
    print(temp)

#여러 개의 열에 1을 설정할 수 있는 One Hot Encoding
from sklearn.preprocessing import MultiLabelBinarizer

#각 문장이 어떤 품사들로 구성되어 있는지 확인 가능
one_hot_multi = MultiLabelBinarizer()
print(one_hot_multi.fit_transform(tagged_maxims))


['DT', 'NN', 'PRP', 'VBP', 'DT', 'RBR', 'JJ', 'PRP', 'MD', 'VB', 'DT', 'NN']
['NNP', 'IN', 'PRP']
['DT', 'NN', 'RB', 'NN']
['DT', 'NN', 'NNP', 'NN']
['NN', 'VBZ', 'RB', 'JJ', 'WRB', 'PRP', 'VBZ', 'TO', 'VB']
[[1 0 1 1 1 0 1 0 1 0 1 1 0 0]
 [0 1 0 0 0 1 1 0 0 0 0 0 0 0]
 [1 0 0 0 1 0 0 1 0 0 0 0 0 0]
 [1 0 0 0 1 1 0 0 0 0 0 0 0 0]
 [0 0 1 0 1 0 1 1 0 1 1 0 1 1]]


### BoW(Bag of Word) - 단어의 등장 횟수

In [32]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

#테스트 데이터 만들기
text_data = np.array([
    'I love newziland. newziland', 
    'Sweden is best',
    'Germany beats both'
])


#BoW 특성 행렬 생성
count = CountVectorizer()
#희소행렬을 생성
bag_of_words = count.fit_transform(text_data)
print(bag_of_words)

#밀집행렬을 출력
print(bag_of_words.toarray())

#각 열의 이름을 확인
print(count.get_feature_names())




  (0, 5)	1
  (0, 6)	2
  (1, 7)	1
  (1, 4)	1
  (1, 1)	1
  (2, 3)	1
  (2, 0)	1
  (2, 2)	1
[[0 0 0 0 0 1 2 0]
 [0 1 0 0 1 0 0 1]
 [1 0 1 1 0 0 0 0]]
['beats', 'best', 'both', 'germany', 'is', 'love', 'newziland', 'sweden']




### tf-idf : 단어의 가중치 부여

In [36]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

#테스트 데이터 만들기
text_data = np.array([
    'I love newziland. newziland', 
    'Sweden is best',
    'Germany beats both',
    'Korea newziland is top of the top top'
])

#단어의 중요도를 희소행렬로 출력
#하나의 문장에서 자주 등장하면 중요도는 높아짐
#여러 문장에서 자주 등장하면 중요도는 낮아짐
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)
print(feature_matrix)

#특성의 이름 파악 
print(tfidf.vocabulary_)

#밀집 행렬로 변환
print(feature_matrix.toarray())

  (0, 7)	0.8444932017012523
  (0, 6)	0.5355662725381126
  (1, 1)	0.6176143709756019
  (1, 4)	0.48693426407352264
  (1, 9)	0.6176143709756019
  (2, 2)	0.5773502691896257
  (2, 0)	0.5773502691896257
  (2, 3)	0.5773502691896257
  (3, 10)	0.2747918015856176
  (3, 8)	0.2747918015856176
  (3, 11)	0.8243754047568529
  (3, 5)	0.2747918015856176
  (3, 4)	0.21664901266330147
  (3, 7)	0.21664901266330147
{'love': 6, 'newziland': 7, 'sweden': 9, 'is': 4, 'best': 1, 'germany': 3, 'beats': 0, 'both': 2, 'korea': 5, 'top': 11, 'of': 8, 'the': 10}
[[0.         0.         0.         0.         0.         0.
  0.53556627 0.8444932  0.         0.         0.         0.        ]
 [0.         0.61761437 0.         0.         0.48693426 0.
  0.         0.         0.         0.61761437 0.         0.        ]
 [0.57735027 0.         0.57735027 0.57735027 0.         0.
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.21664901 0.2747918
  0.    

# 시계열 데이터

## 문자열을 시계열로 변환

In [39]:
import pandas as pd

stock = pd.read_csv('./data/stock-data.csv')
#첫번째 열인 Date 의 자료형이 object
stock.head()
stock.info()

stock['NewDate'] = pd.to_datetime(stock['Date'])
stock.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Date     20 non-null     object        
 1   Close    20 non-null     int64         
 2   Start    20 non-null     int64         
 3   High     20 non-null     int64         
 4   Low      20 non-null     int64         
 5   Volume   20 non-null     int64         
 6   NewDate  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory