<h2 style="color: green;">텍스트 데이터 처리</h2>

## 구두점 삭제

In [1]:
import re

In [2]:
#텍스트 정제
text_data = [" import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다. ???",
            "정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는데 사용됩니다. !!!!! "]

In [3]:
#공백 문자 제거
strip_whitespace = [string.strip() for string in text_data]  #공백 문자 제거

print(strip_whitespace)

['import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다. ???', '정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는데 사용됩니다. !!!!!']


In [4]:
#마침표 제거
remove_periods = [string.replace(".","") for string in strip_whitespace]
print(remove_periods)

['import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다 ???', '정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는데 사용됩니다 !!!!!']


In [5]:
#구두점 삭제
import sys
import unicodedata

temp = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

data = [string.translate(temp) for string in text_data]
print(data)

[' import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다 ', '정규 표현식은 문자열 패턴을 검색 추출 대체 또는 분할하는데 사용됩니다  ']


## 텍스트 토큰화
+ 텍스트를 개별 단어로 나눕니다.
+ 자연어 처리 툴킷인 NLTK는 단어 토큰화를 비롯해 강력한 텍스트 처리 기능을 제공

In [6]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
import nltk

In [7]:
#구두점 데이터 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/sang-yun/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [8]:
string = "모듈은 정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다."

word_data = word_tokenize(string)  #단어를 토큰 기준으로 나눕니다.
print(word_data)

['모듈은', '정규', '표현식을', '사용하여', '문자열에서', '패턴을', '찾고', '조작하는', '데', '사용되는', '파이썬', '내장', '모듈입니다', '.']


In [9]:
sent_string = "안녕하세요, 문장을 구분하는 명령어 예시입니다. 안녕하세요, 문장을 구분하는 명령어 예시입니다."
sent_data = sent_tokenize(sent_string)
print(sent_data)

['안녕하세요, 문장을 구분하는 명령어 예시입니다.', '안녕하세요, 문장을 구분하는 명령어 예시입니다.']


## 불용어 삭제

In [10]:
from nltk.corpus import stopwords
nltk.download('stopwords')  #불용어 데이터 다운로드

[nltk_data] Downloading package stopwords to /Users/sang-
[nltk_data]     yun/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
tokenized_words = ['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'park']

stop_words = stopwords.words('english')

#불용어 삭제 -> 기존에 불용어로 인식된 단어들을 삭제
filtered_words = [word for word in tokenized_words if word not in stop_words]
print(filtered_words)

#불용어 확인 -> 불용어라고 인식되는 단어들
stop_data = stop_words
print(stop_data)

['going', 'go', 'store', 'park']
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only

## 어간 추출

단어의 어간을 구분하여 기본 의미를 유지하면서 어미를 제거한다.

In [12]:
from nltk.stem.porter import PorterStemmer

In [13]:
tokenized_words_temp = ['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'meeting']

#어간 추출기 생성
porter = PorterStemmer()
word_list_temp = []
for word in tokenized_words_temp :
    print(word)
    word_list_temp.append(porter.stem(word))
    
print(word_list_temp)

i
am
going
to
go
to
the
store
and
meeting
['i', 'am', 'go', 'to', 'go', 'to', 'the', 'store', 'and', 'meet']


## 품사 태깅

In [14]:
from nltk import pos_tag
from nltk import word_tokenize

In [15]:
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/sang-yun/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [16]:
text_data_tag = "Chris loved outdoor running"
text_tagger = pos_tag(word_tokenize(text_data_tag))
print(text_tagger)

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]


## 단어 중요도에 가중치 부여하기

In [17]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [18]:
text_data_01 = np.array([
    "I love Brazil.Brazil !",
    "Swedn is best",
    "Germany is beats both"
])

#tf-idr 특성 행렬
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data_01)

#tf-idr 특성 행렬을 밀집 배열 확인
feature_matrix.toarray()
tf = tfidf.vocabulary_
print(tf)

{'love': 6, 'brazil': 3, 'swedn': 7, 'is': 5, 'best': 1, 'germany': 4, 'beats': 0, 'both': 2}


## Word Cloud 단어 뭉치를 가시화

In [22]:
pip install pytagcloud

Note: you may need to restart the kernel to use updated packages.


In [23]:
pip install pygame

Note: you may need to restart the kernel to use updated packages.


In [24]:
pip install simplejson

Note: you may need to restart the kernel to use updated packages.


In [19]:
import pytagcloud
import webbrowser

pygame 2.4.0 (SDL 2.26.4, Python 3.8.16)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [20]:
tag = [("Hello", 100), ("World", 80), ("Python",  200)]
tag_list = pytagcloud.make_tags(tag, maxsize=50)  #태그가 큰 순서대로 이미지 크기 설정
pytagcloud.create_tag_image(tag_list, "./data/word_cloud.jpg", size=(900,600), rectangular=False)
webbrowser.open('word_cloud.jpg')  #웹 브라우저에서 이미지가 열린다

True

## 문자열을 날짜로 변환

In [27]:
import pandas as pd

In [28]:
date_string = np.array(['03-04-2023 11:20 PM',
                        '05-04-2023 09:20 PM',
                        '07-04-2023 02:20 PM'
                       ])

### Temp Stamp 객체로 변경

In [29]:
for data in date_string :
    #print(data)
    temp = pd.to_datetime(data, format= '%d-%m-%Y %I:%M %p')
    #print(temp)
    
for data in date_string :
    temp_value = pd.to_datetime(data, format= '%d-%m-%Y %I:%M %p', errors='ignore')
    print(temp_value)

2023-04-03 23:20:00
2023-04-05 21:20:00
2023-04-07 14:20:00


<h2 style="color: green;">날짜 데이터 처리</h2>

## 시간대 데이터 처리 01

In [30]:
pd.Timestamp("2023-01-01 06:00:00", tz="Europe/London")
data_temp = pd.Timestamp("2023-04-20 06:00:00")
print(data_temp)

2023-04-20 06:00:00


In [31]:
#시간대를 지정
date_in_london = data_temp.tz_localize("Europe/London")
print(date_in_london)

2023-04-20 06:00:00+01:00


In [32]:
#시간대를 변환
date_in_london.tz_convert("Africa/Abidjan")

#세 개의 날짜를 만들기
dates_temp = pd.Series(pd.date_range('2/2/2023', periods=3, freq='M'))
temp = dates_temp.dt.tz_localize("Africa/Abidjan")
print(temp)

0   2023-02-28 00:00:00+00:00
1   2023-03-31 00:00:00+00:00
2   2023-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]


## 시간대 데이터 처리 02

In [33]:
import pytz
from pytz import all_timezones
all_timezones[150:152]

['America/Maceio', 'America/Managua']

In [34]:
dates_temp.dt.tz_localize("dateutil/Asia/Seoul")

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('/usr/share/zoneinfo/Asia/Seoul')]

In [35]:
tz_temp = pytz.timezone('Asia/Seoul')
temp_01 = dates_temp.dt.tz_localize(tz_temp)
print(temp_01)

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]


## 날짜와 시간 선택하기

In [36]:
dataframe = pd.DataFrame()
print(dataframe)
dataframe['date'] = pd.date_range('1/1/2023', periods=1000, freq='H')
print(dataframe)

Empty DataFrame
Columns: []
Index: []
                   date
0   2023-01-01 00:00:00
1   2023-01-01 01:00:00
2   2023-01-01 02:00:00
3   2023-01-01 03:00:00
4   2023-01-01 04:00:00
..                  ...
995 2023-02-11 11:00:00
996 2023-02-11 12:00:00
997 2023-02-11 13:00:00
998 2023-02-11 14:00:00
999 2023-02-11 15:00:00

[1000 rows x 1 columns]


In [37]:
#두 datetime 사이의 샘플을 선택합니다.
dataframe[(dataframe['date'] > '2023-1-1 01:00:00') &
          (dataframe['date'] <= '2023-1-1 04:00:00')]

dataframe = dataframe.set_index(dataframe['date'])
print(dataframe)

temp02 = dataframe.loc['2023-1-1 01:00:00':'2023-1-1 04:00:00']
print(temp02)

                                   date
date                                   
2023-01-01 00:00:00 2023-01-01 00:00:00
2023-01-01 01:00:00 2023-01-01 01:00:00
2023-01-01 02:00:00 2023-01-01 02:00:00
2023-01-01 03:00:00 2023-01-01 03:00:00
2023-01-01 04:00:00 2023-01-01 04:00:00
...                                 ...
2023-02-11 11:00:00 2023-02-11 11:00:00
2023-02-11 12:00:00 2023-02-11 12:00:00
2023-02-11 13:00:00 2023-02-11 13:00:00
2023-02-11 14:00:00 2023-02-11 14:00:00
2023-02-11 15:00:00 2023-02-11 15:00:00

[1000 rows x 1 columns]
                                   date
date                                   
2023-01-01 01:00:00 2023-01-01 01:00:00
2023-01-01 02:00:00 2023-01-01 02:00:00
2023-01-01 03:00:00 2023-01-01 03:00:00
2023-01-01 04:00:00 2023-01-01 04:00:00


## 날짜 데이터를 여러 특성으로 분할
+ 날짜와 시간의 열로부터 년,월,일,시,분에 해당하는 특성을 만들 수 있다.

In [38]:
dateframe = pd.DataFrame()
#5개의 날짜 만듬
dateframe['date'] = pd.date_range('1/1/2023', periods=5, freq='W')
#년, 월, 일, 시 , 분에 대한 특성을 만듭니다.
dateframe['year'] = dateframe['date'].dt.year
dateframe['month'] = dateframe['date'].dt.month
dateframe['day'] = dateframe['date'].dt.day
dateframe['minute'] = dateframe['date'].dt.minute
                                  
print(dateframe)

        date  year  month  day  minute
0 2023-01-01  2023      1    1       0
1 2023-01-08  2023      1    8       0
2 2023-01-15  2023      1   15       0
3 2023-01-22  2023      1   22       0
4 2023-01-29  2023      1   29       0


## 날짜 간의 차이 계산
+ 판다스의 TimeDelta 데이터 타입을 사용하면 두 지점 사이의 시간 변화를 기록한 특성을 계산합니다

In [39]:
date_frame = pd.DataFrame()

date_frame['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
date_frame['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]

print(date_frame['Arrived'])
print(date_frame['Left'])

0   2023-01-01
1   2023-01-04
Name: Arrived, dtype: datetime64[ns]
0   2023-01-01
1   2023-01-06
Name: Left, dtype: datetime64[ns]


In [40]:
#특성 사이의 차이를 계산
date_frame['Left'] - date_frame['Arrived']

pd.Series(delta.days for delta in (date_frame['Left'] - date_frame['Arrived']))

0    0
1    2
dtype: int64

## 시차 특성
+ 판다스의 Shift를 사용하여 n기간만큼 차이가 나는 시차 특성을 만들기

In [41]:
date_frame_temp = pd.DataFrame()

#날짜 데이터 생성
date_frame_temp['dates'] = pd.date_range('1/1/2023', periods=5, freq='D')
date_frame_temp['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

date_frame_temp['previous_Days_stock_price'] = date_frame_temp['stock_price'].shift(2)
print(date_frame_temp)

       dates  stock_price  previous_Days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        NaN
2 2023-01-03          3.3                        1.1
3 2023-01-04          4.4                        2.2
4 2023-01-05          5.5                        3.3


## 이동 시간 윈도 사용

In [42]:
time_index = pd.date_range('01-01-2023', periods=5, freq='M')

date_frame01 = pd.DataFrame(index = time_index)
date_frame01['Stock_price'] = [1,2,3,4,5]

In [43]:
#이동 평균 계산
a= date_frame01.rolling(window=2).mean()  #이동 평균을 계산
b= date_frame01.ewm(alpha=0.5).mean()
print(a,b)

            Stock_price
2023-01-31          NaN
2023-02-28          1.5
2023-03-31          2.5
2023-04-30          3.5
2023-05-31          4.5             Stock_price
2023-01-31     1.000000
2023-02-28     1.666667
2023-03-31     2.428571
2023-04-30     3.266667
2023-05-31     4.161290


## 시계열 데이터에서 누락된 값 처리

In [44]:
time_index = pd.date_range('01-01-2023', periods=5, freq='M')
date_frame02 = pd.DataFrame(index=time_index)

print(date_frame02)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [42]:
date_frame02['Sales'] = [1.0, 2.0, np.nan, np.nan, 8.0]  #누락값 있는 특성 생성

date_frame02.interpolate()  #누락값 보간
date_frame02.ffill()  #앞쪽으로 채우기
date_frame02.bfill()  #뒤쪽으로 채우기
date_frame02.interpolate(method='quadratic')  #비선형의 경우 보간 방법
print(date_frame02.interpolate(limit=1, limit_direction='backward'))

            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    NaN
2023-04-30    6.0
2023-05-31    8.0
