# **Lesson 6. 추가분석_예제**

## **(1) 환경준비**

### 1) 라이브러리 불러오기

In [None]:
# jupyter lite에서 패키지 설치
import piplite
await piplite.install("seaborn")
await piplite.install("wordcloud")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from collections import Counter
from wordcloud import WordCloud

### 2) 데이터 불러오기

* **[KOSPI 데이터 셋 정보]**

| 변수   | 설명        |
| ----  | ----       |
| Date   | 날짜         |
| Close  | 지수(종가)   |
| Volume | 거래량       |

In [None]:
kospi = pd.read_csv('KOSPI_2018.csv', usecols = ['Date','Close','Volume'])
kospi['Date'] = pd.to_datetime(kospi['Date']) # 날짜 타입으로 변환
kospi.head()

* **[retail 데이터 셋 정보]**

| 변수   | 설명        |
| ----  | ----       |
| date   | 날짜         |
| sales  | 판매량  |

In [None]:
retail = pd.read_csv('retail.csv')
retail['date'] = pd.to_datetime(retail['date']) # 날짜 타입으로 변환
retail.head()

----

## **(2) Topic 1. 시계열 데이터 시각화**

### **1) 라인차트**

* 2017년 5월에 대해서 라인차트를 그려 봅시다.

In [None]:
temp = retail.loc[retail['date'].dt.month == 5]
plt.plot(temp['date'] , temp['sales'], marker = '.' )
plt.xticks(rotation = 45)
plt.grid()
plt.show()

### **2) 패턴 도출**

* **① 이동평균 추가**

In [None]:
# 라인차트
plt.plot(kospi['Date'], kospi['Close'])
plt.grid()
plt.show()

In [None]:
# 이동평균 추가
kospi['Close_MA20'] = kospi['Close'].rolling(20, min_periods = 1).mean()
kospi.head()

In [None]:
# 이동평균 추가한 라인차트
plt.plot(kospi['Date'], kospi['Close'], label = 'Close')
plt.plot(kospi['Date'], kospi['Close_MA20'], label = 'Close_MA20')
plt.legend()
plt.grid()
plt.show()

* **② 변화량 시각화**

In [None]:
# 변화량 추가
kospi['Close_diff'] = kospi['Close'].diff()
kospi.head()

In [None]:
# 히스토그램 비교
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.histplot(x = 'Close', data = kospi, bins = 50)
plt.subplot(1,2,2)
sns.histplot(x='Close_diff', data = kospi, bins = 50)

plt.tight_layout()
plt.show()

## **(3) Topic 2. 텍스트 시각화**

### **1) 텍스트 전처리**

* **① 텍스트 파일 읽기**

In [None]:
# 텍스트 파일을 읽기 모드('r')로 오픈합니다.
file = open('dream.txt', "r")
text = file.read() # 파일 내용을 읽어서 text에 저장합니다.
file.close() # 오픈한 파일을 닫습니다.

In [None]:
# 저장한 내용을 확인해 봅시다.
text

* **② 문장에서 단어 추출하기**

In [None]:
# 텍스트들을 단어 단위로 잘라 리스트에 담습니다.
wordList = text.split()

In [None]:
wordList[:10]

* **③ 추출한 단어 정제**

In [None]:
# 단어의 갯수
n = len(wordList)

# 리스트에서 단어 하나씩 뽑아다가 수정합니다.
for i in range(n):
    wordList[i] = wordList[i].replace(',','')   # 단어에서 , 빼기
    wordList[i] = wordList[i].replace('.','')   # 단어에서 . 빼기
    wordList[i] = wordList[i].lower()           # 모두 소문자로 변환

In [None]:
wordList[:10]

### **2) 키워드 분석**

* **① 단어별 빈도수 계산**

In [None]:
# Counter 함수 : 단어와 빈도수를 계산하여 딕셔너리형태로 저장
wordCount = Counter(wordList)

In [None]:
# wordCount에서 특정 단어 빈도수 계산
wordCount['dream']

In [None]:
# 불용어는 제외합시다.
del_word = ['the','a','is','are', 'not','of','on','that','this','we','have','will'
            ,'and','be','to', 'from', 'was', 'And','had','it','he','as','our','let','i','with'
            ,'his','were','in','by']

for w in del_word :        # del_word에서 하나씩 읽어서
    if w in wordCount :    # 읽은 단어가 wordCount에 있으면
        del wordCount[w]   # wordCount에서 해당 단어 삭제

* **③ 시각화 : 워드클라우드**

In [None]:
# word cloud 그리기
# 해상도 설정 : width = 600, height = 400
wordcloud = WordCloud(width = 600, height = 400).generate_from_frequencies(wordCount)

plt.figure(figsize=(8,6)) # 그림 크기 조정 가로 8, 세로 6
plt.imshow(wordcloud)      # 이미지 보여줄 준비
plt.show()                 # 화면에 출력