# Matlab으로 데이터 시각화하기

**데이터를 보기좋게 표현해봅시다.**

#### 1. Matplotlib 시작하기
   
#### 2. 자주 사용되는 Plotting의 Options
- 크기 : `figsize`
- 제목 : `title`
- 라벨 : `_label`
- 눈금 : `_tics`
- 범례 : `legend`
  
#### 3. Matplotlib Case Study
- 꺾은선 그래프 (Plot)
- 산점도 (Scatter Plot)
- 박스그림 (Box Plot)
- 막대그래프 (Bar Chart)
- 원형그래프 (Pie Chart)
  
#### 4. The 멋진 그래프, seaborn Case Study
- 커널밀도그림 (Kernel Density Plot)
- 카운트그림 (Count Plot)
- 캣그림 (Cat Plot)
- 스트립그림 (Strip Plot)
- 히트맵 (Heatmap)
  

## I. Matplotlib 시작하기

-파이썬의 데이터 시각화 라이브러리

cf) 라이브러리 vs 프레임워크
라이브러리는 numpy pandas
프레임워크는 flask 같은거
뭔가 함수는 라이브러리 대규모는 프레임워크 


%matplotlib inline 로 활성화

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 

# %matplotlib inline


### 2. Case Study with Arguments

In [None]:
plt.plot([1,2,3,4,5])
plt.show()

In [None]:
plt.plot([1,7,2,4,5])
plt.show()

### figsize : 종이도면 크기 정하기

In [None]:
plt.figure(figsize=(3,3)) # plotting을 할 도면을 선언하였다 즉 종이임 종이크기

plt.plot([0,1,2,3,4,5,6,7])
plt.show()


2차함수 그래프 그리기

In [None]:
plt.plot([0,1,2,3,4])
plt.show()

아래 조건을 제곱으로 해보자

$ y = x^2$

In [None]:
x = np.array([1,2,3,4,5]) # 이건 주는 값 x 
y = np.array([1,4,9,16,25]) # 이건 결과 f(x)

plt.plot(x,y)
plt.show()

np를 무수히 쪼개본다

In [None]:
x = np.arange(-1000,1000,0.1)
plt.plot(x, x**2) # 첫자리는 x 둘쪠자리는 세로 y
plt.show()

이제 설명을 넣어보자


In [None]:
x = np.arange(-10,10,0.01)
plt.xlabel('x korean')
plt.ylabel('y english')
plt.axis([-5,5,0,25]) # [x최소, x최대, y최소,y최대]
plt.plot(x, x**2)
plt.show()

In [None]:
x = np.arange(-5,5,0.01)
plt.xlabel('x korean')
plt.ylabel('y english')

plt.axis([-5,5,0,25])
# x, y 에 눈금선 긋기
plt.xticks([_ for _ in range(-5,6,1)])
plt.yticks([ _ for _ in range(0,25,3)])

# 이름 짓기
plt.title("$y = x^2$")

plt.plot(x, x**2, label='line')
plt.legend()
plt.show()

## II. Matplotlib Case Study

## 그래프 만들어보기
### * 꺽은선

plt.plot(x , y)

In [None]:
x = np.arange(20)
y = np.random.randint(0,20,20)

plt.axis([0,20,0,20])
plt.yticks([0,5,15,20])

plt.plot(x , y)
plt.show()

### *산점도

plt.scatter(x,y)

In [None]:
plt.scatter(x,y)
plt.show()

### * 박스 타입

최소 와 최대 그리고 중간값 그리고 분기값 같은거 찾아줌 1/4 2/4 3/4 등등

In [None]:
plt.boxplot((x,y))
plt.show()

### * 막대그래프


In [None]:
plt.bar(x,y)
plt.show()

### 히스토그램
막대그래프 붙어있음 그리고 어느정도를 분기 같이 나눔 예로 10 ~ 20 은 1 로 20~ 30 은 2로 같이 함

In [None]:
plt.hist(y, bins= np.arange(0, 20, 2))
plt.xticks(np.arange(0,20,2))
plt.show()

### *원형 그래프 (Pie Chart)
그냥 다들 아는 파이형식 그래프


In [None]:
z = [100,300,200,400]
plt.pie(z)
plt.show()

## III. The 멋진 그래프, Seaborn Case Study

Matplotlib를 이쁘게 만드는 법!

- 커널 밀도그림
- 카운트그림
- 캣그림
- 스트립그림
- 히트맵그림


Seaborn 불러오기

In [None]:
import seaborn as sns

### * 커널 밀도그림
- sns.kedeplot()

In [None]:
x = np.arange(0,22,2)
y = np.random.randint(0, 20, 20)

plt.hist(y, bins=x)
plt.show()


In [None]:
sns.kdeplot(y, shade=True)
plt.show()

### * 카운트 그림
- sns.countplot()

In [None]:
vote_df = pd.DataFrame({"name":['Andy', 'Bob', 'Cat'], "vote":[True,True,False]})
vote_df

In [None]:
vote_count = vote_df.groupby('vote').count()
vote_count

In [None]:
plt.bar(x=[False,True], height=vote_count['name'])

plt.show()

In [None]:
sns.countplot(vote_df['vote'])
plt.show()

### *켓그림 
- sns.catplot() 

In [None]:
covid = pd.read_csv("./country_wise_latest.csv")
covid.head(5)

In [None]:
sns.catplot(x="WHO Region", y="Confirmed", data=covid)
plt.show()

### * 스트립그림 
- sns.stripplot()


In [None]:
sns.stripplot(x="WHO Region", y="Confirmed", data=covid)
plt.show()

In [None]:
s = sns.swarmplot(x="WHO Region", y="Confirmed", data=covid)
plt.show()

### * 히트맵
에들의 상관관계를 보는거임
- sns.heatmap()

In [None]:
covid.corr()

In [None]:
sns.heatmap(covid.corr())
plt.show()

## Misiisn 1. Netfilx and Code

[넷플릭스 데이터](https://www.kaggle.com/shivamb/netflix-shows)가 주어졌을 때, 다음 질문에 답하시오:

1.넷플릭스 한국 작품('South Korea')이 몇개인지 찾아라 (단일로)

2.넷플릭스에 가장만은 작품을 만든 국가는 (단일로)

mv kaggle.json ~/.kaggle/

chmod 600 ~/.kaggle/kaggle.json

kaggle datasets download -d shivamb/netflix-shows

unzip netflix-shows.zip

In [None]:
import numpy as np 
import pandas as pd 

In [None]:
netflix =  pd.read_csv("./netflix_titles.csv")

### 1-1. 한국 넷플릭스 찾기

In [None]:
netflix_country = netflix.groupby(by ="country").count()
netflix_country['type']['South Korea']

### 1-2. 넷플릭스 가장만은 작품을 만든 국가

In [None]:
netflix_country = netflix.groupby(by ="country").count()
netflix_country['show_id'].idxmax()

## Mission 2. 가즈아!

### Moving Average 이동평균법으로 비트코인 추세 알아네기

[비트코인](https://www.kaggle.com/rishidamarla/bitcoin-prices-20112015)

[이더리움](https://www.kaggle.com/prasoonkottarathil/ethereum-historical-dataset?select=ETH_day.csv) 

1. 비트코인의 2016.06 ~ 2017.06 기간의 5-ma(movinf average) 비트코인 가격 그래프를 그려주세요

    1-1. 선색 (#f2a900) 

    1-2. x축 y축 텍스트 쓰기

    1-3. 이동평균의 기준은 open column

2. 2016.06 ~ 2017.06 기간의 이더리움 비트코인 5-ma 같이 그리기

    2-1. 이더리움 (#3c3c3d)

    2-2. x축 y축 텍스트 쓰기

    2-3. 이동평균의 기준은 open column



kaggle datasets download -d rishidamarla/bitcoin-prices-20112015

kaggle datasets download -d prasoonkottarathil/ethereum-historical-dataset

unzip bitcoin-prices-20112015.zip 

unzip ethereum-historical-dataset.zip 

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as pyplot
import seaborn as sns

In [None]:
bitcoin = pd.read_csv('./BitCoin.csv')
bitcoin['Date'] = pd.to_datetime(bitcoin['Date'])

In [None]:
from datetime import datetime
setcoin = bitcoin.loc[(bitcoin['Date'] >= datetime.strptime('2016-06-01','%Y-%m-%d')) &(bitcoin['Date'] < datetime.strptime('2017-07-01','%Y-%m-%d')) ]

setcoin = setcoin.sort_values('Date',ascending=True)
setcoin = setcoin.drop(['High','Low','Close','Volume','Market Cap'], axis=1)

In [None]:
from collections import deque
queue = deque()
data = []
for i in setcoin['Open']:
    queue.append(i)
    data.append(round(np.mean(queue),2))
    if len(queue) >= 5:
        queue.popleft()


In [None]:
setcoin=setcoin.assign(AVG=data)

In [None]:
plt.figure(figsize=(20,10))
plt.plot(setcoin['Date'],setcoin['AVG'], color='#f2a900',linestyle="-",linewidth=0.5)
plt.bar(setcoin['Date'],setcoin['Open'], color="#c2f3f3")
plt.title('Line Bitcoin AVG 5-ma')
plt.xlabel('Date')
plt.ylabel('Price')
plt.show()

In [None]:
Ethereum = pd.read_csv('./ETH_day.csv')
Ethereum['Date'] = pd.to_datetime(Ethereum['Date'])

In [None]:
setEth = Ethereum.loc[(Ethereum['Date'] >= datetime.strptime('2016-06-01','%Y-%m-%d')) & (Ethereum['Date'] < datetime.strptime('2017-07-01','%Y-%m-%d'))]
setEth = setEth.sort_values('Date',ascending=True)
setEth = setEth.drop(['Symbol','High','Low','Close','Volume ETH','Volume USD'], axis=1)


In [None]:
queue = deque()
data = []
for i in setEth['Open']:
    queue.append(i)
    data.append(round(np.mean(queue),2))
    if len(queue) >= 5:
        queue.popleft()
setEth=setEth.assign(AVG=data)

In [None]:
plt.figure(figsize=(20,10))
plt.plot(setcoin['Date'],setcoin['AVG'], color='#f2a900',linestyle="-",linewidth=0.5)
plt.plot(setEth['Date'],setEth['AVG'], color='#3c3c3d',linestyle='--',linewidth=0.5)
plt.bar(setcoin['Date'],setcoin['Open'], color="#c2f3f3")
plt.bar(setEth['Date'],setEth['Open'],color="#f3f3c2")
plt.title('Line Bitcoin AVG 5-ma')
plt.xlabel('Date')
plt.ylabel('Price')
plt.show()