# 1. 선 그래프 (Line plot) 그리기
## 1.1 선 그래프(꺽은선 그래프)
- 점과 점을 선으로 연결한 그래프
- 시간의 흐름에 따른 변화를 표현할 때 많이 사용한다. (시계열)
- `plot([x], y)` 
    - 1번인수 : x값(생략가능), 2번인수 y값
    - 인수가 하나인 경우 y 축의 값으로 설정되고 X값은 (0 ~ len(y)-1) 범위로 지정된다.
    - x,y 의 인수는 리스트 형태의 객체들을 넣는다.
        - 리스트
        - 튜플
        - numpy 배열 (ndarray)
        - 판다스 Series
    - x와 y의 size는 같아야 한다.
- 하나의 axes(subplot)에 여러 개의 선 그리기
    - 같은 axes에 plot()를 여러번 실행한다.

## 1.2 선 스타일
- https://matplotlib.org/3.0.3/gallery/lines_bars_and_markers/line_styles_reference.html

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(1, 10, num=100)			# 1 ~ 10까지 숫자를 균등하게 100등분한 분위값들로 구성된 1차원 data_structure
plt.figure(figsize=(10, 10))

plt.plot(x, x + 3, marker='^')
plt.plot(x, x + 2, linestyle='--')
plt.plot(x, x + 1, linestyle='-.')
plt.plot(x, x, linestyle=':')
plt.plot(x, x + 4, linewidth='5')

plt.show()

## 1.3 선 그래프 활용
- [서울시 연도별 황사 경보발령 현황](http://data.seoul.go.kr/dataList/datasetView.do?infId=OA-2227&srvType=S&serviceKind=1&currentPageNo=1)
- 연도별 관측일수와 황사최대농도의 변화를 그래프로 시각화

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.read_csv('data/seoul_yellowdust_warningstatus.csv')
df.shape

In [None]:
df.rename(columns={df.columns[-1] : '최대농도'}, inplace=True)
df

In [None]:
# 년도에 따른 황사 최대 농도의 "변화량"
plt.figure(figsize=(15, 5))
plt.plot(df['년도'], df['최대농도'])
plt.title('서울시 년도별 황사 최대농도의 변화 흐름')
plt.xlabel('년도')
plt.ylabel('최대농도')
plt.grid(True, linestyle='--')

plt.show()

In [None]:
# 주의보 발령일수, 경보 발령일수 비교
plt.figure(figsize=(15, 5))
plt.plot(df['년도'], df['경보 발령횟수'], label='경보발령횟수')
# alpha : 투명도 지정 (0 ~ 1사이 실수)
plt.plot(df['년도'], df['주의보 발령횟수'], label='주의보발령횟수', alpha=0.8)
plt.title('서울시 황사 경보/주의보 년도별 변화 흐름')
plt.grid(True, linestyle=':')

plt.legend()	# legend(loc='upper center') -> 위에서 가운데 가로(left, center, right) 세로(upper, center, lower)
plt.show()

## 최대 농도와 관측일 수의 연도별 변화를 시각화
- ### 하나의 축을 공유하고 두개의 축을 가지는 그래프 그리기
- 값의 범위(Scale)이 다른 두 값과 관련된 그래프를 한 Axes(subplot)에 그리는 경우
- X축을 공유해 2개의 Y축을 가지는 그래프
    - axes.twinx() 를 이용해 axes를 복사
- Y축을 공유해 2개의 X축을 가지는 그래프
    - axes.twiny() 를 이용해 axes를 복사

In [None]:
df[['년도', '관측일수', '최대농도']]

plt.plot(df['년도'], df['관측일수'], label='관측일수')
plt.title('년도 별 관측일수와 최대농도 흐름')
plt.xlabel('년도')
plt.ylabel('관측일수')
plt.twinx()
plt.plot(df['년도'], df['최대농도'], label='최대농도', color='red')
plt.ylabel('최대농도')

plt.legend(ncol=2)
plt.show()

In [None]:
# ax = plt.gca()
plt.plot(df['년도'], df['관측일수'], label='관측일수변화', color='#312C6A')
plt.plot(df['년도'], df['최대농도'], label='최대농도변화', color='indianred')

plt.legend(ncol=2)
plt.show()

In [None]:
# y축을 다르게 해서 시각화, x축은 년도로 공유 -> axes.twinx()
plt.figure(figsize=(15, 5))
ax1 = plt.gca()
ax2 = ax1.twinx()					# ax1과 x축을 공유하는 subplot를 생성

ax1.plot(df['년도'], df['관측일수'], label='관측일수변화', color='indianred')
ax2.plot(df['년도'], df['최대농도'], label='최대농도변화', color='#312C6A')

ax1.set_title('년도별 관측일수/최대농도 변화 추이', fontsize=30)
ax1.set_xlabel('년도', fontsize=20)
ax1.set_ylabel('관측일수', fontsize=20)
ax2.set_ylabel('최대농도', fontsize=20)

ax1.legend(bbox_to_anchor=[1.0, 1.0], loc='upper right')
ax2.legend(bbox_to_anchor=[1.0, 0.9], loc='upper right')
plt.show()

> ## Legend box 설정
> ### legend box 위치 지정
> - loc : subplot box 안에 legend box를 위치시킬때 사용하며 미리 지정된 위치 이용 (vertical  horizontal). 
>     - vertical: lower, upper
>     - horizontal: left, right
>     - 가운데 왼쪽, 가운데 오른쪽: left, right 만 지정
>     - 정가운데 : center
> 
> - bbox_to_anchor, loc 같이 사용: 위치를 자유롭게 지정할 수 있다. 보통 subplot box 밖에 legend box를 위치시킬때 사용한다.
>     - bbox_to_anchor: subplot box의 어느 위치(좌표)에 legend box를 위치할 지 지정. 
>     - tuple로 (x위치, y위치) 각 위치는 0 ~ 1사이 실수를 가진다.(0,1은 양 끝단)
>     - loc: **legend box를 기준**으로 anchor(bbox_to_anchor의 좌표)의 위치를 지정한다. (upper right => legend box의 upper right에 bbox_to_anchor의 좌표가 위치하게 legend box를 둔다.)
> 
> - bbox_to_anchor
> ```
>  전체 박스를 그래프라고 보고 
>  하단 : (0,0), (1,0)
>  상단 : (0,1), (1,1)
> ```
> 
> - ex)
> ```
> plt.legend(bbox_to_anchor=(0.5,1), loc='upper right')
> ```
> 
> - anchor 좌표: 수평: 중간(0.5), 수직: 상단
> - legend box 위치: legend box의 위 오른쪽에 anchor가 있도록 한다. (anchor기준으로는 legend box는 아래 왼쪽에 있게 된다.) **기준이 legend box다**
> 
> ## legend box 기타 설정
> - ncol : 정수 
>     - label을 지정한 개수의 열에 나오도록 한다.
>     - 범례의 항목이 만들때 사용
> - fontsize: 정수 
>     - 글자 크기 지정 (10이 기본)

# 2. 산점도 (Scatter Plot) 그리기
## 2.1 산점도(산포도)
- X와 Y축을 가지는 좌표평면상 관측값들을 점을 찍어 표시하는 그래프
- 변수(Feature)간의 상관성이나 관측값들 간의 군집 분류를 확인할 수 있다.
- `scatter()` 메소드 사용
    - 1번인수 : x값, 2번인수 y값
    - x와 y값들을 모두 매개변수로 전달해야 한다.
    - x,y 의 인수는 스칼라 실수나 리스트 형태의 객체들을 넣는다.
        - 리스트
        - 튜플
        - numpy 배열 (ndarray)
        - 판다스 Series
    - x와 y의 원소의 수는 같아야 한다.

In [None]:
df[['주의보 발령횟수', '경보 발령횟수']]

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = range(1, 1001, 50)
y = range(1, 1001, 50)
y2 = range(1000, 0, -50)

plt.scatter(x, y, marker=',')
plt.scatter(x, y2, marker='*', s=200, alpha=0.5)
plt.show()

## 2.2 설정
- marker (마커)
    - marker란 점의 모양을 말하며 미리정의된 값으로 변경할 수있다.
    - scatter() 메소드의 marker 매개변수를 이용해 변경한다. 
    - https://matplotlib.org/stable/api/markers_api.html
- s
    - 정수: 마커의 크기
- alpha    
    - 하나의 마커에 대한 투명도
    - 0 ~ 1 사이 실수를 지정 (default 1)

## 2.3 산점도 활용

In [None]:
dia  = pd.read_csv('./data/diamonds.csv')
dia.shape

In [None]:
dia.info()

###  캐럿(carat)과 가격(Price)간의 상관관계 시각화

In [None]:
# 상관관계 -> 비례 or 반비례 관계인지 확인
# 원인이 되는것 -> x축 / 결과가 되는것 -> y축을 지정
plt.figure(figsize=(7, 7))
plt.scatter(dia['carat'], dia['price'], alpha=0.1)
plt.xlabel('carat')
plt.ylabel('price')

plt.show()

> - 상관계수 
>     - 두 변수간의 상관관계(연관관계)를 수치적으로 계산한 값.
>         - 양수: 양의 상관관계(비례), 음수: 음의 상관관계(반비례)
>             - 양: 0 ~ 1,  음: -1 ~ 0
>         - 1로 갈수록 강한상관관계, 0으로 갈수록 약한 상관관계
>             - 1 ~ 0.7: 아주 강한 상관관계
>             - 0.7 ~ 0.3 : 강한 상관관계
>             - 0.3 ~ 0.1 : 약한 상관관계
>             - 0.1 ~ 0 : 관계없다.

In [None]:
# numpy -> numpy.corrcodf(x, y)
# pandas -> df.corr()
np.corrcoef(dia['carat'], dia['price'])

In [None]:
"""상관관계 결과
[		carat		price
carat	[1.       , 0.9215913],
price	[0.9215913, 1.       ]
]
"""

In [None]:
dia.corr()

# 3. 막대그래프 (Bar plot) 그리기
## 3.1 막대그래프(Bar plot)

- 수량/값의 크기를 비교하기 위해 막대 형식으로 나타낸 그래프
- 범주형 데이터의 class별 개수를 확인할 때 사용
- bar(x, height) 메소드 사용
    - x : x값, height:  막대 높이
        - X는 분류값, height는 개수
- barh(y, width) 메소드
    - 수평막대 그래프
    - 1번인수: y값, 2번인수: 막대 너비  
- 매개변수
    - 첫번째: 수량을 셀 대상
    - 두번째: 수량

In [None]:
import matplotlib.pyplot as plt

fruits = ['apple', 'banana', 'watermelon', 'mango']
amounts = [150, 70, 90, 250]

plt.figure(figsize=(15, 7))
plt.subplot(121)
plt.bar(fruits, amounts, width=0.5)
# 각 막대에 수량값을 text로 그리기 -> plt.text(x위치, y위치, text)
# x, y위치 -> tick_value으로 지정
for x_coor, y_coor in enumerate(amounts) :
	plt.text(x_coor - 0.07, y_coor + 2, str(y_coor))

plt.xlabel('fruit')
plt.ylabel('amount')
plt.ylim(0, 270)			# y축의 값의 범위를 지정
plt.grid(True, linestyle=':')

plt.subplot(122)
plt.barh(fruits, amounts, height=0.2)
plt.xlabel('amount')
plt.ylabel('fruit')
plt.grid(True)

plt.tight_layout()			# 한 개의 figure에 여러 개의 subplot을 작성할 때 배치를 알맞게 해준다.
plt.show()

## 3.2 막대그래프 활용
- [강수량추이](http://www.index.go.kr/potal/main/EachDtlPageDetail.do?idx_cd=1401)

In [None]:
rain = pd.read_excel('./data/precipitation.xlsx', index_col=0)
rain

In [None]:
# 2009년도의 계절별 강수량을 비교
plt.figure(figsize=(5, 3))

plt.bar(rain.index, rain[2009])
plt.ylabel('강수량')

plt.show()

In [None]:
# 년도별 봄 강수량 비교
plt.figure(figsize=(15, 15))

plt.subplot(211)
plt.bar(rain.columns, rain.loc['봄'])
plt.xlabel('년도')
plt.ylabel('강수량')

plt.subplot(212)
plt.plot(rain.columns, rain.loc['봄'])
plt.xlabel('년도')
plt.ylabel('강수량')

plt.show()