## 1. 기본 Scatter Plot
Scatter plot의 여러가지 요소와 목적을 알아보자

### 1.1 Scatter plot이란
- Scatter plot은 점을 사용하여 두 feature간의 관계를 알기 위해 사용하는 그래프


- 산점도 등의 이름으로 사용됨 


- 직교 좌표계에서 x축/y축에 feature 값을 매핑해서 사용


- `.scatter()`를 사용

### 1.2 Scatter plot의 요소
점에서 다양한 variation 사용가능(2차원에서 N차원 데이터로 확장 가능)
1. 색(color)
2. 모양(marker)
3. 크기(size)

### 1.3 Scatter plot의 목적
- 상관 관계 확인(양/음의 상관관계, 관계 없음)
- 군집, 값 사이의 차이, 이상치를 확인 가능하다

## 2. 정확한 Scatter Plot

### 2.1 Overplotting
- 점이 많아질수록 점의 분포를 파악하기 힘들다
    - 투명도 조정(점이 몰릴수록 진해진다)
    - 지터링(jittering) : 점의 위치를 약간씩 변경
    - 2차원 히스토그램 : 히트맵을 사용하여 깔끔한 시각화(x,y축에 구간을 나눈다. 구체적인 정보가 부족함)
    - Contour plot : 분포를 등고선을 사용하여 표현(좁을 수록 데이터가 조밀하다)

### 2.2 점의 요소와 인지
- 색
    - 연속은 gradient, 이산은 개별 색상으로
    
    
- 마커
    - 거의 구별하기 힘들고 크기가 고르지 않음
    - 잉크 비례 법칙 위반(원, 세모, 별크기가 고르지않다)
    
- 크기
    - 흔히 bubble chart(버블차트)라고 함
    - 구별하기 쉬우나 오용하기 쉬움(원의 크기 비교)
    - 관계보다 각 점간 비율에 초점을 둔다면 좋음
    - SWOT 분석 등에 활용 가능

### 2.3 인과관계와 상관관계
- 인과 관계(causal relation)과 상관 관계(correlation)은 다름
    - 분석과정에서 꼭 고민 해봐야한다
    
    
- 인과 관계는 항상 사전 정보와 함꼐 가정으로 제시한다


- 상관관계는 heatmap에서 다시 다룸

### 2.4 추세선
- 추세선을 사용하면 scatter의 패턴을 유추할 수 있으나 2개이상이면 가독성이 떨어지므로 주의해야한다.

### 2.5 ETC
- Grid와 상성이 안좋다, 사용을 최소화하거나 지양한다
    - 색은 무채색으로
  
  
- 범주형이 포함된 관계에선 heatmap이나 bubble chart를 추천     

___

# Scatter Plot 사용하기

## 1. 기본 Scatter Plot

### 1-1. scatter() 기본


- `scatter()`

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111, aspect=1)

np.random.seed(970725)

x = np.random.rand(20)
y = np.random.rand(20)

ax.scatter(x, y)
ax.set_xlim(0, 1.05)
ax.set_ylim(0, 1.05)

plt.show()

### 1-2. Scatter Plot의 요소

- 색 (color)
- 모양 (marker)
- 크기 (size)


In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111, aspect=1)

np.random.seed(970725)

x = np.random.rand(20)
y = np.random.rand(20)
s = np.arange(20) * 20

ax.scatter(x, y, 
           s= s,
           c='white',
           marker='o',
           linewidth=1,
           edgecolor='black')

plt.show()

## 2. 정확한 Scatter Plot

### 2-0. 실습

- 이론적인 부분은 다른 라이브러리를 사용하는 것이 더 편리 (통계와 차트 seaborn에서 더 상세)
- [붓꽃 데이터셋](https://www.kaggle.com/uciml/iris)을 사용하여 시각화해봅시다.
    - 상관관계와 봐야하는 것 3가지(클러스터, 값의 차이, 이상치)
    - 어떻게 커스텀할 수 있는지

In [None]:
iris = pd.read_csv('./iris.csv')
iris.head()

In [None]:
iris.describe(include='all')

꽃받침의 길이와 너비의 관계를 살피기 위해 산점도를 그려봅시다.

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

ax.scatter(x=iris['SepalLengthCm'], y=iris['SepalWidthCm'])

plt.show()

특정 조건에 따라 색을 다르게 하면 주의를 더 줄 수 있습니다.

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

slc_mean = iris['SepalLengthCm'].mean()
swc_mean = iris['SepalWidthCm'].mean()

ax.scatter(x=iris['SepalLengthCm'], 
           y=iris['SepalWidthCm'],
           c=['royalblue' if yy <= swc_mean else 'gray' for yy in iris['SepalWidthCm']]
          )

plt.show()

이제 꽃의 종류에 따라 구분하여 그려보겠습니다.

![](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Machine+Learning+R/iris-machinelearning.png)

색을 위와 같이 반복문과 조건문으로 구분할 수도 있지만 범례를 사용할 예정이므로 세 번 나눠그리는 편이 더 편합니다.

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

for species in iris['Species'].unique():
    iris_sub = iris[iris['Species']==species]
    ax.scatter(x=iris_sub['SepalLengthCm'], 
               y=iris_sub['SepalWidthCm'], 
               label=species)

ax.legend()    
plt.show()

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

for species in iris['Species'].unique():
    iris_sub = iris[iris['Species']==species]
    ax.scatter(x=iris_sub['PetalLengthCm'], 
               y=iris_sub['PetalWidthCm'], 
               label=species)

ax.legend()    
plt.show()

시각적인 주의를 주기 위해서 선을 사용할 수도 있습니다. (3차트의 요소-4moreinfo)

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

for species in iris['Species'].unique():
    iris_sub = iris[iris['Species']==species]
    ax.scatter(x=iris_sub['PetalLengthCm'], 
               y=iris_sub['PetalWidthCm'], 
               label=species)

ax.axvline(2.5, color='gray', linestyle=':')    
ax.axhline(0.8, color='gray', linestyle=':')    
ax.legend()    
plt.show()

좀 더 다양한 관점에서 보기 위해 다음과 같이 그려보겠습니다. (3장 차트의 요소 Facet 참고)

In [None]:
fig, axes = plt.subplots(4, 4, figsize=(14, 14))

feat = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']

for i, f1 in enumerate(feat):
    for j, f2 in enumerate(feat):
        if i <= j : 
            axes[i][j].set_visible(False)
            continue
        for species in iris['Species'].unique():
            iris_sub = iris[iris['Species']==species]
            axes[i][j].scatter(x=iris_sub[f2], 
                               y=iris_sub[f1], 
                               label=species, 
                               alpha=0.7)
        if i == 3: axes[i][j].set_xlabel(f2)
        if j == 0: axes[i][j].set_ylabel(f1)

plt.tight_layout()        
plt.show()

> 나머지 구현 방법(2d hist와 contour plot)은 4.통계와 차트 relation에서 더 자세하게 다루도록 하겠습니다.