# Pandas & Preprocessing
FIRA 빅데이터 플랫폼 과정 <데이터마이닝> - 2017.08.11.금 09:00-13:00

### 1. Pandas Tutorial
- 1-1. Data Structure
- 1-2. Selection : Getting, Slicing
- 1.3. Add New Rows & Columns
- 1-4. Inspection
- 1-5. Arithmetic
- 1-6. Map & Apply Function
- 1-7. Sort
    
### 2. Preprocessing
- 2-1. Data from .csv, .sql to DataFrame
- 2-2. Merge/Join two DataFrame : .merge()
- 2-3. Fill or Abandon NaN values
- 2-4. Save & Load as DataFrame : pickle
- 2-5. Data Summary : .groupby()

### 실습 : 군집화 실습 데이터 기본 전처리
    
### 3. Basic Visualization : Scatter Plot of Normalized Total Volume vs. Normalized Value
- 3-1. `matplotlib.pyplot`
- 3-2. `bokeh.js`

### 1. Pandas Tutorial
---
Pandas는 NumPy를 기반으로 하는 데이터 분석에 최적화된 파이썬 라이브러리입니다. Series, DataFrame의 데이터 구조를 제공하고 이를 계산하는 도구를 제공하여 데이터 분석을 보다 편리하게 해줍니다.

In [1]:
# import package - version check 필수
import pandas as pd

#### 1.1. Data Structure
---
#### pd.Series 
1. Labeling이 가능한 1차원 Array Object 
2. 모두 같은 데이터형을 가집니다.

In [2]:
# index가 ['a', 'b', 'c', 'd']이고, 값이 [3, -5, 7, 4]인 Series
s = pd.Series([3, -5, 7, 4], index=['a','b','c','d']) #index가 행번호처럼 1열에 생성됨
s
# s[1:] index 0을 제외한 index 1~끝까지 data나옴
# 1차원이니 열은 없음 따라서, 열단위로 값을 불러올 순 없다.

a    3
b   -5
c    7
d    4
dtype: int64

#### pd.DataFrame 
1. Labeling이 가능한 2차원 Array Object
2. column 별로 서로 다른 데이터형을 가질 수 있습니다.

In [3]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}
# dict 형태이며 key값이 column명이됨

In [4]:
# 위의 데이터를 DataFrame으로 변환
#df = pd.DataFrame(data)

df = pd.DataFrame(data, index=[7,8,9])
#index는 rowname을 바꿔주는것임.
#index = (1,2,3) or index=[1,2,3] 이렇게 해줘도 됨
#칼럼 순서는 어떻게 바꿔주지??
df

Unnamed: 0,Capital,Country,Population
7,Brussels,Belgium,11190846
8,New Delhi,India,1303171035
9,Brasília,Brazil,207847528


#### 1.2. Selection : Getting, Slicing
---

##### Getting

### [시작row_idx, 끝row_idx]
### 주의!!!! row_idx는 첫번째 행이 0이다.

In [5]:
# Series : By index(series에서 index는 series에서 쓰는 index이다)
# 1차원이니 row index를 입력해서 값들을 get할 수 있다.
#(예) 두가지 방식으로 Getting할 수 있다.
s['b']
print(s[1])
print(s['a'])

-5
3


#### DataFrame : Row 불러오기(row index 번호를 써준다)

In [6]:
# 한 row가져오기 df[시직row_idx, 끝row_idx] : range랑 다르게 시작이 포함안된다. df[1:]는 1행뺴고나온다(column명은 0행)
df[1:] # index 1행부터 가져온다.(첫번쨰 행은 0이다.)
#df[0:0] : column명들만 나온다(특이케이스) & index 0하면 여기부분은 자동으로 포함됨
#df[0:1] : column명하고 index 0행이 나온다 -> [0:1] 단순히 row index 0이라 생각하자

Unnamed: 0,Capital,Country,Population
8,New Delhi,India,1303171035
9,Brasília,Brazil,207847528


#### DataFrame : Column 불러오기(Column 명을 써준다)
#### ※Column을 여러개 불러야할 땐, [ ]를 2개 중첩해서 써야한다.
#### (예) df[['Country', Population]]

In [7]:
# Column 1개 부르기 : df['칼럼명1', '칼럼명2']
df['Capital']
# Column 2개 부르기(대괄호 2개해야한다)
#df[['Capital','Country']]

7     Brussels
8    New Delhi
9     Brasília
Name: Capital, dtype: object

##### Slicing
* df.iloc : index를 통한 slicing(only index만 써줘야한다)
* df.loc : index, label을 통한 slicing(row index, cloumn이름)

In [8]:
# By Position
#df.iloc[0,0] # [row index 0, col index 0]을 뜻함 
#df.iloc[0,1]

#column만 부르는 방법 : df.iloc[0:, 원하는 col index]
# ※df.iloc[0:, 1] = df['Country'] =df.loc[0:,'Country']

#df.iloc[1:,0] #행은 index 1:끝까지, 열은 index 0만 나옴
#이렇게 부르면(열을 한줄만 부르게되면) series가 불러짐(맨아랫줄에 Name: Capital, dtype : object가 나옴)

df.iloc[[1,0],0] # row: 0번, 1번 그리고 0번쨰 column 
#★순서가 row index 1번이 먼저 나오는게 특징

#df.iloc[1:,0] #이건 1번 row부터 쭉 다나오는데 column은 0번

8    New Delhi
7     Brussels
Name: Capital, dtype: object

### df.loc[row_idx, 'col이름']
### : 주의사항으로 row_idx는 우리가 준 idx이고 iloc row_idx는 첫row가 0이다.

In [9]:
# By Label(row name과 col name을 써준다) int형 row name에는 ''쓰면 error발생
#df.loc[1, 'Capital'] #df.loc[row 이름, col 이름]
#df.iloc[0,0]과 같다.

##### Boolean Indexing (Mask) : 마스크를 씌운다고 표현함
해당 조건을 만족하는 부분만 slicing - True/False 기반

In [10]:
#사용할 data
s = pd.Series([3, -5, 7, 4], index=['a','b','c','d'])
s

a    3
b   -5
c    7
d    4
dtype: int64

In [11]:
# s에서 1보다 큰 부분만 출력
s[s>1] #s>1이 참인 값들만 출력

a    3
c    7
d    4
dtype: int64

In [12]:
# Boolean Mask? : 이렇게 True, False값으로 mask를 씌운다고 이해하자
s>1

a     True
b    False
c     True
d     True
dtype: bool

In [13]:
# 부정 조건 : 부정조건은 '~'를 써준다 ()를 안 써줘도 된다.
s[~(s>1)]
#s[~s>1] 도 가능

b   -5
dtype: int64

In [14]:
# OR :Enter위에 있는 자판으로 쓸 수 있음. / ( ) 안 씌워주면 error 발생
s[(s>5) | (s<-1)]

b   -5
c    7
dtype: int64

In [15]:
# Popluation이 1200000000 이상인 경우만 Slicing
#df[df['Population'] > 1200000000]
df[df['Population'] > 1200000000]['Capital'] 
# 인구가 12억 이상인 행에서 'Country'열의 값을 찾는 것임.

8    New Delhi
Name: Capital, dtype: object

#### df.index와 df.columns

In [16]:
#df[df.index != 2] # index 2빼고 보여줌
#df.columns # column명을 확인 할 수 있다.

df.iloc[0:,df.columns != 'Capital'] # Capital 칼럼 빼고 다 보여주는거
#df.loc[1:, df.columns != 'Capital'] / df.columns는 df.iloc df.loc에 다 쓸 수 있다.

Unnamed: 0,Country,Population
7,Belgium,11190846
8,India,1303171035
9,Brazil,207847528


#### 1.3. Adding a New Row & Column
---
#### Row추가하기 : ★ loc만 사용가능 ★

In [17]:
# Adding new or update row : 'Country 4' - ['Korea', 'Seoul', 50000000]
df.loc['Country 4'] = ['Korea', 'Seoul', 50000000]
#df.loc['4'] 해도 dataframe에는 4로 추가된다.
df

#df.iloc[4]로는 추가 못한다. df.iloc은 row추가 용도보다는 row 검색용으로 쓰인다.

Unnamed: 0,Capital,Country,Population
7,Brussels,Belgium,11190846
8,New Delhi,India,1303171035
9,Brasília,Brazil,207847528
Country 4,Korea,Seoul,50000000


*Q. .iloc으로 새로운 행을 추가할 수 있는가? 그 이유는?*
*iloc으로는 새로운 행을 추가할 수 없다*

In [18]:
# Can't use iloc
# df.iloc[4,1] <- 이거 입력하면 에러 남을 알 수 있다.

#### Column 추가하기 : .iloc()이나 .loc() 쓰지않고 df에서 바로 추가해준다.

In [19]:
# adding new or update columns : 'Continent' - ['Europe', 'Asia', 'America']
# column을 추가할땐 df.loc안쓰고 바로 df['칼럼명'] 이렇게 쓴다
df['Continent'] = ['Europe', 'Asia', 'America', 'Asia']
df

Unnamed: 0,Capital,Country,Population,Continent
7,Brussels,Belgium,11190846,Europe
8,New Delhi,India,1303171035,Asia
9,Brasília,Brazil,207847528,America
Country 4,Korea,Seoul,50000000,Asia


#### 1.4. Inspection(DataFrame에 대한 정보 확인)
---

In [20]:
# DataFrame 크기 정보
df.shape 
# 튜플 형식으로 (행갯수, 열갯수) 나옴 index0~4까지 있다는게 아니라 갯수임
#df.shape[0] : df.shape에서 구한 tuple의 index 0을 의미
#df.shape[1] : df.shape에서 구한 tuple의 index 1을 의미

(4, 4)

In [21]:
# 행 정보
df.index
#list(df.index) # [0, 1, 2, 'Country 4'] 이렇게 표현됨
#list(df.index) : list화 시킬 수 있다.

Index([7, 8, 9, 'Country 4'], dtype='object')

In [22]:
# 열 정보
df.columns
#list(df.columns) #마찬가지로 list로 표현 가능 ['Capital', 'Country', 'Population', 'Continent']

Index(['Capital', 'Country', 'Population', 'Continent'], dtype='object')

In [23]:
# 상세 정보 : 행 정보, 열 정보 및 데이터형, 메모리
df.info()
#null 갯수도 나와서 null 갯수 볼 수 있음.

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 7 to Country 4
Data columns (total 4 columns):
Capital       4 non-null object
Country       4 non-null object
Population    4 non-null int64
Continent     4 non-null object
dtypes: int64(1), object(3)
memory usage: 160.0+ bytes


#### 1.5 Arithmetic(행.열 갯수 / 행.열별 sum / 행.열 누적합 / 최대최소 등)
---
##### 모든 타입 공통 <font color=red>★axis=0(열)이 default / axis=1(행)★

In [24]:
# 열/행별 데이터 개수(열별, 행별로 센다는 뜻이다)
# 열별 갯수계산 df.count() 
# 행별 계산df.count(axis=1) / 열별 계산 df.count(axis=0) : axis(default=0)는 다른 함수에서도 쓰인다.
df.count()

Capital       4
Country       4
Population    4
Continent     4
dtype: int64

In [25]:
# 열/행별 합
df.sum()
#df.sum(axis=1) 행별합은 int형식들만 더해준다.

Capital       BrusselsNew DelhiBrasíliaKorea
Country              BelgiumIndiaBrazilSeoul
Population                        1572209409
Continent              EuropeAsiaAmericaAsia
dtype: object

In [26]:
# 열/행별 누적합(index2에는 index 0,1,2값들이 합친게 나옴) : 누적되는 추이를 볼 수 있다.
df.cumsum()

Unnamed: 0,Capital,Country,Population,Continent
7,Brussels,Belgium,11190846,Europe
8,BrusselsNew Delhi,BelgiumIndia,1314361881,EuropeAsia
9,BrusselsNew DelhiBrasília,BelgiumIndiaBrazil,1522209409,EuropeAsiaAmerica
Country 4,BrusselsNew DelhiBrasíliaKorea,BelgiumIndiaBrazilSeoul,1572209409,EuropeAsiaAmericaAsia


In [27]:
# 열별 최소
df.min()

Capital       Brasília
Country        Belgium
Population    11190846
Continent      America
dtype: object

In [28]:
# 행별 최소 : 여기 data에서 행별로보면 string들이 섞여있고 숫자는 1개만 있어서 의미없음.
df.min(axis=1)

7              11190846
8            1303171035
9             207847528
Country 4      50000000
dtype: int64

In [29]:
# 행별 최대
df.max(axis=1)

7              11190846
8            1303171035
9             207847528
Country 4      50000000
dtype: int64

In [30]:
# 열별 최대
df.max(axis=0)

Capital        New Delhi
Country            Seoul
Population    1303171035
Continent         Europe
dtype: object

##### 수치형 데이터

In [31]:
# Population 최소 / 최대 : string부분 빼고 수치있것만 뽑아서 계산해야함
#최소
df['Population'].min()
#최대
#df['Population'].max()

11190846

In [32]:
# Population의 값이최소인 index : 마찬가지로 수치형에만 가능
df['Population'].idxmin()
#df['Population'].argmin()이라고도 쓸 수 있다.

# Population의 값이 최대인 index
df['Population'].idxmax()

8

In [33]:
# 열별 기본 수치 정보(describe()) : 중간값, 평균, 4분위수 : 알아서 수치형 찾음
print('\n',df.describe())
print('\n', df.info())


          Population
count  4.000000e+00
mean   3.930524e+08
std    6.126772e+08
min    1.119085e+07
25%    4.029771e+07
50%    1.289238e+08
75%    4.816784e+08
max    1.303171e+09
<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 7 to Country 4
Data columns (total 4 columns):
Capital       4 non-null object
Country       4 non-null object
Population    4 non-null int64
Continent     4 non-null object
dtypes: int64(1), object(3)
memory usage: 320.0+ bytes

 None


In [34]:
# 열별 평균 : 알아서 수치형 찾아서 수치형 자료만 해줌
# 여기선 Population이 수치형이니깐 Population에 대한 mean이 계산됨
df.mean()

Population    3.930524e+08
dtype: float64

#### 1.6 Map & Apply Function
---
##### Series : .map

In [35]:
s.map(print)
# None이 나오는건 print의 return값이 none이라서(return값은 원래 없음)
# 3, -5, 7, 4만 나오는게 아니라 index인 a b c d에 대해서 None이라고도 나옴.

3
-5
7
4


a    None
b    None
c    None
d    None
dtype: object

In [36]:
# square function 정의 후, series에 적용해보자
square_f = lambda x : x*x
s.map(square_f)

a     9
b    25
c    49
d    16
dtype: int64

### DataFrama : .apply, .applymap

In [37]:
num_data = {
   'a' : [1, 2, 3],
   'b' : [4, 5, 6],
   'c' : [7, 8, 9]
}
# a, b, c는 column명으로 들어간다.

In [38]:
num_df = pd.DataFrame(num_data, index=[1,2,3])
num_df

Unnamed: 0,a,b,c
1,1,4,7
2,2,5,8
3,3,6,9


In [39]:
# 셀 단위로 적용
num_df.applymap(print) #123 123이 2번 나오는 이상한 현상: 조교도 잘 모름.
#num_df.applymap(sum) 
#에러발생 값이 1개일때 sum 이 안됨 sum(1)은 에러임

1
2
3
1
2
3
4
5
6
7
8
9


Unnamed: 0,a,b,c
1,,,
2,,,
3,,,


In [40]:
# 열/행 단위로 적용

# 열단위로 print해줌
num_df.apply(print)
#행단위 합을 구하는 방법
#num_df.apply(sum, axis=1)


1    1
2    2
3    3
Name: a, dtype: int64
1    4
2    5
3    6
Name: b, dtype: int64
1    7
2    8
3    9
Name: c, dtype: int64


a    None
b    None
c    None
dtype: object

## <font color = red> 1-7. Sort
---
특정 컬럼을 기준으로 정렬 가능

In [41]:
# Popluation을 기준으로 내림차순 정렬(df.sort_values('칼럼명'. ascending=False))
df.sort_values('Population', ascending = False) #Population 기준으로 정렬할 거라는 얘기 / default = ascending True임

Unnamed: 0,Capital,Country,Population,Continent
8,New Delhi,India,1303171035,Asia
9,Brasília,Brazil,207847528,America
Country 4,Korea,Seoul,50000000,Asia
7,Brussels,Belgium,11190846,Europe


### 2. Preprocessing
---
- 2-1. Data from .csv, .sql to DataFrame 
- 2-2. Merge/Join two DataFrame : .merge()
- 2-3. Fill or Abandon NaN values
- 2-4. Save & Load as DataFrame : pickle
- 2-5. Data Summary : .groupby()

##### 사용 데이터 : 2016 US Election (Kaggle) - 2016년 미 대선 정당별 대선 후보 경선 결과
- primary_results : 24611 x 8 (공화당, 민주당 대통령 후보 경선 결과)
- county_facts : 3195 x 54 (state, couty별 인구, 주거, 기업, 유통 등 특성 정보)
- county_facts_dictionary : county_facts의 column에 대한 설명 (50개)

#### 2-1. Data from .csv, .sql to DataFrame
---
##### pd.read_sql & sqlite3

In [42]:
# import package
import sqlite3
#sqlite3 프로그램 안 깔려있어도 파일 읽어 올 수 있다.
#import sqlarlchemy

In [43]:
# connect sqlite3 - database.sqlite
connect = sqlite3.connect('database.sqlite')

In [44]:
# pd.read_sql(query, con)
#pd.read_sql('SELECT * FROM primary_results', connect)
pd.read_sql('SELECT * FROM county_facts', connect)
#sqllite3와 연결(connect)을 활용해서 Query문을 read한다

DatabaseError: Execution failed on sql 'SELECT * FROM county_facts': no such table: county_facts

### <font color = red>pd.read_csv 연습
#### 1) county_facts.csv에서 county_facts_df를 만들어보자
#### 2) county_facts_df에서 state_df와 county_df를 만들어보자(fips변수가 Hint)
#### 3) primary_results.csv에서 primary_df를 만들어보자
##### county_df(state, county 별 특성정보)  / primary_df(공화당 민주당 경선결과)

In [None]:
# county_facts_df
county_facts_df = pd.read_csv('county_facts.csv')
county_facts_df

*Q. `county_facts.csv`를 부른 DataFrame을 State와 County로 분리하여 각각 state_df, county_df로 나누어라*
<br>
- Hint : fips는 지역번호를 나타내며, 0은 미국 전체, 천의 자리 이상은 주를 나타낸다

In [None]:
# state_df
state_df = county_facts_df[county_facts_df['fips'] % 1000 == 0 ]
state_df
# county_df
county_df = county_facts_df[county_facts_df['fips'] % 1000 != 0 ]
county_df

In [None]:
# primary_df
primary_df = pd.read_csv('primary_results.csv')
primary_df

#### 2-2. Merge/Join two DataFrames : .merge()
---
* 어떤 df를 기준으로 통합할 것인가?
* 통합할 때 key가 되는 열은 무엇인가?
* 어떻게 통합할 것인가?

#### county_df 와 primary_df를 join해보자(merge함수 이용)
##### county_df(state, county 별 특성정보)  / primary_df(공화당 민주당 경선결과)

In [None]:
primary_county_facts_inner_df = primary_df.merge(county_df, left_on='fips', right_on='fips', how='inner') 
#left_on은 primary_df에서 가져오는 변수, right_on은 county_df에서 가져오는 변수
#NAN이 float라 float인게 있음
primary_county_facts_outer_df = primary_df.merge(county_df, left_on='fips', right_on='fips', how='outer') 
#full outer join이라고 생각하면 된다???
#경선결과가 없는 곳 까지 살아있음.(애초에 집계안했음)
primary_county_facts_inner_df

*Q. inner? outer?*

### <font color = red> Null처리하기 : isnull()을 통해서 null이 있는지 볼 수 있다.
#### 2-3. Fill or Abandon Nan(isnull()을 활용해서 Nan을 확인해보자)
---

In [None]:
# check NaN in data
primary_county_facts_inner_df.isnull().sum().sum() 
#sum에 axis값이 없으니 열별로 Nan이 있는지 없는지 이 방법을 통해서 알 수 있다.

*Q. 2-2의 inner join한 DataFrame으로 공화당과 민주당의 결과로 분리하여 각각 rep_df, dem_df로 나누어라*

In [None]:
# rep_df
rep_df = primary_county_facts_inner_df[primary_county_facts_inner_df['party'] == 'Republican']
rep_df
# dem_df
dem_df = primary_county_facts_inner_df[primary_county_facts_inner_df['party'] == 'Democrat']
dem_df

#### 2-4. Save & Load DataFrame : pickle
#### 가공한 DataFrame을 저장하고 읽어올 수 있음
---

In [None]:
# import package
import pickle

In [None]:
# save as DataFrame
#with open('저장할파일명', 'wb') as f
with open('primary_results.df', 'wb') as f: #wb:write할건데 byte단위로 write할거야
    pickle.dump(primary_county_facts_inner_df, f) #dump: data를 집어넣다
    # pickle.dumps(primary_county_facts_inner_df, f)

In [None]:
# load as DataFrame
with open('primary_results.df', 'rb') as f:
    primary_results_df = pickle.load(f)
#여기서 primary_results_df는 단순히 변수명이다. / 'rb' read해라 byte단위로

#### 2-5. Data Summary  : <font color = red>.groupby()
---

In [None]:
# 공화당 후보들이 각각 받은 votes를 계산
rep_df.groupby('candidate').sum()['votes']
# sum()까지하면 candidate별 모든 col에대한 sum이 구해지니깐 뒤에 ['votes']를 써서 col을 선택

#### 실습 : 군집화 실습 데이터 전처리하기
---
군집화 실습을 위해 사용할 데이터를 미리 전처리해보자

##### 분석에 도움되는 프로그래밍 팁
- immutable : 되도록 한번 할당된 변수를 다른 값으로 덮어쓰는 것은 피할 것

##### 사용 데이터 : 비누 구매 고객 데이터 (교재 21.6) - `BathSoap.xlsx`
- sheet3 : DM_Sheet, 멤버(구매자) 정보 및 비누 구입 정보
- sheet4 : Durables, 멤버(구매자)들의 비누 이외 타물품 소유 정보

#### <font color = red>pd.read_excel
`BathSoap.xlsx` 파일에서 데이터가 있는 sheet를 DataFrame으로 변환
* pd.read_excel document 참고
* sheet 위치, header로 쓸 row를 잘 지정할 것
* row의 시작은 0

In [None]:
# 비누Brand 정보 / 여기서는 read_csv가 아니라 read_excel을 쓴다.
#첫번째 sheet는 sheetname = 0 이다 / header는 컬럼명들을 뜻하며 header=0은 첫번째 row header라는 뜻
brand_code_description = pd.read_excel('BathSoap.xlsx', sheetname = 1, header=1)
brand_code_description

In [None]:
# columns들이 Durables 정보들을 나타낸다(예: Fax machine, Radio Clock)
all_columns_description = pd.read_excel('BathSoap.xlsx', sheetname = 3, header = 4)
all_columns_description

In [None]:
# df
df = pd.read_excel('BathSoap.xlsx', 2, header = 2)
# durable_df
durable_df = pd.read_excel('BathSoap.xlsx', 3, header = 4)

##### pd.merge
Durable과 Dm_Sheet의 DataFrame을 통합
* 합치는 키가 되는 column을 잘 살필 것
* 합치는 방법을 잘 결정할 것

In [None]:
# df와 durable_df를 합치는거
# merged_df
merged_df = df.merge(durable_df, left_on='Member id', right_on = 'MEM', how='inner')
merged_df

#### <font color = red>결측치 처리  - df.fillna OR delete rows
* NaN이 있는 행부터 찾을 것
* 해당 행의 성질에 따라 행의 값을 채우거나 지울 것
* 위의 과정을 시행할 때 `nan_filled_df` 등으로 원래의 df를 copy()해서 진행할 것 - immutable
* fillna는 데이터프레임이름.fillna(nan대신 채울값) 이렇게 사용한다 (예) df.fillna(0)

In [None]:
# check NaN by row
nan_s = merged_df.isnull().sum(axis=1) #시리즈로 nan있는 행을 만들어주는거(열로도 응용가능)
#nan_s[nan_s != 0] : 이걸로 확인 isnull인거 갯수의 합이 0이면 null이 아니라는것임
#통째로 NAN인 행이 4개있다는 것을 알 수 있다.

nan_s[nan_s != 0].index #통째로 Nan인 행들의 index들이 나온다
merged_df[~(nan_s > 0)] # nan이 0인거 즉, nan없는 행들만 뽑힌다.
notNan_df = merged_df[(nan_s==0)] # nan있는 행들을 빼고 새로운 df만듦
# Nan이 아닌 부분만 notNan_df라는 DataFrame으로 다시 생성

#### Scaling(예 : 연봉과 나이는 범위가 너무 다르기때문에 scale을 맞춰주는작업)
* 수치형 데이터인 열은 대부분 normalizaion 해주는 것이 좋다
* Scaling이 필요하다고 생각하는 수치형 데이터인 열을 찾아서 열별로 Standard Scaling 해준다
    * Statndard : x-열의 평균/열의 표준편차
* 위의 과정을 시행할 때 scaled_df 등으로 원래의 df를 copy()해서 진행할 것 - immutable

In [None]:
# Choose columns

# 위의 컬럼들을 Scaling

# scaled_df로 저장

##### Save DataFrame

### 3. Basic Visualization : Scatter Plot of Normalized Total Volume vs. Normalized Value
---
#### 3-1. `matplotlib.pyplot`

In [None]:
import matplotlib.pyplot as plt

In [None]:
xaxis_label = 'Noramlized Total Volume'
yaxis_label = 'Noramlized Value'
x_range = [-2, 5]
y_range = [-2, 5]

# plt.scatter
# xlabel
# ylabel
# xlims
# ylims
# show

#### 3-2. `bokeh.js`

In [None]:
from bokeh.plotting import figure, output_notebook, show
from bokeh.models import HoverTool, ColumnDataSource

In [None]:
xaxis_label = 'Noramlized Total Volume'
yaxis_label = 'Noramlized Value'
x_range = [-2, 5]
y_range = [-2, 5]

title = 'Total Volume vs. Value '
TOOLS="hover,crosshair,pan,wheel_zoom,box_zoom,reset,tap,previewsave,box_select"


# output_notebook()

# data source as ColumnDataSource

# figure

# plot kind

# xaxis label
# yaxis label

# hover Setting

# show