# Pandas & Preprocessing
FIRA 빅데이터 플랫폼 과정 <데이터마이닝> - 2017.08.11.금 09:00-13:00

### 1. Pandas Tutorial
- 1-1. Data Structure
- 1-2. Selection : Getting, Slicing
- 1.3. Add New Rows & Columns
- 1-4. Inspection
- 1-5. Arithmetic
- 1-6. Map & Apply Function
- 1-7. Sort
    
### 2. Preprocessing
- 2-1. Data from .csv, .sql to DataFrame
- 2-2. Merge/Join two DataFrame : .merge()
- 2-3. Fill or Abandon NaN values
- 2-4. Save & Load as DataFrame : pickle
- 2-5. Data Summary : .groupby()

### 실습 : 군집화 실습 데이터 기본 전처리
    
### 3. Basic Visualization : Scatter Plot of Normalized Total Volume vs. Normalized Value
- 3-1. `matplotlib.pyplot`
- 3-2. `bokeh.js`

### 1. Pandas Tutorial
---
Pandas는 NumPy를 기반으로 하는 데이터 분석에 최적화된 파이썬 라이브러리입니다. Series, DataFrame의 데이터 구조를 제공하고 이를 계산하는 도구를 제공하여 데이터 분석을 보다 편리하게 해줍니다.

In [None]:
# import package - version check 필수

#### 1.1. Data Structure
---
##### pd.Series 
1. Labeling이 가능한 1차원 Array Object 
2. 모두 같은 데이터형을 가집니다.

In [None]:
# index가 ['a', 'b', 'c', 'd']이고, 값이 [3, -5, 7, 4]인 Series

##### pd.DataFrame 
1. Labeling이 가능한 2차원 Array Object
2. column 별로 서로 다른 데이터형을 가질 수 있습니다.

In [None]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

In [None]:
# 위의 데이터를 DataFrame으로 변환

#### 1.2. Selection : Getting, Slicing
---

##### Getting

In [None]:
# Series : By index

In [None]:
# DataFrame : By Row 

In [None]:
# DataFrame : By column

##### Slicing
* df.iloc : index를 통한 slicing
* df.loc : index, label을 통한 slicing

In [None]:
# By Position

In [None]:
# By Label

##### Boolean Indexing (Mask)
해당 조건을 만족하는 부분만 slicing - True/False 기반

In [None]:
# s에서 1보다 큰 부분만 출력

In [None]:
# Boolean Mask?

In [None]:
# 부정 조건

In [None]:
# OR

In [None]:
# Popluation이 1200000000 이상인 경우만 Slicing

#### 1.3. Adding a New Row & Column
---
##### Row

In [None]:
# Adding new or update row : 'Country 4' - ['Korea', 'Seoul', 50000000, 'Asia']

*Q. .iloc으로 새로운 행을 추가할 수 있는가? 그 이유는?*

In [None]:
# Can't use iloc

##### Column

In [None]:
# adding new or update columns : 'Continent' - ['Europe', 'Asia', 'America']

#### 1.4. Inspection
---

In [None]:
# DataFrame 크기 정보

In [None]:
# 행 정보

In [None]:
# 열 정보

In [None]:
# 상세 정보 : 행 정보, 열 정보 및 데이터형, 메모리

#### 1.5 Arithmetic
---
##### 모든 타입 공통

In [None]:
# 열/행별 데이터 개수

In [None]:
# 열/행별 합

In [None]:
# 열/행별 누적합

In [None]:
# 열별 최소

In [None]:
# 행별 최소

In [None]:
# 열별 최대

##### 수치형 데이터

In [None]:
# Population 최소 / 최대

In [None]:
# Population이 최소인 index

In [None]:
# 또다른 표현 방법

In [None]:
# Population이 최대인 index

In [None]:
# 열별 기본 수치 정보

In [None]:
# 엷별 평균

#### 1.6 Map & Apply Function
---
##### Series : .map

In [None]:
s.map(print)

In [None]:
# square function 정의 후, series에 적용해보자

##### DataFrama : .apply, .applymap

In [None]:
num_data = {
   'a' : [1, 2, 3],
   'b' : [4, 5, 6],
   'c' : [7, 8, 9]
}

In [None]:
num_df = pd.DataFrame(num_data)

In [None]:
# 셀 단위로 적용

In [None]:
# 열/행 단위로 적용

#### 1-7. Sort
---
특정 컬럼을 기준으로 정렬 가능

In [None]:
# Popluation을 기준으로 내림차순 정렬

### 2. Preprocessing
---
- 2-1. Data from .csv, .sql to DataFrame 
- 2-2. Merge/Join two DataFrame : .merge()
- 2-3. Fill or Abandon NaN values
- 2-4. Save & Load as DataFrame : pickle
- 2-5. Data Summary : .groupby()

##### 사용 데이터 : 2016 US Election (Kaggle) - 2016년 미 대선 정당별 대선 후보 경선 결과
- primary_results : 24611 x 8 (공화당, 민주당 대통령 후보 경선 결과)
- county_facts : 3195 x 54 (state, couty별 인구, 주거, 기업, 유통 등 특성 정보)
- county_facts_dictionary : county_facts의 column에 대한 설명 (50개)

#### 2-1. Data from .csv, .sql to DataFrame
---
##### pd.read_sql & sqlite3

In [None]:
# import package

In [None]:
# connect sqlite3 - database.sqlite

In [None]:
# pd.read_sql(query, con)

##### pd.read_csv

In [None]:
# county_facts_df

*Q. `county_facts.csv`를 부른 DataFrame을 State와 County로 분리하여 각각 state_df, county_df로 나누어라*
<br>
- Hint : fips는 지역번호를 나타내며, 0은 미국 전체, 천의 자리 이상은 주를 나타낸다

In [None]:
# state_df
# county_df

In [None]:
# primary_df

#### 2-2. Merge/Join two DataFrames : .merge()
---
* 어떤 df를 기준으로 통합할 것인가?
* 통합할 때 key가 되는 열은 무엇인가?
* 어떻게 통합할 것인가?

*Q. inner? outer?*

#### 2-3. Fill or Abandon NaN
---

In [None]:
# check NaN in data

*Q. 2-2의 DataFrame을 공화당과 민주당의 결과로 분리하여 각각 rep_df, dem_df로 나누어라* 

In [None]:
# rep_df
# dem_df

#### 2-4. Save & Load DataFrame : pickle
---

In [None]:
# import package

In [None]:
# save as DataFrame

In [None]:
# load as DataFrame

#### 2-5. Data Summary  : .groupby()
---

In [None]:
# 공화당 후보들이 각각 받은 votes를 계산

#### 실습 : 군집화 실습 데이터 전처리하기
---
군집화 실습을 위해 사용할 데이터를 미리 전처리해보자

##### 분석에 도움되는 프로그래밍 팁
- immutable : 되도록 한번 할당된 변수를 다른 값으로 덮어쓰는 것은 피할 것

##### 사용 데이터 : 비누 구매 고객 데이터 (교재 21.6) - `BathSoap.xlsx`
- sheet3 : DM_Sheet, 멤버 정보 및 비누 구입 정보
- sheet4 : Durables, 멤버들의 비누 이외 타물품 소유 정보

In [None]:
# Brand 정보
brand_code_description = pd.read_csv('BathSoapBrandCode.csv')
brand_code_description

In [None]:
# columns, Durables 정보
all_columns_description = pd.read_csv('BathSoapCodelList.csv')
all_columns_description

##### pd.read_excel
`BathSoap.xlsx` 파일에서 데이터가 있는 sheet를 DataFrame으로 변환
* pd.read_excel document 참고
* sheet 위치, header로 쓸 row를 잘 지정할 것
* row의 시작은 0

In [None]:
# df
# durable_df

##### pd.merge
Durable과 Dm_Sheet의 DataFrame을 통합
* 합치는 키가 되는 column을 잘 살필 것
* 합치는 방법을 잘 결정할 것

In [None]:
# merged_df

##### 결측치 처리  - pd.fillna OR delete rows
* NaN이 있는 행부터 찾을 것
* 해당 행의 성질에 따라 행의 값을 채우거나 지울 것
* 위의 과정을 시행할 때 `nan_filled_df` 등으로 원래의 df를 copy()해서 진행할 것 - immutable

In [None]:
# check NaN by row

# Nan이 아닌 부분만 DataFrame으로 다시 생성
    # nafilled_df

##### Scaling 
* 수치형 데이터인 열은 대부분 normalizaion 해주는 것이 좋다
* Scaling이 필요하다고 생각하는 수치형 데이터인 열을 찾아서 열별로 Standard Scaling 해준다
    * Statndard : x-열의 평균/열의 표준편차
* 위의 과정을 시행할 때 scaled_df 등으로 원래의 df를 copy()해서 진행할 것 - immutable

In [None]:
# Choose columns

# 위의 컬럼들을 Scaling

# scaled_df로 저장

##### Save DataFrame

### 3. Basic Visualization : Scatter Plot of Normalized Total Volume vs. Normalized Value
---
#### 3-1. `matplotlib.pyplot`

In [None]:
import matplotlib.pyplot as plt

In [None]:
xaxis_label = 'Noramlized Total Volume'
yaxis_label = 'Noramlized Value'
x_range = [-2, 5]
y_range = [-2, 5]

# plt.scatter
# xlabel
# ylabel
# xlims
# ylims
# show

#### 3-2. `bokeh.js`

In [None]:
from bokeh.plotting import figure, output_notebook, show
from bokeh.models import HoverTool, ColumnDataSource

In [None]:
xaxis_label = 'Noramlized Total Volume'
yaxis_label = 'Noramlized Value'
x_range = [-2, 5]
y_range = [-2, 5]

title = 'Total Volume vs. Value '
TOOLS="hover,crosshair,pan,wheel_zoom,box_zoom,reset,tap,previewsave,box_select"


# output_notebook()

# data source as ColumnDataSource

# figure

# plot kind

# xaxis label
# yaxis label

# hover Setting

# show