# Pandas
- [공식 홈페이지](http://pandas.pydata.org/)
- [10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- 도움말 :  `df.<tab>`

## 데이터 생성/읽기/변환하기

In [9]:
# DataFrame으로 변환
from pandas import DataFrame
data = {'ID': ['A1', 'A2', 'A3', 'A4', 'A5'],'X1': [1, 2, 3, 4, 5],'X2': [3.0, 4.5, 3.2, 4.0, 3.5]}
data_df = DataFrame(data, index=['a', 'b', 'c', 'd', 'e']) # converting to DataFrame
data_df.dtypes

ID     object
X1      int64
X2    float64
dtype: object

In [17]:
import pandas as pd
df = pd.read_csv("/home/adioshun/Jupyter/datasets/pandas/signnames.csv") 
df.head(3)

Unnamed: 0,ClassId,SignName
0,0,Speed limit (20km/h)
1,1,Speed limit (30km/h)
2,2,Speed limit (50km/h)


> 에러 : UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte 

> 헤결 : 인코딩 지정, f = pd.read_csv('xx.csv', sep='|'', encoding='CP949')

## pd.DataFrame 만들고 Attributes 조회하기
- T : 행과 열 전치 (transpose)
- axes : 행과 열 이름을 리스트로 반환
- dtypes : 데이터 형태 반환
- shape : 행과 열의 개수(차원)을 튜플로 반환
- size : NDFrame의 원소의 개수를 반환
- values : NDFrame의 원소를 numpy 형태로 반환

In [5]:
# DataFrame.shape 을 사용해서 행(row)과 열(column)의 개수를 확인
df.shape

(43, 2)

In [5]:
df.describe()

Unnamed: 0,ClassId
count,43.0
mean,21.0
std,12.556539
min,0.0
25%,10.5
50%,21.0
75%,31.5
max,42.0


In [20]:
df['SignName'].value_counts()

Priority road                                         1
Yield                                                 1
Turn right ahead                                      1
Dangerous curve to the right                          1
Traffic signals                                       1
Speed limit (80km/h)                                  1
Wild animals crossing                                 1
Bumpy road                                            1
Speed limit (70km/h)                                  1
Dangerous curve to the left                           1
Road work                                             1
General caution                                       1
End of no passing                                     1
Pedestrians                                           1
End of no passing by vehicles over 3.5 metric tons    1
Road narrows on the right                             1
No entry                                              1
Speed limit (100km/h)                           

In [3]:
df.dtypes

ClassId      int64
SignName    object
dtype: object

In [4]:
df.index

RangeIndex(start=0, stop=43, step=1)

In [5]:
df.columns

Index([u'ClassId', u'SignName'], dtype='object')

In [6]:
df.values

array([[0, 'Speed limit (20km/h)'],
       [1, 'Speed limit (30km/h)'],
       [2, 'Speed limit (50km/h)'],
       [3, 'Speed limit (60km/h)'],
       [4, 'Speed limit (70km/h)'],
       [5, 'Speed limit (80km/h)'],
       [6, 'End of speed limit (80km/h)'],
       [7, 'Speed limit (100km/h)'],
       [8, 'Speed limit (120km/h)'],
       [9, 'No passing'],
       [10, 'No passing for vehicles over 3.5 metric tons'],
       [11, 'Right-of-way at the next intersection'],
       [12, 'Priority road'],
       [13, 'Yield'],
       [14, 'Stop'],
       [15, 'No vehicles'],
       [16, 'Vehicles over 3.5 metric tons prohibited'],
       [17, 'No entry'],
       [18, 'General caution'],
       [19, 'Dangerous curve to the left'],
       [20, 'Dangerous curve to the right'],
       [21, 'Double curve'],
       [22, 'Bumpy road'],
       [23, 'Slippery road'],
       [24, 'Road narrows on the right'],
       [25, 'Road work'],
       [26, 'Traffic signals'],
       [27, 'Pedestrians'],
       [

In [18]:
# DataFrame 저장
df.to_csv('New_name.csv', sep=',', na_rep='NaN') 

추천 옵션
- header = True (첫번째 줄을 칼럼 이름으로 사용)
- columns = None (칼럼 이름을 별도 명기하고 싶으면 None 대신에 tuple 로 칼럼 이ㄻ 기입해주면 됨)
- index = True (행의 이름 index 도 같이 내보냄. index 내보내기 싫으면 False 명기)
- encoding = 'utf-8' (on Python 3)
- line_terminator = '\n' (엔터로 줄 바꿈)
- date_format = None (datetime 객체에 대한 format 설정하지 않음)

## DataFrame의 행 또는 열 데이터 선택해서 가져오기
- DataFrame objects indexing and selection

### 행 기준으로 선택해서 가져오기
'ix'를 사용하면 행 기준 indexing할 때 정수(int)와 행 이름(row label) 모두 사용할 수 있어서 편리

In [23]:
df.ix[3]

ClassId                        3
SignName    Speed limit (60km/h)
Name: 3, dtype: object

In [25]:
df.ix[:3]

Unnamed: 0,ClassId,SignName
0,0,Speed limit (20km/h)
1,1,Speed limit (30km/h)
2,2,Speed limit (50km/h)
3,3,Speed limit (60km/h)


In [26]:
df.head(3)

Unnamed: 0,ClassId,SignName
0,0,Speed limit (20km/h)
1,1,Speed limit (30km/h)
2,2,Speed limit (50km/h)


### 열 기준으로 선택해서 가져오기

In [27]:
df.columns

Index([u'ClassId', u'SignName'], dtype='object')

In [32]:
# 열(column) 기준으로 indexing할때는 '[ ]' 안에 열 이름(column label)을 'string' 형식으로 입력해주면 됩니다.
df['ClassId'].head(5)

0    0
1    1
2    2
3    3
4    4
Name: ClassId, dtype: int64

In [35]:
#두 개이상의 열(columns)을 가져오고 싶을 때는 튜플(tuple)을 사용해서 열의 이름을 나열해 주면 됩니다.
df[['ClassId','SignName']].head(5)

Unnamed: 0,ClassId,SignName
0,0,Speed limit (20km/h)
1,1,Speed limit (30km/h)
2,2,Speed limit (50km/h)
3,3,Speed limit (60km/h)
4,4,Speed limit (70km/h)


## DataFrame의 index 재설정(reindex) 

In [37]:
new_idx= ['r0', 'r1', 'r2', 'r5', 'r6']
df.reindex(new_idx)

Unnamed: 0,ClassId,SignName
r0,,
r1,,
r2,,
r5,,
r6,,


## DataFrame 합치기

### pd.concat() [[참고]](http://rfriend.tistory.com/256)

In [46]:
#### row bind : axis = 0, default
df1 = df
pd.concat([df, df1]).tail(5)

Unnamed: 0,ClassId,SignName
38,38,Keep right
39,39,Keep left
40,40,Roundabout mandatory
41,41,End of no passing
42,42,End of no passing by vehicles over 3.5 metric ...


In [47]:
#### 왼쪽 + 오른쪽으로 DataFrame 합치기(cbind) : axis = 1
pd.concat([df, df1], axis=1).tail(5)

Unnamed: 0,ClassId,SignName,ClassId.1,SignName.1
38,38,Keep right,38,Keep right
39,39,Keep left,39,Keep left
40,40,Roundabout mandatory,40,Roundabout mandatory
41,41,End of no passing,41,End of no passing
42,42,End of no passing by vehicles over 3.5 metric ...,42,End of no passing by vehicles over 3.5 metric ...


그외 합치는 방법들 
- 합집합(union)으로 DataFrame 합치기 : join = 'outer'
- 교집합(intersection)으로 DataFrame 합치기 : join = 'inner'
- axis=1일 경우 특정 DataFrame의 index를 그대로 이용하고자 할 경우 : join_axes
- 기존 index를 무시하고 싶을 때 : ignore_index
- 계층적 index (hierarchical index) 만들기 : keys 
- index에 이름 부여하기 : names
- index 중복 여부 점검 : verify_integrity


### append() [[참고]](http://rfriend.tistory.com/257)

### pd.merge() [[참고]](http://rfriend.tistory.com/258)

# 데이터 표준화

- 데이터 분석을 하다 보면 변수들 간의 척도 (scale) 가 서로 다른 경우 직접적으로 상호 비교를 할 수가 없습니다.  모델링에서는 척도(scale)가 다름으로 인해서 모수의 왜곡이 생길 수도 있습니다.
- 따라서 모델링 작업에 들어가기 전에 변수들 간의 척도가 다른 경우에는 보통 표준화(scale standization)를 진행합니다.
- 표준화 중에서도 모집단이 '정규분포 (normal distribution, Gaussian distribution)을 따르는 경우 평균이 0, 표준편차는 1 인 표준정규분포(standard normal distribution)로 표준화 하는 방법을 많이 사용합니다. 

> [참고:표준화 기본](http://rfriend.tistory.com/268)

> [이상치, 특이값이 들어있는 데이터의 표준화 (Scaling data with outliers)](http://rfriend.tistory.com/269)

> [최소 최대 '0~1' 범위 변환 (scaling to 0~1 range) : sklearn.preprocessing.MinMaxScaler()](http://rfriend.tistory.com/270)

## Numpy 를 이용한 표준화
z = (x - mean())/std()

## scipy.stats 을 이용한 표준화
ss.zscore()

## sklearn.preprocessing 을 이용한 표준화
StandardScaler().fit_transform()

# 데이터 재 구조화
![](http://cfile1.uf.tistory.com/image/255C7950585E784E01EF48)

[참고](http://rfriend.tistory.com/275)

## pivot(), pd.pivot_table()

## stack(), unstack()

## melt()

## wide_to_long()

## pd.crosstab() 

# 행, 열 생성(creation), 선택(selection, slicing, indexing), 삭제(drop, delete)
[[참고]](http://rfriend.tistory.com/282)