### Pandas
- https://pandas.pydata.org/
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python 라이브러리
- Series
    - index, value로 이루어진 데이터
- DataFrame
    - index, column, value로 이루어진 데이터

# Pandas Summary
- http://pandas.pydata.org/pandas-docs/stable/10min.html
- Object Creation
- Viewing Data
- Selection
- Setting
- Missing Data
- Operations
- Merge
- Grouping
- Reshaping
- Pivot Tables
- Time Series
- Plotting

In [1]:
import numpy as np
import pandas as pd

##### create Series
##### create DataFrame

In [2]:
s = pd.Series([1,3,5,np.nan,6,8])
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randint(-5, 5, size=(6,4)), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,2,-2,-3,3
2013-01-02,1,0,0,0
2013-01-03,-2,0,-3,3
2013-01-04,0,3,-1,-3
2013-01-05,-3,4,1,-2
2013-01-06,1,0,-3,-4


In [3]:
df2 = pd.DataFrame({ 'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


### Viewing Data
- df.head()
- df.tail()
- df.index
- df.columns
- df.values
- df.describe()
- df.T

### Getting
- df['A'] 
    - $\rightarrow$  'A' column 


- df[0:3] 
    - $\rightarrow$  row 3개


- df.loc[indexls[0]] 
    - $\rightarrow$  0번 row 1개


- df.loc[:,['A','B']] 
    - $\rightarrow$ 'A','B' column


- df.loc['indexvalue1':'indexvalue2',['A','B']] 
    - $\rightarrow$  해당범위 row


- df.loc['20130102', ['A','B']] 
    - $\rightarrow$  해당 row 1개


- df.iloc[3] 
    - $\rightarrow$  해당 row 1개


- df.iloc[3:5,0:2] 
    - $\rightarrow$ 3~4번 row, 0~1번 column

### Boolean Indexing

- df[df.A > 0] 
    - $\rightarrow$ A column의 값이 0보다 크면 해당 row 

### isin method

- df['E'].isin(['1','3']) 
    - $\rightarrow$ F column의 값이 1,3 이면 True 아니면 False인 serise
    
    
- df[df['E'].isin(['1','3'])] 
    - $\rightarrow$ F column의 값이 1,3 이면 해당 row 로 df만듦

### Setting
- df['F'] = s1
    - $ \rightarrow$ s1을 F column으로 새로운 column 추가
    
- df.at[indexls[0],'A'] = 0
    -  $ \rightarrow$ 0번 인덱스 'A' column의 값을 0으로 바꿈
    
- df.iat[0,1] = 0
    -  $ \rightarrow$ 0번 인덱스 1번 column의 값을 0으로 바꿈
     
- df[df > 0] = -df2
    - $ \rightarrow$ 0보다 큰 값은 -를 붙임
    
### Missing Data

- d1.dropna(how='any')
    - $ \rightarrow$ NaN값이 있으면 해당 row 삭제
    
- df.dropna(how='all')
    - $ \rightarrow$ 모든 값이 NaN값이면 해당 row 삭제
    
- df.fillna(value=5)
    - $ \rightarrow$ NaN값이면 5를 넣는다
    
- df.shift(2)
    - $ \rightarrow$ row가 밑으로 2칸식 이동(비게 되는 곳은 NaN)
    
- df.drop(['A', 'B'], axis=1)
    - $ \rightarrow$ Drop columns
    
### Histogramming
- http://pandas.pydata.org/pandas-docs/stable/basics.html#basics-discretization

In [4]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    6
1    5
2    0
3    6
4    3
5    2
6    0
7    3
8    4
9    5
dtype: int64

In [5]:
s.value_counts()

6    2
5    2
3    2
0    2
4    1
2    1
dtype: int64

### String Methods
- http://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods

In [6]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

In [8]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

In [9]:
s.str.len()

0    1.0
1    1.0
2    1.0
3    4.0
4    4.0
5    NaN
6    4.0
7    3.0
8    3.0
dtype: float64

In [10]:
s.str.contains('a')

0    False
1    False
2    False
3     True
4     True
5      NaN
6    False
7    False
8     True
dtype: object