### 선언
```python
import pandas as pd
```

### 시리즈 Series
```python
data=pd.Series([1,2,3]) # list를 통한 Series 생성
data.values # 값
data.index # 인덱스
# 인덱싱, 슬라이싱은 numpy와 동일함. 설정한 index로 인덱싱, 슬라이싱이 가능함
data=pd.Series([1,2,3], index=['a','b','c']) # explicit index
data['a':'c'] # array-style indexing (결과에 'c' 포함)
data=pd.Series({2:'a', 1:'b', 3:'c'}) # dictionary를 통한 Series 생성
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) # index 명시적 한정
```

### 데이터프레임 DataFrame
```python
area=pd.DataFrame({'population': population, 'area': area}) # dictonary를 통한 DataFrame 생성
pd.DataFrame(np.random.rand(3, 2),columns=['foo', 'bar'],index=['a', 'b', 'c']) # 기본 형태
area.values # 값
area.index # 인덱스(행)
area.columns # 열
```

### 인덱스 오브젝트 Index Object
```python
ind=pd.Index([2,3,5,7,11]) # 인덱스 array, 수정 불가능
```
Python's built-in set data structure를 따르므로 집합 연산이 가능함

### 인덱싱, 데이터 선택 Indexing & Selection
```python
data['b'] # explicit indexing
data.keys() # ==data.index
list(data.items()) # 인덱스, 값 튜플
data.loc['a':'b'] # explicit
data.iloc[0:2] # implicit

data2 = pd.DataFrame({'area':area, 'pop':pop}) # DataFrame
data2['area'] # ==data.area, column (각 column은 Series)
list(data2.items) # 각 column (Series)
data2.values # 값
data2.T # 전치
data2.loc[:'Illinois', :'pop'] # explicit
data2.iloc[:3, :2] # implicit integer
```

### Ufuncs
연산 이후 Pandas Object가 반환되며 index가 보존된다.

Broadcasting rule이 적용된다.

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

x.add(), x.sub(), ...

### NaN Missing Value

NaN : Missing numerical data 이며 floating-point value (부동소수점)

연산이 가능하나 결과는 다시 ``NaN``이 된다.

NaN을 배제하는 함수들이 제공된다.

 ``isnull()``: NaN이면 True, 아니면 False
 
  ``notnull()``: isnull()의 반대
  
 ``dropna()``: NaN이 있는 행/열을 버림, axis 지정 가능
```python
df.dropna(axis=1) # NaN이 있는 열 제거
df.dropna(how='all') # 전체가 NaN인 행 제거
df.dropna(thresh=3) # NaN이 아닌 값이 3개 미만이면 제거
```
 ``fillna()``: NaN을 다른 값으로 채움, axis 지정 가능
```python
df.fillna(value) # value로 NaN 대체
df.fillna(method='ffill') # forward-fill
df.fillna(method='bfill') # backward-fill
```

### 계층 인덱싱 Hierarchical Indexing
```python
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]]) # array를 통한 멀티 인덱스 생성
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)]) #tuple을 통한 멀티 인덱스 생성
pd.MultiIndex.from_product([['a', 'b'], [1, 2]]) # product 곱을 이용한 멀티 인덱스 생성
pop.index.names = ['state', 'year'] # 멀티 인덱스의 level에 이름 지정
# column도 MultiIndex로 인덱싱이 가능함
health_data.loc[:, ('Bob', 'HR')] # 계층 인덱싱을 할 때에는 tuple 사용
idx = pd.IndexSlice # IndexSlice Object
health_data.loc[idx[:, 1], idx[:, 'HR']] # 계층 슬라이싱을 할 때에는 IndexSlice Object 사용
```
계층 인덱싱을 가진 Series는 개념적으로 DataFrame과 동일하므로 ``stack(), unstack()`` method를 통해 상호 변환이 가능하다. level 지정 가능

```python
data.sort_index() # 인덱스 정렬
data.sortlevel() # level 정렬
data.reset_index(name) # index를 column으로 변환
data.set_index(column) # column을 index로 변환
```

계층 인덱싱된 data에 aggregation 함수를 적용할 때 level 속성을 지정할 수 있다.

### 합치기 Concat & Append
``pd.concat``
```python
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
pd.concat([x,y]) # x, y 합치기, index 중복되어도 유지
pd.concat([x,y], verify_integrity=True) # index 중복되면 오류 처리
pd.concat([x,y], axis=1) # 열 방향 결합
pd.concat([x,y], ignore_index=True) # 중복 무시하고 결합 (index가 변경됨)
pd.concat([x,y], keys=['x', 'y']) # 계층 인덱싱으로 생성
pd.concat([x,y], join='inner') # 교집합 (default=outer)
```

``pd.merge``
```python
pd.merge(df1, df2) # 공통 column을 파악하고 결합
pd.merge(df1, df2, on='employee') # employee column을 기준으로 결합
pd.merge(df1, df2, left_on='employee', right_on='name') # 두 DataFrame에서 같은 데이터지만 column 이름이 다른 경우
pd.merge(df1, df2, left_index=True, right_index=True) # index를 key로 사용
df1.join(df2) # index 기반 merge
# index와 column을 혼합하여 key로 사용 가능
pd.merge(df1, df2, how='outer') # 합집합, left : 왼쪽 기준, right : 오른쪽 기준, default : inner 교집합
pd.merge(df1, df2, suffixes=['_x', '_y']) # column에 중복이 있을 때 접미어 붙이기

### 그룹 Aggregation & Grouping

DataFrame에서는 default로 column단위 aggregation (axis 지정)
| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | 아이템 갯수|
| ``first()``, ``last()``  | 첫번째, 마지막 아이템|
| ``mean()``, ``median()`` |평균, 중앙값|
| ``min()``, ``max()``     |최소, 최대|
| ``std()``, ``var()``     |표준편차, 분산|
| ``mad()``                | 평균 절대편차         |
| ``prod()``               | 곱|
| ``sum()``                | 합|

```python
df.describe() # 주요 aggregation 결과
df.groupby(column) # 데이터 그룹화 (aggregation 함수를 사용해야 결과가 나옴)
df.groupby('key').aggreagte([min, np.median, max]) # column별로 aggregation 함수 사용
df.groupby('key').aggregate({'data1': 'min', 'data2': 'max'}) # column별로 다른 aggregation 적용
df.groupby('key').filter(filter_func) # 조건을 만족하지 않는 특정 그룹 제거(함수 만들어서 사용)
df.groupby('key').transformation(lambda x: x-x.mean()) # 그룹별 데이터 변환
df.groupby('key').apply(norm_by_data2) # 그룹단위 임의의 함수 적용
```

### 피벗 테이블 Pivot Table

```python
DataFrame.pivot_table(data, values=None, index=None, columns=None,
                      aggfunc='mean', fill_value=None, margins=False,
                      dropna=True, margins_name='All')
                      
titanic.pivot_table('survived', index='sex', columns='class') # 성별, 좌석등급 별 생존율 평균 계산
# multi-level로도 생성 가능
margins : total
```

### 문자열 String

monte.str.lower(), ...
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    |
|-------------|------------------|------------------|------------------|
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

정규 표현식
| Method | Description |
|--------|-------------|
| ``match()`` | Call ``re.match()`` on each element, returning a boolean. |
| ``extract()`` | Call ``re.match()`` on each element, returning matched groups as strings.|
| ``findall()`` | Call ``re.findall()`` on each element |
| ``replace()`` | Replace occurrences of pattern with some other string|
| ``contains()`` | Call ``re.search()`` on each element, returning a boolean |
| ``count()`` | Count occurrences of pattern|
| ``split()``   | Equivalent to ``str.split()``, but accepts regexps |
| ``rsplit()`` | Equivalent to ``str.rsplit()``, but accepts regexps |

### 시간 Time

``datetime64`` dtype을 이용하여 시간 정보의 계산 가능
```python
date = np.array('2015-07-04', dtype=np.datetime64) # 2015년 7월 4일 날짜 데이터
data+np.arange(12) # 7월 4일~7월 15일 array
Y : year, M : month, W : week, D : day, h : hour, m : minute, s : second

date=pd.to_datetime("4th of July, 2015") # Timestamp 데이터 생성
date.strftime("%A") # 요일
date + pd.to_timedelta(np.arange(12), 'D') # 날짜를 더함
```
``Timestamp`` : 시각 (DatetimeIndex)

``Period`` : 기간 (PeriodIndex)

``Timedelta`` : 시간 (TimedeltaIndex)
```python
pd.date_range('2015-07-03', '2015-07-10') # 날짜
pd.date_range('2015-07-03', periods=8) # 날짜
pd.date_range('2015-07-03', periods=8, freq='H') # 시

### Eval & Query

string expression을 ``eval()`` function에 전달하여 처리하면 더 효율적이다.

```python
pd.eval('df1+df2+df3+df4') # 데이터프레임 끼리의 합을 eval로 연산
df.eval('(A + B) / (C - 1)') # column name으로 축약 가능

df.query('A < 0.5 and B < 0.5') # query를 이용한 filtering
# @을 붙이면 지역 변수 접근 가능
```