In [2]:
import pandas as pd
import numpy as np

## 인덱서 알아보기

### 명시적으로 처리하는 인덱서

In [42]:
help(pd.Series.loc)

Help on property:

    Purely label-location based indexer for selection by label.
    
    ``.loc[]`` is primarily label based, but may also be used with a
    boolean array.
    
    Allowed inputs are:
    
    - A single label, e.g. ``5`` or ``'a'``, (note that ``5`` is
      interpreted as a *label* of the index, and **never** as an
      integer position along the index).
    - A list or array of labels, e.g. ``['a', 'b', 'c']``.
    - A slice object with labels, e.g. ``'a':'f'`` (note that contrary
      to usual python slices, **both** the start and the stop are included!).
    - A boolean array.
    - A ``callable`` function with one argument (the calling Series, DataFrame
      or Panel) and that returns valid output for indexing (one of the above)
    
    ``.loc`` will raise a ``KeyError`` when the items are not found.
    
    See more at :ref:`Selection by Label <indexing.label>`



### 암묵적으로 처리하는 인덱서

In [43]:
help(pd.Series.iloc)

Help on property:

    Purely integer-location based indexing for selection by position.
    
    ``.iloc[]`` is primarily integer position based (from ``0`` to
    ``length-1`` of the axis), but may also be used with a boolean
    array.
    
    Allowed inputs are:
    
    - An integer, e.g. ``5``.
    - A list or array of integers, e.g. ``[4, 3, 0]``.
    - A slice object with ints, e.g. ``1:7``.
    - A boolean array.
    - A ``callable`` function with one argument (the calling Series, DataFrame
      or Panel) and that returns valid output for indexing (one of the above)
    
    ``.iloc`` will raise ``IndexError`` if a requested indexer is
    out-of-bounds, except *slice* indexers which allow out-of-bounds
    indexing (this conforms with python/numpy *slice* semantics).
    
    See more at :ref:`Selection by Position <indexing.integer>`



# 시리즈에 대한 인덱서 처리

In [16]:
s = pd.Series([1,2,3,4])

In [17]:
s

0    1
1    2
2    3
3    4
dtype: int64

### 시리즈일 경우는 인덱서나 인덱싱이나 실제 원소의 값을 처리

In [18]:
s[0]

1

In [19]:
s.loc[0]

1

In [20]:
s.iloc[0]

1

### 마스킹으로 사용할 때도 원래 자료형을 유지한다.

In [29]:
s[s<3]

0    1
1    2
dtype: int64

### 팬시 인덱싱으로 처리할 때는 원래 자료형을 유지한다

In [27]:
s[[0]]

0    1
dtype: int64

## 인덱스가 range 처리가 되지 않은 시리즈 처리

In [38]:
s1 = pd.Series(['가','나','다'],index=[1,3,5])

In [39]:
s1

1    가
3    나
5    다
dtype: object

### 인덱싱은 명시적인 인덱스를 인식해서 처리한다.

In [40]:
s1[3]

'나'

### 슬라이싱은 연속적으로 처리되어야 하므로 암묵적인 인덱스를 인식해서 처리한다.

In [41]:
s1[1:3]

3    나
5    다
dtype: object

# 데이터 프레임에 대한 인덱서 처리

In [4]:
df = pd.DataFrame(np.random.randn(3,3))

In [5]:
df

Unnamed: 0,0,1,2
0,0.795238,-0.960598,0.148386
1,0.527966,-0.290995,-0.086291
2,-0.23359,0.397919,-1.581407


## 인덱스로 처리할 때 칼럼 단위로 처리

In [6]:
df[0]

0    0.795238
1    0.527966
2   -0.233590
Name: 0, dtype: float64

## 팬시 인덱싱 사용

In [32]:
df[[0]]

Unnamed: 0,0
0,0.795238
1,0.527966
2,-0.23359


In [34]:
df[[0,1]]

Unnamed: 0,0,1
0,0.795238,-0.960598
1,0.527966,-0.290995
2,-0.23359,0.397919


## 슬라이스로 처리하면 데이터 프레임으로 처리를 한다.

In [7]:
df[:1]

Unnamed: 0,0,1,2
0,0.795238,-0.960598,0.148386


## 슬라이스 이후에 인덱싱으로 처리하기

In [11]:
df[:1][0]

0    0.795238
Name: 0, dtype: float64

### 슬라이싱과 팬시인덱싱을 혼합해서 처리

In [37]:
df[:1][[0]]

Unnamed: 0,0
0,0.795238


## 인덱서는 행단위로 처리를 하기 위해 사용한다

In [12]:
df.loc[0]

0    0.795238
1   -0.960598
2    0.148386
Name: 0, dtype: float64

In [13]:
df[:1]

Unnamed: 0,0,1,2
0,0.795238,-0.960598,0.148386


In [14]:
df.iloc[0]

0    0.795238
1   -0.960598
2    0.148386
Name: 0, dtype: float64

### ix는 버전이 올라가면서 사용하지 않도록 함

In [15]:
df.ix[0]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  """Entry point for launching an IPython kernel.


0    0.795238
1   -0.960598
2    0.148386
Name: 0, dtype: float64

## 인덱스들이 전부 문자일 경우 처리하는 것

In [21]:
df1 = pd.DataFrame(np.random.randn(3,3),
                  index=['a','b','c'],
                  columns = ['one','two','three'])

In [22]:
df1

Unnamed: 0,one,two,three
a,-0.669371,-0.514272,-1.376891
b,1.77596,-0.179679,-0.378025
c,0.317857,-1.645262,-0.221922


### 인덱싱으로 호출하면 차원이 한단계 내려가서 시리즈로 출력한다

In [24]:
df1['one']

a   -0.669371
b    1.775960
c    0.317857
Name: one, dtype: float64

### 팬시 인덱싱으로 처리할 경우는 데이터프레임으로 처리된다.

In [26]:
df1[['one']]

Unnamed: 0,one
a,-0.669371
b,1.77596
c,0.317857


### 슬라이싱으로 처리할 경우 문자일 경우는 마지막도 포함한다

In [25]:
df1['a':'b']

Unnamed: 0,one,two,three
a,-0.669371,-0.514272,-1.376891
b,1.77596,-0.179679,-0.378025


### 인덱스의 값을 암묵적인 인덱스를 사용해서 처리

In [30]:
df1.iloc[1]

one      1.775960
two     -0.179679
three   -0.378025
Name: b, dtype: float64

### 인덱스의 값을 명시적인 인덱스를 사용해서 처리

In [31]:
df1.loc['b']

one      1.775960
two     -0.179679
three   -0.378025
Name: b, dtype: float64