In [2]:
# -*- coding : utf-8 -*-
import pandas as pd
import numpy as np

In [8]:
# NOTE
# 2차원 배열이나 구조화된 배열과 비슷하고, 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷함.

area = pd.Series({'California' : 423967, 'Texas' : 695662,
                  'New York' : 141297, 'Florida' : 170312, 'Illinois' : 149995})

pop = pd.Series({'California' : 38332521, 'Texas' : 26448193,
                  'New York' : 19651127, 'Florida' : 19552860, 'Illinois' : 12882135})

data = pd.DataFrame({'area' : area, 'pop' : pop})

# NOTE : DataFrame의 열을 이루는 각 Series는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근가능.
print(data['area'])

# NOTE : 문자열인 열 이름을 이용해 속성 스타일로 접근가능.
print(data.area)
print(data.area is data['area'])

# NOTE : 열 이름이 DataFrame의 메서드와 충돌하거나 열 이름이 문자열이 아니면 열 이름을 이용해 접근할 수 없음.
# Ex) data.pop (DataFrame에는 pop이라는 메소드가 있다.)
print(data.pop is data['pop'])

# NOTE : Series 객체와 마찬가지로 딕셔너리를 확장하는 것 처럼 DataFrame도 확장할 수 있다.
data['density'] = data['pop'] / data['area']
print(data)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
True
False


              area       pop     density
California  423967  38332521   90.413926
Texas       695662  26448193   38.018740
New York    141297  19651127  139.076746
Florida     170312  19552860  114.806121
Illinois    149995  12882135   85.883763


In [17]:
# NOTE : values 속성을 이용해 원시 기반 데이터 배열을 확인할 수 있다.
print(data.values, '\n')

# NOTE : T 속성을 이용해 전체 DataFrame의 행과 열을 바꿀 수 있다.
print(data.T, '\n')

# NOTE : 배열에 단일 인덱스를 전달하면 행에 접근함.
print(data.values[0], '\n')

# NOTE : DataFrame에 단일 인덱스를 전달하면 열에 접근함.
print(data['area'])

[[4.23967000e+05 3.83325210e+07 9.04139261e+01]
 [6.95662000e+05 2.64481930e+07 3.80187404e+01]
 [1.41297000e+05 1.96511270e+07 1.39076746e+02]
 [1.70312000e+05 1.95528600e+07 1.14806121e+02]
 [1.49995000e+05 1.28821350e+07 8.58837628e+01]] 

           California         Texas      New York       Florida      Illinois
area     4.239670e+05  6.956620e+05  1.412970e+05  1.703120e+05  1.499950e+05
pop      3.833252e+07  2.644819e+07  1.965113e+07  1.955286e+07  1.288214e+07
density  9.041393e+01  3.801874e+01  1.390767e+02  1.148061e+02  8.588376e+01 

[4.23967000e+05 3.83325210e+07 9.04139261e+01] 

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [21]:
# NOTE
# iloc 인덱서를 사용하면 DataFrame 객체가 암묵적 파이썬 스타일의 인덱스 기반 배열을 인덱싱 할 수 있지만,
# DataFrame 인덱스와 열 레이블은 결과에 그대로 유지됨.

print(data.loc[:'Illinois', :'pop'], '\n')
print(data.iloc[:3, :2], '\n')

# NOTE
# ix 인덱서는 loc과 iloc 방식의 하이브리드 형태다.
print(data.ix[:3, :'pop'])

              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135 

              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127 

              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  # Remove the CWD from sys.path while we load stuff.


In [23]:
# NOTE : 인덱서들도 마스킹과 팬시 인덱싱을 결합할 수 있다.
print(data.loc[data.density > 100, ['pop', 'density']])

# NOTE : 이 인덱싱 규칙은 값을 설정하거나 변경하는 데도 사욜될 수 있음.
data.iloc[0, 2] = 90
data

               pop     density
New York  19651127  139.076746
Florida   19552860  114.806121


Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [30]:
# NOTE : 실무에서 매우 유용한 몇 가지 추가적인 인덱싱 규칙

# NOTE : 인덱싱은 열을 참조하는 반면, 슬라이싱은 행을 참조한다.
print(data['Florida':'Illinois'])

# NOTE : 인덱스 개신 숫자로 행을 참조할 수도 있다.
print(data[1:3])

# NOTE : 직접 마스킹 연산은 열 단위가 아닌 행 단위로 해석된다.
print(data[data.density > 100])

            area       pop     density
Florida   170312  19552860  114.806121
Illinois  149995  12882135   85.883763
            area       pop     density
Texas     695662  26448193   38.018740
New York  141297  19651127  139.076746
            area       pop     density
New York  141297  19651127  139.076746
Florida   170312  19552860  114.806121
