Numpy와 매우 유사함

Sereis 에서 데이터 선택

In [1]:
import pandas as pd

# Sereis 객체는 딕셔너리와 유사하게 키의 리스트를 값의 리스트에 매핑한다

data = pd.Series([0.25, 0.5, 0.75, 10.], index=['a', 'b', 'c', 'd'])
data

a     0.25
b     0.50
c     0.75
d    10.00
dtype: float64

In [2]:
data['b']

0.5

In [3]:
# 키와 인텍스를 알아보기 위해 딕셔너리와 유사한 파이선 방식을 써도 된다
'a' in data

True

In [4]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 10.0)]

In [6]:
# Sereis 는 딕셔너리와 유사한 방식으로 수정을 할 수 있다

data['e'] = 1.25
data

a     0.25
b     0.50
c     0.75
d    10.00
e     1.25
dtype: float64

In [7]:
#명시적인 인덱스로 슬라이싱 하기
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [8]:
# 암묵적인 정수로 슬라이싱 하기(Numpy와 동일한 = stop 포인트 제외)

data[0:2]

a    0.25
b    0.50
dtype: float64

In [9]:
#마스킹

data[(data>0.3) & (data<0.8)]

b    0.50
c    0.75
dtype: float64

In [10]:
# 팬시 인덱싱
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

인텍서: loc(명시적), iloc(암묵적), ix(하이브리드) 

**함수가 아니라 Series에 대한 특정 슬라이싱 인터페이스를 나타내는 속성**

정수를 인덱스로 사용하면 명시적인지 암묵적인지 혼동을 줄 수 있기 때문에 개발된 인터페이스임

In [11]:
data = pd.Series(['a', 'b', 'c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [12]:
data[1] # 명시적인 인덱싱

'a'

In [13]:
data[1:3]# 암묵적인 인덱싱

3    b
5    c
dtype: object

In [14]:
data.loc[1]

'a'

In [15]:
data.iloc[1:3]

3    b
5    c
dtype: object

DataFrame 에서 데이터 선택

In [16]:
area = pd.Series({'California': 423967,
                 'Texas': 695662,
                 'New York': 141297,
                 'Florida': 170312,
                 'Illinois': 149995})
pop = pd.Series({'California': 38332521,
                  'Texas': 26448189,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135})

data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448189


In [17]:
data['area'] # 열을 이루는 Series는 딕셔너리 스타일로 열 이름으로 인덱싱

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [18]:
data.area # 속석 스타일로 접근

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [19]:
data.area is data['area']

True

In [20]:
data.pop is data['pop'] # Datarame 메서드와 충돌하면 인덱싱이 안됨 pop()는 메서드임

False

DataFrame 객체를 딕셔너리와 유사하게 변경할 수 있음

In [21]:
data['density'] = data['pop']/data['area'] # 새로운 열 추가
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448189,38.018735


DataFrame 2차원 배열

In [22]:
data.values # values 속성을 이용해 원시 기반 데이처 배열 보기

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481890e+07,   3.80187347e+01]])

In [23]:
data.T # 행과 열 바꾸기

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332520.0,19552860.0,12882140.0,19651130.0,26448190.0
density,90.41393,114.8061,85.88376,139.0767,38.01873


In [24]:
data.values[0] # 배열에 단일 인덱스를 전달하면 행에 접근 한다.

array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

In [25]:
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [26]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [27]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [28]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [29]:
data.loc[data.density > 100, ['pop', 'density']] # 마스킹과 팬시 인덱스 사용

Unnamed: 0,pop,density
Florida,19552860,114.806121
New York,19651127,139.076746


In [30]:
data.iloc[0, 2] = 90 # 인덱스를 이용하여 데이터 변경
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448189,38.018735


추가적인 사례 

슬라이싱은 우선적으로 행을 참조하고 colunms값이 명시적으로 있거나 두개의 인덱스가 존재하면 
두번째가 열을 참조한다 

In [31]:
data['Florida':'Illinois'] # 행 참조

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [32]:
data[1:3] # 행 참조

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [33]:
data[data.density>100] # 행 참조

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746
