In [3]:
import pandas as pd
# Series 객체는 딕셔너리와 마찬가지로 키의 집합을 값의 집합에 매핑한다
data = pd.Series([0.25, 0.5, 0.75, 1.0],index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [4]:
data['b']

0.5

In [8]:
'a' in {'a':12343}

True

In [10]:
12343 in {'a':12343}

False

In [11]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [12]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [15]:
data['e'] = 1.25 # Series 객체는 딕셔너리와 유사한 구문을 사용해 수정할 수도 있다
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [21]:
# 명시적인 인덱스로 슬라이싱하기
data['a':'c'] # 명시적 인덱스로 슬라이싱 할 때는 최종 인덱스가 슬라이스에 포함

a    0.25
b    0.50
c    0.75
dtype: float64

In [22]:
# 암묵적 인덱스로 슬라이싱하기
data[0:2] # 암묵적 인덱스로 슬라이싱하면 최종 인덱스가 그 슬라이스에서 제외

a    0.25
b    0.50
dtype: float64

In [17]:
# 마스킹
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [23]:
# 팬시 인덱싱 
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [39]:
#Indexers: loc, iloc
data = pd.Series(['a', 'b', 'c','d'], index=[1, 3, 5, 4])
data

1    a
3    b
5    c
4    d
dtype: object

In [40]:
# 인덱싱할 때 명시적인 인덱스 사용
data[1]

'a'

In [41]:
# loc속성은 언제나 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 한다
data.loc[1]

'a'

In [42]:
# 슬라이싱할 때 암묵적 인덱스 사용
data[1:3]

3    b
5    c
dtype: object

In [44]:
data.loc[1:3] # 명시적 인덱스

1    a
3    b
dtype: object

In [45]:
data.loc[1:5]

1    a
3    b
5    c
dtype: object

In [46]:
data.loc[1:4]

1    a
3    b
5    c
4    d
dtype: object

In [47]:
# iloc속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일의 인덱스를 참조
data.iloc[1] # index에 해당하는 값을 가져온다.

'b'

In [63]:
data.iloc[1:3] # index번호는 1부터 3전까지

3    b
5    c
dtype: object

In [66]:
data.iloc[1:4] # loc와 iloc의 명시적 성격은 명확하고 가독성 있는 코드를 유지하는 데 매우 유용하다

3    b
5    c
4    d
dtype: object

In [4]:
#DataFrame에서 데이터 선택
area = pd.Series({'California': 423967, 'Texas': 695662,'New York': 141297, 'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,'New York': 19651127, 'Florida': 19552860,'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [72]:
# 열을 이루는 각 Series는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [73]:
# 문자열인 열(column)이름을 이용해 속성 스타일로 접근
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [74]:
#속성스타일로 열에 접근하면 사실상 딕셔너리 스타일로 접근하는 것과 똑같은 객체에 접근
data.area is data['area']

True

In [75]:
# DataFrame에는 pop()메서드를 가지고 있으므로 data.pop은 DataFrame에 있는 pop메서드를 의미한다.
data.pop is data['pop']

False

In [88]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [89]:
#Values속성을 이용해 원시 기반 데이터 배열을 확인
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [91]:
#DataFrame의 행과 열을 바구기
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [93]:
data.values[0]# 첫번재 행을출력 

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [95]:
data.values[1] # 두번째 행 출력

array([6.95662000e+05, 2.64481930e+07, 3.80187404e+01])

In [7]:
# DataFrame에 단일 ‘인덱스’를 전달하면 열에 접근한다
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [100]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [101]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [105]:
data.loc[:'Florida', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860


In [107]:
data.loc[data.density > 100, ['pop', 'density']] # 마스킹과 팬시 인덱싱을 결합할 수 있다

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [108]:
data.iloc[0, 2] = 90  # 0행의 2열에 90을 대입
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [5]:
data['Texas':'Illinois'] # 명시적 슬라이싱 이용

Unnamed: 0,area,pop
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [112]:
data['Florida':'Illinois'] # 명시적 슬라이싱 이용

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [113]:
# 슬라이스는 인덱스 대신 숫자로 행을 참조할 수도 있다.
data[1:3] # 1행부터 2행가지 출력

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [114]:
# 직접 마스킹 연산은 열 단위가 아닌 행단위로 해석된다
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
