# Series 객체
- 인덱싱된 데이터의 1차원의 배열
- 일련의 값과 인덱스를 모두 가짐
- 딕셔너리와 마찬가지로 키의 집합을 값의 집합에 매핑

In [2]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

# Series : 일반화된 NumPy 배열
- series와 numpy 배열의 차이점은 인덱스 존재 여부
- series는 명시적으로 정의된 인덱스 / numpy는 암묵적으로 정의된 정수형 인덱스
- series는 어떤 타입의 값으로 인덱스를 구성할 수 있다

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

- 또 다른 방법으로 인덱스와 값 정의

In [13]:
pd.Series({'a' : 0.25, 'b' : 0.5, 'c' : 0.75, 'd' : 1.0})

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [12]:
pd.Series(5, index=[1,2,3])

1    5
2    5
3    5
dtype: int64

In [14]:
pop_dict = {'california' : 38332521,
     'Texas' : 26448193,
     'New York' : 19651127,
     'Florida' : 19552860}
data_dict = pd.Series(pop_dict)
data_dict

california    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

- 슬라이싱 같이 배열 스타일의 연산도 지원

In [15]:
data_dict['Texas':'Florida']

Texas       26448193
New York    19651127
Florida     19552860
dtype: int64

- 키/인덱스 값을 조사 가능

In [30]:
'Texas' in data_dict

True

In [42]:
print(data_dict.keys(),'\n')
print(list(data_dict.items()))

Index(['california', 'Texas', 'New York', 'Florida'], dtype='object') 

[('california', 38332521), ('Texas', 26448193), ('New York', 19651127), ('Florida', 19552860)]


# Series : 슬라이싱, 마스킹, 팬시 인덱싱
주의 
- 명시적인 인덱스 슬라이싱 : 최종 인덱스 포함
- 암묵적인 인덱스 슬라이싱 : 최종 인덱스 제외

In [47]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

# 명시적인 인덱스로 슬라이싱 
print(data['a' : 'c'], '\n')
# 암묵적인 인덱스로 슬라이싱 
print(data[0:2],'\n')
# 마스킹
print(data[(data > 0.3) & (data < 0.8)], '\n')
# 팬시 인덱싱
print(data[['a', 'c']])

a    0.25
b    0.50
c    0.75
dtype: float64 

a    0.25
b    0.50
dtype: float64 

b    0.50
c    0.75
dtype: float64 

a    0.25
c    0.75
dtype: float64


# 딕셔너리를 사용해 하나의 2차원 객체를 구성

In [16]:
area_dict = {'california' : 423967, 'Texas' : 695662, 'New York' : 141297, 'Florida' : 170312}
area = pd.Series(area_dict)
area

california    423967
Texas         695662
New York      141297
Florida       170312
dtype: int64

In [17]:
states = pd.DataFrame({'population' : data_dict, 'area' : area})
states

Unnamed: 0,population,area
california,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312


- 인덱싱을 통해 접근 가능

In [58]:
states.area
states['area']

california    423967
Texas         695662
New York      141297
Florida       170312
Name: area, dtype: int64

- 새 열 추가

In [59]:
states['density'] = states['population'] / states['area']
states

Unnamed: 0,population,area,density
california,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


# DataFrame : 2차원 배열

In [18]:
pd.DataFrame([{'a' : 1, 'b' : 2},{'b' : 3, 'c' :4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [62]:
import random
import numpy as np

df = pd.DataFrame(np.random.rand(3,2), 
                  columns=['foo', 'bar'], 
                  index=['a','b','c'])
df

Unnamed: 0,foo,bar
a,0.155256,0.149367
b,0.966114,0.458197
c,0.324172,0.632287


- 행과 열을 바꿀 수 있음

In [64]:
df.T

Unnamed: 0,a,b,c
foo,0.155256,0.966114,0.324172
bar,0.149367,0.458197,0.632287


- 인덱서 : loc, iloc 사용하여 인덱싱
- 값을 설정하거나 변경하는데 사용될 수 있음

In [67]:
df.iloc[:2, :1]

Unnamed: 0,foo
a,0.155256
b,0.966114


In [74]:
df.iloc[1,0] = 0.54321
df

Unnamed: 0,foo,bar
a,0.155256,0.149367
b,0.54321,0.458197
c,0.324172,0.632287


# index : 집합
- 파이썬에 내장된 set 데이터 그조에서 사용하는 표기법을 따르기 때문에 합집합, 교집합, 차집합 등..이 가능

In [29]:
indA = pd.Index(['a','b','c','d'])
indB = pd.Index(['c','d','e','f'])

print('교집합 :' ,indA & indB)
print('합집합 :' ,indA | indB)
print('합집합-교집합 :' ,indA ^ indB)

교집합 : Index(['c', 'd'], dtype='object')
합집합 : Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
차집합 : Index(['a', 'b', 'e', 'f'], dtype='object')
