In [1]:
import pandas as pd
import numpy as np
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

### 0.Intro
- pandas의 기본객체는 Series DataFrame Index가 존재한다
- Series와 DataFrame은 단순 정수형 인덱스가 아닌 레이블로 식별되는 배열
    - => numpy는 단순 정수형 인덱스로만 식별되는 배열이었다

### 1.Series
- numpy의 ndarray를 기반으로 한 인덱싱된 데이터의 1차원 배열이다
- 일련의 값과 인덱스를 모두 포함하고있으면 => .values, .index속성으로 접근가능하다
- index를 명시적으로 지정가능하다
- index를 명시하지 않을시 ndarray와 같이 0-based 인덱스가 자동으로 생성된다
- dtype도 명시적으로 지정 가능하다 지정해주지 않으면 알아서 들어간다


> **간단하게 pd.Series 보고 다시 꼼꼼하게 살펴보겠다**

In [4]:
pd.Series([1,2,3,4])

pd.Series(np.array([1,2,3,4]))

0    1
1    2
2    3
3    4
dtype: int64

0    1
1    2
2    3
3    4
dtype: int64

In [5]:
# dtype 명시적으로 지정가능
series01 = pd.Series(np.array([1,2,3,4]),dtype=float)
print(series01)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64


In [6]:
#- ndarray처럼 반드시 homogeneous한 배열일 필요가 없다
series01 = pd.Series([1,2,3,'a'])
print(series01)

0    1
1    2
2    3
3    a
dtype: object


In [8]:
# index를 설정할 수 있다
# 1. 자동 정수형 index
pd.Series(np.array([1,2,3,4]),dtype=float)
# 2. index 지정
pd.Series(np.array([1,2,3,4]),index = [1,2,3,4],dtype=float)
# 3. index는 여러가지 타입 가능
pd.Series(np.array([1,2,3,4]),index = ['a','b','c','d'],dtype=float)


0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64

> **Index**
> - 인덱스의 타입은 pandas.core.indexes.base.Index 이고
> - 인덱스도 dtype이 존재한다

In [14]:
series01 = pd.Series(np.array([1,2,3,4]),index = ['a','b','c','d'],dtype=float)
type(series01.index) # index 객체다
series01.index # dtype 존재하는걸 볼 수 있다

pandas.core.indexes.base.Index

Index(['a', 'b', 'c', 'd'], dtype='object')

### 2.series의 유용한 속성들
- index values
- series.items() => (index,values) zip 형식으로 돌려준다
- name : series 자체의 이름을 의미한다 => 나중에 DataFrame에서 컬럼명 역할을한다
- index.name : 인덱스의 이름을 의미한다

In [15]:
series01 = pd.Series(np.array([1,2,3,4]),index = [1,2,3,4],dtype=float)

In [16]:
series01.values

array([1., 2., 3., 4.])

In [17]:
series01.index

Int64Index([1, 2, 3, 4], dtype='int64')

In [21]:
for id,val in series01.items(): # zip unpacking
    print(id,val)

1 1.0
2 2.0
3 3.0
4 4.0


In [22]:
# name
# index name 둘다 존재한다
series01 = pd.Series(np.array([1,2,3,4]),index = [1,2,3,4],dtype=float)
series01.name = 'Series name'
series01.index.name = 'Index name'
series01

Index name
1    1.0
2    2.0
3    3.0
4    4.0
Name: Series name, dtype: float64

In [23]:
# 한번에 name들을 집어넣어보자
pd.Series(np.array([1,2,3,4]),pd.Series([1,2,3,4],name='Index name'),name = 'Series name',dtype=float)

Index name
1    1.0
2    2.0
3    3.0
4    4.0
Name: Series name, dtype: float64

### 3.Series creation
#### Series 차원에서 key값은 index다
1. only data
2. dict를 활용한 creation
    - dict의 키가 index를 지칭하게 된다
- 위에서의 data는 scalar list tuple range ndarray등이 가능하다, scalar일 경우 동일한 값들로 채워진다
3. index 생성지 지정 가능
4. name 지정 가능
5. dtype 명시 가능

In [26]:
# scalar
pd.Series(1,index=[1,2,3,4])

1    1
2    1
3    1
4    1
dtype: int64

In [27]:
# list, tuple, range, ndarray
series01 = pd.Series([1,2,3,4]) # list
print(series01) 
series01 = pd.Series((1,2,3,4)) # tuple
print(series01)
series01 = pd.Series(range(1,5))# range
print(series01)
series01 = pd.Series(np.array([1,2,3,4])) # ndarray
print(series01)

0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64


In [31]:
# dict
# key값을 index로 인식한다
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1})
print(series05)

a    4
b    3
c    2
d    1
dtype: int64


In [32]:
# index 지정
# index 지정시 갯수가 안맞으면 당연히 에러난다
pd.Series([1,2,3,4],index=['a','b','c'])

ValueError: Length of values (4) does not match length of index (3)

#### ⭐️이미 index가 존재하는 경우 index를 명시적으로 주면?
- 명시적으로 주어진 index에 해당하는 값들만 생성된다

In [33]:
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1},index =['a','b'])
print(series05)

a    4
b    3
dtype: int64


#### ⭐️index 재사용 가능하다

In [34]:
series01 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'])
series02 = pd.Series(np.array([1,2,3,4]),index=series01.index)
print(series02)

a    1
b    2
c    3
d    4
dtype: int64


### 4.series 연산
- 벡터 연산을 지원한다 (numpy 와 동일)
- **index를 기준으로 연산된다**
- matching 되는 index가 없으면 계산 결과는 None이다

In [35]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
s2 = pd.Series([1,2,3,4],index=['d','c','b','a'])

s1+1 # scalar연산은 index 상관 없겠지
s1+s2
s1-s2

a    2
b    3
c    4
d    5
dtype: int64

a    5
b    5
c    5
d    5
dtype: int64

a   -3
b   -1
c    1
d    3
dtype: int64

In [37]:
# index가 matching 안되는애들 있겠지
s1 = pd.Series([1,2,3,4,5],index=['a','b','c','d','k'])
s2 = pd.Series([1,2,3,4,5],index=['d','c','b','a','j'])
s1 + s2 # 재밌는건 index가 union 처럼 다 들어가있다 'j'와 'k' 포함

a    5.0
b    5.0
c    5.0
d    5.0
j    NaN
k    NaN
dtype: float64