In [1]:
import pandas as pd
import numpy as np

- pandas의 기본객체는 Series DataFrame Index가 존재한다
- Series와 DataFrame은 단순 정수형 인덱스가 아닌 레이블로 식별되는 배열

### Series
- numpy의 ndarray를 기반으로 한 인덱싱된 데이터의 1차원 배열이다
- 일련의 값과 인덱스를 모두 포함하고있으면 => values, index속성으로 접근가능하다
- index를 명시적으로 지정가능하다
- index를 명시하지 않을시 ndarray와 같이 0-based 인덱스가 자동으로 생성된다
- dtype도 명시적으로 지정 가능하다 지정해주지 않으면 알아서 들어간다


In [38]:
# 간단한 예시
series01 = pd.Series(np.array([1,2,3,4]))
print(series01) # 왼쪽에 index와 함께 출력된다

0    1
1    2
2    3
3    4
dtype: int64


In [7]:
# dtype 명시적으로 지정가능
series01 = pd.Series(np.array([1,2,3,4]),dtype=float)
print(series01)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64


- ndarray처럼 반드시 homogeneous한 배열일 필요가 없다

In [3]:
series01 = pd.Series([1,2,3,'a'])
print(series01)

0    1
1    2
2    3
3    a
dtype: object


#### series의 유용한 속성들
- index values
- series.items => (index,values)로 형식으로 반복문 가능
- name : series 자체의 이름을 의미한다 => 나중에 DataFrame에서 컬럼명 역할을한다
- index.name : 인덱스의 이름을 의미한다

In [None]:
# values index
series01 = pd.Series(np.array([1,2,3,4]))
print(series01.values)
print(series01.index)  # type이 독특하다는 사실을 기억해두자

In [15]:
# series.items()
series01 = pd.Series(range(5),index=['a','b','c','d','e'])
for value,index in series01.items():
    print(value,index)

a 0
b 1
c 2
d 3
e 4


In [24]:
# name index.name
ary = pd.Series(range(5),index = ['a','b','c','d','e'])
print(ary)
print("-"*20)
ary.name = '숫자'
ary.index.name = '문자'
print(ary)

a    0
b    1
c    2
d    3
e    4
dtype: int64
--------------------
문자
a    0
b    1
c    2
d    3
e    4
Name: 숫자, dtype: int64


In [25]:
# values index name index.name 한번에 creation
series01 = pd.Series(range(5),pd.Series(range(5),name='i'),name='name')
print(series01)

i
0    0
1    1
2    2
3    3
4    4
Name: name, dtype: int64


### Series creation
#### Series 차원에서 key값은 index다
1. only data
2. dict를 활용한 creation
    - dict의 키가 index를 지칭하게 된다
- 위에서의 data는 scalar list tuple range ndarray등이 가능하다, scalar일 경우 동일한 값들로 채워진다

In [29]:
# only data => np.array()생성할때 data형식 거의 다 가능한거 같다
series01 = pd.Series([1,2,3,4]) # list
print(series01) 
series01 = pd.Series((1,2,3,4)) # tuple
print(series01)
series01 = pd.Series(range(1,5))# range
print(series01)
series01 = pd.Series(np.array([1,2,3,4])) # ndarray
print(series01)

0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64


In [31]:
# data + index
series02 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'])
print(series02)

a    1
b    2
c    3
d    4
dtype: int64


In [35]:
# when data is scalar 
series04 = pd.Series(5)
print(series04)
print("-"*20)

# scalar일 경우 index의 갯수에 따라 반복되는 특징이 있다
series04 = pd.Series(5,index =['a','b','c','d'])
print(series04)

0    5
dtype: int64
--------------------
a    5
b    5
c    5
d    5
dtype: int64


In [36]:
# when data is dict
# dict의 키가 indx가 된다
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1})
print(series05)

a    4
b    3
c    2
d    1
dtype: int64


#### ⭐️이미 index가 존재하는 경우 index를 명시적으로 주면?
- 명시적으로 주어진 index에 해당하는 값들만 생성된다

In [56]:
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1},index =['a','b'])
print(series05)


a    4
b    3
dtype: int64


#### ⭐️index 재사용 가능하다

In [72]:
series01 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'])
series02 = pd.Series(np.array([1,2,3,4]),index=series01.index)
print(series02)

a    1
b    2
c    3
d    4
dtype: int64


### series 연산
- 벡터 연산을 지원한다
- index를 기준으로 연산된다
- index가 다를시 결과는 NaN이다

#### 1.pair가 맞을시

In [75]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
s2 = pd.Series([1,2,3,4],index=['d','c','b','a'])

In [82]:
# scalar도 지원
s1+1

a    2
b    3
c    4
d    5
dtype: int64

In [77]:
s1+s2

a    5
b    5
c    5
d    5
dtype: int64

In [78]:
s1/s2

a    0.250000
b    0.666667
c    1.500000
d    4.000000
dtype: float64

In [79]:
s1-s2

a   -3
b   -1
c    1
d    3
dtype: int64

In [80]:
s1%s2

a    1
b    2
c    1
d    0
dtype: int64

#### 2.pair 가 맞지 않을시

In [84]:
s1 = pd.Series([1,2,3,4,5],index=['a','b','c','d','k'])
s2 = pd.Series([1,2,3,4,5],index=['d','c','b','a','j'])

In [85]:
s1+s2

a    5.0
b    5.0
c    5.0
d    5.0
j    NaN
k    NaN
dtype: float64

In [86]:
s1/s2

a    0.250000
b    0.666667
c    1.500000
d    4.000000
j         NaN
k         NaN
dtype: float64

In [87]:
s1-s2

a   -3.0
b   -1.0
c    1.0
d    3.0
j    NaN
k    NaN
dtype: float64

In [88]:
s1*s2

a    4.0
b    6.0
c    6.0
d    4.0
j    NaN
k    NaN
dtype: float64