In [20]:
import pandas as pd
import numpy as np

- pandas의 기본객체는 Series DataFrame Index가 존재한다
- Series와 DataFrame은 단순 정수형 인덱스가 아닌 레이블로 식별되는 Numpy의 구조화된 배열을 조금 더 일반화한 버전이라고 생각하면 좋다

### Series()
- numpy의 ndarray를 기반으로 한 1차원 배열이다
- 일련의 값과 인덱스를 모두 포함하고있으면 => values, index속성으로 접근가능하다
- index를 명시적으로 지정가능하다
- index를 명시하지 않을시 ndarray와 같이 0-based 인덱스가 자동으로 생성된다


In [38]:
# 간단한 예시
series01 = pd.Series(np.array([1,2,3,4]))
print(series01) # 왼쪽에 index와 함께 출력된다

0    1
1    2
2    3
3    4
dtype: int64


In [43]:
series01 = pd.Series(np.array([1,2,3,4]))
print(series01.values)
print(series01.index)  # type이 독특하다는 사실을 기억해두자

[1 2 3 4]
RangeIndex(start=0, stop=4, step=1)


### Series creation
1. only data
2. data + index
3. datat + index + dtype
4. dict를 활용한 creation
    - dict의 키가 index를 지칭하게 된다
- 위에서의 data는 scalar list ndarray등이 가능하다, scalar일 경우 동일한 값들로 채워진다

In [70]:
# only data
series01 = pd.Series(np.array([1,2,3,4]))
print(series01)

0    1
1    2
2    3
3    4
dtype: int64


In [51]:
# data + index
series02 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'])
print(series02)

a    1
b    2
c    3
d    4
dtype: int64


In [48]:
# data + index + dtype
series03 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'],dtype=float)
print(series03)

a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64


In [52]:
# when data is scalar 
series04 = pd.Series(5,index =['a','b','c','d'])
print(series04)

a    5
b    5
c    5
d    5
dtype: int64


In [55]:
# when data is dict
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1})
print(series05)

a    4
b    3
c    2
d    1
dtype: int64


#### ⭐️이미 index가 존재하는 경우 index를 명시적으로 주면?
- 명시적으로 주어진 index에 해당하는 값들만 생성된다

In [56]:
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1},index =['a','b'])
print(series05)


a    4
b    3
dtype: int64


#### ⭐️Series 는 name 속성을 가질 수 있다
- 후에 데이터 프레임을 배울때 유용하다는 것을 알 수 있다

In [64]:
series05 = pd.Series({'a':4,"b":3,"c":2,"d":1},index =['a','b'],name='alpha')
print(series05)

a    4
b    3
Name: alpha, dtype: int64


In [73]:
# 이름 있을때 와 없을때의 차이를 보자 => dataframe의 column name을 구성함
series01 = pd.Series([1,2,3,4])
series02 = pd.Series([1,2,3,4],name = 'number')
print(pd.DataFrame(series01))
print(pd.DataFrame(series02)) # column의 이름이 들어가있다

   0
0  1
1  2
2  3
3  4
   number
0       1
1       2
2       3
3       4


#### ⭐️index 재사용 가능하다

In [72]:
series01 = pd.Series(np.array([1,2,3,4]),index =['a','b','c','d'])
series02 = pd.Series(np.array([1,2,3,4]),index=series01.index)
print(series02)

a    1
b    2
c    3
d    4
dtype: int64


### series 연산
- 벡터 연산을 지원한다
- index를 기준으로 연산된다
- index가 다를시 결과는 NaN이다

#### 1.pair가 맞을시

In [75]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
s2 = pd.Series([1,2,3,4],index=['d','c','b','a'])

In [82]:
# scalar도 지원
s1+1

a    2
b    3
c    4
d    5
dtype: int64

In [77]:
s1+s2

a    5
b    5
c    5
d    5
dtype: int64

In [78]:
s1/s2

a    0.250000
b    0.666667
c    1.500000
d    4.000000
dtype: float64

In [79]:
s1-s2

a   -3
b   -1
c    1
d    3
dtype: int64

In [80]:
s1%s2

a    1
b    2
c    1
d    0
dtype: int64

#### 2.pair 가 맞지 않을시

In [84]:
s1 = pd.Series([1,2,3,4,5],index=['a','b','c','d','k'])
s2 = pd.Series([1,2,3,4,5],index=['d','c','b','a','j'])

In [85]:
s1+s2

a    5.0
b    5.0
c    5.0
d    5.0
j    NaN
k    NaN
dtype: float64

In [86]:
s1/s2

a    0.250000
b    0.666667
c    1.500000
d    4.000000
j         NaN
k         NaN
dtype: float64

In [87]:
s1-s2

a   -3.0
b   -1.0
c    1.0
d    3.0
j    NaN
k    NaN
dtype: float64

In [88]:
s1*s2

a    4.0
b    6.0
c    6.0
d    4.0
j    NaN
k    NaN
dtype: float64