# Series
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 **인덱싱 기능**이 추가된 **1차원 배열**을 나타냄 (index x value 의 형태)
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
  - **같은 타입**의 0개 이상의 데이터를 가질 수 있음

In [1]:
import numpy as np
import pandas as pd

## Series 생성 : data 로만 생성하기
- index 는 기본적으로 0부터 자동 생성

In [3]:
s1 = pd.Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [4]:
# ↑

# 0    1
# 1    2
# 2    3
# dtype: int64

# 왼쪽이 index, 오른쪽이 value (값),  dtype : 데이터 타입
# 데이터로만 생성했을때,  index 는 0-base 인덱스로 생성됨 

### .values  .index  .dtype

In [5]:
s1.values   # numpy 의 array 다!

array([1, 2, 3], dtype=int64)

In [7]:
s1.index    # Series 는 기본적으로 0-base 인덱스 생성

RangeIndex(start=0, stop=3, step=1)

In [8]:
s1.dtype

dtype('int64')

In [9]:
s2 = pd.Series(['a', 'b', 'c'])  # 과연 dtype 은??
s2

0    a
1    b
2    c
dtype: object

In [None]:
# 데이터를 명시하게 되면 pandas 가 데이터 타입 (dtype) 을 유추해 냅니다

In [13]:
np.arange(200).dtype

dtype('int32')

In [12]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

In [16]:
s3[4]

4

## Series 생성 : data, index 를 함께 명시하여 생성

In [None]:
# pd.Series(
#     data=None,  첫번째는 data
#     index=None,  두번째는 index
#     dtype=None,
#     name=None,
#     copy=False,
#     fastpath=False,
# )

In [15]:
s4 = pd.Series([1, 2, 3], [100, 200, 300])  # <- value, index 명시하여 생성
s4

100    1
200    2
300    3
dtype: int64

In [17]:
s4[0]

KeyError: 0

In [18]:
s4[100]

1

In [19]:
s4.index

Int64Index([100, 200, 300], dtype='int64')

In [20]:
# index  가 굳이 정수일 필요는 없다!
s5 = pd.Series([1, 2, 3], ['정을영', '문혜진', '김병진'])
s5

정을영    1
문혜진    2
김병진    3
dtype: int64

In [21]:
# index - value 쌍...
# 파이썬의 dict 와 유사
# dict 를 사용해서 Series 생성 가능

In [22]:
sdata = {"김병진":35000, "문혜진": 67000, "박수지": 12000, "최유진": 4000}
sdata

{'김병진': 35000, '문혜진': 67000, '박수지': 12000, '최유진': 4000}

In [23]:
s6 = pd.Series(sdata)
s6

김병진    35000
문혜진    67000
박수지    12000
최유진     4000
dtype: int64

## Series 생성 : data, index, dtype 을 함께 명시하여 생성

In [26]:
s7 = pd.Series(np.arange(5), index = np.arange(100, 105), dtype=np.int16)
s7

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [27]:
# dtype 이 명시하지 않으면 pandas 가 유추해낸다.  
# 게다가. OS 에 맞추어 dtype 이 결정되기도 한다
#  Windows --> int32  /  MacOS  --> int64

In [28]:
# 생성에 명시된 데이터 타입들이 서로 다르면?
pd.Series([10, 20, 3.14])

0    10.00
1    20.00
2     3.14
dtype: float64

#### 인덱스 활용

In [29]:
s7

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [30]:
s7.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [31]:
s7[100]

0

In [32]:
s7[100], s7[104]

(0, 4)

In [34]:
# index 를 활용하여 multiple value 에 접근 가능!
s7[[102, 104]]   # 결과는 Series

102    2
104    4
dtype: int16

In [35]:
s7[100]   # value

0

In [36]:
s7[[100]]  # Series

100    0
dtype: int16

In [38]:
s7[[104, 101, 102]]  # 인덱스 명시한 순서대로!

104    4
101    1
102    2
dtype: int16

In [40]:
s7[[101, 102, 101, 102]]  # 심지어 인덱스 동일한거 여러번 명시 가능!

101    1
102    2
101    1
102    2
dtype: int16

#### 인덱스를 통한 업데이트

In [41]:
s7

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [42]:
s7[104] = 70  # value 업데이트
s7

100     0
101     1
102     2
103     3
104    70
dtype: int16

In [45]:
# s7[105] # 에러다

In [46]:
s7[105] = 90  # 없던 인덱스 값을 넣으면?  --> 새로 생성!
s7[200] = 80
s7

# 이것이 numpy 와 다은 결정적 차이!

100     0
101     1
102     2
103     3
104    70
105    90
200    80
dtype: int64

In [48]:
s7[[101, 102]] = 10, 20  # 한번에 여러개 값 수정 가능
s7

100     0
101    10
102    20
103     3
104    70
105    90
200    80
dtype: int64

In [49]:
# value 는 다르지만, 기존 인덱스와 동일한 Series 생성 가능
s8 = pd.Series(np.arange(7), s7.index)  # <--- 기존의 인덱스 재사용
s8

100    0
101    1
102    2
103    3
104    4
105    5
200    6
dtype: int32

## Series name, Index name, Index 변경

In [50]:
s6

김병진    35000
문혜진    67000
박수지    12000
최유진     4000
dtype: int64

In [51]:
# Series 의 name을 붙여줄수 있다.
s6.name = "교통비"
s6

김병진    35000
문혜진    67000
박수지    12000
최유진     4000
Name: 교통비, dtype: int64

In [52]:
# Series 의 index 에도 name 을 붙여줄수 있다
s6.index

Index(['김병진', '문혜진', '박수지', '최유진'], dtype='object')

In [53]:
s6.index.name = "이름"
s6

이름
김병진    35000
문혜진    67000
박수지    12000
최유진     4000
Name: 교통비, dtype: int64

In [54]:
s6.index

Index(['김병진', '문혜진', '박수지', '최유진'], dtype='object', name='이름')

In [56]:
# index 변경 가능
s6.index = ['Kim', "Moon", "Park", "Choi"]
s6

Kim     35000
Moon    67000
Park    12000
Choi     4000
Name: 교통비, dtype: int64

In [60]:
# 헐? 동일 index 가 가능???
s9 = pd.Series([1, 2, 3], ['john', 'john', 'charlie'])
s9

john       1
john       2
charlie    3
dtype: int64

In [61]:
s9['john']  # 결과가 Series 다

john    1
john    2
dtype: int64

In [62]:
s9['charlie']

3

In [63]:
s9['john'] = 100
s9

john       100
john       100
charlie      3
dtype: int64