# Series
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 **인덱싱 기능**이 추가된 **1차원 배열**을 나타냄 (index x value 의 형태)
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
  - **같은 타입**의 0개 이상의 데이터를 가질 수 있음

In [2]:
import numpy as np
import pandas as pd

## Series 생성 : data로만 생성하기
 - index는 기본적으로 0부터 자동적으로 생성

In [5]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

#### .values .index .dtype

In [6]:
s1.values

array([1, 2, 3])

In [8]:
s1.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
s1.dtype

dtype('int64')

In [11]:
s2 = pd.Series(['a','b','c'])
s2, s2.dtype # str이 아닌 object, O 라고 나옴

(0    a
 1    b
 2    c
 dtype: object,
 dtype('O'))

In [15]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

In [16]:
s4 = pd.Series(np.arange(10, dtype= 'float'))
s4

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [17]:
s4[3]

np.float64(3.0)

## Series 생성: data, index 함께 명시하여 생성

In [None]:
pd.Series(
    data=None, # 데이터
    index=None, # 인덱스 이름
    dtype=None, # 데이터의 자료형
    name=None, # 시리즈의 전체 이름
)

Series([], dtype: object)

In [22]:
# data, index 의 파라미터는 순서만 지키면 생략가능.
s5 = pd.Series(data=[1,2,3],index=[100,200,300])
s5

100    1
200    2
300    3
dtype: int64

In [24]:
s5[100]

np.int64(1)

In [25]:
s5.index

Index([100, 200, 300], dtype='int64')

In [26]:
# 인덱스는 문자열로 가능하다
s6=pd.Series([100,90,80], ['홍길동','이순신','김유신'])
s6

홍길동    100
이순신     90
김유신     80
dtype: int64

In [27]:
s6['김유신']

np.int64(80)

In [29]:
# index 값은 중복이 가능하다.
s7 = pd.Series([1,2,3,4], ['홍길동','홍길동','홍길동','이순신'])
s7

홍길동    1
홍길동    2
홍길동    3
이순신    4
dtype: int64

In [30]:
s7['홍길동']

홍길동    1
홍길동    2
홍길동    3
dtype: int64

In [None]:
# index - value, key - value 형태의 유사
# dictionary 로도 Series 객체를 생성할 수 있다.
# dict 는 키가 중복이 되지 않고 Series 는 인덱스가 중복이 가능/ 중복하니 뒤에값만 출력됨
data = {'유재석':100, '강호동':80, '신동엽':90}
s7 = pd.Series(data)
s7

유재석    100
강호동     80
신동엽     90
dtype: int64

##  dtype 명시하여 생성 

In [38]:
s8 = pd.Series(np.arange(5), index=np.arange(100, 105), dtype=np.int16)
s8

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [40]:
# 파이썬에서는 기본적으로 data 에 형식은 자동으로 유추
# dtype 을 명시하지 않으면 pandas 에서는 자동으로 유추
# 운영체제에 따라서 dtype 을 결정하는 경우도 있음
pd.Series(np.arange(5)) # 명시 되어 있는 경우

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [43]:
pd.Series([10,20,30]) # pandas 가 유추

0    10
1    20
2    30
dtype: int64

In [47]:
pd.Series([10,1.1,20]) # 자료형이 섞인 경우 표현이 가능한 자료형으로 변환

0    10.0
1     1.1
2    20.0
dtype: float64

## 인덱스 활용

In [51]:
s8

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [52]:
s8.index

Index([100, 101, 102, 103, 104], dtype='int64')

In [54]:
s8.index.values # Series 인덱스의 값을 array로 반환

array([100, 101, 102, 103, 104])

In [57]:
s8.values # Series 의 값

array([0, 1, 2, 3, 4], dtype=int16)

#### 1.인덱스를 통한 데이터 접근

In [59]:
s8[100]

np.int16(0)

In [60]:
s8[102],s8[104]

(np.int16(2), np.int16(4))

In [61]:
s8[100] # 결과 타입은 달일값

np.int16(0)

In [63]:
s8[[100]] # 결과 타입은 Series/ Series 형태로 값을 가져오기

100    0
dtype: int16

In [65]:
s8[[100,102]] # []하나만 사용하는것은 슬라이싱이 아니라면 두개이상의 값을 가져올 수 없다
# 두개 이상의 값을 가져오려면 Series 형태로 가져와야 함

100    0
102    2
dtype: int16

In [67]:
s8[:2] # 슬라이싱

100    0
101    1
dtype: int16

In [68]:
s8[[104,101,102]] # 인덱스 번호 순서와 상관 없이 호출 순서대로 반환

104    4
101    1
102    2
dtype: int16

In [69]:
# 동일한 인덱스를 반복해서 호출 가능
s8[[100,100,100,101,101,101,102,102,103,104]]

100    0
100    0
100    0
101    1
101    1
101    1
102    2
102    2
103    3
104    4
dtype: int16

### 2. 인덱스를 통한 데이터 업데이트

In [73]:
s8[100] = 1000 # 인덱스 번호를 통한 값 변환
s8

100    1000
101       1
102       2
103       3
104       4
dtype: int16

In [74]:
ls =[1,2,3]
ls

[1, 2, 3]

In [75]:
ls[0] = 100
ls

[100, 2, 3]

In [None]:
ls[3] = 200 # list 에서는 없는 인덱스 값이면 예외처리

In [78]:
n = np.array([1,2,3])
n

array([1, 2, 3])

In [None]:
n[3] = 100 # 넘파이 array 에서도 예외 처리


In [None]:
s8[105] =5 # Series에서는 인덱스값을 지정해서 추가 가능
s8

100    1000
101       1
102       2
103       3
104       4
105       5
dtype: int16

In [83]:
# 인덱스의 순서는 입력 순서대로 처리 된다.
s8[200]=70
s8[106]=60
s8

100    1000
101       1
102       2
103       3
104       4
105       5
200      70
106      60
dtype: int16

In [87]:
# Series 를 통해서 여러 값을 한번에 변경할 수도 있다.
s8[[200,106]]= 700,600
s8

100    1000
101       1
102       2
103       3
104       4
105       5
200     700
106     600
dtype: int64

In [90]:
s8['abc'] = 100
s8

100    1000
101       1
102       2
103       3
104       4
105       5
200     700
106     600
abc     100
dtype: int64

In [91]:
s8[['abc',200]]

abc    100
200    700
dtype: int64

### 3. 인덱스 재사용하기

In [92]:
# 기존에 Series 에 있던 Index 를 다른 Series 에 재사용하는 방법
s8.index

Index([100, 101, 102, 103, 104, 105, 200, 106, 'abc'], dtype='object')

In [96]:
len(s8.values)

9

In [97]:
s9 = pd.Series(np.arange(len(s8)),s8.index)
s9

100    0
101    1
102    2
103    3
104    4
105    5
200    6
106    7
abc    8
dtype: int64

### Series name, Index name, Index 변경

In [98]:
s7

유재석    100
강호동     80
신동엽     90
dtype: int64

In [101]:
# Series 의 이름
s7.name = '성적'
s7

유재석    100
강호동     80
신동엽     90
Name: 성적, dtype: int64

In [102]:
# index 로 이름을 지정할 수 있다.
s7.index.name = '이름'
s7

이름
유재석    100
강호동     80
신동엽     90
Name: 성적, dtype: int64

In [103]:
s7.index = ['카리나','윈터','닝닝']
s7

카리나    100
윈터      80
닝닝      90
Name: 성적, dtype: int64