# pandas Series Data type 판다스 시리즈 자료형

## 0. Pandas
- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열단위들을 구성할 수 있음
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리등

In [1]:
#pandas library, Series, DataFrame namespace 불러오기

import pandas as pd

## 1. Series Data type

- 1차원 배열과 유사한 자료형
    
- 색인(index) : 행 번호
    
    - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        
    - index 파라미터를 통해 새로운 값으로 변경 가능
    
    - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
    
    - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함

- 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사

- dict + index

- 여러 가지 데이터 타입 사용 가능
    
<img src="img/series_example.png" width="250" align="center">

<br>

- Series 생성

In [2]:
pd.Series()

  pd.Series()


Series([], dtype: float64)

### 1.1. Series 생성
- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### 1.2. Series 속성
- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

<br>

- 숫자 10을 data로 가지고 있는 Series

- data 해석 > 

1. 왼쪽 0: 자동으로 생성되는 기본 index 번호 > 0부터 시작
    
2. 오른쪽 10: 입력한 data value

In [3]:
sre_1 = pd.Series(10)

sre_1

0    10
dtype: int64

In [4]:
# 값을 얻을때는 인덱싱이나 슬라이싱을 활용함
sre_1[0]

10

In [5]:
# data 내부에 저장된  value 확인
sre_1.values

array([10], dtype=int64)

In [6]:
# index 번호 확인
# RangeIndex: dafault로 생성되는 index번호를 사용하는 경우 부여됨
sre_1.index

RangeIndex(start=0, stop=1, step=1)

In [7]:
# 문자
sre_2 = pd.Series("abc")
sre_2

0    abc
dtype: object

In [8]:
# data check
sre_2.values

array(['abc'], dtype=object)

In [9]:
# index check
sre_2.index

RangeIndex(start=0, stop=1, step=1)

In [10]:
# 리스트 자료형 Input
sre_3 = pd.Series([10, 20, 30])
sre_3

0    10
1    20
2    30
dtype: int64

In [11]:
# data check
sre_3.values # NumPy.ndarray

array([10, 20, 30], dtype=int64)

In [12]:
# index check
# 0 이상 3 미만 RangeIndex: 0, 1, 2
sre_3.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
# item data type이 서로 다른 list data type input
sre_4 = pd.Series([10.3, "test", 2000, [1, 2, 3]])
sre_4

0         10.3
1         test
2         2000
3    [1, 2, 3]
dtype: object

In [14]:
# data type 특정지을 수 없을때 > dtype: object

In [15]:
# data check
sre_4.values

array([10.3, 'test', 2000, list([1, 2, 3])], dtype=object)

In [16]:
# index check
sre_4.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
# dict data type > 자동으로 라벨 부여, key > index, value > data
sre_5 = pd.Series({'a':10, 'b':20, 'c':30})
sre_5

a    10
b    20
c    30
dtype: int64

In [18]:
# data check
sre_5.values

array([10, 20, 30], dtype=int64)

In [19]:
# index check
sre_5.index

Index(['a', 'b', 'c'], dtype='object')

In [20]:
# int index 병행 사용 가능
sre_5[0]

10

In [21]:
sre_5['a']

10

In [23]:
# 인덱스 새롭게 지정하기
# 인덱스 속성(길이)을 참조하여 리스트, 튜플 타입으로 전달
# 라벨 인덱스가 없던 경우 > 새롭게 라벨 인덱스 부여
# 라벨 인덱스가 있던 경우 > 기존에 있던 라벨 인덱스에 덮어씌우기

sre_5.index

Index(['a', 'b', 'c'], dtype='object')

In [24]:
# 컴퓨터 자동 부여 인덱스

sre_4.index

RangeIndex(start=0, stop=4, step=1)

In [25]:
# tuple로도 생성 가능
se_6 = pd.Series((1, 2, 3, 4, 5.0))
se_6

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [28]:
# index를 새롭게 지정할 때 > RangeIndex범위만큼 길이를 가지는 리스트를 사용
# 행 개수(data 개수)와 동일한 길이를 전달해야 한다
se_6.index = [2018, 2019, 2020, 2021, 2022]
se_6

2018    1.0
2019    2.0
2020    3.0
2021    4.0
2022    5.0
dtype: float64

In [29]:
# index를 지정하여 객체 생성
# index 객체에 대해서 item reference는 가능
se_6.index[3]

2021

In [30]:
# index 객체 내부의 단일 라벨 인덱스만 수정하는 것은 불가능
se_6.index[-1] = 2023

TypeError: Index does not support mutable operations

In [31]:
# index 라벨링 수정 시 전체 인덱스를 대입해줘야 한다.
se_6.index = [2018, 2019, 2020, 2021, 2023]

se_6

2018    1.0
2019    2.0
2020    3.0
2021    4.0
2023    5.0
dtype: float64

In [32]:
# dict없이 Series에 라벨 index 부여하고 싶은 경우
# Series() 생성 시 index를 parameter로 넘겨서 처리 가능
# > pd.Series(data, index=[...])

se_7 = pd.Series([10, 20, 30, 40], index = ["mon", "tue", "wed","thu"])
se_7

mon    10
tue    20
wed    30
thu    40
dtype: int64

In [35]:
se_7.values

array([10, 20, 30, 40], dtype=int64)

In [36]:
se_7.index

Index(['mon', 'tue', 'wed', 'thu'], dtype='object')

In [37]:
# 자동 부여된 숫자 인덱스도 여전히 사용 가능
se_7[3]

40

In [38]:
se_7["thu"]

40

### 1.3. dict 자료형과 유사한 Series 자료형

In [39]:
# dictionary 자료형으로 Series 생성
data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample = pd.Series(data)

print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [40]:
# Series 객체와 in 연산자
# dict와 유사: in 연산자를 사용해 내부 요소 검사 시
# key value에 해당하는 라벨을 이용해 해당 요소가 있는지 없는지 여부를 bool typedmfh cnffur
print("서울" in sample)
print("강원" in sample)

True
True


In [45]:
# for문에서 in연산자로 접근: Series의 value값 reference

for item in sample:
    print(item)
print("-------")
for value in sample.values:
    print(value)

100
200
300
400
-------
100
200
300
400


In [46]:
# 서울, 경기, 강원, 부산 > 서울, 경기, 강원, 제주로 label indexing 변경
# 지정한 index 기준으로 Series 생성
# 사용하는 index에 없는 값은 Series에 NaN값으로 저장

# NaN: Not a Number > numpy에서 해당 위치가 비었음을 의미하는 자료(null)
# None: Python 기본 자료형에서 값이 없음을 의미하는 자료
index_2 = ['서울', '경기', '강원', '제주']
sample_2 = pd.Series(data, index=index_2)
sample_2

서울    100.0
경기    200.0
강원    300.0
제주      NaN
dtype: float64

In [47]:
data

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}

### 1.4. 인덱싱(indexing)

- 하나의 특정 값을 선택하거나 변경

- 참조하는 index: 기본 숫자 index, label index

- 새로운 index를 설정해도, 기본 숫자 index 사용 가능

In [50]:
se6_data = {'a':10, 'b':20, 'c':30}
se_6 = pd.Series(se6_data)
se_6

a    10
b    20
c    30
dtype: int64

In [51]:
# Series `se_6`의 첫 번째 data > index 0으로 조회
# Series instance[index번호 or label숫자]
print(se_6.index[0])
print(se_6[0])

a
10


In [52]:
# Series `se_6`에 매칭된 data 조회
se_6['a']

10

In [53]:
# 요일-int 매칭 data 조회
se_7

mon    10
tue    20
wed    30
thu    40
dtype: int64

In [54]:
# Series `se_7`의 인덱스 `tue`에 해당하는 value data를 변경
# index(labeling)은 개별적으로 하나하나 변경 불가능
# index에 매칭된 data는 개별 data별 변경 가능
se_7[2] = 700
se_7

mon     10
tue     20
wed    700
thu     40
dtype: int64

In [61]:
# Series에서 원하는 행(row)만 조회하기: 조회 할 row명을 list로 묶어서 전달
# Series `se_7`에서 `wed`, `mon` label 조회
# 이중list를 사용해 조회해야 함 > se_7['wed', 'mon'] > Error
se_7[['mon', 'wed']]

mon     10
wed    700
dtype: int64

In [58]:
# 여러개의 index를 조회할 때 > list만 대입할 수 있다
se_7[('mon', 'wed')]

KeyError: 'key of type tuple not found and not a MultiIndex'

### 1.5. 슬라이싱(Slicing)
- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [62]:
# index 0에서 index 2(포함)까지 조회
se_1 = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
se_1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [63]:
# RangeIndex: 0, 1
se_1[0:2]

a    10
b    20
dtype: int64

In [64]:
# lable 'a' to label 'c' ('c' 포함)
se_1['a':'c']

a    10
b    20
c    30
dtype: int64

In [65]:
# 0부터 3까지 3포함 2개 간격
se_1[0:4:2]

a    10
c    30
dtype: int64

In [67]:
# index 'b' to 'd' (contains 'd') step=2
se_1['b':'d':2]

b    20
d    40
dtype: int64

### 1.6. 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [68]:
# 양수와 음수 데이터를 저장하고 있는 Series 생성
se_2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
se_2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [69]:
# 음수인 data는 True로, 양수인 data는 False로 결과 return
se_2 < 0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [70]:
# 조건색인으로 `se_2` data중 음수만 남기기
se_2[se_2 < 0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [72]:
# 두 개 이상의 조건 병렬형태로 처리하기.
# 양수이면서 10보다 작은 값만 조건식으로 남기기
se_2[(se_2 > 0) & (se_2 < 10)]

7     1
10    5
dtype: int64

### 1.9. 산술연산
- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능
    <img src="img/series_math.png" width="500" align="center">
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [73]:
# sr_1 -> 라벨 : a, b, c, d -> 데이터 4개 [1, 2, 3, 4]
# sr_2 -> 라벨 : a, c, d, e, f, g -> 데이터 6개 [10, 20, 30, 40, 50, 60]
sr_1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
sr_2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))

In [74]:
sr_1

a    1
b    2
c    3
d    4
dtype: int64

In [76]:
sr_2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [77]:
# Series object와 scarla값의 산술 연산
sr_1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [78]:
# Series끼리 더하기 > 공통 label a, c, d에만 value부여 > 한 Series에만 존재하는 label value = `NaN`
sr_1 + sr_2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [81]:
# `fill_vaule parameter`: 공통으로 존재하지 않는 라벨에 대해서 NaN값을 적용하지 않고 특정 값으로 대체 사용 가능
# pandas.Series() method를 이용할 때 parameter로 넘겨줄 수 있음
sr_1.add(sr_2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64