# 2. Series 개요

In [1]:
import pandas as pd
import numpy as np

## 2-1. Series 생성하기
* Numpy에서 제공하는 1차원 배열과 유사, 엑셀에서 한 컬럼
* Series = 1차원 배열의 값(value) + 행 인덱스(row index)

In [2]:
# 1. value값만 주고 Series 생성하기
# 인덱스를 지정하지 않으면 0부터 시작하는 정수값이 부여됨 (행 인덱스)
a = pd.Series([1, 2, 3, 4])
a

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
type(a)

pandas.core.series.Series

In [4]:
a.shape

(4,)

In [5]:
# index 속성
a.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
# value 속성
a.values, type(a.values)

(array([1, 2, 3, 4], dtype=int64), numpy.ndarray)

In [7]:
# dtype지정하기
pd.Series([1, 2, 3, 4], dtype=float)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [8]:
# ndarray로 생성하기
pd.Series(np.array([1, 2, 3, 4]))

0    1
1    2
2    3
3    4
dtype: int32

In [9]:
# 1~10까지 Series 만들기
pd.Series(range(1, 11))

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

In [10]:
pd.Series(np.arange(1, 11))

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int32

In [11]:
# 2. value값과 index 둘다 주고 Series 생성하기
index=[1, 2, 3, 4]
pd.Series([10, 20, 30, 40], index=index)

1    10
2    20
3    30
4    40
dtype: int64

In [12]:
# 인덱스 값은 숫자뿐만 아니라 문자열, 날짜, 시간 등도 가능함
# 인덱스 값(라벨)을 key로 갖는 딕셔너리 자료형과 같음
index=['치킨', '피자', '자장면', '탕수육']
s = pd.Series([16000, 18000, 6000, 10000],
              index=index)  # 인덱스 라벨
s

치킨     16000
피자     18000
자장면     6000
탕수육    10000
dtype: int64

In [13]:
# index 속성
s.index

Index(['치킨', '피자', '자장면', '탕수육'], dtype='object')

In [14]:
# value 속성
s.values

array([16000, 18000,  6000, 10000], dtype=int64)

In [15]:
# 3. 딕셔너리 형태로 Series 생성하기
s2 = pd.Series({'치킨': 16000, '피자': 18000, '자장면': 6000, '탕수육': 10000})
s2

치킨     16000
피자     18000
자장면     6000
탕수육    10000
dtype: int64

In [16]:
# Series 인덱스에 이름 붙이기
s.index.name = '메뉴'
s

메뉴
치킨     16000
피자     18000
자장면     6000
탕수육    10000
dtype: int64

## 2-2. Series 인덱싱과 슬라이싱

In [17]:
# 0부터 시작하는 숫자 인덱싱 방법
s[0]

16000

In [18]:
# 인덱스 라벨을 이용한 인덱싱 방법
# 인덱스 라벨이 문자열인 경우 .을 이용하여 접근가능
s['치킨'], s.치킨

(16000, 16000)

In [19]:
s[-1], s['탕수육'], s.탕수육

(10000, 10000, 10000)

In [20]:
# index가 숫자일 경우
t = pd.Series([10,20,30,40], index=[1,2,3,4])
t

1    10
2    20
3    30
4    40
dtype: int64

In [21]:
# 인덱스 라벨로 인식
#t[0]

In [22]:
t[1]

10

In [23]:
# Fancy 인덱싱
s[[0, 2]]

메뉴
치킨     16000
자장면     6000
dtype: int64

In [24]:
s[['치킨', '자장면']]

메뉴
치킨     16000
자장면     6000
dtype: int64

In [25]:
# Boolean 인덱싱
s < 10000

메뉴
치킨     False
피자     False
자장면     True
탕수육    False
dtype: bool

In [26]:
s[s < 10000]

메뉴
자장면    6000
dtype: int64

In [27]:
# 10000원 미만이거나 18000원 이상인 메뉴
s[(s < 10000) | (s >= 18000) ]

메뉴
피자     18000
자장면     6000
dtype: int64

In [28]:
# 슬라이싱 (0부터 시작하는 숫자 인덱싱 방법 : end 인덱스 미포함)
s[1:3]

메뉴
피자     18000
자장면     6000
dtype: int64

In [29]:
# 인덱스 라벨을 이용한 인덱싱 방법 : end 인덱스 라벨 포함
s['피자':'탕수육']

메뉴
피자     18000
자장면     6000
탕수육    10000
dtype: int64

## 2-3. Series 데이터 CRUD

In [30]:
# 앞에서부터 데이터 가져오기
s.head()

메뉴
치킨     16000
피자     18000
자장면     6000
탕수육    10000
dtype: int64

In [31]:
s.head(2)

메뉴
치킨    16000
피자    18000
dtype: int64

In [32]:
# 뒤에서부터 데이터 가져오기
s.tail(2)

메뉴
자장면     6000
탕수육    10000
dtype: int64

In [33]:
# 데이터 추가 : 비어있는 데이터 (볶음밥)
# NaN(Not a Number)값이 float 자료형에서만 가능하므로 dtype이 float로 됨
s['볶음밥'] = np.NaN
s

메뉴
치킨     16000.0
피자     18000.0
자장면     6000.0
탕수육    10000.0
볶음밥        NaN
dtype: float64

In [34]:
# 비어있는 (값이 없는) 데이터 찾기
s.isnull(), s.isna()

(메뉴
 치킨     False
 피자     False
 자장면    False
 탕수육    False
 볶음밥     True
 dtype: bool,
 메뉴
 치킨     False
 피자     False
 자장면    False
 탕수육    False
 볶음밥     True
 dtype: bool)

In [35]:
# Boolean 인덱싱
s[s.isnull()], s[s.isna()]

(메뉴
 볶음밥   NaN
 dtype: float64,
 메뉴
 볶음밥   NaN
 dtype: float64)

In [36]:
# 비어있지 않은 데이터 찾기
# notnull과 notna는 동일한 함수
s.notnull(), s.notna()

(메뉴
 치킨      True
 피자      True
 자장면     True
 탕수육     True
 볶음밥    False
 dtype: bool,
 메뉴
 치킨      True
 피자      True
 자장면     True
 탕수육     True
 볶음밥    False
 dtype: bool)

In [37]:
# Boolean 인덱싱
s[s.notnull()], s[s.notna()]

(메뉴
 치킨     16000.0
 피자     18000.0
 자장면     6000.0
 탕수육    10000.0
 dtype: float64,
 메뉴
 치킨     16000.0
 피자     18000.0
 자장면     6000.0
 탕수육    10000.0
 dtype: float64)

In [38]:
# 값 변경하기
s[0] = 20000
s

메뉴
치킨     20000.0
피자     18000.0
자장면     6000.0
탕수육    10000.0
볶음밥        NaN
dtype: float64

In [39]:
s['치킨'] = 21000
s

메뉴
치킨     21000.0
피자     18000.0
자장면     6000.0
탕수육    10000.0
볶음밥        NaN
dtype: float64

In [40]:
# 데이터 삭제 (key로 삭제하기)
del s['볶음밥']
s

메뉴
치킨     21000.0
피자     18000.0
자장면     6000.0
탕수육    10000.0
dtype: float64

In [41]:
s = s.astype(int)
s

메뉴
치킨     21000
피자     18000
자장면     6000
탕수육    10000
dtype: int32

## 2-4. Series 연산

In [42]:
# Sereis간의 연산
s, s2

(메뉴
 치킨     21000
 피자     18000
 자장면     6000
 탕수육    10000
 dtype: int32,
 치킨     16000
 피자     18000
 자장면     6000
 탕수육    10000
 dtype: int64)

In [43]:
# Sereis간의 연산 (인덱스 라벨이 동일해야 함)
s - s2

메뉴
치킨     5000
피자        0
자장면       0
탕수육       0
dtype: int64

In [44]:
s2.index = ['C', 'P', 'J', 'T']
s - s2

C     NaN
J     NaN
P     NaN
T     NaN
자장면   NaN
치킨    NaN
탕수육   NaN
피자    NaN
dtype: float64

In [45]:
# ndarray끼리 연산
s.values - s2.values

array([5000,    0,    0,    0], dtype=int64)

In [46]:
# Scalar와의 연산 (Boardcast)
s = s + 1000
s

메뉴
치킨     22000
피자     19000
자장면     7000
탕수육    11000
dtype: int32

In [47]:
# Aggregation 함수
s.min(), s.max(), s.sum(), s.mean(), s.median()

(7000, 22000, 59000, 14750.0, 15000.0)