# Series

In [1]:
# 패키지 불러오기
import pandas as pd # Pandas
import numpy as np # Numpy

## Series (시리즈)

### Series의 생성

In [2]:
# Series객체 생성 : pd.Series(object, index)

# 1. object에 리스트(시퀀스)객체 이용
obj = ['Adam', 'Bob', 'Colin'] # 값 리스트
series_1 = pd.Series(obj) # 시리즈 생성
print(series_1)

0     Adam
1      Bob
2    Colin
dtype: object


In [3]:
# 원하는 인덱스 지정
idx = ['A', 'B', 'C'] # 인덱스 리스트
series_2 = pd.Series(obj, index = idx) # 시리즈 생성
print(series_2)

A     Adam
B      Bob
C    Colin
dtype: object


In [4]:
# 2. object에 딕셔너리객체 이용
obj = {'A':'Adam', 'B':'Bob', 'C':'Colin'} # 딕셔너리
series_3 = pd.Series(obj) # 시리즈 생성
print(series_3)

A     Adam
B      Bob
C    Colin
dtype: object


### 시리즈의 정보 확인

In [5]:
# 시리즈 정보 확인 메소드
# .values
# 시리즈객체 내 값을 배열 형태로 반환
print(series_1.values)

# .index
# 시리즈객체 내 인덱스를 레이블 배열 형태로 반환
print(series_1.index)

# .dtypes
# 시리즈객체의 데이터 타입 확인
print(series_1.dtypes)

# .size
# 시리즈객체의 총 객체 수
print(series_1.size)

['Adam' 'Bob' 'Colin']
RangeIndex(start=0, stop=3, step=1)
object
3


In [6]:
# 시리즈객체의 인덱스 변경
print(series_1.index) # 변경 전

series_1.index = ['A', 'B', 'C'] # 변경
print(series_1.index) # 변경 후

RangeIndex(start=0, stop=3, step=1)
Index(['A', 'B', 'C'], dtype='object')


### 시리즈의 인덱싱과 슬라이싱

In [7]:
obj = [22, 32, 27, 18, 38, 19] # 값 리스트
idx = list('abcdef') # 인덱스 리스트
sr = pd.Series(obj, index = idx)
sr

a    22
b    32
c    27
d    18
e    38
f    19
dtype: int64

In [8]:
# 인덱싱
print(sr[4]) # 위치기반
print(sr['e']) # 레이블기반

38
38


In [9]:
# 슬라이싱
print(sr[1:5]) # 위치기반
print(sr['b':'e']) # 레이블기반

b    32
c    27
d    18
e    38
dtype: int64
b    32
c    27
d    18
e    38
dtype: int64


In [10]:
# 연속하지 않은 위치
idx = [0, 3, 4] # 위치 번호를 담은 리스트
sr[idx]

a    22
d    18
e    38
dtype: int64

In [11]:
# 연속하지 않은 레이블
lbl = ['a', 'd', 'e'] # 레이블을 담은 리스트
sr[lbl]

a    22
d    18
e    38
dtype: int64

### 시리즈의 통계 메소드

In [12]:
sr_1 = pd.Series(range(100)) # 시리즈 생성

# describe()
# 시리즈객체의 요약 통계량에 대한 정보
# 총 객체수, 평균, 표준편차, 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값, 데이터타입
sr_1.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

In [13]:
# .count()
# 시리즈객체의 총 객체수
print(sr_1.count())

# .mean()
# 시리즈객체의 평균
print(sr_1.mean())

# .var()
# 시리즈객체의 분산
print(sr_1.var())

# .std()
# 시리즈객체의 표준편차
print(sr_1.std())

# .min()
# 시리즈객체의 최솟값
print(sr_1.min())

# .max()
# 시리즈객체의 최댓값
print(sr_1.max())

# .median()
# 시리즈객체의 중앙값
print(sr_1.median())

# .quantile()
# 시리즈객체의 q*100% 백분위수
print(sr_1.quantile(q = 0.25)) # 제1사분위수
print(sr_1.quantile()) # default = .5로 중앙값
print(sr_1.quantile(q = 0.75)) # 제3사분위수

100
49.5
841.6666666666666
29.011491975882016
0
99
49.5
24.75
49.5
74.25


In [14]:
sr_2 = pd.Series(['a','b','b','b','c','c','d']) # 시리즈 생성
sr_2.describe() # 총 객체수, 유일값, 최빈값, 최빈값의빈도

count     7
unique    4
top       b
freq      3
dtype: object

In [15]:
# .unique()
# 시리즈객체의 유일값을 1d-array로 반환
print(sr_2.unique())

# .value_counts()
# 시리즈객체의 유일값별 빈도수를 시리즈로 반환
print(sr_2.value_counts())

# .mode()
# 시리즈객체의 최빈값을 시리즈로 반환
print(sr_2.mode())

['a' 'b' 'c' 'd']
b    3
c    2
a    1
d    1
dtype: int64
0    b
dtype: object
