In [1]:
import pandas as pd
import numpy as np

<h3>Series</h3><br>
Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). The axis labels are collectively referred to as the index. The basic method to create a Series is to call


s = pd.Series(data, index=index)

#### 0. Series 만들기

1차원 배열인 Series는 모든 datatype을 포함할 수 있다.<br>
python dict, ndarray, scalar value 등을 Series 객체로 만들 수 있다.

In [4]:
# ndarray를 Series로
data = np.random.randn(5)
print(data)

[ 0.75949753  1.13258899  2.46666765 -0.18670409 -0.1203249 ]


In [10]:
s = pd.Series(data)
s

0    0.759498
1    1.132589
2    2.466668
3   -0.186704
4   -0.120325
dtype: float64

In [16]:
# pandas에서는 행을 index라고 부른다.
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [14]:
# index를 부여할 수도 있다.
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s

a   -0.309027
b   -0.671117
c   -0.555885
d    0.270834
e   -2.325941
dtype: float64

In [15]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [21]:
# dict를 Series로
d = {"a": 0.0, "b": 1.0, "c": 2.0}

pd.Series(d)

a    0.0
b    1.0
c    2.0
dtype: float64

In [23]:
# 만약 index에 대응하는 dict key가 없다면 NaN 반환
# NaN (not a number) is the standard missing data marker used in pandas.
pd.Series(d, index=["b", "c", "d", "a"])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [24]:
# from scalar value
pd.Series(5.0, index=["a", "b", "c", "d", "e"])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

#### 1. Series indexing & slicing like as numpy ndarray

In [36]:
s = pd.Series(data=[1.1, 1.2, 1.3, 1.4, 1.5])
s

0    1.1
1    1.2
2    1.3
3    1.4
4    1.5
dtype: float64

In [39]:
s[0]

1.1
1.5


In [40]:
s[:3]

0    1.1
1    1.2
2    1.3
dtype: float64

In [41]:
s[1:3]

1    1.2
2    1.3
dtype: float64

In [42]:
s[s > s.median()]

3    1.4
4    1.5
dtype: float64

In [43]:
s[[4, 3, 1]]

4    1.5
3    1.4
1    1.2
dtype: float64

In [44]:
s.dtype

dtype('float64')

In [45]:
type(s)

pandas.core.series.Series

In [48]:
s = pd.Series(data=[1.1, 1.2, 1.3, 1.4, 1.5], index=["a", "b", "c", "d", "e"])
s

a    1.1
b    1.2
c    1.3
d    1.4
e    1.5
dtype: float64

In [49]:
s["a"]

1.1

In [50]:
"a" in s

True

#### 2. Series calculation

In [80]:
# Series and a number
print(s + 2)
print(s - 2)
print(s * 2)
print(s / 2)

a    3.1
b    3.2
c    3.3
d    3.4
e    3.5
dtype: float64
a   -0.9
b   -0.8
c   -0.7
d   -0.6
e   -0.5
dtype: float64
a    2.2
b    2.4
c    2.6
d    2.8
e    3.0
dtype: float64
a    0.55
b    0.60
c    0.65
d    0.70
e    0.75
dtype: float64


In [79]:
# Two or more Series, same size
## alsways mapped by index key
print(s + s)
print()
print(s - s)
print()
print(s * s)
print()
print(s / s)

a    2.2
b    2.4
c    2.6
d    2.8
e    3.0
dtype: float64

a    0.0
b    0.0
c    0.0
d    0.0
e    0.0
dtype: float64

a    1.21
b    1.44
c    1.69
d    1.96
e    2.25
dtype: float64

a    1.0
b    1.0
c    1.0
d    1.0
e    1.0
dtype: float64


In [74]:
# Two or more Series, different size
## alsways mapped by index key
s4 = pd.Series(data=[1.1, 1.2, 1.3, 1.4])
s3 = pd.Series(data=[1.1, 1.2, 1.3])
s2 = pd.Series(data=[1.1, 1.2])
s1 = pd.Series(data=[1.1])

In [75]:
print(s4 + s3)
print(s4 + s2)
print(s4 + s1)

0    2.2
1    2.4
2    2.6
3    NaN
dtype: float64
0    2.2
1    2.4
2    NaN
3    NaN
dtype: float64
0    2.2
1    NaN
2    NaN
3    NaN
dtype: float64


In [76]:
print(s4 * s3)
print(s4 * s2)
print(s4 * s1)

0    1.21
1    1.44
2    1.69
3     NaN
dtype: float64
0    1.21
1    1.44
2     NaN
3     NaN
dtype: float64
0    1.21
1     NaN
2     NaN
3     NaN
dtype: float64


In [77]:
print(s4 / s3)
print(s4 / s2)
print(s4 / s1)

0    1.0
1    1.0
2    1.0
3    NaN
dtype: float64
0    1.0
1    1.0
2    NaN
3    NaN
dtype: float64
0    1.0
1    NaN
2    NaN
3    NaN
dtype: float64


In [78]:
s[1:] + s[:-1]

a    NaN
b    2.4
c    2.6
d    2.8
e    NaN
dtype: float64

#### 3. Name of Series

In [82]:
s = pd.Series(data=[1.1, 1.2, 1.3, 1.4, 1.5], name="thisIsSeriesName")
s

0    1.1
1    1.2
2    1.3
3    1.4
4    1.5
Name: thisIsSeriesName, dtype: float64

In [83]:
s.name

'thisIsSeriesName'

In [85]:
s = s.rename("newName")
s.name

'newName'

### Q : 왜 List나 Dict 안쓰고 Series를 써야 하나요? 배우기 싫어요!

- 관리가 쉽다
- 큰 데이터를 편하게 핸들링할 수 있다
- 인덱스가 존재해 안정적이다(+ Dict의 key보다 연산이 편하다)
- 부가적인 연산 기능들이 존재한다(어떤 기능들은 pandas가 독보적으로 편하다)
- 만들기 쉽다(특히 나중에 배울 DataFramen은 엑셀 등에서 불러오기 쉽다).
- 파이썬에서 데이터를 주무르는 경우(전처리, 분석 등) 반드시 사용할 일이 생긴다