# Series 타입

In [1]:
import numpy as np
import pandas as pd

In [3]:
series1 = pd.Series([1,2,3])
print(type(series1))
series1

<class 'pandas.core.series.Series'>


0    1
1    2
2    3
dtype: int64

In [4]:
series2 = pd.Series([1,2,3], [100,200,300])
series2

100    1
200    2
300    3
dtype: int64

In [5]:
series2.index

Int64Index([100, 200, 300], dtype='int64')

In [6]:
series2.values

array([1, 2, 3])

In [8]:
series3 = pd.Series([1,2,3], ['a','b','c'])
series3

a    1
b    2
c    3
dtype: int64

In [9]:
series3.index

Index(['a', 'b', 'c'], dtype='object')

In [11]:
series3.values

array([1, 2, 3])

In [12]:
print(series1[0])
print(series1[1])
print(series1[2])
# 인덱스를 넘어가면 오류가 발생한다,

1
2
3


In [13]:
print(series2[100])
print(series2[200])

1
2


In [14]:
print(series3['a']) #컬럼의 이름이 인덱스로 확용이 된다.
print(series3['b'])

1
2


In [15]:
series1[1] = 20
series1

0     1
1    20
2     3
dtype: int64

In [16]:
series2[100] = 100
series2

100    100
200      2
300      3
dtype: int64

# Series 속성

In [18]:
# 샘플 하나 만들기
sample = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN])
sample

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [19]:
len(sample)

16

In [20]:
# 배열의 크기
sample.size

16

In [21]:
# 배열의 모양
sample.shape

(16,)

In [22]:
sample.ndim

1

In [23]:
sample.unique() # 중복을 제외한 값들만 출력해준다

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [24]:
# NaN을 제외한 개수를 반환
sample.count()

15

In [25]:
# NaN을 제외한 평균
sample.mean()

2.6666666666666665

In [27]:
# NAN을 제외한 각 값들의 빈도를 계산
sample.value_counts()

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

In [32]:
print(type(sample[2]))
print(sample[2])
print(type(sample[[2]]))
print(sample[[2]])

<class 'numpy.float64'>
2.0
<class 'pandas.core.series.Series'>
2    2.0
dtype: float64


In [28]:
#multi index
# numpy의 ndarray 타입에서 행, 열 인덱싱과는 다른 표현
sample[[1,2,3,4]]

1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [29]:
sample[[1,2,3,4]].value_counts()

2.0    2
1.0    2
dtype: int64

In [39]:
# error 발생
sample[2].value_counts()

AttributeError: 'numpy.float64' object has no attribute 'value_counts'

In [33]:
# head() 앞에 5줄을 기본으로 출력해준다.
sample.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [34]:
sample.head(n=8)

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
7    1.0
dtype: float64

In [35]:
# tail(): 뒤에 5줄을 기본으로 출력해준다.
sample.tail()

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [36]:
sample.tail(n=2)

14    7.0
15    NaN
dtype: float64

In [37]:
sample1 = pd.Series([1,2,3,4], ['a','b','c','d'])
sample2 = pd.Series([5,6,7,8], ['d','c','b','a'])

In [40]:
# 산술 연산
print(sample1 + sample2) # 인덱스 기준으로 연산
print(sample1 * sample2)

a    9
b    9
c    9
d    9
dtype: int64
a     8
b    14
c    18
d    20
dtype: int64


In [43]:
sample1['e'] = 10
sample2['f'] = 20
print(sample1)
print(sample2)

a     1
b     2
c     3
d     4
e    10
dtype: int64
d     5
c     6
b     7
a     8
f    20
dtype: int64


In [44]:
print(sample1 + sample2) # 인덱스가 맞지 않으면 덧셈후 값을 Nan 으로 준다

a    9.0
b    9.0
c    9.0
d    9.0
e    NaN
f    NaN
dtype: float64


# fancy indexing(boolean indexing)

In [45]:
series1[[True, False, True]]

0    1
2    3
dtype: int64

In [46]:
sample3 = pd.Series(np.arange(10), np.arange(10)+1)
sample3

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [47]:
sample3 > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [48]:
sample3[sample3 > 5]

7     6
8     7
9     8
10    9
dtype: int64

In [49]:
sample3[sample3 % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [51]:
sample3.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [52]:
sample3[sample3.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

다중조건 : AND(&), OR(|), NOT(!)

In [54]:
sample3[(sample3 > 5) & sample3(sample3 < 8)]

TypeError: 'Series' object is not callable