In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

### Series
- 값과 index로 구성된 1열 데이터. 특성 하나의 데이터

###  Series 생성
- 1차원 list, tuple ndarray 등을 이용해 생성할 수 있다.

In [2]:
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [3]:
type(s1)

pandas.core.series.Series

In [4]:
# 저장되어 있는 값의 타입
s1.dtype

dtype('int64')

In [5]:
# 데이터의 개수
len(s1)
s1.shape

5

(5,)

In [6]:
# 값을 추출한다.
s1.values

array([10, 20, 30, 40, 50])

In [7]:
# 인덱스를 추출한다.
list(s1.index)

[0, 1, 2, 3, 4]

In [8]:
# 생성시 인덱스를 지정한다.
s1 = pd.Series([10, 20, 30, 40, 50], index=['값1', '값2', '값3', '값4', '값5'])
s1

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [9]:
# 생성된 Series의 index를 변경한다.
s1.index = ['a1', 'a2', 'a3', 'a4', 'a5']
s1

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

### 인덱싱과 슬라이싱

In [10]:
s1 = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
s1

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64

In [11]:
# index를 통한 접근
s1[2]

30

In [12]:
# 순서를 통한 접근
s1.iloc[2]

30

In [13]:
# 인덱스 변경
s1.index = [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
s1

9     10
8     20
7     30
6     40
5     50
4     60
3     70
2     80
1     90
0    100
dtype: int64

In [14]:
# 인덱스를 통한 접근
s1[2]

80

In [15]:
# 순서를 통한 접근
s1.iloc[2]

30

In [16]:
# 인덱스를 통한 접근
s1.loc[2]

80

In [17]:
# 순서를 통해 2 ~ 5 - 1번째 까지
s1[2:5]

7    30
6    40
5    50
dtype: int64

In [18]:
# 순서를 통해 2 ~ 5 - 1번째 까지
s1.iloc[2:5]

7    30
6    40
5    50
dtype: int64

In [19]:
# 인덱스가 2 ~ 5 까지. 이 범위에 해당하는 값이 없으므로 아무것도
# 가져오지 못한다.
s1.loc[2:5]

Series([], dtype: int64)

In [20]:
# 인덱스가 8부터 3까지
s1.loc[8:3]

8    20
7    30
6    40
5    50
4    60
3    70
dtype: int64

In [21]:
# 숫자가 아닌 인덱스
s1.index=['a1', 'a2', 'a3', 'a4', 'a5', 'a6', 'a7', 'a8', 'a9', 'a10']
s1

a1      10
a2      20
a3      30
a4      40
a5      50
a6      60
a7      70
a8      80
a9      90
a10    100
dtype: int64

In [22]:
# 인덱스가 문자열인데 숫자를 넣어주면 순서에 해당한다.
s1[2]

30

In [23]:
# 문자열을 넣어주면 인덱스를 의미한다.
s1['a8']

80

In [24]:
# iloc는 무조건 순서....
s1.iloc[2]

30

In [25]:
# 인덱스를 지정하면 오류가 발생한다.
s1.iloc['a3']

TypeError: Cannot index by location index with a non-integer key

In [26]:
# loc는 무조건 인덱스...
s1.loc[2]

KeyError: 2

In [27]:
s1.loc['a3']

30

In [28]:
# 인덱스가 숫자가 아닌경우 숫자를 지정하면 순서를 의미한다.
# 순서 2 ~ 6 - 1
s1[2:6]

a3    30
a4    40
a5    50
a6    60
dtype: int64

In [29]:
# 인덱스 지정
# 인덱스 a3 ~ a6까지
s1['a3':'a6']

a3    30
a4    40
a5    50
a6    60
dtype: int64

In [30]:
# 순서
# 순서2 ~ 6 - 1까지
s1.iloc[2:6]

a3    30
a4    40
a5    50
a6    60
dtype: int64

In [31]:
# 인덱스가 문자열인 경우...
s1['a1']
s1['a2']
s1['a3']

s1.a1
s1.a2
s1.a3

10

20

30

10

20

30

### Series의 연산
- Series는 내부적으로 1차원 ndarray를 관리한다.
- 산술연산은 ndarray와 동일하게 동작한다.

In [32]:
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([1, 2, 3, 4, 5])

s1
s2

0    10
1    20
2    30
3    40
4    50
dtype: int64

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [33]:
s10 = s1 + s2
s20 = s1 - s2
s30 = s1 * s2
s40 = s1 // s2

s10
s20
s30
s40

0    11
1    22
2    33
3    44
4    55
dtype: int64

0     9
1    18
2    27
3    36
4    45
dtype: int64

0     10
1     40
2     90
3    160
4    250
dtype: int64

0    10
1    10
2    10
3    10
4    10
dtype: int64

In [34]:
# s1의 인덱스를 변경한다.
s1.index = [4, 3, 2, 1, 0]
s1

s2

4    10
3    20
2    30
1    40
0    50
dtype: int64

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [35]:
# Series는 순서가 아닌 index를 매칭시켜서 index가 같은 것 끼리
# 연산을 수행한다.
s100 = s1 + s2
s100

0    51
1    42
2    33
3    24
4    15
dtype: int64

In [36]:
# index가 다른경우
# index가 달라 매칭되지 않을 경우에는 결과가 결측치로 나온다.
s1.index = [0, 1, 2, 3, 4]
s2.index = [2, 3, 4, 5, 6]

s100 = s1 + s2
s100

0     NaN
1     NaN
2    31.0
3    42.0
4    53.0
5     NaN
6     NaN
dtype: float64

### 조건에 따른 데이터 가져오기

In [37]:
s1 = pd.Series([100, 200, 300, 400, 500])
s2 = s1 > 300
s2

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [38]:
s1[s2]

3    400
4    500
dtype: int64

In [39]:
s1[s1 > 300]

3    400
4    500
dtype: int64