### Series
- 값과 인덱스로 구성된 1열 데이터
- 특성 하나의 데이터

### Pandas 라이브러리 설치
- pip install pandas

In [1]:
import numpy as np
import pandas as pd

### Series의 생성
- Series를 생성하기 위해서는 1차원으로 구성되어 있는 순서를 통해 데이터를 관리하는 요소가 필요한다.
- list, tuple, range, ndarray 등등...
- 내부적으로 데이터를 가지고 ndarray를 생성한 다음 이 ndarray를 관리하는 Series를 생성한다.
- 이에 하나의 Series안에는 같은 타입의 값만 담기게 된다.

In [2]:
a1 = [10, 20, 30, 40, 50]
a2 = 10, 20, 30, 40, 50
a3 = np.array([10, 20, 30, 40, 50])

s1 = pd.Series(a1)
s2 = pd.Series(a2)
s3 = pd.Series(a3)

In [3]:
print(type(s1))
print(type(s2))
print(type(s3))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [4]:
# 출력
print(s1)
display(s1)

0    10
1    20
2    30
3    40
4    50
dtype: int64


0    10
1    20
2    30
3    40
4    50
dtype: int64

- Series를 생성할 때 index를 지정하지 않으면 0부터 1씩 증가하는 값으로 설정된다.
- 허나 이 값은 각 행들의 순서를 나타내는 값이 아니라 각 행들을 구분하기 위한 서로 독립적인 행의 이름이 된다.
- 만약 index로 사용할 값들을 지정하면 그 값들이 index가 된다

In [5]:
# Series를 생성할 때 Series의 이름을 지정할 수 있다.
# 이 이름은 나중에 중요하게 쓰여진다.
s4 = pd.Series([10, 20, 30, 40, 50], name='Series 4')
s4

0    10
1    20
2    30
3    40
4    50
Name: Series 4, dtype: int64

In [6]:
# Series를 생성할 때 index를 지정할 수 있다.
a1 = [10, 20, 30, 40, 50]
a2 = ['값1', '값2', '값3', '값4', '값5']
s5 = pd.Series(a1, index=a2)
s5

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [None]:
# Series를 생성할 때 index를 지정할 수 있다.
# 만약 지정하는 index의 개수가 부족하거나 많으면 오류가 발생한다..
a10 = [10, 20, 30, 40, 50]
a20 = ['값1', '값2', '값3', '값4']
s50 = pd.Series(a10, index=a20)
s50

In [7]:
# 이미 생성되어 있는 Series의 index를 변경한다.
display(s5)

s5.index = ['a1', 'a2', 'a3', 'a4', 'a5']
display(s5)

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

### Series의 정보 확인

In [8]:
a1 = [10, 20, 30, 40, 50]
a2 = ['값1', '값2', '값3', '값4', '값5']

s1 = pd.Series(a1, index=a2, name='Series 1')
s1

값1    10
값2    20
값3    30
값4    40
값5    50
Name: Series 1, dtype: int64

In [9]:
# Series가 관리하는 데이터의 개수
print(s1.size)
print(len(s1))

5
5


In [10]:
# Series가 관리하는 값들을 가져온다.
# 1차원 ndarray 형태로 가져온다.
display(s1.values)

array([10, 20, 30, 40, 50])

In [11]:
# Series index
# Series를 생성할 때 index를 지정하지 않은 경우
s2 = pd.Series(a1)
print(s2.index)

# Series를 0부터 1씩 증가하는 숫자로 지정한 경우
s3 = pd.Series(a1, index=[0, 1, 2, 3, 4])
print(s3.index)

# 문자열로 지정했을 경우
print(s1.index)

RangeIndex(start=0, stop=5, step=1)
Index([0, 1, 2, 3, 4], dtype='int64')
Index(['값1', '값2', '값3', '값4', '값5'], dtype='object')


In [12]:
# Series의 이름
print(s1.name)
# Series가 관리하는 값의 타입
print(s1.dtype)

Series 1
int64


### Series가 관리하는 데이터에 접근하기
- 꼬오오오오옥!!!!!! index는 순서가 아니고 각 값들을 구분하기 위한 독립적인 이름이라는 것을 기억해주세요!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 제발~~~~

In [13]:
# index를 지정하지 않고 Series를 생성한다.
# index가 0부터 1씩 증가되는 것으로 설정된다.
# 하지만 순서가 아닌 각 행의 이름이다!!!!!
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [14]:
# [ ] 로 접근
# index를 통해 접근한다.
print(s1[0])
print(s1[1])

10
20


In [15]:
# 마치 순서를 통해 접근하는 것 처럼 보이지만 [ ] 는 index를 지정하여 해당 index에 해당하는
# 값을 가져오는 것이다.
# 따라서 [ ] 를 통해 접근할 때 뒤에서 부터라는 의미의 - 순서값을 사용할 수 없다.
print(s1[-1])
print(s1[-2])

KeyError: -1

In [16]:
# loc : index를 통한 접근
print(s1.loc[0])
print(s1.loc[1])

10
20


In [None]:
# index를 통한 접근이기 때문에 뒤에서 부터의 순서를 뜻하는 - 는 사용할 수 없다.
print(s1.loc[-1])
print(s1.loc[-2])

In [17]:
# iloc : 순서를 통한 접근
print(s1.iloc[0])
print(s1.iloc[1])
# iloc는 순서를 지정하여 값을 가져오는 것이므로 뒤에서 부터의 순서를 의미하는
# - 순서값을 적용할 수 있다.
print(s1.iloc[-1])
print(s1.iloc[-2])

10
20
50
40


In [18]:
# index를 지정하여 Series를 생성한다.
# index는 숫자로 지정한다.
s2 = pd.Series([10, 20, 30, 40, 50], index=[4, 1, 2, 0, 3])
s2

4    10
1    20
2    30
0    40
3    50
dtype: int64

In [19]:
# [ ] 를 통한 접근
# index를 통한 접근
print(s2[0])
print(s2[1])

40
20


In [20]:
# loc : index를 통한 접근
print(s2.loc[0])
print(s2.loc[1])

40
20


In [21]:
# iloc : 순서를 통한 접근
print(s2.iloc[0])
print(s2.iloc[1])
print(s2.iloc[-1])
print(s2.iloc[-2])

10
20
50
40


In [22]:
# index를 숫자가 아닌 다른 형태로 지정했을 경우
a1 = [10, 20, 30, 40, 50]
a2 = ['값1', '값2', '값3', '값4', '값5']

s3 = pd.Series(a1, index=a2)
s3

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [23]:
# [ ] 를 통한 접근
# 만약 [ ] 안에 숫자를 넣어주면 순서를 통한 접근이 된다.
# 미래의 버전에서 오류가 날 가능성이 있다.
# 어떨때는 index고 어떨때는 순서고~ 하기 때문에 헷갈릴 수 있다.
# 현재까지의 버전에서는 그냥 index가 숫자로 되어 있지 않는다면 숫자를 넣지 마세요
print(s3[0])
print(s3[1])
print(s3[-1])
print(s3[-2])

10
20
50
40


  print(s3[0])
  print(s3[1])
  print(s3[-1])
  print(s3[-2])


In [24]:
# Series[ ] 는 무조건 index와 동일하게 넣어주세요~
# 그래야 헷갈리지 않습니다~~~~
print(s3['값1'])
print(s3['값3'])

10
30


In [25]:
# loc : index를 통한 접근
print(s3.loc['값1'])
print(s3.loc['값3'])

10
30


In [26]:
# iloc : 순서를 통한 접근
print(s3.iloc[0])
print(s3.iloc[1])
print(s3.iloc[-1])
print(s3.iloc[-2])

10
20
50
40


### index를 지정하지 않고 Series를 만들었을 때
- [ ] : index
- loc : index
- iloc : 순서

### 숫자 형태의 index를 지정한 경우
- [ ] : index
- loc : index
- iloc : 순서

### 숫자가 아닌 형태의 index를 지정한 경우
- [숫자] : 순서. 사용하지 마세요
- [숫자가 아닌 형태] : index
- loc : index
- iloc : 순서

### 강사는요!!
- index는 무조건 loc
- 순서는 무조건 iloc

### 슬라이싱

In [2]:
# index 를 지정하지 않고 Series를 생성한다.
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [5]:
# [ ] : 순서를 통한 접근
# 순서값 1 ~ 4 - 1
print(s1[1:4])
# 순서값 처음 부터 4 - 1
print(s1[:4])
# 순서값 1  ~ 끝까지
print(s1[1:]) 
# 순서값 1 ~ -1 -1 까지
print(s1[1:-1])

1    20
2    30
3    40
dtype: int64
0    10
1    20
2    30
3    40
dtype: int64
1    20
2    30
3    40
4    50
dtype: int64
1    20
2    30
3    40
dtype: int64


In [3]:
# loc : index 를 통한 접근
# index 1 부터 index 3까지
print(s1.loc[1:3])
# 처음 부터 index 3까지
print(s1.loc[:3])
# index 1 부터 끝까지
print(s1.loc[1:])

1    20
2    30
3    40
dtype: int64
0    10
1    20
2    30
3    40
dtype: int64
1    20
2    30
3    40
4    50
dtype: int64


In [4]:
# iloc : 순서를 통한 접근
# 순서값 1 ~ 4 - 1 까지
print(s1.iloc[1:4])
# 순서값 처음 부터 4 - 1 까지
print(s1.iloc[:4])
# 순서값 1 ~ 끝까지
print(s1.iloc[1:])
# 순서값 1 ~ -1 -1 까지
print(s1.iloc[1:-1])

1    20
2    30
3    40
dtype: int64
0    10
1    20
2    30
3    40
dtype: int64
1    20
2    30
3    40
4    50
dtype: int64
1    20
2    30
3    40
dtype: int64


In [6]:
# 숫자로 되어 있는 index를 지정했을 경우
s2 = pd.Series([10, 20, 30, 40, 50], index=[4, 1, 0, 3, 2])
s2

4    10
1    20
0    30
3    40
2    50
dtype: int64

In [7]:
# [ ] : 순서를 통한 접근
# 순서값 1 ~ 4 - 1 까지
print(s2[1:4])
# 순서값 처음 ~ 4 - 1 까지
print(s2[:4])
# 순서값 1 ~ 끝까지
print(s2[1:])
# 순서값 1 ~ -1 - 1 까지
print(s2[1:-1])

1    20
0    30
3    40
dtype: int64
4    10
1    20
0    30
3    40
dtype: int64
1    20
0    30
3    40
2    50
dtype: int64
1    20
0    30
3    40
dtype: int64


In [8]:
# loc : index를 통한 접근
# index 1 ~ index 3 까지
print(s2.loc[1:3])
# 처음 부터 index 3 까지
print(s2.loc[:3])
# index 1 ~ 끝까지
print(s2.loc[1:])

1    20
0    30
3    40
dtype: int64
4    10
1    20
0    30
3    40
dtype: int64
1    20
0    30
3    40
2    50
dtype: int64


In [9]:
# iloc : 순서를 통한 접근
# 순서값 1 ~ 4 - 1 까지
print(s2.iloc[1:4])
# 순서값 처음 ~ 4 - 1 까지
print(s2.iloc[:4])
# 순서값 1 ~ 끝까지
print(s2.iloc[1:])
# 순서값 1 ~ -1 - 1 까지
print(s2.iloc[1:-1])

1    20
0    30
3    40
dtype: int64
4    10
1    20
0    30
3    40
dtype: int64
1    20
0    30
3    40
2    50
dtype: int64
1    20
0    30
3    40
dtype: int64


In [10]:
# 숫자가 아닌 index를 지정한 경우
s3 = pd.Series([10, 20, 30, 40, 50], index = ['값1', '값2', '값3', '값4', '값5'])
s3

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [11]:
# [ ] 안에 숫자를 넣었을 경우 : 순서를 통한 접근
# 순서값 1 ~ 4 - 1 까지
print(s3[1:4])
# 순서값 처음 부터 4 - 1 까지
print(s3[:4])
# 순서값 1 ~ 끝까지
print(s3[1:])
# 순서값 1 ~ -1 - 1 까지
print(s3[1:-1])

값2    20
값3    30
값4    40
dtype: int64
값1    10
값2    20
값3    30
값4    40
dtype: int64
값2    20
값3    30
값4    40
값5    50
dtype: int64
값2    20
값3    30
값4    40
dtype: int64


In [12]:
# [ ] 안에 숫자가 아닌 것을 넣었을 경우 : index를 통한 접근
# index 값2 ~ index 값4
print(s3['값2':'값4'])
# 처음 ~ index 값4
print(s3[:'값4'])
# index 값2 ~ 끝까지
print(s3['값2':])

값2    20
값3    30
값4    40
dtype: int64
값1    10
값2    20
값3    30
값4    40
dtype: int64
값2    20
값3    30
값4    40
값5    50
dtype: int64


In [13]:
# loc : index 를 통한 접근
# index 값2 ~ index 값4
print(s3.loc['값2':'값4'])
# 처음 ~ index 값4
print(s3.loc[:'값4'])
# index 값2 ~ 끝까지
print(s3.loc['값2':])

값2    20
값3    30
값4    40
dtype: int64
값1    10
값2    20
값3    30
값4    40
dtype: int64
값2    20
값3    30
값4    40
값5    50
dtype: int64


In [14]:
# iloc : 순서를 통한 접근
# 순서값 1 ~ 4 - 1 까지
print(s3.iloc[1:4])
# 순서값 처음 부터 4 - 1 까지
print(s3.iloc[:4])
# 순서값 1 ~ 끝까지
print(s3.iloc[1:])
# 순서값 1 ~ -1 - 1 까지
print(s3.iloc[1:-1])

값2    20
값3    30
값4    40
dtype: int64
값1    10
값2    20
값3    30
값4    40
dtype: int64
값2    20
값3    30
값4    40
값5    50
dtype: int64
값2    20
값3    30
값4    40
dtype: int64


### index를 지정하지 않고 생성하였을 때
- [ ] : 순서값을 통한 슬라이싱
- loc : index를 통한 슬라이싱
- iloc : 순서값을 통한 슬라이싱

### index를 숫자로 지정하고 생성하였을 때
- [ ]  : 순서값을 통한 슬라이싱
- loc : index를 통한 슬라이싱
- iloc : 순서값을 통한 슬라이싱

### index를 숫자가 아닌 것으로 지정하고 생성하였을 때
- [ 숫자 ] : 순서값을 통한 슬라이싱
- [ 숫자가 아닌것 ] : index를 통한 슬라이싱
- loc : index를 통한 슬라이싱
- iloc : 순서값을 통한 슬라이싱

### Series의 연산
- Series가 관리하는 데이터는 ndarray 로 저장되어 있다.
- 따라서 ndarray의 연산과 유사하게 동작하다.

In [15]:
# index를 지정하지 않은 Series (0 부터 1씩 증가되는 것으로 설정된다)
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([1, 2, 3, 4, 5])

display(s1)
display(s2)

0    10
1    20
2    30
3    40
4    50
dtype: int64

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [16]:
# Series와 Series간의 연산
# 두 Sereis의 순서가 아닌 index가 동일한 것끼리 매칭해서 연산을 수행한다.
s3 = s1 + s2
s4 = s1 - s2

display(s3)
display(s4)

0    11
1    22
2    33
3    44
4    55
dtype: int64

0     9
1    18
2    27
3    36
4    45
dtype: int64

In [17]:
# index는 동일하지만 index의 순서가 다를 경우
s1 = pd.Series([10, 20, 30, 40, 50], index = [1, 2, 3, 4, 5])
s2 = pd.Series([1, 2, 3, 4, 5], index = [5, 4, 3, 2, 1])

display(s1)
display(s2)

1    10
2    20
3    30
4    40
5    50
dtype: int64

5    1
4    2
3    3
2    4
1    5
dtype: int64

In [18]:
# index가 같은 것 끼리 매칭해서 연산을 수행한다.
s3 = s1 + s2
s4 = s1 - s2

display(s3)
display(s4)

1    15
2    24
3    33
4    42
5    51
dtype: int64

1     5
2    16
3    27
4    38
5    49
dtype: int64

In [20]:
# 두 Series의 index가 동일하지 않는 것들이 있을 경우

s1 = pd.Series([10, 20, 30, 40, 50], index = [1, 2, 3, 4, 5])
s2 = pd.Series([1, 2, 3, 4, 5], index = [3, 4, 5, 6, 7])

display(s1)
display(s2)

1    10
2    20
3    30
4    40
5    50
dtype: int64

3    1
4    2
5    3
6    4
7    5
dtype: int64

In [21]:
s3 = s1 + s2
s4 = s1 - s2

display(s3)
display(s4)

1     NaN
2     NaN
3    31.0
4    42.0
5    53.0
6     NaN
7     NaN
dtype: float64

1     NaN
2     NaN
3    29.0
4    38.0
5    47.0
6     NaN
7     NaN
dtype: float64

In [22]:
# Series는 연산 자체가 성립되지 않는 상황인 경우 결측치라는 것을 뜨는 NaN이라는 값이
# 최종 결과가 된다. 
# index가 똑같은 것 끼를 정상적으로 연산을 수행하지만 index가 한쪽에는 없는 경우
# 연산의 결과가 NaN으로 나오게 된다.
s3 = s1 + s2
s4 = s1 - s2

display(s3)
display(s4)

1     NaN
2     NaN
3    31.0
4    42.0
5    53.0
6     NaN
7     NaN
dtype: float64

1     NaN
2     NaN
3    29.0
4    38.0
5    47.0
6     NaN
7     NaN
dtype: float64

### 원하는 것만 골라서 가져온다.

In [23]:
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([10, 20, 30, 40, 50], index = [4, 1, 0, 3, 2])
s3 = pd.Series([10, 20, 30, 40, 50], index = ['값1', '값2', '값3', '값4', '값5'])

display(s1)
display(s2)
display(s3)

0    10
1    20
2    30
3    40
4    50
dtype: int64

4    10
1    20
0    30
3    40
2    50
dtype: int64

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [25]:
# [ ] 안에 다수의 값이 있는 리스트를 지정하면 index를 통해 선택해서 가져온다.
print(s1[[0, 2, 4]])
print(s2[[0, 2, 4]])
print(s3[['값1', '값3', '값5']])

0    10
2    30
4    50
dtype: int64
0    30
2    50
4    10
dtype: int64
값1    10
값3    30
값5    50
dtype: int64


In [26]:
# index가 정수가 아닌 것으로 되어 있는 Series인 경우 [ ] 안에 정수로
# 구성되어 있는 리스트를 넣어주면 순서가 된다.
print(s3[[0, 2, 4]])

값1    10
값3    30
값5    50
dtype: int64


  print(s3[[0, 2, 4]])


In [27]:
# loc : index를 지정한다.
print(s1.loc[[0, 2, 4]])
print(s2.loc[[0, 2, 4]])
print(s3.loc[['값1', '값3', '값5']])

0    10
2    30
4    50
dtype: int64
0    30
2    50
4    10
dtype: int64
값1    10
값3    30
값5    50
dtype: int64


In [28]:
# iloc : 순서를 통한 접근
print(s1.iloc[[0, 2, 4]])
print(s2.iloc[[0, 2, 4]])
print(s3.iloc[[0, 2, 4]])

0    10
2    30
4    50
dtype: int64
4    10
0    30
2    50
dtype: int64
값1    10
값3    30
값5    50
dtype: int64


In [29]:
# Series가 관리하는 값의 개수와 동일한 개수의 논리값이 들어 있는 리스트를 [ ] 안에 넣어주면
# True에 해당하는 값을 가지고 나온다.
display(s1[[True, False, True, False, True]])
display(s2[[True, False, True, False, True]])
display(s3[[True, False, True, False, True]])

0    10
2    30
4    50
dtype: int64

4    10
0    30
2    50
dtype: int64

값1    10
값3    30
값5    50
dtype: int64

In [30]:
# 이를 이용해 조건에 만족하는 것만 가져올 수도 있다.
s4 = s3[s3 > 20]
s4

값3    30
값4    40
값5    50
dtype: int64