# [Pandas] Series

## 1. 개요

### 1.1 데이터 분석을 위한 라이브러리

| **라이브러리명** | **용도** | **별칭** | **import 구문 예시** |
| :--- | :--- | :--- | :--- |
| \*numpy | 수치형 자료 계산 및 연산 | np | import numpy as np |
| \*pandas | 정형 데이터 전처리 및 분석 | pd | import pandas as pd |
| matplotlib | 데이터 차트 시각화 | plt | import matplotlib.pyplot as plt |
| seaborn | 보다 개선된 데이터 시각화 | sns | import seaborn as sns |
| beautifulsoup4(bs4) | 웹 데이터 추출(web scraping) |   | from bs4 import ~~ |
| nltk | 자연어 데이터 전처리 |   | import nltk |
| scikit-learn | 전통적인 머신러닝 알고리즘 |   | from sklearn import ~~ |

### 1.2 pandas
- 데이터타입
    - Series : index, value
    - DataFrame : index, value, column

In [139]:
# Pandas는 Numpy를 기반으로 만들어졌다.
import pandas as pd
import numpy as np

### 1.3 예제 데이터 생성

In [None]:
# random

import random as r

r.random() : 0부터 1까지의 부동소수점 숫자를 리턴
r.randint(a, b) : a부터 b까지의 임의의 정수를 리턴
r.uniform(a, b) : a부터 b까지의 부동소수점 숫자를 리턴
r.randn() : 가우시안 표준 정규분포
r.randrange(a, b, n) : range(a,b,n)에서 랜덤하게 숫자를 리턴
r.shuffle(l) : 안에 있는 요소의 순서를 섞어 리턴
r.choice(l) : 안에 있는 요소 중 하나를 리턴
r.sample(l,n) : 안에 잇는 요소 중 n개를 리턴 r.seed() : 시드값 설정

In [None]:
# numpy

import numpy as np

np.array()
np.arrange()
np.linsapace()
reshape()
np.ones()
np.zeros()
np.eye()
np.empty()
np.full()
np.flatten() / np.ravel()

In [2]:
# pandas

pd.date_range("20220101", periods=5)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05'],
              dtype='datetime64[ns]', freq='D')

---

## 2. 시리즈
- index와 value로 이루어져있다..
- Parameter[(공식문서 참고)](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)
    - data : array-like, Iterable, dict, or scalar value
    - dtype : str, numpy.dtype, or ExtensionDtype, optional
    - 한 가지 데이터 타입만 가질 수 있다

### 2.1 data / dtype

In [1]:
import pandas as pd
import numpy as np

- data

In [14]:
a = pd.Series([1,2,3])               # dtype : int64
b = pd.Series([1.1, 2, 3])           # dtype : float64
c = pd.Series({'key':'value'})       # dtype : object
d = pd.Series([1, 2, 3, 4,'5'])      # dtype : object

print(a.dtype, b.dtype, c.dtype, d.dtype, sep='\n')

int64
float64
object
object


- dtype

In [None]:
# dtype : int
test_1 = pd.Series([1, 2, 3, 4])                     # dtype : int64
test_2 = pd.Series([1, 2, 3, 4], dtype=int)          # dtype : int32
test_3 = pd.Series([1, 2, 3, 4], dtype=np.int)       # dtype : int32
test_4 = pd.Series([1, 2, 3, 4], dtype=np.int64)     # dtype : int64

# dtype : float
test_5 = pd.Series([1, 2, 3, 4], dtype=np.float)     # dtype : float64
test_6 = pd.Series([1, 2, 3, 4], dtype=np.float64)   # dtype : float64
test_7 = pd.Series([1, 2, 3, 4], dtype=np.float32)   # dtype : float32

# dtype : object
test_8 = pd.Series([1, 2, 3, 4], dtype=str)          # dtype : object

---

### 2.2 시리즈 생성

- 리스트로 생성하는 방법

In [2]:
l = [1, 2, 3, 4]
pd.Series(l)

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
pd.Series(l, index=['a','b','c','d'])

a    1
b    2
c    3
d    4
dtype: int64

- 딕셔너리로 생성

In [4]:
# 딕셔너리로 시리즈 생성
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
}

pd.Series(dic)

a    1
b    2
c    3
d    4
dtype: int64

- ndarray로 생성 (ndarray 사용시 복사 주의)

In [5]:
a = np.array([1,2,3,4])
pd.Series(a)

0    1
1    2
2    3
3    4
dtype: int32

---

### 2.3 시리즈 정보 조회

#### 2.3.1 시리즈 내부 접근

> 시리즈.keys()   
> 시리즈.values    
> 시리즈.items()   

In [6]:
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
}

test = pd.Series(dic)
test

a    1
b    2
c    3
d    4
dtype: int64

In [7]:
# 시리즈.keys()
test.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
# 시리즈.values
test.values

array([1, 2, 3, 4], dtype=int64)

In [9]:
# 시리즈,itmes()
test.items()

<zip at 0x1f6fc813bc0>

In [40]:
list(test.items())

[('a', 1), ('b', 2), ('c', 3), ('d', 4)]

---

#### 2.3.2 요소 유무 확인

In [12]:
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
}

test = pd.Series(dic)
test

a    1
b    2
c    3
d    4
dtype: int64

In [13]:
'a' in test

True

In [14]:
1 in test

False

---

#### 2.3.3 특정 key의 value 조회

> 시리즈['key1']   
> 시리즈.key1   
> 시리즈[['key1', 'key2']]   
> 시리즈.loc[]   
> 시리즈.iloc[]   
> 시리즈(data, index=[])   

In [15]:
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
    'e':5,
    'f':6,
    'g':7
}

test = pd.Series(dic)
test

a    1
b    2
c    3
d    4
e    5
f    6
g    7
dtype: int64

- 시리즈['key1']

In [16]:
test['a']

1

- 시리즈.key1

In [17]:
test.a

1

- 시리즈[['key1', 'key2']]

In [18]:
test[['a','c','e','g']]

a    1
c    3
e    5
g    7
dtype: int64

- 시리즈.loc[]

In [19]:
test.loc['a']

1

In [20]:
test.loc[['a','c','e','g']]

a    1
c    3
e    5
g    7
dtype: int64

- 시리즈.iloc[]

In [21]:
test.iloc[0]

1

In [22]:
test.iloc[0:7:2]

a    1
c    3
e    5
g    7
dtype: int64

- 시리즈(data, index=[])

In [23]:
pd.Series(dic, index=['a'])

a    1
dtype: int64

In [24]:
pd.Series(dic, index=['a','c','e','g'])

a    1
c    3
e    5
g    7
dtype: int64

In [25]:
pd.Series(dic, index=['a','c','e','g'])[1:3]

c    3
e    5
dtype: int64

---

### 2.4 시리즈 인덱싱
- 인덱싱 : series[start:stop:step]

In [98]:
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
    'e':5,
    'f':6,
    'g':7
}

test = pd.Series(dic)
test

a    1
b    2
c    3
d    4
e    5
f    6
g    7
dtype: int64

In [103]:
test[1:5]

b    2
c    3
d    4
e    5
dtype: int64

In [109]:
test[::2]

a    1
c    3
e    5
g    7
dtype: int64

In [105]:
test[::-1]

g    7
f    6
e    5
d    4
c    3
b    2
a    1
dtype: int64

---

### 2.5 시리즈 필터링

In [110]:
dic = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
    'e':5,
    'f':6,
    'g':7
}

test = pd.Series(dic)
test

a    1
b    2
c    3
d    4
e    5
f    6
g    7
dtype: int64

In [112]:
# boolean 생성
test>4

a    False
b    False
c    False
d    False
e     True
f     True
g     True
dtype: bool

In [113]:
# 필터링
test[test>4]

e    5
f    6
g    7
dtype: int64

---

### 2.6 시리즈 결측값
> 시리즈.isnull()   
> 시리즈.isnull.sum()   
> 시리즈.notnull()   
> 시리즈.notnull().sum()   
> 시리즈.dropna()   
> 시리즈.fillna()    

In [26]:
data = [1, 2, 3, None, None]
s = pd.Series(data)
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

- 시리즈.isnull()

In [28]:
s.isnull()

0    False
1    False
2    False
3     True
4     True
dtype: bool

- 시리즈.isnull.sum()

In [29]:
s.isnull().sum()

2

- 시리즈.notnull()

In [30]:
s.notnull()

0     True
1     True
2     True
3    False
4    False
dtype: bool

- 시리즈.notnull().sum()

In [31]:
s.notnull().sum()

3

- 시리즈.dropna()

In [32]:
s.dropna()

0    1.0
1    2.0
2    3.0
dtype: float64

- 시리즈.fillna()

In [33]:
s.fillna(100)

0      1.0
1      2.0
2      3.0
3    100.0
4    100.0
dtype: float64

In [34]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

---

### 2.7 얕은 복사, 깊은 복사

- 얕은 복사
- ndarray 사용시 복사 주의

In [127]:
a = pd.Series(np.array([10,20,30,40]))
a

0    10
1    20
2    30
3    40
dtype: int32

In [128]:
# 얕은 복사
b = a[1:]
b

1    20
2    30
3    40
dtype: int32

In [129]:
b[1]=100
b

1    100
2     30
3     40
dtype: int32

In [130]:
# 원본 데이터에도 영향
a

0     10
1    100
2     30
3     40
dtype: int32

- 깊은 복사 : copy()

In [133]:
c = a[::2].copy()
c

0    10
2    30
dtype: int32

In [134]:
c[0] = 200
c

0    200
2     30
dtype: int32

In [135]:
# 원본 데이터에는 영향을 미치지 않음
a

0     10
1    100
2     30
3     40
dtype: int32

---

### 2.8 시리즈 연산

> 덧셈 : + , add()   
> 뺄셈 : - , sub()   
> 곱셈 : * , mul()   
> 나눗셈 : /, div()   
> 몫 : //, floordiv()   
> 나머지 : %, mod()   
> 제곱 : **, pow()   

In [35]:
a = pd.Series([10, 20, 30])
b = pd.Series([10, 10, 10])

- 덧셈

In [36]:
a + 10

0    20
1    30
2    40
dtype: int64

In [37]:
a.add(10)

0    20
1    30
2    40
dtype: int64

In [38]:
a + b

0    20
1    30
2    40
dtype: int64

In [39]:
a.add(b)

0    20
1    30
2    40
dtype: int64

- 뺄셈

In [154]:
a - 10

0     0
1    10
2    20
dtype: int64

In [155]:
a.sub(10)

0     0
1    10
2    20
dtype: int64

In [156]:
a - b

0     0
1    10
2    20
dtype: int64

In [157]:
a.sub(b)

0     0
1    10
2    20
dtype: int64

> 시리즈.count()  : 요소의 총 갯수   
> 시리즈.min()    : 최솟값   
> 시리즈.max()    : 최댓값   
> 시리즈.sum()    : 합   
> 시리즈.mean()   : 평균   
> 시리즈.median() : 중앙값   
> 시리즈.std()    : 표준편차   
> 시리즈.var()    : 분산   
> 시리즈.mad()    : 절대 표준편차   
> 시리즈.describe()

In [159]:
s = pd.Series([10, 20, 30])
s

0    10
1    20
2    30
dtype: int64

In [161]:
s.count()

3

In [162]:
s.min()

10

In [163]:
s.max()

30

In [164]:
s.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

---

## 2.9 데이터 결합

> np.concatenate()   
> pd.concat()   
> append()   

- np.concatenate

In [226]:
a = np.arange(10).reshape(2, 5)
b = np.arange(10).reshape(2, 5)
c = np.arange(10).reshape(2, 5)

a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [227]:
np.concatenate([a, b, c])

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [228]:
np.concatenate([a, b, c], axis=1)

array([[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9]])

- pd.concat

In [229]:
a = pd.Series(['A', 'B', 'C', 'D', 'E'], index=range(1, 6))
b = pd.Series(['a', 'b', 'c', 'd', 'e'], index=range(1, 6))
c = pd.Series(['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ'], index=range(1, 6))

a

1    A
2    B
3    C
4    D
5    E
dtype: object

In [230]:
# 시리즈의 연결 : pd.concat
pd.concat([a,b,c])

1    A
2    B
3    C
4    D
5    E
1    a
2    b
3    c
4    d
5    e
1    ㄱ
2    ㄴ
3    ㄷ
4    ㄹ
5    ㅁ
dtype: object

In [231]:
pd.concat([a,b,c], axis=1)

Unnamed: 0,0,1,2
1,A,a,ㄱ
2,B,b,ㄴ
3,C,c,ㄷ
4,D,d,ㄹ
5,E,e,ㅁ


In [232]:
# verify_integrity : 인덱스에 중복되는값이 있을 때, 에러처리
# ignore_index : 인덱스 초기화
# copy : 덮어쓰기 여부
# axis : 0(행방향), 1(열방향)

pd.concat([a, b, c], verify_integrity=False, ignore_index=True, copy=False, axis=0)

0     A
1     B
2     C
3     D
4     E
5     a
6     b
7     c
8     d
9     e
10    ㄱ
11    ㄴ
12    ㄷ
13    ㄹ
14    ㅁ
dtype: object

In [233]:
type(pd.concat([a, b, c], verify_integrity=False, ignore_index=True, copy=False, axis=0))

pandas.core.series.Series

In [234]:
pd.concat([a, b, c], verify_integrity=False, ignore_index=True, copy=False, axis=1)

Unnamed: 0,0,1,2
1,A,a,ㄱ
2,B,b,ㄴ
3,C,c,ㄷ
4,D,d,ㄹ
5,E,e,ㅁ


In [223]:
type(pd.concat([a, b, c], verify_integrity=False, ignore_index=True, copy=False, axis=1))

pandas.core.frame.DataFrame

- s.append(ss)

In [235]:
a.append(b)

1    A
2    B
3    C
4    D
5    E
1    a
2    b
3    c
4    d
5    e
dtype: object

- concat 활용

In [237]:
a = pd.Series(['A', 'B', 'C', 'D', 'E', 'F'], index=range(1, 7))
b = pd.Series(['a', 'b', 'c', 'd', 'e'], index=range(1, 6))
c = pd.Series(['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ'], index=range(1, 6))

d = pd.concat([a, b, c], axis=1)
d

Unnamed: 0,0,1,2
1,A,a,ㄱ
2,B,b,ㄴ
3,C,c,ㄷ
4,D,d,ㄹ
5,E,e,ㅁ
6,F,,


In [239]:
# inner join
pd.concat([a, b, c], axis=1, join='inner')

Unnamed: 0,0,1,2
1,A,a,ㄱ
2,B,b,ㄴ
3,C,c,ㄷ
4,D,d,ㄹ
5,E,e,ㅁ


In [240]:
# outer join
pd.concat([a, b, c], axis=1, join='outer')

Unnamed: 0,0,1,2
1,A,a,ㄱ
2,B,b,ㄴ
3,C,c,ㄷ
4,D,d,ㄹ
5,E,e,ㅁ
6,F,,
