# 00. 판다스(Pandas) 기본 자료구조

## 개요

관계형 또는 레이블이 된 데이터로 쉽고 직관적 으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 Python 패키지입니다.

또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구입니다.

Pandas는 다음의 종류의 데이터에 적합한 분석 패키지입니다.

- SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터

- 정렬되고 정렬되지 않은 시계열 데이터

- 다른 형태의 관찰 / 통계 데이터 세트

### Pandas 공식 문서

https://pandas.pydata.org/docs/reference/index.html

### Pandas의 Alias 지정

pandas는 pd의 alias를 사용합니다.

In [1]:
import pandas as pd

In [2]:
pd

<module 'pandas' from '/opt/homebrew/anaconda3/envs/datascience/lib/python3.9/site-packages/pandas/__init__.py'>

In [3]:
pd.__version__

'2.2.3'

---

## 1) 시리즈(Series)

판다스는 파이썬의 수 많은 라이브러리 가운데 레이블 형태의 자료를 수집하고 정리하는 데 매우 유용한 도구입니다. 이러한 판다스의 두 가지 대표적인 자료구조가 바로 시리즈(Series)와 데이터프레임(Dataframe)입니다.

먼저 시리즈에 대해 알아보도록 합니다.

Pandas의 Series는 1차원 배열로서 다음의 특징을 가집니다.

- 데이터를 담는 차원 배열 구조를 가집니다.

- 인덱스(index)를 사용 가능합니다.

- 데이터 타입을 가집니다. (dtype)

### Series의 생성

numpy array로 생성한 경우

In [5]:
import numpy as np

In [6]:
# numpy 생성
arr = np.arange(100, 105)
arr

array([100, 101, 102, 103, 104])

In [7]:
s = pd.Series(arr)
s

0    100
1    101
2    102
3    103
4    104
dtype: int64

---

dtype을 지정하여 생성한 경우

In [8]:
s = pd.Series(arr, dtype='int32')
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

---

list로 생성한 경우

In [9]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

### 다양한 타입(type)의 데이터를 섞은 경우

Series에 다양한 데이터 타입의 데이터로 생성시, object 타입으로 생성됩니다.

In [10]:
s = pd.Series([91, 2.5, '스포츠', 4, 5.16])
s

0      91
1     2.5
2     스포츠
3       4
4    5.16
dtype: object

---

### 인덱싱 (indexing)

In [11]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

Series 생성시 0부터 순차적으로 부여되는 index를 확인할 수 있습니다.

이를 RangeIndex라 부릅니다.

In [12]:
s.index

RangeIndex(start=0, stop=5, step=1)

인덱싱 사례

In [13]:
s[0]

'부장'

---

### fancy indexing

In [14]:
s[[1, 3]]

1    차장
3    사원
dtype: object

In [18]:
s[np.arange(1, 4, 2)]

1    차장
3    사원
dtype: object

---

### boolean indexing

조건식을 만들어서 특정 조건에 대하여 True에 해당하는 값만 필터링 할 수 있습니다.

In [19]:
np.random.seed(0)
s = pd.Series(np.random.randint(10000, 20000, size=(10,)))
s

0    12732
1    19845
2    13264
3    14859
4    19225
5    17891
6    14373
7    15874
8    16744
9    13468
dtype: int64

boolean series를 생성 후 index로 활용하여 필터합니다.

In [20]:
s > 15000

0    False
1     True
2    False
3    False
4     True
5     True
6    False
7     True
8     True
9    False
dtype: bool

In [21]:
# 15000 이상인 데이터 필터
s[s > 15000]

1    19845
4    19225
5    17891
7    15874
8    16744
dtype: int64

기본 값으로 부여되는 RangeIndex에 사용자 정의의 index를 지정할 수 있습니다.

In [22]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [23]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

사용자 정의의 index 부여시 변경된 index로 조회 가능합니다.

In [24]:
s['c']

'개발'

In [26]:
s[['a', 'd']]

a    마케팅
d     기획
dtype: object

---

먼저, Series를 생성 후 index 속성 값에 새로운 index를 할당하여 인덱스를 지정할 수 있습니다.

In [27]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index

RangeIndex(start=0, stop=5, step=1)

In [28]:
s.index = list('abcde')

In [29]:
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

### 속성 (attribute)

#### values

values는 Series 데이터 값(value)만 numpy array 형식으로 가져 옵니다.

In [31]:
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

---

#### ndim - 차원

Series는 1차원 자료구조이기 때문에 ndim 출력시 1이 출력됩니다.

In [32]:
s.ndim

1

#### shape

shape은 데이터의 모양(shape)을 알아보기 위하여 사용하는데, Series의 shape은 데이터의 갯수를 나타냅니다.

튜플(tuple) 형식으로 출력됩니다.

In [33]:
s.shape

(5,)

---

### NaN (Not a Number)

Pandas에서 NaN 값은 비어있는 결측치 데이터를 의미합니다.

임의로 비어있는 값을 대입하고자 할 때는 numpy의 nan (np.nan)을 입력합니다.

In [34]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

### 결측치 (NaN) 값 처리

isnull()과 isna()은 NaN 값을 찾는 함수 입니다.

isnull()과 isna()는 결과가 동일합니다.

In [39]:
s.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [40]:
s.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

이를 boolean indexing에 적용해볼 수 있습니다.

In [41]:
s[s.isnull()]

2    NaN
dtype: object

In [42]:
s[s.isna()]

2    NaN
dtype: object

notnull()은 NaN값이 아닌, 즉 비어있지 않은 데이터를 찾는 함수 입니다.

In [43]:
s.notnull()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [44]:
s.notna()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [45]:
s[s.notnull()]

0    선화
1    강호
3    소정
4    우영
dtype: object

---

### 슬라이싱

(주의) 숫자형 index로 접근할 때는 뒷 index가 포함되지 않습니다.

In [46]:
s = pd.Series(np.arange(100, 150, 10))
s

0    100
1    110
2    120
3    130
4    140
dtype: int64

In [47]:
s[1:3]

1    110
2    120
dtype: int64

새롭게 지정한 인덱스(문자열)는 시작 index와 끝 index 모두 포함합니다.

In [48]:
s.index = list('가나다라마')
s

가    100
나    110
다    120
라    130
마    140
dtype: int64

In [49]:
s['나':'라']

나    110
다    120
라    130
dtype: int64

## 연습문제

다음의 Series를 생성하세요.  
0 &nbsp;&nbsp;&nbsp;&nbsp; 3.0  
1 &nbsp;&nbsp;&nbsp;&nbsp; 5.0  
2 &nbsp;&nbsp;&nbsp;&nbsp; 7.0  
3 &nbsp;&nbsp;&nbsp;&nbsp; 9.0  
4 &nbsp;&nbsp;&nbsp;&nbsp; 11.0  
dtype: float32

In [50]:
import numpy as np
import pandas as pd

pd.Series(np.arange(3, 12, 2), dtype='float32')

0     3.0
1     5.0
2     7.0
3     9.0
4    11.0
dtype: float32

---

다음의 Series를 생성하세요.  
0 &nbsp;&nbsp;&nbsp;&nbsp; 가   
1 &nbsp;&nbsp;&nbsp;&nbsp; 나     
2 &nbsp;&nbsp;&nbsp;&nbsp; 다  
3 &nbsp;&nbsp;&nbsp;&nbsp; 라  
4 &nbsp;&nbsp;&nbsp;&nbsp; 마   
dtype: object

In [53]:
import pandas as pd

pd.Series(list('가나다라마'))

0    가
1    나
2    다
3    라
4    마
dtype: object

---

다음의 Series를 생성하고 sample 변수에 대입하고 출력하세요  

가 &nbsp;&nbsp;&nbsp;&nbsp; 10  
나 &nbsp;&nbsp;&nbsp;&nbsp; 20  
다 &nbsp;&nbsp;&nbsp;&nbsp; 30  
라 &nbsp;&nbsp;&nbsp;&nbsp; 40  
마 &nbsp;&nbsp;&nbsp;&nbsp; 50  
dtype: int64

In [64]:
import numpy as np
import pandas as pd

sample = pd.Series(np.arange(10, 60, 10), index=list('가나다라마'))
sample

가    10
나    20
다    30
라    40
마    50
dtype: int64

In [67]:
sample[['나', '라']]

나    20
라    40
dtype: int64

---

```python
np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size=(15,)))
sample2
```

sample2 중 160 이하인 데이터만 필터하세요

In [69]:
import numpy as np
import pandas as pd

np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size=(15,)))
sample2

0     199
1     190
2     115
3     195
4     128
5     190
6     109
7     120
8     175
9     122
10    171
11    134
12    196
13    140
14    185
dtype: int64

In [74]:
sample2[sample2 <= 160]

2     115
4     128
6     109
7     120
9     122
11    134
13    140
dtype: int64

sample2 중 130 이상 170 이하인 데이터만 필터하세요

In [76]:
sample2[(sample2 >= 130) & (sample2 < 170)]

11    134
13    140
dtype: int64

---

다음과 같은 Series를 생성해 주세요

가 &nbsp; &nbsp; apple  
나 &nbsp; &nbsp; NaN  
다 &nbsp; &nbsp; banana  
라 &nbsp; &nbsp; kiwi  
마 &nbsp; &nbsp; gubong  
dtype: object  


In [77]:
import pandas as pd
import numpy as np

pd.Series(['apple', np.nan, 'banana', 'kiwi', 'gubong'], index=list('가나라다마'))

가     apple
나       NaN
라    banana
다      kiwi
마    gubong
dtype: object

---

```python
sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample
```

sample 중 결측치 데이터만 필터하세요

In [78]:
import pandas as pd
import numpy as np

sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample

0    IT서비스
1      NaN
2      반도체
3      NaN
4      바이오
5     자율주행
dtype: object

In [83]:
sample[sample.isna()]

1    NaN
3    NaN
dtype: object

sample중 결측치가 아닌 데이터만 필터하세요

In [84]:
sample[sample.notna()]

0    IT서비스
2      반도체
4      바이오
5     자율주행
dtype: object

---

```python
np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample
```

sample에서 다음과 같은 결과를 가지도록 슬라이싱 하세요  


2 &nbsp;&nbsp;&nbsp; 164  
3 &nbsp;&nbsp;&nbsp; 167  
4 &nbsp;&nbsp;&nbsp; 167  
5 &nbsp;&nbsp;&nbsp; 109  
6 &nbsp;&nbsp;&nbsp; 183  
dtype: int64

In [85]:
import numpy as npi
import pandas as pd

np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample

0    144
1    147
2    164
3    167
4    167
5    109
6    183
7    121
8    136
9    187
dtype: int64

In [86]:
sample[2:7]

2    164
3    167
4    167
5    109
6    183
dtype: int64

---

```python
np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample
```

sample에서 다음과 같은 결과를 가지도록 슬라이싱 하세요

2 &nbsp;&nbsp;&nbsp; 164  
3 &nbsp;&nbsp;&nbsp; 167  
4 &nbsp;&nbsp;&nbsp; 167  
5 &nbsp;&nbsp;&nbsp; 109  
6 &nbsp;&nbsp;&nbsp; 183  
dtype: int64


In [87]:
import numpy as np
import pandas as pd

np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample

0    144
1    147
2    164
3    167
4    167
5    109
6    183
7    121
8    136
9    187
dtype: int64

In [88]:
sample[2:7]

2    164
3    167
4    167
5    109
6    183
dtype: int64

---

```python
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2
```

sample2에서 다음과 같은 결과를 가지도록 슬라이싱 하세요

바 &nbsp;&nbsp;&nbsp; 109   
사 &nbsp;&nbsp;&nbsp; 183      
아 &nbsp;&nbsp;&nbsp; 121       
자 &nbsp;&nbsp;&nbsp; 136    
차 &nbsp;&nbsp;&nbsp; 187  
dtype: int64


In [89]:
import numpy as np
import pandas as pd

np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

가    144
나    147
다    164
라    167
마    167
바    109
사    183
아    121
자    136
차    187
dtype: int64

In [91]:
sample2['바':]

바    109
사    183
아    121
자    136
차    187
dtype: int64

sample2에서 다음과 같은 결과를 가지도록 슬라이싱 하세요

가 &nbsp;&nbsp;&nbsp; 144    
나 &nbsp;&nbsp;&nbsp; 147         
다 &nbsp;&nbsp;&nbsp; 164         
dtype: int64

In [95]:
sample2[:'다']

가    144
나    147
다    164
dtype: int64

sample2에서 다음과 같은 결과를 가지도록 슬라이싱 하세요

나 &nbsp;&nbsp;&nbsp; 147    
다 &nbsp;&nbsp;&nbsp; 164         
라 &nbsp;&nbsp;&nbsp; 167  
마 &nbsp;&nbsp;&nbsp; 167  
바 &nbsp;&nbsp;&nbsp; 109  
dtype: int64

In [96]:
sample2['나':'바']

나    147
다    164
라    167
마    167
바    109
dtype: int64

---