# Pandas
- Python Data Analysis Library
- 데이터 분석 및 가공을 위한 파이썬 라이브러리
- series, DataFrame 등의 자료구조를 활용
- R의 데이터프레임을 모방
- 데이터를 수정하고 목적에 맞게 변경시키기 위해 사용
- 데이터프레임은 엑셀과 유사
- Numpy를 사용하고 있어 계산이 빠름
- 라이브러리 구성
    - 여러 종류의 클래스와 다양한 함수로 구성
    - 시리즈와 데이터 프레임의 자료구조 제공
    - 시리즈(1차원 배열), 데이터프레임(2차원 배열)
- https://pandas.pydata.org/

## pandas의 목적
- 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것
- 행과 열로 이뤄진 2차원 데이터프레임을 처리할 수 있는 함수 제공 목적
- 실무 사용 형태 : 데이터 프레임

In [1]:
# pandas 모듈 import
import pandas as pd

In [2]:
pd.__version__

'1.3.4'

In [13]:
import numpy as np

## pandas의 데이터 구조
1. Series 데이터
2. DataFrame

![image.png](attachment:image.png)

출처 : https://www.kdnuggets.com/2017/01/pandas-cheat-sheet.html

## 1. Series 데이터

**Series**


- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- Index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

1. 자료구조 : 시리즈
    - 데이터가 순차적으로 나열된 1차원 배열 형태
    - 인덱스(index)와 데이터 값(value)이 일대일로 대응
    - 딕셔너리와 비슷한 구조 : {key(index):value}
2. 시리즈의 인덱스
    - 데이터 값의 위치를 나타내는 이름표 역할
3. 시리즈 생성 : 판다스 내장함수인 Series() 이용
    - 리스트로 시리즈 만들기
    - 딕셔너리로 시리즈 만들기
    - 튜플로 시리즈 만들기

### A) Series 생성하기
**pd.Series(seq_data)함수 이용**
- seq_data : 리스트, 딕셔너리, 튜플 타입 데이터

#### 1) seq_data를 이용하여 Series 생성하기
: index는 기본적으로 0부터 자동적으로 생성

- **ㄱ. 리스트로 시리즈 만들기**

In [4]:
# Series 함수 이용 : 리스트로 만들기
# pd.Series(1차원 배열 : 리스트)

# 인덱스 없이 Series를 생성하면 자동으로 0부터 시작되는 index를 만들어줌

s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

![image.png](attachment:image.png)

In [6]:
# 정수값을 가진 리스트로 시리즈 생성
s1 = pd.Series([10,20,30,40,50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [7]:
# 문자열을 가진 리스트로 시리즈 생성
s2 = pd.Series(['A','B','C'])
s2

0    A
1    B
2    C
dtype: object

In [10]:
# 문자열을 가진 리스트로 시리즈 생성
s2 = pd.Series('A B C'.split())
s2

0    A
1    B
2    C
dtype: object

- **ㄴ. 범위를 시리즈의 value 생성하는 데 사용하기**
    - range()/np.arange() 함수 사용

In [11]:
# range()를 이용하여 정수범위 자료를 시리즈로 생성
s3 = pd.Series(range(10,14))
s3

0    10
1    11
2    12
3    13
dtype: int64

In [14]:
# arange()를 이용하여 정수범위 자료를 시리즈로 생성
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

- **ㄷ. 결측값을 포함해서 시리즈 만들기**
    - 결측값 NaN-numpy 라는 모듈에서 생성할 수 있음
    - 결측값 생성 위해서는 numpy 모듈 import

In [15]:
s = pd.Series([1,2,3,np.nan,6,8])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

#### 2) 인덱스 명시해서 Series 생성하기
- **ㄱ. 숫자 인덱스 지정**
    - s = pd.Series([값1, 값2, 값3, ...],index=[1,2,3,...])

In [20]:
# 숫자 인덱스 지정
s1 = pd.Series([10,20,30], index=[1,2,3])
s1

1    10
2    20
3    30
dtype: int64

- **ㄴ. 문자 인덱스 지정**

In [21]:
# 문자 인덱스 지정
s2 = pd.Series([95,100,88], index=['홍길동','이몽룡','성춘향'])
s2

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

#### 3) 인덱스 활용
- **ㄱ. 시리즈의 index**
    - 시리즈의 index는 index 속성으로 접근 : **시리즈.index**

In [23]:
# 시리즈.index
s1.index,s2.index

(Int64Index([1, 2, 3], dtype='int64'),
 Index(['홍길동', '이몽룡', '성춘향'], dtype='object'))

In [24]:
s = pd.Series([9904312,3448737,289035,2466052],
              index=["서울",'부산','인천','대구'])
s.index
# dtype='object' : datatype= '문자열 객체'

Index(['서울', '부산', '인천', '대구'], dtype='object')

- **ㄴ. 시리즈.index.name 속성**
    - 시리즈의 인덱스에 이름을 붙일 수 있음

In [26]:
s.index.name
s

서울    9904312
부산    3448737
인천     289035
대구    2466052
dtype: int64

In [27]:
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천     289035
대구    2466052
dtype: int64

#### 4) 시리즈의 값
- numpy 자료구조: 1차원 배열
- values 속성으로 접근 : **시리즈.values**

In [28]:
# 시리즈 값
s.values

array([9904312, 3448737,  289035, 2466052])

#### 5) 시리즈.name 속성
- 시리즈 데이터에 이름을 붙일 수 있음
- name 속성은 값의 의미 전달에 사용

In [44]:
# 시리즈의 name 속성 출력
print(s.name)

인구수


In [31]:
# 시리즈 name 속성 변경
s.name = '인구수'
s

도시
서울    9904312
부산    3448737
인천     289035
대구    2466052
Name: 인구수, dtype: int64

### B) Series indexing
- 인덱싱 : 데이터에서 특정한 데이터를 골라내는 것

**1) 시리즈의 인덱싱 종류**


**2) 원소접근**

In [34]:
# 정수형 인덱스 접근
# 인덱스 서울의 value가 접근

print(s.index) #리스트 형태
s[0] # 첫번째 값

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')


9904312

In [35]:
# 문자형 인덱스 접근
s['서울']

9904312

In [36]:
# 한 줄에 위치 인덱스와 문자 인덱스를 동시에 접근
s[2], s['인천']

(289035, 289035)

**3) 리스트 이용 인덱싱**
- 자료의 순서를 바꾸거나 특정 자료 여러개를 선택할 수 있다.
- 인덱스 값 여러개를 이용해 접근시 []안에 넣는다

In [37]:
# 여러 개 접근
s[[1,2]]

도시
부산    3448737
인천     289035
Name: 인구수, dtype: int64

In [38]:
s[['서울','대구']]

도시
서울    9904312
대구    2466052
Name: 인구수, dtype: int64

**4) 문자 인덱스를 이용한 인덱싱**

- []연산자를 이용하여 접근 가능 : 객체명.인덱스명

In [40]:
# 인덱스를 문자값으로 지정한 시리즈
s.서울

9904312

In [41]:
# s1의 인덱스가 a,b,c
s1 = pd.Series(range(3),index=['a','b','c'])
s1

a    0
b    1
c    2
dtype: int64

In [43]:
s1.a , s1.b , s1.c

(0, 1, 2)

### C) 시리즈 슬라이싱
- 정수형 위치 인덱스를 사용한 슬라이싱
    - 시리즈[start:stop+1]
    
- 문자(라벨 인덱스) 이용 슬라이싱
    - ㅇㄴ

In [48]:
s

도시
서울    9904312
부산    3448737
인천     289035
대구    2466052
Name: 인구수, dtype: int64

In [45]:
# 값 2개 추출 - [1,2]
s[1:3]

도시
부산    3448737
인천     289035
Name: 인구수, dtype: int64

In [47]:
# 문자 인덱스를 이용한 슬라이싱
# 2~4번째 값 (3개 값)
s['부산':'대구']

도시
부산    3448737
인천     289035
대구    2466052
Name: 인구수, dtype: int64

### D) 인덱스 통한 시리즈 데이터 업데이트

In [49]:
s

도시
서울    9904312
부산    3448737
인천     289035
대구    2466052
Name: 인구수, dtype: int64

In [53]:
# '서울' 데이터 변경
s['서울']=10000000 #s.서울 #s[0]
s

도시
서울    10000000
부산     3448737
인천      289035
대구     2466052
Name: 인구수, dtype: int64

### E) 인덱스 재사용

In [54]:
s1 = pd.Series(np.arange(4),s.index) #s의 인덱스를 재사용
s1

도시
서울    0
부산    1
인천    2
대구    3
dtype: int64

### F) 시리즈 연산

In [55]:
# 시리즈와 스칼라의 합
pd.Series([1,2,3])+4

0    5
1    6
2    7
dtype: int64

In [56]:
# s 시리즈의 값을 1/1000000로 변경
s/1000000

# s 시리즈의 모든 value에 대하여 각각 연산을 진행

도시
서울    10.000000
부산     3.448737
인천     0.289035
대구     2.466052
Name: 인구수, dtype: float64

벡터화 인덱싱

In [60]:
# 벡터화 인덱싱
# s 시리즈 값 중 2500000 보다 크고 5000000보다 작은 원소 추출
# 각 원소의 값 모두 각각 조건식을 확인하여 결과가 True인 원소만 추출

(s > 2500000) & (s < 5000000)
# (s > 25e5) & (s < 50e5)

도시
서울    False
부산     True
인천    False
대구    False
Name: 인구수, dtype: bool

In [61]:
s0 = pd.Series(np.arange(10),np.arange(10)+1) #값,인덱스
s0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [62]:
# 5보다 큰가?
s0 > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [63]:
# 5보다 큰 요소 추출
s0[s0>5]

7     6
8     7
9     8
10    9
dtype: int64

In [67]:
# 짝수 추출
s0[s0 % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [66]:
# 0이 아닌 짝수 추출
s0[(s0 % 2 == 0) & (s0 != 0)]

3    2
5    4
7    6
9    8
dtype: int64

In [68]:
s0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [69]:
# 인덱스가 5보다 큰가?
s0.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [71]:
s0[s0.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

In [73]:
# 값이 5보다 크고 8보다 작은 요소 추출
s0[(5<s0)& (s0<8)]

7    6
8    7
dtype: int64

In [78]:
# 값이 7이상인 수들의 합
s0[s0 >= 7].sum()

24

In [79]:
(s0 >= 7).sum() #True = 1, False = 0

3

### G) 두 시리즈 간의 연산

In [81]:
num_s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s1

a    1
b    2
c    3
d    4
dtype: int64

In [82]:
num_s2 = pd.Series([5,6,7,8],index=['b','c','d','a'])
num_s2

b    5
c    6
d    7
a    8
dtype: int64

- 시리즈 간의 연산은 같은 인덱스를 찾아 연산을 진행
- 동일한 인덱스는 연산을 진행하고 나머지 인덱스는 연산처리가 불가능해 NaN 값 처리

- 시리즈 + 시리즈
    - 같은 인덱스를 찾아 + 연산을 진행

In [84]:
# 두 시리즈에 대한 + 연산
num_s1,num_s2,num_s1 + num_s2

(a    1
 b    2
 c    3
 d    4
 dtype: int64,
 b    5
 c    6
 d    7
 a    8
 dtype: int64,
 a     9
 b     7
 c     9
 d    11
 dtype: int64)

- 시리즈 + 시리즈
    - 동일한 인덱스는 연산을 진행하고 나머지 인덱스는 연산처리가 불가능해 NaN 값 처리

In [88]:
num_s3 = pd.Series([5,6,7,8],index=['e','b','f','g'])
num_s4 = pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s3, num_s4

(e    5
 b    6
 f    7
 g    8
 dtype: int64,
 a    1
 b    2
 c    3
 d    4
 dtype: int64)

In [89]:
# 두 시리즈의 + 연산
num_s3 + num_s4

a    NaN
b    8.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

- 시리즈 -시리즈
    - 동일한 인덱스는 연산을 진행하고 나머지 인덱스는 연산처리가 불가능해 NaN 값 처리

In [90]:
# 두 시리즈의 - 연산
num_s3 - num_s4

a    NaN
b    4.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

- 시리즈의 values 속성을 이용한 연산
    - values 속성을 사용하면 시리즈의 형태가 사라지므로 동일 위치 원소들끼리 연산
    - 시리즈.values는 array 형태 반환

In [93]:
# 두 시리즈 values 들간의 (- 연산)
num_s3,num_s4,num_s3.values - num_s4.values

(e    5
 b    6
 f    7
 g    8
 dtype: int64,
 a    1
 b    2
 c    3
 d    4
 dtype: int64,
 array([4, 4, 4, 4]))

### H) in 연산자/ for 반복문 사용
- 시리즈 객체는 라벨(문자)에 의해 indexing이 가능
- 실질적으로는 라벨을 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근

In [96]:
s

도시
서울    10000000
부산     3448737
인천      289035
대구     2466052
Name: 인구수, dtype: int64

In [97]:
# 인덱스가 서울인 원소가 시리즈에 있는지
'서울' in s

True

In [98]:
# 인덱스가 대전인 원소가 시리즈에 있는지
'대전' in s

False

In [99]:
# 인덱스가 대전인 원소가 시리즈에 없는지
'대전' not in s

True

In [100]:
# 딕셔너리의 items()과 같은 함수가 시리즈에도 있음
s.items() #zip 객체

<zip at 0x7ff5d04a3140>

In [101]:
# list로 변환 후 확인
list(s.items())

[('서울', 10000000), ('부산', 3448737), ('인천', 289035), ('대구', 2466052)]

In [102]:
# 시리즈 각 원소 출력
for k,v in s.items():
    print(f'{k} = {v}')

서울 = 10000000
부산 = 3448737
인천 = 289035
대구 = 2466052


### I) 딕셔너리로 시리즈 만들기
- Series({key1:value1, key2:value2, key3:value3,...})
    - 인덱스 -> Key
    - 값 -> value

In [103]:
scores = {'홍길동':96,'이몽룡':100,'성춘향':88}
s = pd.Series(scores)
s

홍길동     96
이몽룡    100
성춘향     88
dtype: int64

In [106]:
city = {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s = pd.Series(city)
s

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [None]:
딕셔너리 기반으로 생성한 시리즈 인덱스 설정
- 딕셔너리 원소는 순서를 갖지 않는다.
    - 딕셔너리로 생성된 시리즈의 원소도 순서가 보장되지 않는다.
    - 만약 순서를 보장하고 싶으면 

In [107]:
# 딕셔너리 기반으로 생성한 시리즈 인덱스 설정
s = pd.Series(city,index=['부산','인천','서울','대전'])
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

### J) 시리즈 데이터의 갱신,추가,삭제
- 인덱싱을 이용하면 딕셔너리처럼 갱신,추가 가능

In [108]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [110]:
# s2 시리즈의 부산의 인구 값을 1630000으로 변경
s['부산'] =163e4
s

부산    1630000
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [111]:
# 데이터를 삭제할 때도 딕셔너리처럼 Del 명령을 사용
del s['부산']
s

인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [113]:
# 시리즈에 새로운 값 추가
s['부산'] = 163e4
s

인천    2632035.0
서울    9631482.0
대전    1490158.0
부산    1630000.0
dtype: float64

### K) Series 함수
**Series size, shape, unique,count,value_counts 함수**

- size : 시리즈 원소 개수 반환
- shape : 튜플 형태로 shape 반환
- unique() : 유일한 값만 ndarray로 반환
- count() : NaN을 제외한 개수를 반환
- mean() : NaN을 제외한 평균
- value_counts() : NaN을 제외하고 각 값들의 빈도를 반환

In [115]:
s1 = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

시리즈 원소 크기

In [116]:
s1.size

16

In [117]:
len(s1)

16

In [118]:
s1.shape #튜플

(16,)

unique() : 시리즈의 유일한 값 반환

In [119]:
s1.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

count() : NaN을 제외한 개수를 반환

In [120]:
s1.count()

15

mean() : 데이터의 평균

In [121]:
s1.mean() # 결측치를 제외한 평균

2.6666666666666665

In [123]:
a = np.array([2,2,2,2,np.NaN]) #numpy의 1차원 데이터 생성하고 평균 계산
print(a.mean())

b = pd.Series(a) # 시리즈의 경우, 결측치 제외하고 평균 
b.mean()

nan


2.0

In [124]:
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [125]:
s1.mean()

2.6666666666666665

value_counts() : 그룹핑된 원소별 개수

In [126]:
# 각 원소들의 그룹핑하여 개수를 셈
s1.value_counts()

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
dtype: int64

### L) 날짜 인덱스를 이용하여 시리즈 생성

In [138]:
pd.date_range(start='2022-01-07 08:00', periods=4,freq='BH')

DatetimeIndex(['2022-01-07 08:00:00', '2022-01-07 09:00:00',
               '2022-01-07 10:00:00', '2022-01-07 11:00:00'],
              dtype='datetime64[ns]', freq='H')

### M) 

### N)

### O)
### P)
### Q)
### R)
### S)
