# ❤ Pandas        (2022.01.07)
* Python Data Analysis library
* 데이터 분석 및 가공을 위한 파이썬 라이브러리
* series, DataFrame 등의 자료구조를 활용
* R의 데이터프레임을 모방
* 데이터를 수정하고 목적에 맞게 변경시키기 위해 사용
* 데이터 프레임을 엑셀과 유사        

## 🎈 판다스의 목적
* 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것
* 행과 열로 이루어진 2차원 데이터프레임을 처리할 수 있는 함수제공 목적
* 실무 사용 형태 : 데이터 프레임

In [13]:
import pandas as pd
import numpy as np

In [5]:
pd.__version__

'1.3.4'

## 🎈 pandas의 데이터 구조
> 1. Series 데이터
2.데이터프레임

### 1. Series 데이터
* pandas의 기본 객체 중 하나
* numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
* index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성
* 지정할 경우 지정된 index사용
* 같은 타입의 0개 이상의 데이터를 가질 수 있음

#### 1-1 Series 생성하기
* pd.Series(seq_data)함수 이용

In [7]:
# seq_data를 이용하여 Series 생성하기
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [8]:
s1 = pd.Series([10,20,30,40,50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [9]:
# 문자열을 갖는 리스트로 시리즈 생성
s2 = pd.Series(['A','B','C'])
s2

0    A
1    B
2    C
dtype: object

In [10]:
# 문자열을 갖는 리스트로 시리즈 생성
s2 = pd.Series('A B C'.split())   # A B C 사이에 띄워쓰기 필수
s2

0    A
1    B
2    C
dtype: object

#### 1-2. 범위를 시리즈의 value 생성하는 데 사용하기
* range() / np.arange() 함수 사용

In [12]:
# range() 를 이용하여 정수범위 자료를 시리즈로 생성
s = pd.Series(range(10,14))
s

0    10
1    11
2    12
3    13
dtype: int64

In [17]:
# arange()를 이용하여 정수범위 자료를 시리즈로 생성
s = pd.Series(np.arange(200))
s

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

#### 1-3 결측값을 포함해서 시리즈 만들기
* 결측값 NaN-numpy 라는 모듈에서 생성할 수 있음
* 결측값 생성을 위해서는 numpy 모듈  import

In [19]:
s = pd.Series([1,2,3,np.nan,6,8])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

#### 1-4. 인덱스 명시해서 시리즈 만들기
* 숫자 인덱스 지정

In [22]:
s1 = pd.Series([10,20,30],index=[1,2,3])
s1

1    10
2    20
3    30
dtype: int64

* 문자 인덱스 지정

In [24]:
s2 = pd.Series([95,100,88], index=['홍길동','이몽룡','성춘향'])
s2

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

#### 1-5 인덱스 활용
* 시리즈의 index
    * 시리즈의 index는 index 속성으로 접근 : 시리즈.index

In [25]:
s1.index

RangeIndex(start=0, stop=5, step=1)

In [27]:
s2.index

RangeIndex(start=0, stop=3, step=1)

In [30]:
s = pd.Series([9904312, 3448737, 289045, 2466052],
            index=["서울","부산","인천","대구"])
print(s.index,s)

Index(['서울', '부산', '인천', '대구'], dtype='object') 서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64


* 시리즈.index.name 속성
    * 시리즈의 인덱스에 이름을 붙일 수 있음

In [32]:
s.index.name
s

서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64

In [33]:
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64

#### 1-6 시리즈의 값
* numpy 자료구조 : 1차원배열

In [34]:
s.values

array([9904312, 3448737,  289045, 2466052], dtype=int64)

#### 1-7 시리즈.name 
* 시리즈 데이터에 이름을 붙일 수 있음
* name 속성은 값의 의미 전달에 사용

In [35]:
print(s.name)

None


In [37]:
s.name = '인구 수'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구 수, dtype: int64

#### 1-8 시리즈 인덱싱
* 인덱싱 : 데이터에서 특정한 데이터를 골라내는 것

✔ 인덱스 이름 또는 인덱스 라벨

✔ 정수형 위치 인덱스

* 인덱스 별도 지정하지 않으면 0부터 시작하는 정수형 인덱스가 지정됨

In [38]:
# 정수형 인덱스 접근
s[0]a

9904312

In [39]:
# 문자형 인덱스 접근
s['서울']

9904312

#### 1-9 리스트 이용 인덱싱
* 자료의 순서를 바꾸거나 특정 자료 여러개를 선택할 수 있다.
* 인덱스값 여러 개를 이용해 접근시 [] 안에 넣는다

In [41]:
# 여러 개 접근
s[[1,2]]

도시
부산    3448737
인천     289045
Name: 인구 수, dtype: int64

In [42]:
s[['서울','대구']]

도시
서울    9904312
대구    2466052
Name: 인구 수, dtype: int64

In [43]:
# 인덱스를 문자값으로 지정한 시리즈
s.서울

9904312

In [47]:
# s0의 인덱스가 a,b,c
s1 = pd.Series(range(3),index=['a','b','c'])
s1

a    0
b    1
c    2
dtype: int64

In [50]:
s[2]

289045

#### 1-10 시리즈 슬라이싱

In [54]:
s[1:3]

도시
부산    3448737
인천     289045
Name: 인구 수, dtype: int64

In [53]:
s['부산':'대구']

도시
부산    3448737
인천     289045
대구    2466052
Name: 인구 수, dtype: int64

#### 1-11 인덱스를 통한 시리즈 데이터 업데이트

In [55]:
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구 수, dtype: int64

In [57]:
# '서울' 데이터 변경
s.서울 = 1000000      # s[0] = 100000
s

도시
서울    1000000
부산    3448737
인천     289045
대구    2466052
Name: 인구 수, dtype: int64

#### 1-12 시리즈 연산

In [58]:
pd.Series([1,2,3])+4

0    5
1    6
2    7
dtype: int64

In [59]:
s/100000

도시
서울    10.00000
부산    34.48737
인천     2.89045
대구    24.66052
Name: 인구 수, dtype: float64

In [62]:
# 벡터화 인덱싱
s[(s > 2500000) & (s < 5000000)]     # 25e5

도시
부산    3448737
Name: 인구 수, dtype: int64

In [65]:
s0 = pd.Series(np.arange(10), np.arange(10)+1)
s0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [69]:
# 짝수 호출
s0[(s0%2==0)]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [70]:
s0.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [71]:
s0[(s0.index > 5)]

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [73]:
# 값이 5보다 크고 8보다 작은 요소 추출
s0[(s0 > 5) & (s0 < 8)]

7    6
8    7
dtype: int32

In [74]:
# 값이 7이상인 수들의 합을 구하기
s0[s0 >= 7].sum()

24

In [75]:
(s0 >= 7).sum()      # 조건에 맞는 항목들의 갯수의 합 => 7,8,9 총 3개

3

🏸 두 시리즈간의 연산

In [76]:
num_s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s1

a    1
b    2
c    3
d    4
dtype: int64

In [77]:
num_s2 = pd.Series([5,6,7,8],index=['b','c','d','a'])
num_s2

b    5
c    6
d    7
a    8
dtype: int64

* 시리즈간의 연산은 같은 인덱스를 찾아 연산을 진행
* 동일한 인덱스는 연산을 진행하고 나머지 인덱스는 연산처리가 불가 해 NaN 값 처리

In [78]:
num_s1 + num_s2     # np에서는 같은 인덱스끼리 계산
                    # pd에서는 같은 인덱스"값"을 찾아 계산

a     9
b     7
c     9
d    11
dtype: int64

In [81]:
num_s3 = pd.Series([5,6,7,8],index=['e','b','f','g'])
num_s4 = pd.Series([1,2,3,4],index=['a','b','c','d'])

In [82]:
num_s3 + num_s4

a    NaN
b    8.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

In [83]:
num_s3 - num_s4

a    NaN
b    4.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

In [84]:
# 두 시리즈 values들 간의 연산
num_s3.values - num_s4.values

array([4, 4, 4, 4], dtype=int64)

#### 1-13 in연산자 / for 반복문 사용

In [85]:
s

도시
서울    1000000
부산    3448737
인천     289045
대구    2466052
Name: 인구 수, dtype: int64

In [86]:
'서울' in s

True

In [87]:
'대전' not in s

True

In [89]:
list(s.items())

[('서울', 1000000), ('부산', 3448737), ('인천', 289045), ('대구', 2466052)]

In [91]:
for k, v in s.items():
    print(f'{k}={v}')

서울=1000000
부산=3448737
인천=289045
대구=2466052


#### 1-14 딕셔너리로 시리즈 만들기

In [92]:
scores = {'홍길동' : 96, '이몽룡' : 100, '성춘향' : 88}
s = pd.Series(scores)
s

홍길동     96
이몽룡    100
성춘향     88
dtype: int64

In [95]:
city = {'서울' : 9631482 , '부산' : 3393191, '인천' : 2632035, '대전' : 1490158}
s = pd.Series(city)
s

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [97]:
s = pd.Series(city, index=['부산','인천','서울','대전'])
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

#### 1-15 시리즈 데이터의 갱신, 추가, 삭제

In [98]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [99]:
# 데이터 변경
s.부산 = 1630000
s

부산    1630000
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [101]:
# 시리즈 데이터 삭제
del s['부산']
s

인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [102]:
# 시리즈에 새로운 값 추가
s['대구'] = 187500
s

인천    2632035
서울    9631482
대전    1490158
대구     187500
dtype: int64

#### 1-16 Series 함수
* size : 시리즈 원소 개수 반환
* shape : 튜플 형태로 shape 반환
* unique() : 유일한 값만 ndarray로 반환
* count() : NaN을 제외한 개수를 반환
* mean() : NaN을 제외한 평균
* value_counts() : NaN을 제외하고 각 값들의 빈도를 반환

In [103]:
s1 = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN])
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [104]:
s1.size

16

In [105]:
s1.shape

(16,)

In [108]:
s1.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [109]:
s1.count()

15

In [110]:
s1.mean()

2.6666666666666665

In [111]:
# np는 결측치가 있으면 평균을 산출했을 때, nan이 나옴
a = np.array([2,2,2,2,np.NaN])      
a.mean()

nan


In [112]:
# 시리즈의 경우 평균은 NaN을 제외하고 계산
b = pd.Series(a)
b.mean()

2.0

In [113]:
b

0    2.0
1    2.0
2    2.0
3    2.0
4    NaN
dtype: float64

In [115]:
s1.value_counts()

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
dtype: int64

#### 1-17 날짜 인덱스를 이용하여 시리즈 생성
* 날짜 인덱스를 이용하여 시리즈 만들기
* 날짜 표시 : '년-월-일' 형태의 문자열로 표시
* 날짜 생성 함수 : date_range()
* 교재 p241

In [117]:
# 일별 간격으로 날짜 생성
date = pd.date_range(start='2021-10-01', end='2021-10-20')
date

DatetimeIndex(['2021-10-01', '2021-10-02', '2021-10-03', '2021-10-04',
               '2021-10-05', '2021-10-06', '2021-10-07', '2021-10-08',
               '2021-10-09', '2021-10-10', '2021-10-11', '2021-10-12',
               '2021-10-13', '2021-10-14', '2021-10-15', '2021-10-16',
               '2021-10-17', '2021-10-18', '2021-10-19', '2021-10-20'],
              dtype='datetime64[ns]', freq='D')

In [119]:
type(date)

pandas.core.indexes.datetimes.DatetimeIndex

In [120]:
# 하루주기로 2021-10-01.에서 2021-10-20 사이의 일자 생성
pd.date_range(start='2021-10-01', end='2021-10-20',freq='D')

DatetimeIndex(['2021-10-01', '2021-10-02', '2021-10-03', '2021-10-04',
               '2021-10-05', '2021-10-06', '2021-10-07', '2021-10-08',
               '2021-10-09', '2021-10-10', '2021-10-11', '2021-10-12',
               '2021-10-13', '2021-10-14', '2021-10-15', '2021-10-16',
               '2021-10-17', '2021-10-18', '2021-10-19', '2021-10-20'],
              dtype='datetime64[ns]', freq='D')

In [121]:
# 3일 주기로 2021-10-01.에서 2021-10-20 사이의 일자 생성
pd.date_range(start='2021-10-01', end='2021-10-20',freq='3D')

DatetimeIndex(['2021-10-01', '2021-10-04', '2021-10-07', '2021-10-10',
               '2021-10-13', '2021-10-16', '2021-10-19'],
              dtype='datetime64[ns]', freq='3D')

In [122]:
# 주 간격으로 날짜 생성
# 2021-10-01일을 기준으로 1주일씩 증가하는 일자 생성 ( 일요일 )

pd.date_range(start='2021-10-01', end='2021-10-20',freq='W')

DatetimeIndex(['2021-10-03', '2021-10-10', '2021-10-17'], dtype='datetime64[ns]', freq='W-SUN')

In [123]:
# 주 간격으로 날짜 생성
# 2021-10-01일을 기준으로 1주일씩 증가하는 일자 생성 ( 월요일 )

pd.date_range(start='2021-10-01', end='2021-10-20',freq='W-MON')

DatetimeIndex(['2021-10-04', '2021-10-11', '2021-10-18'], dtype='datetime64[ns]', freq='W-MON')

In [125]:
# 주 간격으로 날짜 생성
# 2021-10-07일을 기준으로 1주일씩 증가하는 4개의 1주 시작일 ( 월요일 )

pd.date_range(start='2021-10-07', periods=4,freq='W-MON')

DatetimeIndex(['2021-10-11', '2021-10-18', '2021-10-25', '2021-11-01'], dtype='datetime64[ns]', freq='W-MON')

In [126]:
# 2021-10-01일을 기준으로 1달씩 증가하는 일자 4개 생성 : 월말 기준
pd.date_range(start='2021-10-01', periods=4,freq='M')

DatetimeIndex(['2021-10-31', '2021-11-30', '2021-12-31', '2022-01-31'], dtype='datetime64[ns]', freq='M')

In [127]:
# 2021-10-01일을 기준으로 1달씩 증가하는 일자 4개 생성 : 월초 기준
pd.date_range(start='2021-10-01', periods=4,freq='MS')

DatetimeIndex(['2021-10-01', '2021-11-01', '2021-12-01', '2022-01-01'], dtype='datetime64[ns]', freq='MS')

In [128]:
# 2021-10-01일을 기준으로 3달씩 증가하는 일자 4개 생성 : 월말 기준
pd.date_range(start='2021-10-01', periods=4,freq='3M')

DatetimeIndex(['2021-10-31', '2022-01-31', '2022-04-30', '2022-07-31'], dtype='datetime64[ns]', freq='3M')

In [129]:
# 2021-10-01일을 기준으로 2달씩 증가하는 일자 12개 생성 : 월초 기준
pd.date_range(start='2021-10-01', periods=12,freq='2MS')

DatetimeIndex(['2021-10-01', '2021-12-01', '2022-02-01', '2022-04-01',
               '2022-06-01', '2022-08-01', '2022-10-01', '2022-12-01',
               '2023-02-01', '2023-04-01', '2023-06-01', '2023-08-01'],
              dtype='datetime64[ns]', freq='2MS')

In [130]:
# 2022-01-7일 08:00 부터 시간 기준으로 10개의 날짜 생성
pd.date_range(start='2022-01-07 09:00', periods=10, freq='H')

DatetimeIndex(['2022-01-07 09:00:00', '2022-01-07 10:00:00',
               '2022-01-07 11:00:00', '2022-01-07 12:00:00',
               '2022-01-07 13:00:00', '2022-01-07 14:00:00',
               '2022-01-07 15:00:00', '2022-01-07 16:00:00',
               '2022-01-07 17:00:00', '2022-01-07 18:00:00'],
              dtype='datetime64[ns]', freq='H')

In [131]:
# 2022-01-7일 08:00 부터 업무 시간 기준으로 10개의 날짜 생성
pd.date_range(start='2022-01-07 09:00', periods=10, freq='BH')

DatetimeIndex(['2022-01-07 09:00:00', '2022-01-07 10:00:00',
               '2022-01-07 11:00:00', '2022-01-07 12:00:00',
               '2022-01-07 13:00:00', '2022-01-07 14:00:00',
               '2022-01-07 15:00:00', '2022-01-07 16:00:00',
               '2022-01-10 09:00:00', '2022-01-10 10:00:00'],
              dtype='datetime64[ns]', freq='BH')