### Pandas 특징
- 결측데이터(NaN)를 쉽게 처리
- 크기 변이성 : DataFrame 및 고차원 객체에서 열삽입 및 삭제 가능
- 자동 및 명시적 데이터 정렬 : 객체를 라벨에 정렬, 사용자가 라벨을 무시하고 Series, DataFrame 등의 계산에서 자동으로 데이터 조정 가능
- group-by 함수 제공
- 시계열 특정 기능

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.1.3'

### Pandas 객체


- Series : index + values

In [11]:
s = pd.Series([0, 0.25, 1.0])
s

0    0.00
1    0.25
2    1.00
dtype: float64

In [12]:
s.values

array([0.  , 0.25, 1.  ])

In [13]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [14]:
s[2]

1.0

In [15]:
s[1:4]

1    0.25
2    1.00
dtype: float64

In [17]:
# index 지정가능
s = pd.Series([0, 0.25, 1.0],
             index = ['a','b','c'])
s

a    0.00
b    0.25
c    1.00
dtype: float64

In [18]:
s['c']

1.0

In [19]:
s[['a', 'b']]

a    0.00
b    0.25
dtype: float64

In [28]:
# python의 in
print('b' in s)
print(s.isin([0.25]))

True
a    False
b     True
c    False
dtype: bool


In [21]:
# 중복된 값 제거 후 리턴
s.unique()

array([0.  , 0.25, 1.  ])

In [22]:
# value의 수
s.value_counts()

1.00    1
0.25    1
0.00    1
dtype: int64

In [24]:
pop_tuple = {'서울특별시' : 100,
            '부산광역시' : 80,
            '인천광역시' : 60,
            '대구광역시' : 50,
            '대전광역시' : 40,
            '광주광역시' : 30}
population = pd.Series(pop_tuple)
population

서울특별시    100
부산광역시     80
인천광역시     60
대구광역시     50
대전광역시     40
광주광역시     30
dtype: int64

In [25]:
population['서울특별시']

100

In [26]:
population['서울특별시' : '인천광역시']

서울특별시    100
부산광역시     80
인천광역시     60
dtype: int64

### DataFrame

In [30]:
pd.DataFrame([{'a' : 1, 'b' : 2, 'c' : 3}, {'a' : 4, 'b' : 5, 'd' : 7}])

Unnamed: 0,a,b,c,d
0,1,2,3.0,
1,4,5,,7.0


In [31]:
pd.DataFrame(np.random.rand(5,5),
            columns=['a','b','c','d','e'],
            index=[1,2,3,4,5])

Unnamed: 0,a,b,c,d,e
1,0.499397,0.500469,0.91548,0.106752,0.055629
2,0.427644,0.619526,0.83468,0.744419,0.616404
3,0.56773,0.771886,0.704145,0.803928,0.946229
4,0.167533,0.841433,0.680332,0.159874,0.723388
5,0.977852,0.842926,0.93739,0.208026,0.622153


In [32]:
male_tuple = {'서울특별시' : 60,
              '부산광역시' : 50,
              '인천광역시' : 40,
              '대구광역시' : 30,
              '대전광역시' : 20,
              '광주광역시' : 10}

male = pd.Series(male_tuple)
male

서울특별시    60
부산광역시    50
인천광역시    40
대구광역시    30
대전광역시    20
광주광역시    10
dtype: int64

In [35]:
female_tuple = {'서울특별시' : 40,
              '부산광역시' : 30,
              '인천광역시' : 20,
              '대구광역시' : 20,
              '대전광역시' : 20,
              '광주광역시' : 20}

female = pd.Series(female_tuple)
female

서울특별시    40
부산광역시    30
인천광역시    20
대구광역시    20
대전광역시    20
광주광역시    20
dtype: int64

In [36]:
korea_df = pd.DataFrame({'인구수' : population,
                         '여자인구수' : female,
                         '남자인구수' : male})
korea_df

Unnamed: 0,인구수,여자인구수,남자인구수
서울특별시,100,40,60
부산광역시,80,30,50
인천광역시,60,20,40
대구광역시,50,20,30
대전광역시,40,20,20
광주광역시,30,20,10


In [37]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [38]:
korea_df.columns

Index(['인구수', '여자인구수', '남자인구수'], dtype='object')

In [39]:
korea_df['여자인구수']

서울특별시    40
부산광역시    30
인천광역시    20
대구광역시    20
대전광역시    20
광주광역시    20
Name: 여자인구수, dtype: int64

In [40]:
korea_df['서울특별시' : '인천광역시']

Unnamed: 0,인구수,여자인구수,남자인구수
서울특별시,100,40,60
부산광역시,80,30,50
인천광역시,60,20,40


### Index 객체


In [42]:
# Int64Index : 정수값
idx = pd.Index([2,4,6,8,10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [43]:
idx[1]

4

In [44]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [45]:
idx[-1::]

Int64Index([10], dtype='int64')

In [46]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [47]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


### Index 연산

In [57]:
idx_01 = pd.Index([1,2,4,6,8])
idx_02 = pd.Index([2,4,5,6,7])

print(idx_01.append(idx_02))
print(idx_01 - idx_02)
print(idx_01.difference(idx_02)) # 차집합
print(idx_01.intersection(idx_02)) # 교집합
print(idx_01 & idx_02)
print(idx_01.union(idx_02)) # 합집합
print(idx_01 | idx_02)
print(idx_01 ^ idx_02) # 여집합
print(idx_01.delete(0))
print(idx_01.drop(1))

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')


## 인덱싱(Indexing)

In [59]:
s = pd.Series([0, 0.25, 1.0],
             index = ['a','b','c'])
s

a    0.00
b    0.25
c    1.00
dtype: float64

In [60]:
s['c']

1.0

In [62]:
'e' in s

False

In [64]:
s.keys()

Index(['a', 'b', 'c'], dtype='object')

In [65]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 1.0)]

In [66]:
s['d'] = 1.25
s

a    0.00
b    0.25
c    1.00
d    1.25
dtype: float64

In [67]:
s['a' : 'c']

a    0.00
b    0.25
c    1.00
dtype: float64

In [69]:
s[0:3]

a    0.00
b    0.25
c    1.00
dtype: float64

In [71]:
s[(s > 0) & (s < 1)]

b    0.25
dtype: float64

In [72]:
s[['a', 'c', 'd']]

a    0.00
c    1.00
d    1.25
dtype: float64

### Series 인덱싱

In [74]:
s = pd.Series(['a','b','c','d','e'],
              index = [1,3,5,7,9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [81]:
# index 값으로
s[9]

'e'

In [76]:
s[2:4]

5    c
7    d
dtype: object

In [77]:
# index 번호로
s.iloc[1]

'b'

In [78]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [79]:
# index 재지정, 없는 값들은 NaN
s.reindex(range(10))

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [80]:
# index 재지정, 없는 값들은 전의 값으로 채움
s.reindex(range(10), method='bfill')

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

### DataFrame 인덱싱


In [82]:
korea_df

Unnamed: 0,인구수,여자인구수,남자인구수
서울특별시,100,40,60
부산광역시,80,30,50
인천광역시,60,20,40
대구광역시,50,20,30
대전광역시,40,20,20
광주광역시,30,20,10


In [84]:
korea_df['여자인구수']

서울특별시    40
부산광역시    30
인천광역시    20
대구광역시    20
대전광역시    20
광주광역시    20
Name: 여자인구수, dtype: int64

In [85]:
korea_df.여자인구수

서울특별시    40
부산광역시    30
인천광역시    20
대구광역시    20
대전광역시    20
광주광역시    20
Name: 여자인구수, dtype: int64

In [87]:
korea_df['남여비율'] = (korea_df['남자인구수'] * 100 / korea_df['여자인구수'])
korea_df

Unnamed: 0,인구수,여자인구수,남자인구수,남여비율
서울특별시,100,40,60,150.0
부산광역시,80,30,50,166.666667
인천광역시,60,20,40,200.0
대구광역시,50,20,30,150.0
대전광역시,40,20,20,100.0
광주광역시,30,20,10,50.0


In [88]:
korea_df.values

array([[100.        ,  40.        ,  60.        , 150.        ],
       [ 80.        ,  30.        ,  50.        , 166.66666667],
       [ 60.        ,  20.        ,  40.        , 200.        ],
       [ 50.        ,  20.        ,  30.        , 150.        ],
       [ 40.        ,  20.        ,  20.        , 100.        ],
       [ 30.        ,  20.        ,  10.        ,  50.        ]])

In [89]:
# 전치행령
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,100.0,80.0,60.0,50.0,40.0,30.0
여자인구수,40.0,30.0,20.0,20.0,20.0,20.0
남자인구수,60.0,50.0,40.0,30.0,20.0,10.0
남여비율,150.0,166.666667,200.0,150.0,100.0,50.0


In [90]:
korea_df.values[0]

array([100.,  40.,  60., 150.])

In [92]:
korea_df.loc[: '인천광역시', : '여자인구수']

Unnamed: 0,인구수,여자인구수
서울특별시,100,40
부산광역시,80,30
인천광역시,60,20


In [95]:
korea_df.loc[(korea_df.여자인구수 > 30)]

Unnamed: 0,인구수,여자인구수,남자인구수,남여비율
서울특별시,100,40,60,150.0


In [96]:
korea_df.loc[(korea_df.인구수 < 50)]

Unnamed: 0,인구수,여자인구수,남자인구수,남여비율
대전광역시,40,20,20,100.0
광주광역시,30,20,10,50.0


In [97]:
korea_df.loc[(korea_df.인구수 < 50) & (korea_df.남여비율 > 70)]

Unnamed: 0,인구수,여자인구수,남자인구수,남여비율
대전광역시,40,20,20,100.0


In [98]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,여자인구수
서울특별시,100,40
부산광역시,80,30
인천광역시,60,20


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

In [99]:
korea_df

Unnamed: 0,인구수,여자인구수,남자인구수,남여비율
서울특별시,100,40,60,150.0
부산광역시,80,30,50,166.666667
인천광역시,60,20,40,200.0
대구광역시,50,20,30,150.0
대전광역시,40,20,20,100.0
광주광역시,30,20,10,50.0


In [100]:
idx_tuples = [('서울특별시', 2010),('서울특별시', 2020),
              ('부산광역시', 2010),('부산광역시', 2020),
              ('인천광역시', 2010),('인천광역시', 2020),
              ('대구광역시', 2010),('대구광역시', 2020),
              ('대전광역시', 2010),('대전광역시', 2020),
              ('광주광역시', 2010),('광주광역시', 2020),]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [106]:
pop_tuples = [100, 110,
             120, 130,
             140, 150,
             160, 170,
             180, 190,
             200, 210]
population = pd.Series(pop_tuples, index=idx_tuples)
population

(서울특별시, 2010)    100
(서울특별시, 2020)    110
(부산광역시, 2010)    120
(부산광역시, 2020)    130
(인천광역시, 2010)    140
(인천광역시, 2020)    150
(대구광역시, 2010)    160
(대구광역시, 2020)    170
(대전광역시, 2010)    180
(대전광역시, 2020)    190
(광주광역시, 2010)    200
(광주광역시, 2020)    210
dtype: int64

In [108]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [111]:
population = population.reindex(midx)
population

서울특별시  2010    100
       2020    110
부산광역시  2010    120
       2020    130
인천광역시  2010    140
       2020    150
대구광역시  2010    160
       2020    170
대전광역시  2010    180
       2020    190
광주광역시  2010    200
       2020    210
dtype: int64

In [112]:
population[:, 2010]

서울특별시    100
부산광역시    120
인천광역시    140
대구광역시    160
대전광역시    180
광주광역시    200
dtype: int64

In [115]:
population['대전광역시', :]

2010    180
2020    190
dtype: int64

In [116]:
# unstack() : 다중인덱싱으로 만든 시리즈를 DataFrame형태로 변환
korea_mdf = population.unstack()
korea_mdf

Unnamed: 0,2010,2020
광주광역시,200,210
대구광역시,160,170
대전광역시,180,190
부산광역시,120,130
서울특별시,100,110
인천광역시,140,150


In [117]:
# DataFrame을 다중인덱싱형태로 변환
korea_mdf.stack()

광주광역시  2010    200
       2020    210
대구광역시  2010    160
       2020    170
대전광역시  2010    180
       2020    190
부산광역시  2010    120
       2020    130
서울특별시  2010    100
       2020    110
인천광역시  2010    140
       2020    150
dtype: int64

In [118]:
male_tuple = [10, 20,
             30, 40,
             50, 60,
             70, 80,
             90, 100,
             110, 120]
male_tuple

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120]

In [122]:
female_tuple = [20, 30,
             40, 50,
             60, 70,
             80, 90,
             100, 110,
             120, 130]
female_tuple

[20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130]

In [123]:
korea_mdf = pd.DataFrame({'총인구수' : population,
                          '여자인구수' : female_tuple,
                          '남자인구수' : male_tuple})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,여자인구수,남자인구수
서울특별시,2010,100,20,10
서울특별시,2020,110,30,20
부산광역시,2010,120,40,30
부산광역시,2020,130,50,40
인천광역시,2010,140,60,50
인천광역시,2020,150,70,60
대구광역시,2010,160,80,70
대구광역시,2020,170,90,80
대전광역시,2010,180,100,90
대전광역시,2020,190,110,100


In [125]:
ratio = korea_mdf['남자인구수'] * 100 / korea_mdf['여자인구수']
ratio

서울특별시  2010    50.000000
       2020    66.666667
부산광역시  2010    75.000000
       2020    80.000000
인천광역시  2010    83.333333
       2020    85.714286
대구광역시  2010    87.500000
       2020    88.888889
대전광역시  2010    90.000000
       2020    90.909091
광주광역시  2010    91.666667
       2020    92.307692
dtype: float64

In [126]:
ratio.unstack()

Unnamed: 0,2010,2020
광주광역시,91.666667,92.307692
대구광역시,87.5,88.888889
대전광역시,90.0,90.909091
부산광역시,75.0,80.0
서울특별시,50.0,66.666667
인천광역시,83.333333,85.714286


In [127]:
korea_mdf = pd.DataFrame({'총인구수' : population,
                          '여자인구수' : female_tuple,
                          '남자인구수' : male_tuple,
                          '남여비율' : ratio})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,여자인구수,남자인구수,남여비율
서울특별시,2010,100,20,10,50.0
서울특별시,2020,110,30,20,66.666667
부산광역시,2010,120,40,30,75.0
부산광역시,2020,130,50,40,80.0
인천광역시,2010,140,60,50,83.333333
인천광역시,2020,150,70,60,85.714286
대구광역시,2010,160,80,70,87.5
대구광역시,2020,170,90,80,88.888889
대전광역시,2010,180,100,90,90.0
대전광역시,2020,190,110,100,90.909091


#### 다중 인덱스 생성

In [128]:
56분

SyntaxError: invalid syntax (<ipython-input-128-8c5fc623b9fd>, line 1)

#### 인덱싱 및 슬라이싱

#### 다중 인덱스 재정렬

## 데이터 연산

### 연산자 범용 함수


#### add()

#### sub() / subtract()

#### mul() / multply()




#### truediv() /  div() / divide() / floordiv()

#### mod()

#### pow()

### 정렬(Sort)

### 순위(Ranking)


### 고성능 연산

## 데이터 결합

### Concat() / Append()

### 병합과 조인

## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)


### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


## 문자열 연산

#### 문자열 연산자

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly