In [130]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 슬라이싱

In [131]:
obj = Series(np.arange(4.), index=['a', 'b', 'c','d']); obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [132]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [133]:
# 슬라이싱한 결과에 값 대입
obj['b':'c'] = 10
obj

a     0.0
b    10.0
c    10.0
d     3.0
dtype: float64

In [134]:
df = DataFrame(np.arange(16).reshape(4, 4),
               index=['Seoul', 'Busan', 'Daegu', 'Incheon'],
               columns=['one', 'two', 'three', 'four'])
df

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Busan,4,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [135]:
# 데이터 프레임 슬라이싱
df[1:2]

Unnamed: 0,one,two,three,four
Busan,4,5,6,7


In [136]:
# 컬럼 index 기준으로 슬라이싱 하려면 [행, 열] 조합
df.loc[:, 'one']

Seoul       0
Busan       4
Daegu       8
Incheon    12
Name: one, dtype: int32

In [137]:
# 두 축을 모두 지정해서 슬라이싱
df.loc[:, ['two', 'three']]

Unnamed: 0,two,three
Seoul,1,2
Busan,5,6
Daegu,9,10
Incheon,13,14


In [138]:
df

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Busan,4,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [139]:
# [실습]
# 6, 7
# 10, 11      데이터프레임으로 리턴해서 출력해보세요 (2행 2열 데이터 프레임)


In [140]:
# iloc 도 가능


In [141]:
df.iloc[[3, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Incheon,15,12,13
Daegu,11,8,9


### 조건 부여 가능 (filtering)

In [142]:
df

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Busan,4,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [143]:
df.three

Seoul       2
Busan       6
Daegu      10
Incheon    14
Name: three, dtype: int32

In [144]:
# 7보다 큰 값 찾기
df.three > 7

Seoul      False
Busan      False
Daegu       True
Incheon     True
Name: three, dtype: bool

In [145]:
# 'three' 컬럼 기준으로 7보다 큰 값이 있는 데이터만 추출 : 데이터프레임[조건]
# 추출할 때 True만 추출
df[df.three > 7]

Unnamed: 0,one,two,three,four
Daegu,8,9,10,11
Incheon,12,13,14,15


In [60]:
# [실습]
# df을 df2로 복사 한 후
# df2에서 5보다 작은값을 모두 0으로 수정해보세요
# [Hint] True로 리턴되는 값만 인덱싱되는 것을 유의

In [150]:
df2 = df.copy(); df2

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Busan,4,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [151]:
df2 < 5

Unnamed: 0,one,two,three,four
Seoul,True,True,True,True
Busan,True,False,False,False
Daegu,False,False,False,False
Incheon,False,False,False,False


In [147]:
df2[df2 < 5] = 0; df2

Unnamed: 0,one,two,three,four
Seoul,0,0,0,0
Busan,0,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [148]:
df


Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Busan,4,5,6,7
Daegu,8,9,10,11
Incheon,12,13,14,15


In [64]:
# 특정 조건을 만족하는 데이터 제한 가능 - 특성을 연결해서 사용할 수 있다
df[df.three > 5].iloc[:2]

Unnamed: 0,one,two,three,four
Busan,4,5,6,7
Daegu,8,9,10,11


## 정렬

* 행 인덱스, 열 인덱스 순으로 정렬하는 등의 기준이 필요

In [65]:
# 임의의 정규분포 데이터 생성
df = DataFrame(np.random.randn(4, 3), columns=list('dbe'),
               index=['Seoul', 'Busan', 'Daegu', 'Incheon'])
df

Unnamed: 0,d,b,e
Seoul,-0.053385,-0.506381,-0.396176
Busan,-0.441287,-0.916486,0.465347
Daegu,1.011971,-0.087451,1.03378
Incheon,-0.083975,-0.621904,0.405349


* Series 객체 정렬

In [66]:
s1 = df.e.copy()
s1

Seoul     -0.396176
Busan      0.465347
Daegu      1.033780
Incheon    0.405349
Name: e, dtype: float64

In [67]:
# Series 객체
s1.sort_index()

Busan      0.465347
Daegu      1.033780
Incheon    0.405349
Seoul     -0.396176
Name: e, dtype: float64

In [68]:
# 내림차순으로 정렬
s1.sort_index(ascending=False)

Seoul     -0.396176
Incheon    0.405349
Daegu      1.033780
Busan      0.465347
Name: e, dtype: float64

In [69]:
# Series 객체
s1.sort_values()

Seoul     -0.396176
Incheon    0.405349
Busan      0.465347
Daegu      1.033780
Name: e, dtype: float64

* 데이터프레임 정렬

In [70]:
df

Unnamed: 0,d,b,e
Seoul,-0.053385,-0.506381,-0.396176
Busan,-0.441287,-0.916486,0.465347
Daegu,1.011971,-0.087451,1.03378
Incheon,-0.083975,-0.621904,0.405349


In [71]:
# 데이터 프레임
df.sort_index()

Unnamed: 0,d,b,e
Busan,-0.441287,-0.916486,0.465347
Daegu,1.011971,-0.087451,1.03378
Incheon,-0.083975,-0.621904,0.405349
Seoul,-0.053385,-0.506381,-0.396176


In [72]:
# 데이터 프레임 정렬
df.sort_index(axis=1)

Unnamed: 0,b,d,e
Seoul,-0.506381,-0.053385,-0.396176
Busan,-0.916486,-0.441287,0.465347
Daegu,-0.087451,1.011971,1.03378
Incheon,-0.621904,-0.083975,0.405349


In [73]:
# value 기반 정렬 (by 속성에 기준 컬럼을 지정해야함에 유의)
df.sort_values(by='b')

Unnamed: 0,d,b,e
Busan,-0.441287,-0.916486,0.465347
Incheon,-0.083975,-0.621904,0.405349
Seoul,-0.053385,-0.506381,-0.396176
Daegu,1.011971,-0.087451,1.03378


In [74]:
# 여러 개의 컬럼을 기준으로 사용 가능
df2 = DataFrame({'b':[4, 7, -5, 2], 'a':[0, 1, 0, 1]})
df2

Unnamed: 0,b,a
0,4,0
1,7,1
2,-5,0
3,2,1


In [75]:
df2.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-5,0
0,4,0
3,2,1
1,7,1


In [76]:
# NaN 있는 경우
obj = Series([4, np.nan, 8, np.nan, -10, 2])
obj

0     4.0
1     NaN
2     8.0
3     NaN
4   -10.0
5     2.0
dtype: float64

In [77]:
obj.sort_values()

4   -10.0
5     2.0
0     4.0
2     8.0
1     NaN
3     NaN
dtype: float64

In [78]:
obj.sort_values(ascending=False)

2     8.0
0     4.0
5     2.0
4   -10.0
1     NaN
3     NaN
dtype: float64

## 순위

* rank()

* 원본데이터의 순서 정보

In [79]:
s1 = Series([7, -2, 7, 4, 2, 0, 4])
s1

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [80]:
s1.rank()

# 기본 오름차순 정렬을 했을 때 데이터 나열 순서 정보
# 중복된 데이터는 순위의 평균값으로 처리하고 있음에 유의

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [81]:
# 동점(률) 처리 중 먼저 입력된 것을 우선순위
s1.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [82]:
# 내림차순 순위매기기 - 동점(률) 처리 - 그룹 지어서 순위 매기기
print(s1)
print('-'*40)
print(s1.rank(ascending=False, method='min'))

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64
----------------------------------------
0    1.0
1    7.0
2    1.0
3    3.0
4    5.0
5    6.0
6    3.0
dtype: float64


## 기술통계

* 일반적인 수학/통계 함수들을 제공해주고 있음

* 처음부터 결측치(누락 데이터)를 제외하도록 설계되어 있음.

In [83]:
df = DataFrame([
    [1.3, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
    index=list('abcd'), columns=['one', 'two']
)

df

Unnamed: 0,one,two
a,1.3,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [84]:
# sum()
df.sum()

one    9.15
two   -5.80
dtype: float64

In [85]:
# row 단위로 수행
df.sum(axis=1)

a    1.30
b    2.60
c    0.00
d   -0.55
dtype: float64

In [86]:
# NaN을 제외하지 않고 연산을 수행 : skipna 옵션 (default : True)
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [87]:
df

Unnamed: 0,one,two
a,1.3,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [88]:
# 누산(누적합) : cumsum()
df.cumsum()

Unnamed: 0,one,two
a,1.3,
b,8.4,-4.5
c,,
d,9.15,-5.8


In [89]:
df

Unnamed: 0,one,two
a,1.3,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [90]:
df.cumsum(axis=1)

Unnamed: 0,one,two
a,1.3,
b,7.1,2.6
c,,
d,0.75,-0.55


In [91]:
df.cumsum(axis=1, skipna=False)

Unnamed: 0,one,two
a,1.3,
b,7.1,2.6
c,,
d,0.75,-0.55


In [92]:
df

Unnamed: 0,one,two
a,1.3,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [93]:
# value가 가장 큰 값이 있는 row 인덱스를 리턴
df.idxmax()

one    b
two    d
dtype: object

In [94]:
# value가 가장 작은 값이 있는 row 인덱스를 리턴
df.idxmin()

one    d
two    b
dtype: object

In [95]:
# axis=1이면 value가 가장 큰 값이 있는 column 인덱스를 리턴
df.idxmax(axis=1)

  df.idxmax(axis=1)


a    one
b    one
c    NaN
d    one
dtype: object

In [96]:
df.idxmin(axis=1)

  df.idxmin(axis=1)


a    one
b    two
c    NaN
d    two
dtype: object

In [97]:
# 도수 (값의 수를 계산)
s1 = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
len(s1)

9

In [98]:
s1.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [99]:
# 도수 => 그룹화 => 유일한 값
s1.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [100]:
# [실습] 유일한 값으로 되돌려진 결과를 최종적으로 정렬해보세요


In [101]:
# isin() : 어떤 값의 유무를 확인하는 함수 - T/F로 리턴

In [102]:
s1

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [103]:
check = s1.isin(['b'])
check

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool

In [104]:
# 찾고자 하는 값이 여러 개인 경우도 가능
check = s1.isin(['b', 'c'])
check

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [105]:
# 원하는 데이터(결과가 True인 값)만 인덱싱 가능
s1[check]

0    c
5    b
6    b
7    c
8    c
dtype: object

## NaN 처리

* 결측치(누락된 데이터) 처리 : pandas 설계 목표 중 하나는 누락된 데이터를 쉽게 처리하도록 도와주는 것

* pandas에서는 누락된 데이터를 모두 NaN(Not a Number) 로 취급

In [106]:
strData = Series(['aaa', 'bbb', np.nan, 'ddd'])
strData

0    aaa
1    bbb
2    NaN
3    ddd
dtype: object

In [107]:
# NaN 찾는 함수 : isnull(), notnull()
strData.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [108]:
strData[0] = None
strData

0    None
1     bbb
2     NaN
3     ddd
dtype: object

In [109]:
strData.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 누락된 데이터 골라내기 (삭제)

In [110]:
data = Series([1, np.nan, 3.4, np.nan, 8]); data

0    1.0
1    NaN
2    3.4
3    NaN
4    8.0
dtype: float64

In [111]:
# dropna()
data.dropna()

0    1.0
2    3.4
4    8.0
dtype: float64

In [112]:
# 불리언(boolean) 색인을 이용해서 직접 찾은 다음 골라내기
data.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [113]:
data[data.notnull()]

0    1.0
2    3.4
4    8.0
dtype: float64

In [114]:
data = DataFrame([
    [1, 5.5, 3], [1, np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 3.3, 3]
])

data

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [115]:
data.dropna()    # 기본적으로 NaN이 하나라도 있으면 그 행을 제외

Unnamed: 0,0,1,2
0,1.0,5.5,3.0


In [116]:
# 모든 행이 NaN인 행만 제외
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
3,,3.3,3.0


In [117]:
data[4] = np.nan

data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [118]:
# 모든 데이터가 NaN인 열을 제외
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [119]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [120]:
# tresh : 결측치(NaN)가 아닌 관찰값(value)가 지정한 인수값 미만인 경우에 제외
data.dropna(thresh=2)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
3,,3.3,3.0,


### 누락된 데이터 채우기 (권장)

In [121]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [122]:
# dropna  <-> fillna
data.fillna(0)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,3.3,3.0,0.0


In [123]:
# fillna를 다양한 활용법에 따라서 채우는 형식을 다양하게 지정할 수 있음
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [124]:
# 특정 컬럼만 채우기
data.fillna({1 : 10, 4 : 30})

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,30.0
1,1.0,10.0,,30.0
2,,10.0,,30.0
3,,3.3,3.0,30.0


In [125]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [126]:
# 특정값(통계값) 채우기
data.fillna(data.mean())

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,4.4,3.0,
2,1.0,4.4,3.0,
3,1.0,3.3,3.0,


In [127]:
# 바로 위에 있는 값으로 채우기
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [128]:
data.fillna(method='ffill')

  data.fillna(method='ffill')


Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,5.5,3.0,
2,1.0,5.5,3.0,
3,1.0,3.3,3.0,


In [129]:
data.fillna(method='ffill', limit=1)

  data.fillna(method='ffill', limit=1)


Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,5.5,3.0,
2,1.0,,,
3,,3.3,3.0,
