### DataFrame
- Pandas 객체 type : Series / DataFrame

In [1]:
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame 

### 정렬

In [3]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [4]:
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int64

In [5]:
obj # 원본은 변경 x

d    0
a    1
b    2
c    3
dtype: int64

In [6]:
frame = DataFrame(np.arange(8).reshape(2, 4),
                 index = ['three', 'one'], 
                 columns = ['d', 'a', '가', 'c'])
frame

Unnamed: 0,d,a,가,c
three,0,1,2,3
one,4,5,6,7


- sort_index() : index/column명을 기준으로 정렬(Alphabet 순)
   * default : 행(row), 즉 index 기준

In [7]:
frame.sort_index() # axis=0 기본값, 행
frame.sort_index(0)

Unnamed: 0,d,a,가,c
one,4,5,6,7
three,0,1,2,3


In [8]:
frame.sort_index(1) # axis=1 열

Unnamed: 0,a,c,d,가
three,1,3,0,2
one,5,7,4,6


In [9]:
frame.sort_index(axis=1, ascending = False) # 열, 내림차순
# sort한 결과만 보여줌 - 원본 변경x

Unnamed: 0,가,d,c,a
three,2,0,3,1
one,6,4,7,5


In [10]:
frame

Unnamed: 0,d,a,가,c
three,0,1,2,3
one,4,5,6,7


- sort_values() : DataFrame 내 value(값)을 기준으로 정렬

In [11]:
frame2 = DataFrame({'b':[4, 7, 3, 2], 'a':[4, 9, 2, 5], 'c':[5, 3, 7, 9]})
frame2

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [12]:
frame2.sort_values(by='b', ascending = False) # 컬럼 'b'를 기준으로 정렬, 내림차순

Unnamed: 0,b,a,c
1,7,9,3
0,4,4,5
2,3,2,7
3,2,5,9


In [13]:
frame2.sort_values(by='a')

Unnamed: 0,b,a,c
2,3,2,7
0,4,4,5
3,2,5,9
1,7,9,3


### rank
- rank() : 순위를 정하고, 순위 값을 배정
   * default : 열(column) 기준, 오름차순

In [14]:
obj = Series([100, 23, 55, 44, 22, 99, 33])
obj

0    100
1     23
2     55
3     44
4     22
5     99
6     33
dtype: int64

In [15]:
obj.rank() # 크기 순서

0    7.0
1    2.0
2    5.0
3    4.0
4    1.0
5    6.0
6    3.0
dtype: float64

In [16]:
obj.rank(ascending = False) # 내림차순

0    1.0
1    6.0
2    3.0
3    4.0
4    7.0
5    2.0
6    5.0
dtype: float64

- 동점이 있는 경우
   * 순위 값 = 중간 평균 값

In [17]:
obj2 = Series([100, 23, 55, 44, 22, 44, 33])
obj2.rank() # 동점이 있으면 평균값을 준다

0    7.0
1    2.0
2    6.0
3    4.5
4    1.0
5    4.5
6    3.0
dtype: float64

In [18]:
obj2 = Series([100, 23, 55, 44, 22, 44, 33, 44])
obj2.rank() # 4, 5, 6 등 중간값 5등으로 나옴

0    8.0
1    2.0
2    7.0
3    5.0
4    1.0
5    5.0
6    3.0
7    5.0
dtype: float64

In [19]:
obj2.rank(method='min')

0    8.0
1    2.0
2    7.0
3    4.0
4    1.0
5    4.0
6    3.0
7    4.0
dtype: float64

In [20]:
obj2.rank(method='max')

0    8.0
1    2.0
2    7.0
3    6.0
4    1.0
5    6.0
6    3.0
7    6.0
dtype: float64

- rank(method='first') : 동일한 값이 존재 할 경우 먼저 나타나는 것에게 높은 순위를 준다.

In [21]:
obj2.rank(method='first')

0    8.0
1    2.0
2    7.0
3    4.0
4    1.0
5    5.0
6    3.0
7    6.0
dtype: float64

In [22]:
obj2.sort_values(ascending = False)

0    100
2     55
3     44
5     44
7     44
6     33
1     23
4     22
dtype: int64

- 행(row) 기준, 순위 매기기
   * axis = 1
- 열(columns) 기준, 순위 매기기
   * axis = 0

In [23]:
frame3 = DataFrame({'b':[4, 7, 3, 2], 'a':[4, 9, 2, 5], 'c':[5, 3, 7, 9]})
frame3

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [24]:
frame3.rank(1) # 행단위로 

Unnamed: 0,b,a,c
0,1.5,1.5,3.0
1,2.0,3.0,1.0
2,2.0,1.0,3.0
3,1.0,2.0,3.0


In [25]:
frame3.rank()
frame3.rank(0) # 기본값 0: 열단위

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,1.0
2,2.0,1.0,3.0
3,1.0,3.0,4.0


- sum() : 합, mean() : 평균 계산
   * default : 열(column) 기준

In [26]:
frame3.sum(1) # 행단위

0    13
1    19
2    12
3    16
dtype: int64

In [27]:
frame3.sum(0) # 열단위
frame3.sum()

b    16
a    20
c    24
dtype: int64

In [28]:
frame3.mean(0) # 열단위

b    4.0
a    5.0
c    6.0
dtype: float64

In [29]:
frame3.mean(1) # 행단위

0    4.333333
1    6.333333
2    4.000000
3    5.333333
dtype: float64

- NaN이 있는 경우 빼고 계산

In [30]:
frame4 = DataFrame({'b':[4, 7, 3, 2], 'a':[4, 9, 2, 5], 'c':[5, 3, 7, np.nan]})
frame4

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [31]:
frame4.rank() # NaN 값 빼고 계산

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,1.0
2,2.0,1.0,3.0
3,1.0,3.0,


In [32]:
frame4.sum() # NaN==0

b    16.0
a    20.0
c    15.0
dtype: float64

In [33]:
frame4.mean()

b    4.0
a    5.0
c    5.0
dtype: float64

- NaN이 있으면 이를 반영하도록 skipna=False
- skipna 은 skip NaN을 뜻함.

In [34]:
frame4.sum(skipna=False)

b    16.0
a    20.0
c     NaN
dtype: float64

- idxmax() : 최대치가 있는 위치를 반환한다.
- idxmin() : 최소치가 있는 위치를 반환한다.

In [35]:
frame4.idxmax() 

b    1
a    1
c    2
dtype: int64

In [36]:
frame4.idxmin(0)

b    3
a    2
c    1
dtype: int64

- unique() : 중복되지 않는 항목들을 찾는다.
   * 집합(set)의 개념

In [37]:
obj3 = Series(['c', 'a', 'd', 'a', 'a', 'c', 'b', 'b', 'c', 'c'])
obj3

0    c
1    a
2    d
3    a
4    a
5    c
6    b
7    b
8    c
9    c
dtype: object

In [38]:
obj3.unique() # value값들의 종류를 확인할 수 있다.

array(['c', 'a', 'd', 'b'], dtype=object)

### 항목들의 빈도 수 계산
- value_counts() : 대상 객체 내의 항목들의 빈도 수를 count한다.
   * 빈도 수가 높은 순으로 정렬하여 반환

In [39]:
obj3.value_counts()

c    4
a    3
b    2
d    1
dtype: int64

- 빈도 수로 정렬하지 않고 나타난 순서대로 출력 
   * sort=False

In [40]:
obj3.value_counts(sort=False)

c    4
a    3
d    1
b    2
dtype: int64

- isin() : 특정한 내용이 들어있는지 여부를 boolean(True/False)으로 반환

In [41]:
mask = obj3.isin(['b', 'c']) ; mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [42]:
obj3

0    c
1    a
2    d
3    a
4    a
5    c
6    b
7    b
8    c
9    c
dtype: object

- 데이터 객체 내에서 특정 값이 True인 항목만 출력하려면
   * 여기선 obj 객체 내에서 mask=True 인 항목

In [43]:
obj3[mask] # obj에서 mask 값이 true인 값만을 출력

0    c
5    c
6    b
7    b
8    c
9    c
dtype: object

In [44]:
# 아래는 같은 결과를 얻는다
obj3[obj3.isin(['b', 'c'])] 

0    c
5    c
6    b
7    b
8    c
9    c
dtype: object

### 결측치 처리

- value_counts : 대상 객체 내의 모든 value 항목들에 대한 갯수 세기

In [45]:
frame = DataFrame({'X':['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], 
                   'Y':['f', 'g', 'd', 'g', 'h', 'e', 'd', 'h', 'f'],
                   'Z':['a', 'e', 'd', 'g', 'd', 'e', 'q', 'b', 'c']})
frame

Unnamed: 0,X,Y,Z
0,c,f,a
1,a,g,e
2,d,d,d
3,a,g,g
4,a,h,d
5,b,e,e
6,b,d,q
7,c,h,b
8,c,f,c


In [46]:
# 각 항목이 들어있는 갯수를 셈, 없는 값은 NaN 
result = frame.apply(pd.value_counts) ; result

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


- fillna(0)
   * 값이 없는 경우, NaN 대신 0으로 대체

In [47]:
result = frame.apply(pd.value_counts).fillna(0) ; result 

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0
c,3.0,0.0,1.0
d,1.0,2.0,2.0
e,0.0,1.0,2.0
f,0.0,2.0,0.0
g,0.0,2.0,1.0
h,0.0,2.0,0.0
q,0.0,0.0,1.0


- dropna()
   * 결측 치 처리시에 한 항목이라도 NaN이 있으면, 해당 행(row)을 삭제

In [48]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [49]:
data.dropna()  # data에서 NA가 있는 항목들이 떨어져 나가는 것을 볼 수 있다.

0    1.0
2    3.5
4    7.0
dtype: float64

In [50]:
data = DataFrame([[NA, 6.5, 3.], [NA, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [51]:
# 한 항목이라도 NA가 있으면 해당 행을 삭제한다
data.dropna()

Unnamed: 0,0,1,2


- 행(row)의 모든 항목이 NA일 때 해당 행을 삭제 
   * how = 'all'

In [52]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,,6.5,3.0
3,,6.5,3.0


In [53]:
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


- 열(column)에 대한 삭제
   * axis = 1

In [54]:
data.dropna(axis=1)

0
1
2
3


In [55]:
data.dropna(axis=1, how='all')

Unnamed: 0,1,2
0,6.5,3.0
1,,
2,,
3,6.5,3.0


- NA가 특정 개수 이상일 때 해당 행(row)을 삭제
   * thresh = 2 (예, 2개 이상 일 경우)

In [56]:
# 평균 0, 표준편차 1인 랜덤값 만들기 - 7행3열
df = DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df.iloc[0, 0] = NA
df

Unnamed: 0,0,1,2
0,,,
1,-0.342033,,
2,-0.931724,,1.979633
3,-2.44635,,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


In [57]:
# NA가 2개 이상인 경우 삭제
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,-0.931724,,1.979633
3,-2.44635,,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


In [58]:
df

Unnamed: 0,0,1,2
0,,,
1,-0.342033,,
2,-0.931724,,1.979633
3,-2.44635,,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


- fillna() 수행할 때, 모두 같은 값으로 채우지 않고... Column별로 다른 값으로 대체
   * 딕셔너리 형태로 값을 지정 : ex) {1:0.5, 2:-1}

In [59]:
df.fillna({1: 0.5, 2: -1})

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,-0.342033,0.5,-1.0
2,-0.931724,0.5,1.979633
3,-2.44635,0.5,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


### DataFrame 객체 원래 값을 변경하는 방법
- DataFrame 객체에 대한 조작을 수행하면 
    * view만 변경되고 
    * 객체 자체의 원래 값은 변경되지 않는다. 
- 새로운 변수에 결과를 저장하는 방법
   * df2 = df.fillna( {1:0.5, 2:-1} )
- 대상 객체 자체의 값을 그대로 변경하는 방법
   * df.fillna( {1:0.5, 2:-1}, inplace=True)

In [60]:
df

Unnamed: 0,0,1,2
0,,,
1,-0.342033,,
2,-0.931724,,1.979633
3,-2.44635,,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


In [61]:
df2 = df.fillna({1:0.5, 2:-1})
df2

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,-0.342033,0.5,-1.0
2,-0.931724,0.5,1.979633
3,-2.44635,0.5,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


In [62]:
df # 변경x

Unnamed: 0,0,1,2
0,,,
1,-0.342033,,
2,-0.931724,,1.979633
3,-2.44635,,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373


In [63]:
df.fillna({1:0.5, 2:-1}, inplace=True)
df

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,-0.342033,0.5,-1.0
2,-0.931724,0.5,1.979633
3,-2.44635,0.5,0.508932
4,-0.232121,1.23408,-0.111583
5,-0.762496,-0.248757,0.53947
6,-0.739089,0.06668,1.181373
