# DataFrame 연습

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/swkim01/DSAC1-2/blob/main/gg-05-데이터프레임연습.ipynb"><img src="https://github.com/swkim01/DSAC1-2/raw/main/colab_logo_32px.png" />구글 코랩에서 실행</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/swkim01/DSAC1-2/blob/main/gg-05-데이터프레임연습.ipynb"><img src="https://github.com/swkim01/DSAC1-2/raw/main/GitHub-Mark-32px.png" />깃헙에서 소스 보기</a>
  </td>
</table>

- Pandas 객체 type : Series / DataFrame

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame 

## 정렬
- index(인덱스)를 기준으로 정렬하는 방법
- Series의 기본 구조는 index와 그 index에 맵핑에 되는 values 값이 있다.
- 사용 형식 : Series(values 값 , index = index 값) 

In [2]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [3]:
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int64

In [4]:
obj ## 위에서 sort를 해줬으나 obj의 결과는 변하지 않는다.

d    0
a    1
b    2
c    3
dtype: int64

- 임의의 DataFrame를 만들면서 index, column 명 지정

In [5]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


- sort_index() : index/column명을 기준으로 정렬(Alphabet 순)
   * default : 행(row), 즉 index 기준

In [None]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


- 열(column) 기준(컬럼 명)으로 정렬
   * default : 오름차순

In [None]:
frame.sort_index(axis=1)
# 열을 기준으로 정렬

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


- 열(column) 기준(컬럼 명) 정렬, 내림차순

In [None]:
frame.sort_index(axis=1, ascending=False)
# 내림차순으로 정렬

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


- sort_values() : DataFrame 내 value(값)을 기준으로 정렬

In [None]:
frame = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]}) 
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [None]:
frame.sort_values(by='b')

Unnamed: 0,b,a,c
3,2,5,9
2,3,2,7
0,4,4,5
1,7,9,3


In [None]:
frame.sort_values(by='a')

Unnamed: 0,b,a,c
2,3,2,7
0,4,4,5
3,2,5,9
1,7,9,3


## 순위 배정

- rank() : 순위를 정하고, 순위 값을 배정
   * default : 열(column) 기준, 오름차순

In [None]:
# 순위 매기기 rank
obj = Series([100, 23, 55, 44, 22, 99, 33])
obj.rank()

0    7.0
1    2.0
2    5.0
3    4.0
4    1.0
5    6.0
6    3.0
dtype: float64

- 내림 차순, 순위 매기기

In [None]:
# 내림차순으로 순위를 매긴다
obj.rank(ascending=False)

0    1.0
1    6.0
2    3.0
3    4.0
4    7.0
5    2.0
6    5.0
dtype: float64

- 동점이 있는 경우
   * 순위 값 = 중간 평균 값

In [None]:
obj = Series([100, 23, 100, 44, 22, 99, 33])
obj.rank()
# 동점이 있으면 평균값을 준다

0    6.5
1    2.0
2    6.5
3    4.0
4    1.0
5    5.0
6    3.0
dtype: float64

- 동점이 있는 경우, 먼저 나타나는 것에게 높은 순위 부여할 수 있다.

In [None]:
obj.rank(method='first')
# 동일한 값이 존재 할 경우 먼저 나타나는 것에게 높은 순위를 줄 수 있다

0    6.0
1    2.0
2    7.0
3    4.0
4    1.0
5    5.0
6    3.0
dtype: float64

- 행(row) 기준, 순위 매기기
   * axis = 1

In [None]:
frame = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]})
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [None]:
frame.rank(axis=1) #행 기준으로 rank를 수행

Unnamed: 0,b,a,c
0,1.5,1.5,3.0
1,2.0,3.0,1.0
2,2.0,1.0,3.0
3,1.0,2.0,3.0


- NaN 있는 경우, 빼고 계산

In [None]:
frame = DataFrame({'b': [4, 7, 3, 2], 'a': [4,9,2,5], 'c': [5,3,7,np.nan]})
frame

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


- sum() : 합, mean() : 평균 계산
   * default : 열(column) 기준

In [None]:
frame.sum()

b    16.0
a    20.0
c    15.0
dtype: float64

In [None]:
frame.mean()

b    4.0
a    5.0
c    5.0
dtype: float64

- NaN이 있으면 이를 반영하여 스킵하지 않는다. (skipna=False)
- skipna 은 skip NaN을 뜻함.

In [None]:
frame.sum(skipna=False)

b    16.0
a    20.0
c     NaN
dtype: float64

- idxmax() : 최대치가 있는 위치를 반환한다.
- idxmin() : 최소치가 있는 위치를 반환한다.

In [None]:
frame.idxmax()

b    1
a    1
c    2
dtype: int64

In [None]:
frame.idxmin()

b    3
a    2
c    1
dtype: int64

- unique() : 중복되지 않는 항목들을 찾는다.
   * 집합(set)의 개념

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [None]:
uniques = obj.unique()         # value값들의 종류를 확인할 수 있다.
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

## 항목들의 빈도 수 계산

- value_counts() : 대상 객체 내의 항목들의 빈도 수를 count한다.
   * 빈도 수가 높은 순으로 정렬하여 반환

In [None]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

- 빈도 수로 정렬하지 않고 나타난 순서대로 출력 
   * sort=False

In [None]:
obj.value_counts(sort=False)

d    1
b    2
c    3
a    3
dtype: int64

- isin() : 특정한 내용이 들어있는지 여부를 불리언(True/False)으로 반환

In [None]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [None]:
obj
# obj 값 확인

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

- 데이터 객체 내에서 특정 값이 True인 항목만 출력하려면
   * 여기선 obj 객체 내에서 mask=True 인 항목

In [None]:
obj[mask]          # obj에서 mask 값이 true인 값만을 출력

0    c
5    b
6    b
7    c
8    c
dtype: object

- 대상 객체에 대해 여러 메소드들을 한꺼번에 순서대로 적용

In [None]:
# 아래는 같은 결과를 얻는다
obj[obj.isin(['b', 'c'])] 

0    c
5    b
6    b
7    c
8    c
dtype: object

## 결측치  처리

- value_counts : 대상 객체 내의 모든 value 항목들에 대한 갯수 세기

In [None]:
frame = DataFrame({'X':['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], 
                  'Y':['f', 'g', 'd', 'g', 'h', 'e', 'd', 'h', 'f'],
                   'Z':['a', 'e', 'd', 'g', 'd', 'e', 'q', 'b', 'c']})

In [None]:
frame

Unnamed: 0,X,Y,Z
0,c,f,a
1,a,g,e
2,d,d,d
3,a,g,g
4,a,h,d
5,b,e,e
6,b,d,q
7,c,h,b
8,c,f,c


In [None]:
# 각 항목이 들어 있는 갯수를 센다. 없는 값은 NaN으로 표시된다
result = frame.apply(pd.value_counts)
result

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


- fillna(0)
   * 값이 없는 경우, NaN 대신 0으로 대체

In [None]:
result = frame.apply(pd.value_counts).fillna(0)    ## fillna 은 fii NaN을 뜻한다.
result

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0
c,3.0,0.0,1.0
d,1.0,2.0,2.0
e,0.0,1.0,2.0
f,0.0,2.0,0.0
g,0.0,2.0,1.0
h,0.0,2.0,0.0
q,0.0,0.0,1.0


- dropna()
   * 결측 치 처리시에 한 항목이라도 NaN이 있으면, 해당 행(row)을 삭제

In [None]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [None]:
data.dropna()  # data에서 NA가 있는 항목들이 떨어져 나가는 것을 볼 수 있다.

0    1.0
2    3.5
4    7.0
dtype: float64

- notnull() : NA 여부를 불리언(True/False)으로 반환

In [None]:
# 같은 결과
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [None]:
data = DataFrame([[NA, 6.5, 3.], [NA, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [None]:
# 한 항목이라도 NA가 있으면 해당 행을 삭제한다
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2


- 행(row)의 모든 항목이 NA일 때 해당 행을 삭제 
   * how = 'all'

In [None]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,,6.5,3.0
3,,6.5,3.0


In [None]:
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


- 열(column)에 대한 삭제
   * axis = 1

In [None]:
clean2 = data.dropna(axis=1)
clean2

0
1
2
3


In [None]:
clean2 = data.dropna(axis=1, how='all')
clean2

Unnamed: 0,1,2
0,6.5,3.0
1,,
2,,
3,6.5,3.0


- NA가 특정 개수 이상일 때 해당 행(row)을 삭제
   * thresh = 2 (예, 2개 이상 일 경우)

In [None]:
df = DataFrame(np.random.randn(7 , 3))
df.iloc[:4, 1] = NA 
df.iloc[:2, 2] = NA
df.iloc[0,0] = NA
df

Unnamed: 0,0,1,2
0,,,
1,2.120667,,
2,1.601987,,-1.025997
3,-1.085825,,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


In [None]:
df.dropna(thresh=2)
# NA가 2개 이상인 경우 삭제

Unnamed: 0,0,1,2
2,1.601987,,-1.025997
3,-1.085825,,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


In [None]:
df

Unnamed: 0,0,1,2
0,,,
1,2.120667,,
2,1.601987,,-1.025997
3,-1.085825,,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


- fillna() 수행할 때, 모두 같은 값으로 채우지 않고... Column별로 다른 값으로 대체
   * 딕셔너리 형태로 값을 지정 : ex) {1:0.5, 2:-1}

In [None]:
df.fillna({1: 0.5, 2: -1}) 

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,2.120667,0.5,-1.0
2,1.601987,0.5,-1.025997
3,-1.085825,0.5,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


## DataFrame  객체 원래 값을 변경하는 방법
- DataFrame 객체에 대한 조작을 수행하면 
    * view만 변경되고 
    * 객체 자체의 원래 값은 변경되지 않는다. 

- 새로운 변수에 결과를 저장하는 방법
   * df2 = df.fillna( {1:0.5, 2:-1} )
- 대상 객체 자체의 값을 그대로 변경하는 방법
   * df.fillna( {1:0.5, 2:-1}, inplace=True)

In [None]:
df        # fillna()로 내용은 바뀌지 않는다. 

Unnamed: 0,0,1,2
0,,,
1,2.120667,,
2,1.601987,,-1.025997
3,-1.085825,,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


In [None]:
# 새로운 변수를 정의하면 바뀐 값을 얻는다
df2 = df.fillna({1: 0.5, 2: -1})
df2

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,2.120667,0.5,-1.0
2,1.601987,0.5,-1.025997
3,-1.085825,0.5,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


In [None]:
df

Unnamed: 0,0,1,2
0,,,
1,2.120667,,
2,1.601987,,-1.025997
3,-1.085825,,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658


In [None]:
df.fillna({1: 0.5, 2: -1}, inplace=True)
df

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,2.120667,0.5,-1.0
2,1.601987,0.5,-1.025997
3,-1.085825,0.5,-0.786849
4,-0.77658,2.006082,-1.019262
5,-0.155773,-0.749234,1.693654
6,-0.777653,1.077287,0.379658
