# 2-4. 조건에 맞는 데이터 탐색 및 수정
## 1. 임의의 조건 탐색 및 데이터 수정
(1) DataFrame[조건식]\
(2) DataFrame[(조건1) & (조건2) & ((조건3) | (조건4))]\
(3) DataFrame.loc(조건문, '추가/변경할 컬럼명'): 조건문을 이용하여 탐색, 존재하지 않는 레이블을 지정할 경우 해당 레이블을 가진 새로운 행/열을 추가\
(4) numpy.select(조건목록, 선택목록, default=디폴트값)

In [10]:
import pandas as pd
students = pd.DataFrame({'이름':['장화','홍련','콩쥐','팥쥐','해님','달님'],\
                        '국어':[70,85,None,100,None,85],\
                        '수학':[65,100,80,95,None,70]})
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,85.0,70.0


In [11]:
students[students['이름'] == '장화']

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0


In [12]:
students[(students['국어']>=80) & (students['수학']>=80)]

Unnamed: 0,이름,국어,수학
1,홍련,85.0,100.0
3,팥쥐,100.0,95.0


In [14]:
students.loc[6,'이름':'수학'] = ['별님', 50, 60]
students.loc[(students['국어']>=80)&(students['수학']>=70), '합격'] = 'pass'
students.loc[(students['합격']!='pass'),'합격'] = 'Fail'
students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,Fail
1,홍련,85.0,100.0,pass
2,콩쥐,,80.0,Fail
3,팥쥐,100.0,95.0,pass
4,해님,,,Fail
5,달님,85.0,70.0,pass
6,별님,50.0,60.0,Fail


In [15]:
import numpy as np
condition_list = [students['국어']>=90, (students['국어']>=80)&(students['국어']<90), (students['국어']>=70)&(students['국어']<80)] # 조건 목록
choice_list = ['A','B','C'] # 선택 목록
students['점수'] = np.select(condition_list, choice_list, default='F')
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,pass,B
6,별님,50.0,60.0,Fail,F


## 2. 결측값 탐색 및 수정
(1) 결측값 탐색
> - isna(), isnull(): 값이 결측치일 경우 True 반환
> - notna(), notnull(): 값이 결측치가 아닐 경우 True 반환
> - sum() 함수를 통해 결측치 개수 확인: True=1, False=0, sum() 열 합계, sum(1) 행 합계

(2) 결측값 제거
> **DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)**
>   - axis: 0 또는 'index'이면 결측값이 포함된 행을 삭제, 1 또는 'columns'이면 결측값이 포함된 열을 삭제
>   - how: 'any'이면 결측값이 존재하는 모든 행/열 삭제, 'all'이면 모든 값이 결측값일 때 삭제
>   - thresh: 정수값을 지정하면 결측값이 아닌 값이 그 이상일 때 행 또는 열을 유지
>   - subset: 어떤 레이블에 결측값이 존재하면 삭제할지 정의
>   - inplace: True이면 제자리에서 작업을 수행하고 None을 반환

(3) 결측값 대체
> **DataFrame.fillna(value=None, axis=None, inplace=False, limit=None)**
>   - value: 단일 값 혹은 dict/Series/DataFrame 형식으로 대체할 값을 직접 입력
>   - axis: 0 또는 'index'이면 행 방향으로, 1 또는 'columns'이면 열 방향으로 채움
>   - limit: method 인자를 지정한 경우 limit으로 지정한 개수만큼 대체할 수 있음

> **DataFrame.pad(inplace=False), DataFrame.ffill(), DataFrame.bfill()**
>   - 'pad', 'ffill'은 이전 값으로 채우고, 'bfill'은 다음에 오는 값으로 채움

In [17]:
students.isna()

Unnamed: 0,이름,국어,수학,합격,점수
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,False,False,False
3,False,False,False,False,False
4,False,True,True,False,False
5,False,False,False,False,False
6,False,False,False,False,False


In [18]:
students.notna()

Unnamed: 0,이름,국어,수학,합격,점수
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,True,True,True
4,True,False,False,True,True
5,True,True,True,True,True
6,True,True,True,True,True


In [22]:
students.isna().sum() # 열 결측치 개수

이름    0
국어    2
수학    1
합격    0
점수    0
dtype: int64

In [23]:
students.isna().sum(1) # 행 결측치 개수

0    0
1    0
2    1
3    0
4    2
5    0
6    0
dtype: int64

In [24]:
# 결측값 제거
students.dropna() # 결측값이 포함된 모든 행을 삭제

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,pass,B
3,팥쥐,100.0,95.0,pass,A
5,달님,85.0,70.0,pass,B
6,별님,50.0,60.0,Fail,F


In [32]:
students.dropna(thresh=4) # 결측값이 아닌 값이 4개 이상인 행만 남기기

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,pass,A
5,달님,85.0,70.0,pass,B
6,별님,50.0,60.0,Fail,F


In [101]:
# 결측값 대체
health = pd.DataFrame({'연도':[2017,2018,2019,2020,2021,2022],\
                      '키':[160,162,165,None,None,166],\
                      '몸무게':[53,52,None,50,51,54],\
                      '시력':[1.2,None,1.2,1.2,1.1,0.8],\
                       '병결':[None,None,None,2,None,1]})
health.fillna(0) # 0으로 결측값 대체

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,0.0
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [102]:
health.fillna(health.mean()) # 평균으로 결측값 대체

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.5
1,2018,162.0,52.0,1.1,1.5
2,2019,165.0,52.0,1.2,1.5
3,2020,163.25,50.0,1.2,2.0
4,2021,163.25,51.0,1.1,1.5
5,2022,166.0,54.0,0.8,1.0


In [103]:
health['병결'] = health['병결'].fillna(0)
health['몸무게'] = health['몸무게'].fillna(health['몸무게'].mean())
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [104]:
health.ffill(inplace=True)
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


## 3. 중복행 삭제
(1) **DataFrame.drop_duplicates()**
> - 사용 용도: 중복행 제거, 하나의 컬럼 구성 요소 확인, 몇 개의 데이터세트의 일부분에서 요소들의 조합 확인
> - 구성 요소 확인 시 **set()** 으로 대체 가능
> - duplicates() 출력 결과는 pd.Series, set() 출력 결과는 tuple 형식

In [105]:
health['키'].drop_duplicates()

0    160.0
1    162.0
2    165.0
5    166.0
Name: 키, dtype: float64

In [106]:
set(health['키'])

{160.0, 162.0, 165.0, 166.0}

In [110]:
health.drop_duplicates(subset=['키','시력'],keep='first')

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [116]:
health = pd.DataFrame({'연도':[2017,2018,2020,2020,2021,2022],\
                      '키':[160,162,165,165,165,166],\
                      '몸무게':[53,52,50,50,51,54],\
                      '시력':[1.2,1.0,1.2,1.2,1.1,0.8],\
                       '병결':[0,0,2,2,2,1]})
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160,53,1.2,0
1,2018,162,52,1.0,0
2,2020,165,50,1.2,2
3,2020,165,50,1.2,2
4,2021,165,51,1.1,2
5,2022,166,54,0.8,1


In [117]:
health.drop_duplicates()

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160,53,1.2,0
1,2018,162,52,1.0,0
2,2020,165,50,1.2,2
4,2021,165,51,1.1,2
5,2022,166,54,0.8,1


In [118]:
health[['키','병결']].drop_duplicates()

Unnamed: 0,키,병결
0,160,0
1,162,0
2,165,2
5,166,1
