#1. 임의의 조건 탐색 및 데이터 수정

데이터프레임의 각 컬럼에서 조건문의 조건에 맞는 값을 가진 행을 탐색하거나 수정할 수 있다

In [None]:
import pandas as pd

students = pd.DataFrame({'이름':['장화','홍련','콩쥐','팥쥐','해님','달님'],
                         '국어':[70,85,None,100,None,85],
                         '수학':[65,100,80,95,None,70]})

students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,85.0,70.0


조건식을 만들면 해당 조건식에 대해 True, False로 구해줌

In [None]:
students['이름'] == '장화'

0     True
1    False
2    False
3    False
4    False
5    False
Name: 이름, dtype: bool

조건식을 데이터프레임에 인덱싱하면 True인 부분만 조회할 수 있다

In [None]:
students[students['이름'] == '장화'] #'이름'이 '장화'인 행만 출력

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0


조건이 여러개인경우 and연산자 &, or연산자 |을 이용해서 묶을 수 있다

In [None]:
students[(students['국어'] >= 80) & (students['수학'] >= 80)] #국어가 80이상이고 수학이 80이상인 행을 출력

Unnamed: 0,이름,국어,수학
1,홍련,85.0,100.0
3,팥쥐,100.0,95.0


loc에도 조건문을 사용하여 데이터를 탐색할 수 있다

df.loc[조건문, 컬럼명]

조건문에 부합하는 행의 컬럼 값을 변경함

In [None]:
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,85.0,70.0


In [None]:
students.loc[5, '이름':'수학']

이름      달님
국어    85.0
수학    70.0
Name: 5, dtype: object

loc는 존재하지 않는 행/열을 지정하고 value를 집어넣을 경우 새롭게 해당하는 행/열을 만들 수 있다

In [None]:
students.loc[6,'이름':'수학']

KeyError: ignored

In [None]:
students.loc[6,'이름':'수학'] = ['별님',50,60]

In [None]:
students

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0
1,홍련,85.0,100.0
2,콩쥐,,80.0
3,팥쥐,100.0,95.0
4,해님,,
5,달님,85.0,70.0
6,별님,50.0,60.0


새롭게 value를 집어넣을때 조건문에 부합하면 그대로 value를 넣지만 그렇지 않으면 NaN을 넣는다

In [None]:
students.loc[(students['국어']>=80)&(students['수학']>=70),'합격'] = 'Pass'

students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,
1,홍련,85.0,100.0,Pass
2,콩쥐,,80.0,
3,팥쥐,100.0,95.0,Pass
4,해님,,,
5,달님,85.0,70.0,Pass
6,별님,50.0,60.0,


In [None]:
students.loc[students['합격']!='Pass','합격'] = 'Fail'

students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,Fail
1,홍련,85.0,100.0,Pass
2,콩쥐,,80.0,Fail
3,팥쥐,100.0,95.0,Pass
4,해님,,,Fail
5,달님,85.0,70.0,Pass
6,별님,50.0,60.0,Fail


np.select를 활용하면 여러개의 조건에 따라 서로 다른 값을 부여할 수 있다

np.select(조건목록, 조건에 따른 value목록, default=)

In [None]:
import numpy as np

condition_list = [(students['국어'] >= 90), (students['국어'] >= 80)&(students['국어']<90), (students['국어']>=70)&(students['국어']<80)]

choice_list = ['A','B','C']

국어가 90이상이면 A, 국어가 80이상 90미만이면 B, 국어가 70이상 80미만이면 C, 아무것도 해당되지 않으면 디폴트 F로 부여

In [None]:
students['점수'] = np.select(condition_list, choice_list, default = 'F')

students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


#2. 결측값 탐색 및 수정

결측값이란 손실값, 값이 존재하지 않는 것을 의미

파이썬에서 None, np.NaN, pd.NaT 등으로 표현

결측값 탐색

판다스는 데이터프레임의 각 값이 결측값인지 탐지하기 위해 isna() 또는 notna()를 제공

isna()는 값이 결측치일 경우 True를 반환하고 notna()는 결측치가 아닐 경우 True를 반환

ㄱ. 결측값 탐색: isna(), isnull()

ㄴ. 결측이 아닌 값 탐색: notna(), notnull()

In [None]:
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.isna() #결측값

Unnamed: 0,이름,국어,수학,합격,점수
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,False,False,False
3,False,False,False,False,False
4,False,True,True,False,False
5,False,False,False,False,False
6,False,False,False,False,False


In [None]:
students.notna() #결측이 아닌 값

Unnamed: 0,이름,국어,수학,합격,점수
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,True,True,True
4,True,False,False,True,True
5,True,True,True,True,True
6,True,True,True,True,True


결측값의 여부를 보여주는 것은 데이터의 크기가 클 때 효용이 없다

이 정보는 행/열을 기준으로 요약되어 제시될 때 효과적이다

True는 1, False는 0으로 대치되므로 sum()함수를 사용하여 합계를 구하면 Boolean 형식의 데이터프레임에서 True의 개수를 셀 수 있다

sum()은 열 기준으로 합계를 구하고 sum(1)은 행 기준으로 합계를 구함

In [None]:
students.isna().sum() #열 기준으로 결측값 개수

이름    0
국어    2
수학    1
합격    0
점수    0
dtype: int64

In [None]:
students.isna().sum(1) #행 기준으로 결측값 개수

0    0
1    0
2    1
3    0
4    2
5    0
6    0
dtype: int64

결측값 제거

dropna()를 이용해서 결측값이 존재하는 행 또는 열을 삭제한다

df.dropna(axis = 0  , how = 'any' , thresh = None , subset = None, inplace = False )

axis : 0또는 'index'이면 결측값이 포함된 행을 삭제하고 1 또는 'columns'이면 결측값이 포함된 열을 삭제

how : 'any'이면 결측값이 존재하는 모든 행/열을 삭제, 'all'이면 모든 값이 결측값일 때 삭제

thresh : 정숫값을 지정하면 결측값이 아닌 값이 그보다 많을 때 행 또는 열을 유지

subset : 어떤 레이블에 결측값이 존재하면 삭제할지 정의

inplace : True이면 제자리에서 작업을 수행하고 None을 반환

In [None]:
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis=0)

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis='index')

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis=1)

Unnamed: 0,이름,합격,점수
0,장화,Fail,C
1,홍련,Pass,B
2,콩쥐,Fail,F
3,팥쥐,Pass,A
4,해님,Fail,F
5,달님,Pass,B
6,별님,Fail,F


In [None]:
students.dropna(axis='columns')

Unnamed: 0,이름,합격,점수
0,장화,Fail,C
1,홍련,Pass,B
2,콩쥐,Fail,F
3,팥쥐,Pass,A
4,해님,Fail,F
5,달님,Pass,B
6,별님,Fail,F


In [None]:
students.dropna(axis=0,how = 'any')

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis=0, how = 'all') #결측값이 포함된 행이 모두 결측값이여야 그 행을 삭제함

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis= 0 , thresh = 4) #결측값이 아닌 값이 4개보다 많은 행은 삭제하지 않는다

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
#'합격' 열에 결측값이 존재하면 그에 해당하는 행을 삭제함
#'합격' 열에는 결측값이 존재하지 않으니 삭제하지 않는다
students.dropna(axis = 0, subset = ['합격'])

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [None]:
students.dropna(axis = 0, inplace=True)

In [None]:
students #결측값을 삭제하고 원본을 변경함

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


결측값 대체

데이터를 분석할 때 결측값이 존재하는 모든 행 또는 열을 지우기보다는 결측값을 적당한 값으로 채워서 분석에 사용하기도 한다.

결측값을 대체하는 방법은 크게 단일 값으로 채우기와 데이터에 따라 다른 값으로 대체하기로 나눌수 있다

단일 값으로 채우는 경우 0이나 mean, median 값으로 채운다.

하지만 데이터의 특성을 반영하여 다른 방법으로 채울 수도 있다

fillna()함수를 활용하여 다양한 방법으로 결측값을 채운다

df.fillna(value = None, method = None, axis = None, inplace = False, limit = None)

value : 단일 값 혹은 dict/Series/DataFrame 형식으로 대체할 값을 입력

method : 'pad', 'ffill' (오타아님) 결측값 바로 이전 값으로 채우고, 'backfill'/'bfill'은 결측값 바로 다음에 오는 값으로 채움

axis : 0 또는 'index'이면 행 방향으로 채우고 1 또는 'columns'이면 열방향으로 채움

limit: method 인자를 지정한 경우 limit로 지정한 개수만큼 대체할 수 있다

In [None]:
import pandas as pd


health = pd.DataFrame({'연도': [2017, 2018, 2019, 2020, 2021, 2022],
                       '키': [160,162,165,None,None,166],
                       '몸무게':[53,52,None,50,51,54],
                       '시력':[1.2,None,1.2,1.2,1.1,0.8],
                       '병결':[None,None,None,2,None,1]})

In [None]:
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(0) #결측값을 0으로 채움

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,0.0
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(health.mean()) #각 변수별 평균으로 결측값을 채운다

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.5
1,2018,162.0,52.0,1.1,1.5
2,2019,165.0,52.0,1.2,1.5
3,2020,163.25,50.0,1.2,2.0
4,2021,163.25,51.0,1.1,1.5
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'ffill') #결측값 등장하기 바로 직전 값들로 대체함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,1.2,
2,2019,165.0,52.0,1.2,
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,2.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'backfill') #결측값 등장하기 바로 이후의 값으로 대체함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,2.0
1,2018,162.0,52.0,1.2,2.0
2,2019,165.0,50.0,1.2,2.0
3,2020,166.0,50.0,1.2,2.0
4,2021,166.0,51.0,1.1,1.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(value = 0, limit = 2) #limit는 결측값이 대체되는 값의 최댓값을 지정함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'backfill',limit=2)

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,166.0,50.0,1.2,2.0
4,2021,166.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'bfill', axis = 0) #각 행을 컬럼 기준으로 결측값 바로 뒤에 나오는 값들로 대체함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,2.0
1,2018,162.0,52.0,1.2,2.0
2,2019,165.0,50.0,1.2,2.0
3,2020,166.0,50.0,1.2,2.0
4,2021,166.0,51.0,1.1,1.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'bfill', axis = 1) #각 열을 행 기준으로 결측값 바로 뒤에 나오는 값들로 대체함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017.0,160.0,53.0,1.2,
1,2018.0,162.0,52.0,,
2,2019.0,165.0,1.2,1.2,
3,2020.0,50.0,50.0,1.2,2.0
4,2021.0,51.0,51.0,1.1,
5,2022.0,166.0,54.0,0.8,1.0


In [None]:
health.fillna(value = {'병결':1,'몸무게':2}) #병결의 결측값은 1로 대체하고 몸무게의 결측값은 2로 대체함

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.0
1,2018,162.0,52.0,,1.0
2,2019,165.0,2.0,1.2,1.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,1.0
5,2022,166.0,54.0,0.8,1.0


전체 결측값을 단일한 값으로 대체할 수도 있지만 컬럼마다 특성을 반영하여 다르게 대체하면 더 좋은 결과를 얻을 수도 있다

In [None]:
#만약 병결 컬럼의 결측치는 해당 연도에 병결한 기록이 없음을 의미함이 밝혀졌다면

health['병결'] = health['병결'].fillna(0)

health['몸무게'] = health['몸무게'].fillna(health['몸무게'].mean())

In [None]:
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(value = {'병결':0, '몸무게':health['몸무게'].mean()}, inplace = True) #위의 코드는 dict를 이용해서 간단하게 표현할 수 있다

In [None]:
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [None]:
health.fillna(method = 'pad', inplace = True) #남은 결측값을 결측값 등장하기 바로 직전 값으로 대체함

health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


#3. 중복행 삭제

데이터프레임에 모든 컬럼의 값이 중복된 행이 있는 경우 df.drop_duplicates()를 이용해서 제거

전체 데이터세트에 대해 완전히 중복된 행을 제거하는데 사용하거나

하나의 컬럼에서 구성 요소를 확인하거나 몇 개의 데이터세트의 일부분에서 요소들의 조합을 살피는 데도 사용할 수 있다

In [12]:
import pandas as pd

health = pd.DataFrame({'연도': [2017, 2018, 2019, 2020, 2021, 2022],
                       '키': [160,162,165,None,None,166],
                       '몸무게':[53,52,None,50,51,54],
                       '시력':[1.2,None,1.2,1.2,1.1,0.8],
                       '병결':[None,None,None,2,None,1]})

In [13]:
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0


health데이터에서 '키'컬럼이 가지고 있는 값에 어떤 것이 있는지 중복 없이 확인하고 싶다면?

unique()함수랑 조금 비슷하긴하네

In [None]:
health['키'].drop_duplicates() #pd.Series 형식 #drop_duplicates()는 NaN을 중복으로 인식하고

0    160.0
1    162.0
2    165.0
3      NaN
5    166.0
Name: 키, dtype: float64

In [None]:
set(health['키']) #set은 NaN은 중복으로 인식을 안하나보네??

{160.0, nan, 162.0, nan, 165.0, 166.0}

여러개의 컬럼을 대상으로 drop_duplicates()를 사용할 경우 여러개의 컬럼에 대해 각 행을 하나의 객체로 본다

그래서 0번행과 3번행에 '시력' 컬럼에서 1.2로 동일한 값이 들어갈 수는 있지만

0번행 1.2 NaN와 2번행 1.2 NaN은 서로 같은 것으로 보아 중복 하나를 제거한다

In [None]:
health[['시력','병결']].drop_duplicates()

Unnamed: 0,시력,병결
0,1.2,
1,,
3,1.2,2.0
4,1.1,
5,0.8,1.0


In [15]:
#전체데이터세트도 마찬가지
#행의 모든 컬럼값들이 서로 동일해야 서로 중복인 행

health.drop_duplicates() #전체 데이터세트에 대해서는 중복행이 없네

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,
1,2018,162.0,52.0,,
2,2019,165.0,,1.2,
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,
5,2022,166.0,54.0,0.8,1.0
