### 결측치 제거

In [51]:
data = {
    '이름':['김자바','이자바','박자바','최캐드','정캐드'],
    '학급':['자바반','자바반','자바반','캐드반','캐드반'],
    '국어점수':[90,80,70,100,90],
    '영어점수':[70,80,80,70,90],
    '평균':[80.0,80.0,75.0,85.0,90.0],
    '취미':['독서','','','요가','축구']
}

In [52]:
import pandas as pd
df = pd.DataFrame(data)
df

Unnamed: 0,이름,학급,국어점수,영어점수,평균,취미
0,김자바,자바반,90,70,80.0,독서
1,이자바,자바반,80,80,80.0,
2,박자바,자바반,70,80,75.0,
3,최캐드,캐드반,100,70,85.0,요가
4,정캐드,캐드반,90,90,90.0,축구


In [31]:
# 만약 엑셀 파일로 만들때 index가 중요하다면 아래처럼 
# 인덱스 생성 후 인덱스를 제외하지 않고 엑셀파일로 생성
df.index=['1번','2번','3번','4번','5번']
df.index.name='학번'
df
df.to_excel('student1.xlsx')

In [53]:
# 엑셀 파일로 내보낼때 index가 큰 의미가 없다면
# 엑셀 파일로 변환 시 인덱스는 제외하고 엑셀 파일로 생성
df.to_excel('student2.xlsx',index=False)

In [54]:
df = pd.read_excel('student2.xlsx')
df

Unnamed: 0,이름,학급,국어점수,영어점수,평균,취미
0,김자바,자바반,90,70,80,독서
1,이자바,자바반,80,80,80,
2,박자바,자바반,70,80,75,
3,최캐드,캐드반,100,70,85,요가
4,정캐드,캐드반,90,90,90,축구


In [34]:
# 임의로 생성한 인덱스를 가진 엑셀 파일 로딩
df2 = pd.read_excel('student1.xlsx', index_col='학번')
df2

Unnamed: 0_level_0,이름,학급,국어점수,영어점수,평균,취미
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1번,김자바,자바반,90,70,80,독서
2번,이자바,자바반,80,80,80,
3번,박자바,자바반,70,80,75,
4번,최캐드,캐드반,100,70,85,요가
5번,정캐드,캐드반,90,90,90,축구


In [37]:
# 특정 컬럼의 NaN값을 변경하는 방법
#inplace = True를 주지 않으면 변경내용이 저장되지 않는다
df2['취미'].fillna('없음', inplace=True)
df2

Unnamed: 0_level_0,이름,학급,국어점수,영어점수,평균,취미
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1번,김자바,자바반,90,70,80,독서
2번,이자바,자바반,80,80,80,없음
3번,박자바,자바반,70,80,75,없음
4번,최캐드,캐드반,100,70,85,요가
5번,정캐드,캐드반,90,90,90,축구


In [56]:
df2 = pd.read_excel('student1.xlsx', index_col='학번')
df2

Unnamed: 0_level_0,이름,학급,국어점수,영어점수,평균,취미
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1번,김자바,자바반,90,70,80,독서
2번,이자바,자바반,80,80,80,
3번,박자바,자바반,70,80,75,
4번,최캐드,캐드반,100,70,85,요가
5번,정캐드,캐드반,90,90,90,축구


In [57]:
# NaN 값을 제거할때는 dropna() 함수 호출
# dropna 함수는 axis, how 라는 두가지 매개변수를 가짐
# 사용 예시 > df.dropna(axis=?,how=?)
# axis= 'index': NaN 데이터를 기준으로 행을 삭제(default)
# axis= 'columns' : NaN 데이터를 기준으로 열을 삭제
# how = 'any' : NaN 값이 하나라도 있으면 데이터 삭제(default)
# how ='all' : 모든 값이 NaN이면 데이터 삭제
# inplace = True 매개변수를 주면 변경 내용이 저장

# df2.dropna()
#df2.dropna(how='all')
#df2.dropna(axis='columns',how='any', inplace=True)
df2

Unnamed: 0_level_0,이름,학급,국어점수,영어점수,평균,취미
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1번,김자바,자바반,90,70,80,독서
2번,이자바,자바반,80,80,80,
3번,박자바,자바반,70,80,75,
4번,최캐드,캐드반,100,70,85,요가
5번,정캐드,캐드반,90,90,90,축구


In [62]:
# 특정 컬럼의 값을 NaN으로 바꾸기
# numpy -> 수학과 관련된 여러 기능을 제공하는 라이브러리
import numpy as np
df2['학급'] = np.nan
df2.dropna(axis='columns',how='all')

Unnamed: 0_level_0,이름,국어점수,영어점수,평균,취미
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1번,김자바,90,70,80,독서
2번,이자바,80,80,80,
3번,박자바,70,80,75,
4번,최캐드,100,70,85,요가
5번,정캐드,90,90,90,축구
