# 데이터 전처리
- 행 혹은 열(변수)에 대한 재배치, 이름 변경
- 정렬
- 특정 데이터 필터링
- 행 혹은 열 추가, 삭제
- inplace = True로 원본을 바꿀 수 있다(원본 반영보다는 복사본 생성, 사용)

## #01.

### 1. 패키지 참조

In [None]:
from pandas import read_excel
from pandas import Series
import numpy

### 2. 데이터 가져오기

In [None]:
# 자료를 확인 후 index를 지정
df = read_excel("https://data.hossam.kr/pre_sample.xlsx", index_col="이름")
df

### 3. 데이터 확인하기

#### 데이터 크기

In [None]:
df.shape

#### 각 변수(column)의 데이터 타입 확인

In [None]:
# 숫자에 결측치가 있다면 float type으로 출력
df.dtypes

#### 데이터 타입 변경
- 결과가 적용된 복사본이 리턴
- 복사본이 있다면 원본은 영향을 받지 않는다

In [None]:
# dict 형태로 변수 즉 열의 데이터 타입 변경 가능
df2 = df.astype({'국어':'float', '영어' : 'float', '수학' : 'str', '과학' : 'bool'})
df2

In [None]:
# 각 변수(column)의 데이터 타입 확인(원본과 비교)
print(df.dtypes)
print("-"*30)
print(df2.dtypes)

## #02. 행 혹은 열(변수)에 대한 재배치, 이름 변경

### 1. 열 순서 변경
- 지정된 순서대로 열이 재정렬된 결과가 반환
- 결과가 적용된 복사본이 생성되서 원본은 변화 없음
- 재배치 되지 못한 열은 제외
- 원본에 없는 열을 추출하려고 할 경우 NaN으로 반환

In [None]:
df

In [None]:
df1 = df.reindex(columns=['국어', '수학', '과학', '영어'])
df1

In [None]:
# df1x = df.reindex(columns=['국어', '수학', '과학', '일어'])
# df1x

### 2. 행 순서 변경
- 지정된 순수대로 행이 재정렬된 결과가 반환
- 결과가 적용된 복사본이 생성, 원본 유지
- 재배치 되지 못한 행은 제외
- 원본에 없는 행을 추출하려고 할 경우 NaN으로 반환

In [None]:
df2 = df.reindex(index=['석영', '호영', '민철', '수현'])
df2

In [None]:
# df2x = df.reindex(index=['저희', '호영', '민철', '수현'])
# df2x

### 3. 행, 열의 이름 변경
- 기존이름: 새이름 형식의 딕셔너리로 지정
- columns와 index중 변경을 원하는 하나만 설정 가능
- 결과가 적용된 복사본이 생성, 원본 유지
- 이름이 변경되지 않은 항목이 결과에서 제외되지는 않는다\
즉, 결과에 포함됨
- 원본에 즉시 반영해야 할 경우 
inplace=True 파라미터 사용

In [None]:
df3 = df.rename(
    columns={'국어':'kor', '영어':'eng', '수학':'math', '과학':'sci'},
    index={'석영':'suk', '호영':'ho', '민철':'min', '수현':'su'}
)
df3

## #03. 정렬
특정 변수(열-컬럼) 기준으로 행 단위로 정렬

### 1. 변수에 대한 오름차수(ASC)

단일 컬럼에 대한 정렬
- 원본에 즉시 반영해야 할 경우 inplace=True 파라미터를 적용

In [None]:
# 국어의 열을 오름차순 정렬
df4 = df.sort_values('국어')
df4

복수 컬럼에 대한 정렬
- 정렬 기준이 되는 컬럼 이름을 리스트로 설정했을 때\
첫 번째 컬럼의 값이 동일한 경우 두 번째 컬럼을 기준으로 정렬

In [None]:
df5 = df.sort_values(['국어', '학년'])
df5

### 2. 변수에 대한 내림차순
- ascending=False 파라미터를 추가한다.(기본값=True,오름차순)

In [None]:
# 국어 컬럼의 값을 내림차순
df6 = df.sort_values('국어', ascending=False)
df6

### 3. 인덱스를 기준으로 하는 정렬
- 인덱스는 하나만 존재하므로 열 이름을 지정할 필요가 없다
- 정렬 방향을 위한 ascending 파라미터를\
False로 설정하면 내림차순으로 정렬
- inplace=True를 적용할 경우 원본에 즉시 반영

In [None]:
# index를 오름차순
df7 = df.sort_index()
df7

## #04. 특정 데이터 필터링

### 1. 행 단위 필터링 (조건검색 - query)
- 특정 조건에 맞는 행 조회

In [None]:
r1 = df.query('국어 > 80')
r1

In [None]:
# # 없는 행을 고르면 에러 발생
# r1x = df.query('구거 > 80')
# r1x

- AND 조건(& 사용가능)

In [None]:
r2 = df.query('국어 > 80 and 수학 >80')
r2

- OR 조건(| 사용 가능)

In [None]:
r3 = df.query('국어 > 80 or 수학 > 80')
r3

- 조건값을 변수로 적용

In [None]:
point = int(input('점수를 입력 : '))
print("입력한 점수인 %d점 보다 높은 학생은 다음과 같다" %point)

# @point 대신 %d %point도 가능
r4 = df.query('국어 > @point')
r4

### 2. 열 단위 필터링 (filter)

In [None]:
f1 = df.filter(['국어', '영어'])
f1

## #05 행 혹은 열 추가, 삭제

### 1. 행 추가
> 원본 자체가 수정

리스트로 추가하기
- 추가될 행의 인덱스 이름을 지정
- 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러

In [None]:
df

In [None]:
df.loc['정호'] = [2, '남자', 90, 80, 70, 60]
df

딕셔너리로 추가
- 컬럼 순서는 상관 없음
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러

In [None]:
df.loc['민정'] = {'성별':'여자', '학년':4, '국어':81, '영어':72, '수학':84, '과학':90}
df

시리즈 객체로 추가
- 시리즈 객체의 index가 지정되지 않은 경우 값을 추가 할 수 없음

In [None]:
s = Series([2, '남자', 90, 80, 70, 60], index=['학년', '성별', '국어', '영어', '수학', '과학'])
df.loc['형석'] = s
df

빈값이 있는 경우
- Series 객체 형태만 가능
- 데이터가 부족해 빈 값이거나 초과할 경우\
NaN을 사용하기 위해서 Series를 사용

In [None]:
# 영어 누락
s = Series([2, '남자', 93, 71, 68], index=['학년', '성별', '국어', '수학', '과학'])
df.loc['석호'] = s
df

기존의 행 복사하기

In [None]:
df.loc['철민'] = df.loc['철수']
df

### 2. 행 삭제

단일 행 삭제
- 추가는 원본 자체가 변화하지만, 삭제는 결과가\
반영된 새로운 복사본이 생성
- drop() 메서드도 inplace=True 파라미터 적용 가능

In [None]:
df

In [None]:
k1 = df.drop('철민')
k1

다중 행 삭제

In [None]:
k2 = df.drop(['석영', '정호', '민정', '형석'])
k2

index에 대한 인덱싱으로 삭제하기

In [None]:
k3 = df.drop(df.index[0])
k3

index에 대한 슬라이싱으로 삭제하기

In [None]:
k4 = df.drop(df.index[0:10])
k4

### 3. 열 추가
- k4 이어서 진행

리스트로 추가

In [None]:
k4['한국사'] = [72, 56, 90, 88]
k4

딕셔너리로 추가하기

In [None]:
k4['세계사'] = {'민정':90, '형석':88, '석호':72, '철민':56}
k4

Series 객체로 추가하기
- 각 값이 연결될 행의 이름(index)를 지정
- 부분적으로 값을 비워 둘 수 있다(NaN)

In [None]:
# 순서는 상관 없음(index, value 값만 맞추면 됨)
s = Series([72, 56, 90, 88], index = ['석호', '철민', '민정', '형석'])
k4['윤리'] = s
k4

단일 값 추가하기

In [None]:
k4['체육'] = 100
k4