## 데이터 전처리(1) - 행, 열 재배치

- 행 혹은 열(변수)에 대한 재배치
- 이름 변경
- 정렬
- 특정 데이터 필터링
- 행 혹은 열 추가, 삭제
- 파생변수 추가

#### 분석 준비  (패키지 참조, 데이터 가져오기)

In [19]:
# 패키지 참조
from pandas import read_excel
from pandas import Series
import numpy as np

In [None]:
# 결측치(엑셀의 빈칸, NaN)가 있는 변수는 계산이 안되므로 가공하고 넘어가야 한다. 결측치가 있으면 그 변수의 dtype이 int가 아니라 float로 나옴 
# 데이터가 부족한 경우 serise로 넣어야 한다. 다른걸로 하면 error 뜸 

# 추가할 때 리스트로 하고 행을 벗어나면 에러가 난다. 


In [None]:
df = read_excel("https://data.hossam.kr/pre_sample.xlsx", index_col='이름')
# 인덱스가 이름인 엑셀 데이터를 불러와라 
df

### 데이터 확인하기

In [None]:
# 데이터의 크기
df.shape

In [None]:
# 각 변수의 데이터 타입 확인
df.dtypes

In [None]:
# 데이터 타입 변경
# 단, 결과가 적용된 복사본이 리턴 (원본은 변하지 않음)
df2 = df.astype({'국어':'float','영어':'float','수학':'str','과학':'bool'})
df2

In [None]:
df.dtypes

행 혹은 열(변수)에 대한 재배치, 이름 변경

1. 열 순서 변경
- 지정된 순서대로 열이 재정렬 된 결과가 반환된다
- 원본은 변화없음. 결과가 적용된 복사본이 생성된다.
- 재배치 되지 못한 열은 제외된다. 

In [None]:
df1 = df.reindex(columns=['국어','수학','과학','영어'])
df1 # 약간 필터와 비슷 원하는 것만 데려옴 

2. 행 순서 변경
- 지정된 순서대로 행이 재정렬 된 결과가 반환된다.
- 원본은 변화없음, 결과가 적용된 복사본 리턴
- 재배치 되지 못한 행은 제외된다

In [None]:
df2 = df.reindex(index=['석영','호영','민철','수현'])
df2

3. 행, 열의 이름 변경
- 기존 이름 : 새이름 형식의 딕셔너리로 지정
- colums와 index 중 변경을 원하는 하나만 설정 가능
- 원본은 변화없고 결과가 적용도니 복사본이 생성
- 이름이 변경되지 않은 항목이 결과에서 제외되지는 않는다.(차이점)
- 원본에 즉시 반영해야 할 경우 inplace=True 파라미터를 적용

In [None]:
df3 = df.rename(
    columns={'국어':'kor','영어':'eng','수학':'math','과학':'sci'},
    index={'석영':'suk','호영': 'ho', '민철': 'min', '수현': 'su'}
)
df3

## 정렬
특정 변수를(열,컬럼) 기준으로 하여 행 단위로 정렬

1. 변수에 대한 오름차순 정렬
- 단일 컬럼에 대한 정렬

In [None]:
# 원본에 즉시 반영해야 할 경우 inplace=True 파라미터를 적용
df4 = df. sort_values('국어') # default는 오름차순 
df4

In [None]:
# 복수 컬럼에 대한 정렬
# 정렬 기준이 되는 컬럼 이름을 리스트로 설정하면 첫번째 컬럼의 값이 동일한 경우 두 번째 컬럼을 기준으로 정렬한다.
df5 = df.sort_values(['영어','수학'])
df5

2. 변수에 대한 내림차순 정렬


In [None]:
df6 = df.sort_values('국어',ascending=False)
df6

3. 인덱스를 기준으로 하는 정렬
- 인덱스는 하나만 존재하므로 열 이름을 지정할 필요가 없다.
- 정렬 방향을 위한 ascending 파라미터를 False로 설정하면 내림차순으로 정렬된다
- inplace=True를 적용할 경우 원본에 즉시 반영된다

In [None]:
df7 = df.sort_index()
df7

특정 데이터 필터링

1. 행 단위 필터링(조건 검색)

In [None]:
# 특정 조건에 맞는 행 조회 
r1 = df.query('국어 > 80')
r1

In [None]:
#AND 조건
r2 = df.query('국어>80 and 수학>80')
r2

In [None]:
# or 조건
r3 = df.query('국어>80 or 수학<80')
r3

In [None]:
# 조건값을 변수로 적용하기
point = int(input('점수를 입력하세용: '))
print('입력한 점수인 %d 점보다 높은 학생은 다음과 같다' % point)
r4 = df.query('국어 > @point')
r4

In [None]:
# 열단위 필터링
f1 = df.filter(['국어','영어'])
f1

## 행 혹은 열 추가 삭제

1. 행 추가
원본 자체가 수정됨

리스트로 추가하기
- 추가될 행의 인덱스 이름을 지정해야 한다.
- 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정해야한다
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러

In [None]:
df.loc['정호']=[2,'남자',90,80,70,60]

df

### 딕셔너리로 추가하기
- 컬럼 순서는 상관없다
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러


In [None]:
df.loc['민정'] =  {'성별': '여자', '학년': 4, '국어': 81, '영어': 72, '수학': 84, '과학': 90}
df

시리즈 객체로 추가하기 
- 시리즈 객체의 index가 지정되지 않은 경우 값을 추가할 수 없다

In [None]:
s = Series([2,'남자',90,10,77,60], index = ['학년','성별','국어','영어','ㅜ학','과학'])
df.loc['형석'] = s
df

In [None]:
# 빈 값이 있는 경우
# Series 객체 형태만 가능
s = Series([2,'남자',90,10,77], index = ['학년','성별','국어','수학','과학'])
df.loc['석호'] = s
df

In [None]:
# 기존의 행 복사하기
df.loc['철민'] = df.loc['철수'] 
df


행 삭제

In [None]:
# 단일 행 삭제
# 추가는 원본 자체가 변하지만 삭제는 결과가 반영된 새로운 복사본이 생성된다
# drop() 메서드도 inplace=True 파라미터 적용 가능
k1 = df.drop('철민')
k1

In [None]:
# 다중 행 삭제
k2 = df.drop(['석영','정호','민정','형석'])
k2

In [None]:
# index에 대한 인덱싱으로 삭제하기
k2 = df.drop(df.index[0])
k2

In [None]:
# index에 대한 슬라이싱으로 삭제하기 
k4 = df.drop(df.index[0:10])
k4

열 추가

In [None]:
# 리스트로 추가하기 / 범위를 초과하면 error
k4['한국사'] = [72,56,90,88]
k4

In [None]:
# 딕셔너리로 추가하기 # 없는 사람을 집어넣는다고 추가되지는 않는다
k4['세계사'] = {"민정": 90, "형석": 88, "석호": 72, "철민": 56}
k4

Series 객체로 추가하기
- 각 밧이 연결된 행의 이름(index)를 지정해야 한다
- 부분적으로 값을 비워둘 수 있다.


In [None]:
s = Series([72,59,90,88],index=['석호','철민','민정','형석'])
k4['윤리'] = s
k4

In [None]:
# 단일 값 추가하기
k4['체육'] = 100
k4

## 파생변수 추가

기존 변수들의 조합, 변형 혹은 계산을 통해 얻어지는 새로운 변수

In [None]:
df = read_excel('https://data.hossam/data/C02/pre_sample.xlsx',index_col='이름')
df

2. 기술통계값 : 합계, 평균, 최대, 최소값, 중앙값, 분산 표준편차 등

df['국어'].sum() 모든 애들의 국어 점수 (세로)
df.loc['철수'].sum() # 철수의 모든 점수 (행단위로 가로)

원본데이터를 남겨놓기 위해 copy()를 계속 떠놔야함.

df.iloc[열,행]순으로 입력 index.loction 인덱스 번호에 따라서 접근할 수 있게 한다. 
df.loc에서 loc은 로케이션이라  index 말고 컬럼명을 가져아ㅗ야 한다. 


In [4]:
df = read_excel("https://data.hossam.kr/C02/pre_sample.xlsx", index_col='이름')
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


In [5]:
# 컬럼간의 연산
df1 = df.copy()
df1['직접합계'] = df1['국어']+df1['영어']+df1['수학']+df1['과학']
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,직접합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


기술 통계 값 관련 함수를 사용한 파생 변수

In [6]:
df2 = df.copy()
df2['합계'] =df2[df2.columns[2:6]].sum(axis=1)
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


In [7]:
# 0번째 행만 가져오기
df.iloc[0]

학년     1
성별    남자
국어    98
영어    77
수학    88
과학    64
Name: 철수, dtype: object

In [8]:
# 1~4번째 전까지 행만 가져오기
df.iloc[1:4]

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71


In [9]:
# 1번째 행의 2번재 열 데이터
df.iloc[1,2] # 영희의 국어점수

88

In [10]:
# 모든 행에서 3번째 열만 가져옴
df.iloc[:,3] 

이름
철수     77
영희    120
민철     70
수현     60
호영     50
영호     88
용식     88
나영     92
석영     90
Name: 영어, dtype: int64

In [12]:
# 모든 행에서 2번째부터 끝까지 열을 추출하여 합계
df.iloc[:,3:].sum(axis=1)

이름
철수    229
영희    254
민철    232
수현    162
호영    228
영호    251
용식    257
나영    268
석영    259
dtype: int64

In [13]:
df3 = df.copy()
df3['합계'] = df3.iloc[:,2:].sum(axis=1)
df3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


In [14]:
df.loc[:,'국어':].mean(axis=1)

이름
철수    81.75
영희    85.50
민철    81.00
수현    56.25
호영    75.75
영호    82.75
용식    84.75
나영    89.50
석영    87.50
dtype: float64

In [15]:
df.loc[:,'국어':].max(axis=1)

이름
철수     98
영희    120
민철     92
수현     71
호영     90
영호     91
용식     90
나영     95
석영     91
dtype: int64

In [16]:
df.loc[:,'국어':].std(axis=1) # 표준편차

이름
철수    14.614491
영희    25.370587
민철     9.128709
수현    17.461863
호영    18.409689
영호     8.539126
용식     5.123475
나영     6.027714
석영     5.066228
dtype: float64

In [17]:
df.loc[:,'국어':].var(axis=1) # 분산

이름
철수    213.583333
영희    643.666667
민철     83.333333
수현    304.916667
호영    338.916667
영호     72.916667
용식     26.250000
나영     36.333333
석영     25.666667
dtype: float64

## 3. 조건별 파생변수

if ~ else 
합계와 평균에 대한 파생변수 추가

In [18]:
df5 = df.copy()
df5['합계'] = df.loc[:,'국어':'과학'].sum(axis=1)
df5['평균'] = df.loc[:,'국어':'과학'].mean(axis=1)
df5


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1,남자,98,77,88,64,327,81.75
영희,2,여자,88,120,62,72,342,85.5
민철,1,남자,92,70,83,79,324,81.0
수현,3,여자,63,60,31,71,225,56.25
호영,4,남자,75,50,90,88,303,75.75
영호,4,남자,80,88,91,72,331,82.75
용식,2,남자,82,88,79,90,339,84.75
나영,1,여자,90,92,81,95,358,89.5
석영,1,남자,91,90,89,80,350,87.5


In [20]:
# 평균값에 따른 조건부 파생변수
df5['결과'] = np.where(df5['평균']>=80,'합격','불합격')
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균,결과
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
철수,1,남자,98,77,88,64,327,81.75,합격
영희,2,여자,88,120,62,72,342,85.5,합격
민철,1,남자,92,70,83,79,324,81.0,합격
수현,3,여자,63,60,31,71,225,56.25,불합격
호영,4,남자,75,50,90,88,303,75.75,불합격
영호,4,남자,80,88,91,72,331,82.75,합격
용식,2,남자,82,88,79,90,339,84.75,합격
나영,1,여자,90,92,81,95,358,89.5,합격
석영,1,남자,91,90,89,80,350,87.5,합격


In [21]:
# 경우의 수에 따른 조건 값
# 학점을 부여하기 위한 점ㅅ의 구간을 설정하는 조건들을 리스트로 설정
condition = [(df5['평균'] > 90),
             (df5['평균'] > 80),
             (df5['평균'] > 70),]
# whrjsdp Ekfk qnduehlf gkrwja
value = ['A','B','C']

df5['학점'] = np.select(condition,value,default='F')
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균,결과,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
철수,1,남자,98,77,88,64,327,81.75,합격,B
영희,2,여자,88,120,62,72,342,85.5,합격,B
민철,1,남자,92,70,83,79,324,81.0,합격,B
수현,3,여자,63,60,31,71,225,56.25,불합격,F
호영,4,남자,75,50,90,88,303,75.75,불합격,C
영호,4,남자,80,88,91,72,331,82.75,합격,B
용식,2,남자,82,88,79,90,339,84.75,합격,B
나영,1,여자,90,92,81,95,358,89.5,합격,B
석영,1,남자,91,90,89,80,350,87.5,합격,B
