# 데이터 처리


## 데이터 전처리
1. 데이터 구조 만들기 데이터 분석(데이터셋 만들기)  
2. 모델링을 위한 전처리 ML, DL 모델링(모델링 가능한 데이터셋)

## 데이터프레임 변경

### 열 변경
열 이름(칼럼)을 변경하는 방법은 columns 속성 변경과 rename() 메소드를 사용하여 변경하는 방법으로 나눌 수 있다

#### columns 속성 변경 : 모든 열 이름 변경
* df.columns = ['변경한 칼럼명', '변경한 칼럼명', '변경한 칼럼명' ...]

#### reaname() 메소드 사용 : 지정한 열 이름 변경
* df.rename(columns = {'변경 전 칼럼명 : 변경 후 칼럼명', '변경 전 칼럼명 : 변경 후 칼럼명', ...}, inplace = True)  
  
※ inplace = True를 하면 변경 사항을 반영한다는 의미, inplace = False는 변경 사항을 반영하지 않고 조회만 하는 의미

### 열 추가
열을 추가할 때 맨 뒷열에 추가하는 방법과 원하는 위치에 열을 추가할 수 있는 방법으로 나눌 수 있다.

#### 맨 뒷열에 추가 : final_amt
* 맨 뒷열에 추가되며 원하는 위치에 추가할 수 없다.  
ex) A = 추가 할 칼럼명이라고 가정, df['time'] + df['day']의 값이 A라고 가정     
> df['A'] = df['time'] + df['day']

#### 지정한 위치에 열 추가 : insert() 메소드 사용
* insert() 메소드를 사용하면 원하는 위치에 열을 추가할 수 있음  
ex) name 열 앞에 A 열 추가 : A = 추가 할 칼럼명이라고 가정, df['time'] / df['day']의 값이 A라고 가정  
> df.insert(1, 'A', df['time'] / df['day'])

### 값 변경
* 열 전체 값 변견
    * df['A'] 의 모든 값을 0으로 변경하기  
    > df['A'] = 0
* 조건에 의한 값 변경1
    * df['A']의 값이 10보다 작을 경우 0으로 변경하기  
    > df.loc[df['A'] < 10, 'A'] = 0
* 조건에 의한 값 변경2
    * df['A']의 값이 10보다 작을 경우0 아니면 1로 변경하기
    > df['A'] = np.where(df['A'] < 10, 0, 1)
    .‣ 삼항연산자와 비슷한 느낌  
* .map()
    * 범주형 값을 다른 값으로 변경할 때 사용
    * ex) df['sex']의 값이 Male과 Female이 있을 경우 Male은 1로 Female은 0으로 변경
    > df['sex'] = df['sex'].map({'Male' = 1, 'Female' = 0})  
* pd.cut()
    * 숫자형 변수를 범주형 변수로 변환할 수 있다. ex) 나이를 나이대로, 고객 구매액을 고객 등급으로
    * 값 크기를 기준으로 지정한 개수의 범위로 나누어 범주 값 지정
    * pd.cut(숫자형 변수, 분할방식(구간), 범주값)의 형식이다.
    * ex) 데이터프레임 A칼럼의 값을 (0, 10], (10, 20], (20, 30]의 구간으로 나누고 각 구간에 맞게 low, normal, high로 변경  
    ※ 이 때 (0, 10]은 (는 < ]는 <=를 뜻함 따라서 0초과 10이하로 해석 가능
    > pd.cut(df['A'], bins = [0, 10, 20, 30], labels = ['low', 'normal', 'high'])

## 데이터프레임 결합

### 데이터 프레임을 결합하는 두가지 방법

#### pd.concat()
* **매핑 기준 : 인덱스(행), 칼럼 이름(열)**
* 방향 선택
    * axis = 0 : 가로(행)로 합치기 (기본값)
    * axis = 1 : 세로(열)로 합치기
* 결합 방법
    * join = 'outer' : 모든 행과 열을 합침 (기본값) -> 매핑되지 않는 값은 결측치(NaN) 처리해준다.
    * join = 'inner' : 매핑되는 행과 열만 합침

In [6]:
import pandas as pd
df1 = pd.DataFrame({'A':[12,45], 'B':[27,10]})
df2 = pd.DataFrame({'A':[50,23], 'C':[65,33]})
display(df1)
display(df2)

Unnamed: 0,A,B
0,12,27
1,45,10


Unnamed: 0,A,C
0,50,65
1,23,33


In [9]:
# axis = 0, join = 'outer' -> 세로(행)방향으로 모든 행과 열을 합침
pd.concat([df1, df2], axis=0, join = 'outer')

Unnamed: 0,A,B,C
0,12,27.0,
1,45,10.0,
0,50,,65.0
1,23,,33.0


In [10]:
# axis = 1, join = 'inner' -> 가로(열)방향으로 매핑되는 행과 열만 합침
pd.concat([df1, df2], axis=1, join = 'inner')

Unnamed: 0,A,B,A.1,C
0,12,27,50,65
1,45,10,23,33


#### merge()
* **매핑 기준 : 특정 칼럼(key)의 값 기준으로 결합**
* 데이터베이스 테이블 조인과 같은 기능을 함
* 결합 방향 : concat()과 다르게 결합 방향은 가로방향으로 정해져 있다.
* 결합 방법 : merge() 함수를 사용하여 두 데이터프레임을 지정한 키 값을 기준으로 join 할 수 있다. + on = '칼럼명'을 사용하여 병합 기준을 정할 수 있다.
    * merge(df1, df2)를 사용하여 병합을 진행할 때 병합의 기준이 되는 열과 행의 데이터를 키(key)라고 한다.
    * inner (기본값) : 공통되는 칼럼(열)을 기준으로 병합을 진행하며 두 데이터프레임에 모두 키가 존재하는 데이터만 병합
    * outer : 키 값이 한쪽에만 있어도 해당 데이터를 병합
    * left : merge(df1, df2)기준 왼쪽 즉 df1의 키 값을 모두 보여줌 
    * right : merge(df1, df2)기준 오른쪽 즉 df2의 키 값을 모두 보여줌

In [14]:
df1 = pd.DataFrame({'A':[12,45], 'B':[27,10]})
df2 = pd.DataFrame({'A':[50,45], 'C':[65,33]})
display(df1)
display(df2)

Unnamed: 0,A,B
0,12,27
1,45,10


Unnamed: 0,A,C
0,50,65
1,45,33


In [15]:
# inner merge
pd.merge(df1, df2, how = 'inner', on = 'A')

Unnamed: 0,A,B,C
0,45,10,33


In [20]:
# inner merge -> on생략
pd.merge(df1, df2, how = 'inner')

Unnamed: 0,A,B,C
0,45,10,33


In [21]:
# inner merge -> on, how생략
# on은 생략해도 자동으로 기준을 찾아주고, how는 생략하면 기본값인 inner merge를 한다.
pd.merge(df1, df2)

Unnamed: 0,A,B,C
0,45,10,33


In [16]:
# outer merge
pd.merge(df1, df2, how = 'outer', on = 'A')

Unnamed: 0,A,B,C
0,12,27.0,
1,45,10.0,33.0
2,50,,65.0


In [18]:
# left merge
pd.merge(df1, df2, how = 'left', on = 'A')

Unnamed: 0,A,B,C
0,12,27,
1,45,10,33.0


In [19]:
# right merge
pd.merge(df1, df2, how = 'right', on = 'A')

Unnamed: 0,A,B,C
0,50,,65
1,45,10.0,33


#### pivot
* 결합이라고 말 할 수는 없지만 집계 후 데이터프레임 구조를 변경(재구성)하여 조회하는데 사용됨
* 문법 : dataframe.pivot(index, column, values)
* 결합 방법
    1. groupby로 집계  
    2. pivot  
    

In [24]:
df1 = pd.DataFrame({'name' : ['GY', 'HB', 'YD', 'GD', 'YH'],
                 'class_number' : [1, 2, 3, 4, 5],
                 'grade' : ['A', 'B', 'A', 'C', 'D']
})
df2 = pd.DataFrame({'age' : [20, 22, 25, 26, 23],
                 'class_number' : [1, 2, 3, 4, 5],
                 'sex' : ['male', 'male', 'female', 'male', 'female']
})
df3 = pd.merge(df1, df2, how = 'inner')
display(df3)

Unnamed: 0,name,class_number,grade,age,sex
0,GY,1,A,20,male
1,HB,2,B,22,male
2,YD,3,A,25,female
3,GD,4,C,26,male
4,YH,5,D,23,female


In [27]:
df4 = df3.groupby(['grade', 'sex'], as_index = False)['age'].mean()
display(df4)

Unnamed: 0,grade,sex,age
0,A,female,25.0
1,A,male,20.0
2,B,male,22.0
3,C,male,26.0
4,D,female,23.0


In [28]:
df4.pivot('sex', 'grade', 'age')

grade,A,B,C,D
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,25.0,,,23.0
male,20.0,22.0,26.0,
