<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

<center>- Pandas의 모든 것을 배우지 않습니다. 데이터 전처리에 대한 부분만 학습 대상이 됩니다 -</center>

# 학습 목표

- 다양한 방법으로 결측치(NaN 값) 존재 여부를 확인할 수 있습니다.
- 결측치를 제거하거나 다른 값으로 채울 수 있습니다.
- 중복된 데이터를 확인하여 제거할 수 있습니다.
- 가변수를 만들어 기존 데이터프레임에 연결할 수 있습니다.
- 깔끔한 데이터를 만들기 위해 데이터 재 구조화 작업을 할 수 있습니다.

# 6. 데이터프레임 변경 - 2단계

- 정확한 데이터 분석을 위해서는 정확한 데이터가 준비되어야 합니다.
- 정확한 데이터 준비를 위해 누락된 데이터나 중복 데이터를 제거하는 전처리 작업이 필요합니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

## 6.1. 결측치 처리

- NaN 값, 즉 결측치는 정확한 분석을 방해합니다.
- NaN 값을 만나면 오류가 발생하는 함수도 있습니다.
- NaN 값은 제거하든지 다른 값(예를 들면 평균값)으로 채워야 합니다.

In [None]:
# titanic 데이터 읽어오기
file_path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic_simple.csv'
titanic = pd.read_csv(file_path, sep = ',',) 
titanic.head()

### 6.1.1. 결측치 찾기

- 결측치 존재 여부를 확인하고 이를 어떻게 처리할 지 방법을 결정해야 합니다.
- 결측치를 확인할 수 있는 방법은 참 많습니다.

**1) info() 메소드로 확인**
- 다른 열의 데이터 개수와 비교하여 결측치 존재 여부를 알 수 있습니다.

In [None]:
# 열 정보 확인
titanic.info()

**2) count() 메소드로 확인**

- 다른 열의 데이터 개수와 비교하여 결측치 존재 여부를 알 수 있습니다.

In [None]:
# 열 데이터 개수 확인
titanic.count()

**3) value_counts() 메소드로 확인**

- 필히 **dropna=False** 옵션을 지정해야 결측치가 확인됩니다.

In [None]:
# Age 열 데이터 별 개수 확인
titanic['Age'].value_counts(dropna=False)

**4) isnull(), notnull() 메소드 사용**

- **isnull()** 메소드: 결측치면 True, 유효한 값이면 False를 반환합니다.
- **notnull()** 메소드: 결측치면 False, 유효한 값이면 True를 반환합니다.


In [None]:
# 전체 데이터 중에서 결측치는 True로 표시
titanic.isnull()

- True의 개수를 확인하는 것도 의미가 있습니다.

In [None]:
# 전체 데이터 중에서 결측치는 True 인 값 개수
titanic.isnull().sum()

### 6.1.2. 결측치 제거

- **dropna()** 메소드로 결측치가 있는 열이나 행을 제거할 수 있습니다.
- inplacce=True 옵션을 지정해 해당 데이터프레임을 변경할 수 있습니다.

**1) 결측치가 하나라도 있으면 제거**

In [None]:
# 결측치가 하나라도 있는 행 제거
titanic2 = titanic.copy()
titanic2.dropna(inplace=True)
titanic2.info()

In [None]:
# Age 열에 결측치가  있는 행 제거
titanic2 = titanic.copy()
titanic2.dropna(subset=['Age'], inplace=True)
titanic2.info()

In [None]:
# Embarked 열에 결측치가  있는 행 제거
titanic2 = titanic.copy()
titanic2.dropna(subset=['Embarked'], inplace=True)
titanic2.info()

### 6.1.3. 결측치 채우기

- **fillna()** 메소드를 사용해 결측치를 다른 값으로 채울 수 있습니다.

**1) 평균값으로 채우기**

- 결측치가 있는 열의 평균값을 구한 후 결측치를 그 값으로 채웁니다.

In [None]:
# 데이터프레임 복사
titanic2 = titanic.copy()

# Age 평균 구하기
mean_age = titanic2['Age'].mean()

# 누락된 값을 평균값으로 채우기
titanic2['Age'].fillna(mean_age, inplace=True)
titanic2.info()

**2) 가장 많이 나타나는 값으로 채우기**

- 결측치가 있는 열의 가장 빈도가 높은 값을 구한 후 결측치를 그 값으로 채웁니다.
- **idxmax()** 메소드를 사용해 가장 많이 나타나는 값을 찾을 수 있습니다.

In [None]:
# 가장 빈도가 높은 Embarked 열 값 구하기
most_freq_Embarked = titanic2['Embarked'].value_counts(dropna=True).idxmax()
print(most_freq_Embarked)

In [None]:
# 결측치를 가장 빈도가 높은 값으로 채우기
titanic2['Embarked'].fillna(most_freq_Embarked, inplace=True)
titanic2.info()

**3) 직전 행의 값 또는 바로 다음 행의 값으로 채우기**

- 결측치를 바로 앞의 값이나 바로 다음에 나오는 값으로 채웁니다.
- **method='ffill'**: 바로 앞의 값으로 변경
- **method='bfill'**: 바로 다음 값으로 채움

In [None]:
# 데이터프레임 복사
titanic2 = titanic.copy()

# Age 열의 누락된 값을 바로 앞의 값으로 채우기
titanic2['Age'].fillna(method='ffill', inplace=True)

# Embarked 열의 누락된 값을 바로 뒤의 값으로 채우기
titanic2['Embarked'].fillna(method='bfill', inplace=True)

# 확인
titanic2.info()

**4) 결측치를 특정 값으로 채우기**

- 필요하다면 모든 결측치를 특정 값으로 채웁니다.

In [None]:
# 데이터프레임 복사
titanic2 = titanic.copy()

# 모든 누락된 값을 0으로 채우기
# titanic2.fillna(0, inplace=True)

# Age 열의 누락된 값을  0 으로 채우기
titanic2['Age'].fillna(0, inplace=True)
titanic2.info()

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

다음에 주어진 데이터프레임을 확인한 후 이어지는 셀을 완성해 보세요.

In [None]:
# 데이터프레임 만들기
dict = {'이름': ['나처럼', '즐거운', '사람이', '누구요'],
        '나이': [32, np.nan, 28, np.nan],
        '1월': [45600, np.nan, 46000, 50000],
        '2월': [56000, 23000, np.nan, 45000],
        '3월': [52000, 33000, 39000, 49000],
        }

df_test = pd.DataFrame(dict, index=['C001', 'C002', 'C003', 'C004'])
df_test.head()

In [None]:
# 나이 결측치는 모두 25로 변경
df_test['나이'].fillna(25, inplace=True)

# 확인
df_test.head()

In [None]:
# 1월, 2월, 3월 결측치는 각 월의 평균으로 채우기
mean_1 = df_test['1월'].mean()
mean_2 = df_test['2월'].mean()
mean_3 = df_test['3월'].mean()

df_test['1월'].fillna(mean_1, inplace=True)
df_test['2월'].fillna(mean_2, inplace=True)
df_test['3월'].fillna(mean_3, inplace=True)

# 확인
df_test.head()

In [None]:
# 숫자는 모두 정수로 변경
df_test['나이'] = df_test['나이'].astype(int)
df_test['1월'] = df_test['1월'].astype(int)
df_test['2월'] = df_test['2월'].astype(int)
df_test['3월'] = df_test['3월'].astype(int)

# 확인
df_test.head()

## 6.2. 중복된 데이터 처리

- 중복된 데이터는 분석 결과를 왜곡할 수 있으므로 중복 데이터에 대한 전처리가 필요합니다.

### 6.2.1. 중복 데이터 확인

- **duplicated()** 메소드로 중복된 행을 찾을 수 있습니다.
- **keep='first'**를 지정하면 앞쪽 행을 유지할 목적으로 중복을 확인합니다.
- **keep='last'**를 지정하면 뒤쪽 행을 유지할 목적으로 중복을 확인합니다.
- 전체 열이 중복된 행, 또는 일부 열이 중복된 행을 찾을 수 있습니다.

In [None]:
# 리스트로 데이터프레임 만들기
src = [[1, 2, 3, 4, np.nan],
       [1, 3, 5, 7, 9],
       [1, 2, 3, 4, np.nan],
       [1, 2, 3, 4, np.nan],
       [1, 3, 5, 7, 9],
       [2, 4, 6, 8, 0]]
df = pd.DataFrame(src, columns=list('ABCDE'))
df.head(10)

**1) 모든 열이 중복된 행 찾기**

In [None]:
# 모든 열 값이 중복되는 행 확인
df.duplicated()

In [None]:
# 앞쪽 행을 유지할 목적으로 모든 열 값이 중복되는 행 확인, 위 결과와 같음
df.duplicated(keep='first')

In [None]:
# 뒤쪽 행을 유지할 목적으로 모든 열 값이 중복되는 행 확인
df.duplicated(keep='last')

**2) 일부 열이 중복된 행 찾기**

In [None]:
# 앞쪽 행을 유지할 목적으로 'A' 열 값이 중복되는 데이터 확인
df.duplicated(subset='A', keep='first')

### 6.2.2. 중복 데이터 제거

- **drop_duplicates()** 메소드로 중복된 행을 제거할 수 있습니다.
- **keep='first'**를 지정하면 앞쪽 행을 유지하고 뒤쪽 행을 제거합니다.
- **keep='last'**를 지정하면 뒤쪽 행을 유지하고 앞쪽 행을 제거합니다.
- 전체 열이 중복된 행, 또는 일부 열이 중복된 행을 제거할 수 있습니다.

In [None]:
# 앞 데이터를 유지하면서 모든 열 값이 중복되는 행 제거
df.drop_duplicates(keep='first', inplace=True)
df.head(10)

In [None]:
# 인덱스 초기화
df.reset_index(inplace=True, drop=True)
df.head(10)

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

아래 주어진 코드를 실행헤 titanic 데이터프레임에 중복된 행을 만든 후 이어지는 셀의 코드를 작성해 보세요.

In [None]:
# titanic 데이터 읽어오기
file_path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic_simple.csv'
titanic = pd.read_csv(file_path, sep = ',',) 

# 테스트를 위해 중복된 행을 갖는 데이터프레임 만들기
titanic = pd.concat([titanic,titanic.head(4)])
titanic.reset_index(drop=True, inplace=True)
titanic.tail(10)

In [None]:
# 앞쪽 행을 유지할 목적으로 중복된 행 찾기
titanic.duplicated(keep='first')

In [None]:
# 뒤쪽 행을 유지할 목적으로 중복된 행 찾기
titanic.duplicated(keep='last')

In [None]:
# 뒤에 오는 중복 행을 제거
titanic = titanic.drop_duplicates(keep='first')
titanic.tail(10)

## 6.3. 가변수(Dummy Variable) 만들기

- 가변수는 일정하게 정해진 범위의 값을 갖는 데이터(범주형 데이터)를 숫자로 변환한 것입니다.
- **get_dummies()** 함수를 사용해서 가변수를 쉽게 만들 수 있습니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dummy_variable.png' width=400 align="left"/>

In [None]:
# 파일 불러오기
file_path = 'https://raw.githubusercontent.com/jangrae/csv/master/Graduate_apply.csv'
graduate = pd.read_csv(file_path)
graduate.head()

**1) 데이터 확인**

- 범주형 여부를 우선 확인해야 합니다.

In [None]:
# 데이터프레임 내용 확인
graduate.head()

In [None]:
# rank 열에 어떤 값들이 몇 개씩 있나 확인
graduate['rank'].value_counts()

**2) 가변수 만들기**

- 가변수를 만들 때 **prefix** 옵션을 사용해 새로 만들어지는 열의 이름을 제어할 수 있습니다.

In [None]:
# rank 열은 범주형이므로 더미 변수로 변환
#graduate_rank = pd.get_dummies(graduate['rank'], prefix='r',)
graduate_rank = pd.get_dummies(graduate['rank'])
graduate_rank.head()

**3) 원래 데이터프레임과 합치기**

- 가변수 자체 만으로는 큰 의미가 없으니, 기존 데이터프레임에 새로운 열로 연결합니다.
- 데이터프레임 연결은 **concat()** 함수를 사용합니다.
- **axis=1** 옵션은 열 방향, 즉 가로 방향으로 연결하라는 의미입니다.

In [None]:
# Dummy 데이터를 원래 데이터프레임과 합치기
graduate_new = pd.concat([graduate, graduate_rank], axis=1)
graduate_new.head()

**4) 일부 열 제거**

- 가변수가 새로운 열이 되어 기존 열은 의미가 없으니 삭제합니다. 
- **drop()** 메소드에 **axis=1** 옵션을 주어 열을 삭제합니다.

In [None]:
# Rank 열 제거
graduate_new.drop('rank', axis=1, inplace=True)
graduate_new.head()

**5) 열 이름 변경**

- **rename()** 메소드를 사용해 가변수 열 이름을 인식하기 쉬운 이름으로 변경합니다. 

In [None]:
# rename() 함수로 열 이름 변경
graduate_new.rename(columns= {1: 'rank1', 
                              2: 'rank2', 
                              3: 'rank3', 
                              4: 'rank4'}, inplace=True)

# 확인
graduate_new.head()

## 6.4. 데이터 재 구조화

- 가끔은 열 이름이 데이터의 의미를 가지는 경우가 있습니다.
- 이런 경우 열 이름에서 데이터를 추출해 행으로 내려야 합니다.(Unpivot 이라고 함).
- **melt()** 함수를 사용해서 이러한 처리를 할 수 있으며, 이러한 작업을 데이터 재 구조화라 부릅니다.

### 6.4.1. Melt

In [None]:
# 파일 불러오기
file_path = 'https://raw.githubusercontent.com/jangrae/csv/master/pew.csv'
pew = pd.read_csv(file_path)
pew.head(5)

- 위 데이터는 수입과 종교의 관계를 보여줍니다.
- 표시된 결과의 열 이름 $10-20k 등은 수입을 의미합니다.
- melt() 함수를 사용해 이 값을 행의 데이터로 내려봅니다.
- **id_vars** 옵션에 고정될 열을 지정합니다.

In [None]:
# Unpivot 수행
pew_long = pd.melt(pew, id_vars='religion')
pew_long.head()

- **variable** 열이 수입(기존의 열 이름)을 갖는 열로 만들어 졌고, **value** 열이 원래 값을 가지면서 만들어졌습니다.
- 필요하다면 다음과 같이 새로 만들어지는 열 이름을 지정할 수 있습니다.
- **var_name** 옵션에는 variable을 대신 할 이름, **value_name** 옵션에는 value를 대신 할 이름을 지정합니다.

In [None]:
# 열 이름 지정하기
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long.head()

### 6.4.2. Unmelt

- 다시 원래 형태로 바꾸고 싶다면 **pivot()** 메소드를 사용합니다.
- **index** 옵션에 기준이 되는 열, **columns** 옵션에 열 이름이 될 열, **values** 옵션에 값이 될 열을 지정합니다.

In [None]:
# Pivot 수행
pew_wide = pew_long.pivot(index='religion', columns='income', values='count')
pew_wide.head()

- **reset_index()** 메소드를 사용해 인덱스를 초기화 합니다.

In [None]:
# 인덱스 초기화
pew_wide.reset_index(inplace=True)
pew_wide.head()

- 인덱스 값 위의 income은 열들을 대표하는 이름입니다.
- **columns.name** 속성을 **None**으로 변경해서 이 이름을 제거할 수 있습니다.

In [None]:
# 열을 대표하는 이름 제거
pew_wide.columns.name = None
pew_wide.head()

## <center>수고하셨습니다.</center>
<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/end.png' width=200/></center>