In [None]:
import pandas as pd

## 실습에 활용한 예제

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## DataFrame 로드

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

## 1. 결측값을 채워주는 fillna

**fillna()**: na 값에 대하여 fill해주는 함수입니다.

In [None]:
df.info()

키에 2개의 데이터가 누락, 그룹에 1개의 데이터가 누락된 것을 확인할 수 있습니다.

먼저, 키가 없는 사람은 존재할 수 없기 떄문에, 데이터가 잘 못 되어 있다는 것을 표기 하기 위하여, **누락된 데이터를 -1로 채워** 보도록 하겠습니다.

In [None]:
df['키']

In [None]:
df['키'].fillna(-1)

NaN 값이 -1로 바뀐 것을 확인할 수 있습니다.

하지만, 키의 NaN 값을 채워준다음 유지시키려면 **inplace=True** 옵션을 주거나, fillna로 **채워 준 값을 다시 대입**해 주어야 합니다.

In [None]:
df2 = df.copy()

In [None]:
df2

In [None]:
df2['키'].fillna(-1, inplace=True)

In [None]:
df2['키']

In [None]:
df2

이젠 유지가 됩니다. 하지만, 저는 **fillna로 채워준 값을 다시 대입 해 주는 방식을 추천**드립니다.

In [None]:
df2 = df.copy()

In [None]:
df2['키']

In [None]:
df2['키'] = df2['키'].fillna(-1)

In [None]:
df2['키']

In [None]:
df2 = df.copy()

In [None]:
df2

In [None]:
df2['키']

In [None]:
height = df2['키'].mode()

In [None]:
df2['키'].fillna(height, inplace=True)

In [None]:
df2['키']

## 2. 빈 값(NaN)이 있는 행을 제거

1번 STEP에서 fillna 메소드를 활용하여 값을 채워 주었습니다. 이번에는 빈값이 있는 행을 제거하는 방법을 알아보도록 하겠습니다.

In [None]:
df.info()

In [None]:
df

In [None]:
df.dropna()

dropna()는 몇가지 옵션을 추가할 수 있습니다.

### 2-1. axis (열/ 행을 드랍)

axis=0은 행을 드랍합니다.

In [None]:
df.dropna(axis=0)

axis=1은 열을 드랍합니다.

In [None]:
df.dropna(axis=1)

### 2-2. how옵션 - 'any': 한개라도 있는 경우 드랍, 'all'은 모두 NaN인 경우 드랍

In [None]:
df.dropna()

In [None]:
df.dropna(axis=0, how='any')

In [None]:
df.dropna(axis=0, how='all')

In [None]:
import numpy as np

In [None]:
df.iloc[10] = np.nan

In [None]:
df

In [None]:
df.dropna(axis=0, how='all')

## 3. 중복된 값 제거 (drop_duplicates)

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [None]:
df

### 3-1. column의 중복값 제거

In [None]:
df['키']

In [None]:
#중복된 값을 확인하고 첫번째값만 남기고 삭제
df['키'].drop_duplicates()

keep 옵션으로 유지하고 싶은 데이터를 선택할 수 있습니다. keep: 'first' / 'last'

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [None]:
df['키']

In [None]:
df['키'].drop_duplicates(keep='last')

In [None]:
df['키'] = df['키'].drop_duplicates(keep='last')

In [None]:
df

### 3-2. 행 전체 제거

In [None]:
df.drop_duplicates('그룹')

In [None]:
df.drop_duplicates('그룹', keep='last')

## 4. Drop - column/row 제거하기

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [None]:
df.head()

### 4-1. column 제거하기

drop()을 활용하여 column을 제거할 수 있습니다. column을 제거할 때는 axis=1 옵션을 줍니다.

In [None]:
df.drop('그룹', axis=1)

복수의 column를 제거하고자 할 때는 list로 지정합니다.

In [None]:
df.drop(['그룹', '소속사'], axis=1)

### 4-2. row 제거하기

drop()을 활용하여 row를 제거할 수 있습니다. row를 제거할 때는 제거하고자하는 index와 axis=0 옵션을 줍니다.

In [None]:
df.drop(3, axis=0)

복수의 row를 제거하고자 할 때는 list로 지정합니다.

In [None]:
df.drop([3, 5], axis=0)

In [None]:
df.reset_indexdex