In [None]:
import pandas as pd

# Pandas 결측값과 중복값 처리

결측값(NaN)을 채우거나 제거하고, 중복 데이터를 처리하는 방법을 학습합니다.

**학습 목표:**
- `fillna()`로 결측값 채우기 (특정값, 평균, 최빈값 등)
- `dropna()`로 결측값이 있는 행/열 제거
- `drop_duplicates()`로 중복값 제거
- `drop()`으로 특정 행/열 제거
- `reset_index()`로 인덱스 초기화

---

## 실습에 활용한 예제

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## DataFrame 로드

In [None]:
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df.head(15)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 1. 결측값을 채워주는 fillna

**fillna()**: na 값에 대하여 fill해주는 함수입니다.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


키에 2개의 데이터가 누락, 그룹에 1개의 데이터가 누락된 것을 확인할 수 있습니다.

먼저, 키가 없는 사람은 존재할 수 없기 떄문에, 데이터가 잘 못 되어 있다는 것을 표기 하기 위하여, **누락된 데이터를 -1로 채워** 보도록 하겠습니다.

In [None]:
df["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [None]:
# NaN값을 찾아서 NaN인 경우 그 데이터를 특정값(-1)으로 채워주는 함수
df["키"].fillna(-1)

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

NaN 값이 -1로 바뀐 것을 확인할 수 있습니다.

하지만, 키의 NaN 값을 채워준다음 유지시키려면 fillna로 **채워 준 값을 다시 대입**해 주어야 합니다.

> **참고:** 이전 버전에서는 `inplace=True` 옵션을 사용했지만, pandas 2.0+에서는 deprecated 되었으므로 값을 다시 대입하는 방식을 사용합니다.

In [None]:
df2 = df.copy()

In [None]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
# pandas 2.0+에서는 inplace=True 대신 값을 다시 대입하는 방식 권장
df2["키"] = df2["키"].fillna(-1)

In [None]:
df2["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

이젠 유지가 됩니다. 하지만, 저는 **fillna로 채워준 값을 다시 대입 해 주는 방식을 추천**드립니다.

In [None]:
df2 = df.copy()

In [None]:
df2["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [None]:
df2["키"] = df2["키"].fillna(-1)

In [None]:
df2["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [None]:
df2 = df.copy()

In [None]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
df2["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [5]:
import pandas as pd
df = pd.read_csv("https://bit.ly/ds-korean-idol")
df2 = df.copy()
# 최빈값 -> 가장 자주 등장하는 값
height = df2["키"].mode()
# height -> [178.0,] -> height[0] -> 178.0
print(type(height))
height

<class 'pandas.core.series.Series'>


Unnamed: 0,키
0,178.0


In [None]:
#height

In [None]:
# '키'의 결측치를 최빈값(mode)으로 채운다.
# 또는 평균값(mean), 중앙값(median)

df2["키"] = df2["키"].fillna(height[0])

In [None]:
df2["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7     178.0
8     179.2
9     167.1
10    178.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [None]:
df2["추가"] = [10, 11, 12, 10, 13, 10, 11, 14, 15, 16, 17, 18, 19, 20, 21]

In [None]:
temp = df2["추가"].mode()
temp

0    10
dtype: int64

## 2. 빈 값(NaN)이 있는 행을 제거

1번 STEP에서 fillna 메소드를 활용하여 값을 채워 주었습니다. 이번에는 빈값이 있는 행을 제거하는 방법을 알아보도록 하겠습니다.

In [6]:
pd.__version__

'2.2.2'

In [None]:
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
# df에서 결측치가 있는 행만 선택
df[df.isna().any(axis=1)]

In [None]:
# drop(빼다) + na(결측치)
# 결측치가 하나라도 존재하는 행은 삭제
df.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


dropna()는 몇가지 옵션을 추가할 수 있습니다.

### 2-1. axis (열/ 행을 드랍)

axis=0은 행을 드랍합니다.

In [None]:
# default : 기본값 0
df = df.dropna(axis=0)

axis=1은 열을 드랍합니다.

In [None]:
# 열을 드랍하는 것은 아주 드문 경우(이런 경우 잘 없음)
df3 = df.dropna(axis=1)

In [None]:
df3

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [7]:
# dropna()와 같은 함수 실행시 인덱스가 변경될때, 다시 인덱스값을 부여할 때
# reset_index함수안에 인수 drop=True는 기존 인덱스를 drop하는 것을 의미
df.reset_index(drop=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 2-2. how옵션 - 'any': 한개라도 있는 경우 드랍, 'all'은 모두 NaN인 경우 드랍

In [None]:
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
# default : how='any'
# any는 행이나 열에서 결측치가 1개라고 있으면 삭제
# all은 행이나 열에서 모든 데이터가 없는 경우에만 삭제
df.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [None]:
df.dropna(axis=0, how="any")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [None]:
df.dropna(axis=0, how="all")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
import numpy as np

In [None]:
# 10번째행에 전체가 NaN인 행이 추가
df.iloc[10] = np.nan

---
## 정리

| 메서드 | 설명 |
|--------|------|
| `fillna(값)` | 결측값을 특정 값으로 채우기 |
| `fillna(df['col'].mean())` | 평균값으로 채우기 |
| `fillna(df['col'].mode()[0])` | 최빈값으로 채우기 |
| `dropna()` | 결측값이 있는 행 제거 |
| `dropna(axis=1)` | 결측값이 있는 열 제거 |
| `dropna(how='all')` | 모든 값이 NaN인 행만 제거 |
| `drop_duplicates()` | 중복 행 제거 |
| `drop_duplicates(keep='last')` | 마지막 값 유지 |
| `drop('col', axis=1)` | 특정 column 제거 |
| `drop(index, axis=0)` | 특정 행 제거 |
| `reset_index(drop=True)` | 인덱스 초기화 |

**Tip:** 결측값 처리 후 결과를 유지하려면 `df['col'] = df['col'].fillna(값)` 형태로 다시 대입하세요.

In [10]:
df.dropna(axis=0, how="all", inplace=True)

In [11]:
df = df.reset_index(drop=True)
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 3. 중복된 값 제거 (drop_duplicates)

In [None]:
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 3-1. column의 중복값 제거

In [None]:
df["키"]

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [None]:
df["키"] = df["키"].fillna(178.0)

In [None]:
# 첫번째 데이터만 남기고 나머지는 다 삭제
df["키"].drop_duplicates()

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
6     182.3
8     179.2
9     167.1
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

keep 옵션으로 유지하고 싶은 데이터를 선택할 수 있습니다. keep: 'first' / 'last'

In [None]:
import pandas as pd
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df["키"]

Unnamed: 0,키
0,173.6
1,177.0
2,180.0
3,178.0
4,162.1
5,178.0
6,182.3
7,
8,179.2
9,167.1


In [None]:
df["키"].drop_duplicates(keep="last")

Unnamed: 0,키
0,173.6
1,177.0
2,180.0
4,162.1
5,178.0
6,182.3
8,179.2
9,167.1
10,
11,183.0


In [None]:
df["키"] = df["키"].drop_duplicates(keep="last")

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 3-2. 행 전체 제거

In [None]:
df.drop_duplicates("그룹")

In [None]:
df.drop_duplicates("그룹", keep="last")

## 4. Drop - column/row 제거하기

In [None]:
df = pd.read_csv("https://bit.ly/ds-korean-idol")

In [None]:
df.head()

### 4-1. column 제거하기

drop()을 활용하여 column을 제거할 수 있습니다. column을 제거할 때는 axis=1 옵션을 줍니다.

In [None]:
df.drop("그룹", axis=1)

복수의 column를 제거하고자 할 때는 list로 지정합니다.

In [None]:
df.drop(["그룹", "소속사"], axis=1)

### 4-2. row 제거하기

drop()을 활용하여 row를 제거할 수 있습니다. row를 제거할 때는 제거하고자하는 index와 axis=0 옵션을 줍니다.

In [13]:
df.drop(3, axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


복수의 row를 제거하고자 할 때는 list로 지정합니다.

In [None]:
df.drop([3, 5], axis=0)

In [None]:
pip freeze > requirements.txt