# 데이터 전처리 관련 - 결측값 채우기

## 데이터 로딩

In [27]:
import pandas as pd
df = pd.read_csv("datas/korea-star.csv")

In [28]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615


## 1. 결측값을 채워주는 fillna
- fillna(): nan 값에 대하여 지정한 값을 채워주는 함수

In [29]:
# 결측치 확인
df.info()
# '키'에 2개의 데이터가 누락, 그룹에 2개의 데이터가 누락된 것 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [30]:
# 키가 없는 사람은 존재할 수 없기 때문에,
# 데이터가 잘 못 되어 있다는 것을 표기 하기 위하여,
# 누락된 데이터를 -1로 채워봅시다.
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4       NaN
5     179.2
6       NaN
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [31]:
df['키'].fillna(-1)

0     160.0
1     183.0
2     178.0
3     182.3
4      -1.0
5     179.2
6      -1.0
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [32]:
# 키의 NaN 값을 채워준다음 데이터 프레임에 적용하기 위한 방법은
# inplace=True 옵션을 주거나,
# fillna로 채워 준 값을 다시 대입
df2 = df.copy()

In [33]:
# df2['키'].fillna(-1, inplace=True)
df2['키'] = df2['키'].fillna(-1)
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,-1.0,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


In [24]:
# 기술통계 값으로 채우기
# 최빈값 mode()
# 중앙값 median()
# 평균값 mean()

In [47]:
# [문제] 키의 최빈값 평균 계산
height = df['키'].mode()
height

0    178.0
Name: 키, dtype: float64

In [48]:
# [문제] 키 컬럼의 중앙값 계산
height = df['키'].median()
height

175.5

In [49]:
# [문제] 키 컬럼의 평균을 소숫점 1에서 반올림하기
height = df['키'].mean().round(1)
height

173.5

In [50]:
# [문제] 
# - 계산한 값을 NaN 값 대신 채워 넣기
df['키'].fillna(height)

0     160.0
1     183.0
2     178.0
3     182.3
4     173.5
5     179.2
6     173.5
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [54]:
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4       NaN
5     179.2
6       NaN
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [56]:
df['키'] = df['키'].fillna(height)
# df['키'].fillna(height, inplace=True)
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4     173.5
5     179.2
6     173.5
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

## 2. 빈 값(NaN)이 있는 행을 제거

In [62]:
df = pd.read_csv("datas/korea-star.csv")
df2 = df.copy()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [63]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


In [65]:
# axis=0 ... 행방향이 default
df2.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,7208335
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [67]:
# dropna()의 몇가지 옵션
# axis 행 0 / 열 1 드랍
# 'how = any': 한개라도 있는 경우 드랍, 'how = all' : 모두 NaN인 경우 드랍

### 2-1. axis nan 값이 있는 행 / 열 삭제
- axis=0 : 데이터 프레임에 nan 값이 있는 행 삭제
- axis=1 : 데이터프레임에 nan 값이 있는 열 삭제

In [66]:
df2 = df.copy()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [68]:
df2.dropna(axis=1)

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,인기지수
0,아이린,SM,여자,1991-03-29,A,8256324
1,차은우,판타지오,남자,1997-03-30,B,3506027
2,뷔,빅히트,남자,1995-12-30,AB,8073501
3,민현,플레디스,남자,1995-08-09,O,4989792
4,소연,큐브,여자,1998-08-26,B,4668615
5,진,빅히트,남자,1992-12-04,O,4570308
6,윤아,SM,여자,1989-03-09,A,3918661
7,백호,플레디스,남자,1995-07-21,AB,3301654
8,JR,플레디스,남자,1995-06-08,O,3274137
9,슈가,빅히트,남자,1993-03-09,O,4925442


### 2-2. how= 옵션 패러미터
- 'any': 한개라도 있는 경우 드랍
- 'all' : 모두 NaN인 경우 드랍

In [72]:
df2 = df.copy()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [77]:
# axis=0, how='any' ==== row 기준으로 nan이 한개라도 있으면 그 행 삭제
df2.dropna(axis=0, how='any')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,7208335
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [75]:
# axis=0, how='all' ==== row 기준으로 행이 전부 nan이면 삭제
df2.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


In [78]:
# how='all' 실험을 위해 index 3에 nan으로 채워넣기
import numpy as np

In [85]:
len(df2)

16

In [91]:
# df2.iloc[-1] = np.nan는 행 추가가 아닌 덮어쓰는 식 (업데이트)
# iloc는 인덱스가 없기 때문에 확장 불가
df2.loc[len(df2)] = np.nan
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324.0
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792.0
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661.0
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137.0
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442.0


In [92]:
# 행 추가 후 삭제 확인
df.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


## 3. 중복된 값 제거 (drop_duplicates())

In [93]:
df = pd.read_csv("datas/korea-star.csv")
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


### 3-1. column의 중복값 제거

In [94]:
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4       NaN
5     179.2
6       NaN
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [95]:
df['키'].drop_duplicates()

0     160.0
1     183.0
2     178.0
3     182.3
4       NaN
5     179.2
7     175.0
8     176.0
9     174.0
10    180.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [96]:
# keep 옵션으로 유지하고 싶은 데이터를 선택 가능
# keep: 'first' / 'last'

# first :첫번째것 유지
# last : 마지막 값 유지

In [98]:
df = pd.read_csv("datas/korea-star.csv")
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4       NaN
5     179.2
6       NaN
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [99]:
df['키'].drop_duplicates(keep='last')

0     160.0
1     183.0
3     182.3
5     179.2
6       NaN
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [100]:
df['키'] = df['키'].drop_duplicates(keep='last')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442


### 3-2. 행 전체 제거

In [101]:
df.drop_duplicates('그룹')  # default : first

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [102]:
df.drop_duplicates('그룹', keep='last')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
14,슬기,레드벨벳,SM,여자,1994-02-10,161.0,A,5021452
15,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260


In [124]:
# 중복행 확인 예시 문제
# 5X3짜리 객체
idx = ['row1','row2','row3','row4','row5']
col = ['col1','col2','col3']
data= [['A','가',1],['A','가',1],['A','나',2],['B','나',3],['B','다',4]]
df = pd.DataFrame(data, idx, col)
print(df)
# print(df.duplicated(keep='first'))
# print(df.duplicated(keep='last'))
# print(df.duplicated(subset=['col1']))
print(df.duplicated(subset=['col1','col3']))

     col1 col2  col3
row1    A    가     1
row2    A    가     1
row3    A    나     2
row4    B    나     3
row5    B    다     4
row1    False
row2     True
row3    False
row4    False
row5    False
dtype: bool


## 4. Drop - column/row 제거하기

In [103]:
df = pd.read_csv("datas/korea-star.csv")
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615


### 4-1. drop() - column 제거하기
- drop()을 활용한 column을 삭제

In [104]:
# axis=1 옵션
df.drop('그룹', axis=1)

Unnamed: 0,이름,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,큐브,여자,1998-08-26,,B,4668615
5,진,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,SM,여자,1989-03-09,,A,3918661
7,백호,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,빅히트,남자,1993-03-09,174.0,O,4925442


In [107]:
# 복수의 column을 삭제하고자 할 때는 list로 지정
# [문제] : '그룹','소속사', '생년월일' 컬럼 삭제
df.drop(['그룹', '소속사', '생년월일'], axis=1)

Unnamed: 0,이름,성별,키,혈액형,인기지수
0,아이린,여자,160.0,A,8256324
1,차은우,남자,183.0,B,3506027
2,뷔,남자,178.0,AB,8073501
3,민현,남자,182.3,O,4989792
4,소연,여자,,B,4668615
5,진,남자,179.2,O,4570308
6,윤아,여자,,A,3918661
7,백호,남자,175.0,AB,3301654
8,JR,남자,176.0,O,3274137
9,슈가,남자,174.0,O,4925442


### 4-2. drop() - row 제거하기
- row를 제거할 때 : 제거를 원하는 index와 axis=0 옵션 사용

In [127]:
df = pd.read_csv("datas/korea-star.csv")
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615


In [128]:
df.drop(3, axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [129]:
# [문제] row 3, 5 삭제
# 복수의 row를 제거하고자 할 때는 list로 지정함
df2.drop([3,5], axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324.0
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661.0
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137.0
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442.0
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,7208335.0
