# 데이터 전처리의 여러가지 처리방법

In [2]:
import pandas as pd
df = pd.read_csv('data/korean-idol.csv')

## 1. 결측값 처리
### 1.1. 결측값을 채워주는 fillna()

**fillna()**: na 값에 대하여 fill해주는 함수

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


- '키',column에 2개의 데이터가 누락, 그룹에 1개의 데이터가 누락된 것을 확인할 수 있다.
- '키'값이 없는 사람은 존재할 수 없기 떄문에, 데이터가 잘 못 되어 있다는 것을 표기 하기 위하여 **누락된 데이터를 -1로 채우기**
- NaN 값을 채워준다음 유지시키려면 inplace=True 옵션을 주거나, fillna로 채워 준 값을 다시 대입해 주어야 한다.

In [3]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [4]:
df['키'].fillna(-1)  # 실제 데이터를 바꾼건 아님

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [5]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [7]:
df2 = df.copy()
df2
# '-1'값으로 덮어 써주라는 명령
df2['키'].fillna(-1, inplace=True)
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [8]:
# 대입연산자 사용
df2= df.copy()
df2

df2['키'] = df2['키'].fillna(-1)
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [9]:
df2 = df.copy()
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [10]:
df2['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [18]:
#height = df2['키'].mean()

df2 = df.copy()
height = df2['키'].mean()
height

df2['키'].fillna(height, inplace=True)
df2['키']

0     173.600000
1     177.000000
2     180.000000
3     178.000000
4     162.100000
5     178.000000
6     182.300000
7     175.792308
8     179.200000
9     167.100000
10    175.792308
11    183.000000
12    175.000000
13    176.000000
14    174.000000
Name: 키, dtype: float64

### 1.2. 빈 값(NaN)이 있는 행을 제거 : dropna()

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [20]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [21]:
df.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


#### 1.2.1. axis (열/ 행을 드랍)

- axis=0 : 행을 드랍
- axis=1 : 열을 드랍

In [22]:
df.dropna(axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [23]:
df.dropna(axis=1)

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,브랜드평판지수
0,지민,빅히트,남자,1995-10-13,A,10523260
1,지드래곤,YG,남자,1988-08-18,A,9916947
2,강다니엘,커넥트,남자,1996-12-10,A,8273745
3,뷔,빅히트,남자,1995-12-30,AB,8073501
4,화사,RBW,여자,1995-07-23,A,7650928
5,정국,빅히트,남자,1997-09-01,A,5208335
6,민현,플레디스,남자,1995-08-09,O,4989792
7,소연,큐브,여자,1998-08-26,B,4668615
8,진,빅히트,남자,1992-12-04,O,4570308
9,하성운,스타크루이엔티,남자,1994-03-22,A,4036489


#### 1.2.2. how = 'any': 한개라도 있는 경우 드랍, 'all'은 모두 NaN인 경우 드랍

In [24]:
df.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [25]:
df.dropna(axis=0, how='any')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [26]:
df.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [27]:
import numpy as np

In [29]:
df.iloc[10] = np.nan
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


In [30]:
df.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


## 2. 중복된 값 제거 (drop_duplicates)
- 중복된 첫번째 값 유지하고 나머지 값들 제거.

In [31]:
df = pd.read_csv('data/korean-idol.csv')

In [32]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 2-1. column의 중복값 제거

In [33]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [34]:
# 5번(178), 10번(NaN) 없어짐
df['키'].drop_duplicates()

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
6     182.3
7       NaN
8     179.2
9     167.1
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

- keep 옵션으로 유지하고 싶은 데이터를 선택할 수 있다. keep: 'first' / 'last'

In [35]:
df = pd.read_csv('data/korean-idol.csv')
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [37]:
# 마지막 값을 살림_ 3행, 7행이 없어짐
df['키'].drop_duplicates(keep='last')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [38]:
df['키'] = df['키'].drop_duplicates(keep='last')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 2-2. 행 전체 제거

In [42]:
df.drop_duplicates('그룹')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


In [43]:
df.drop_duplicates('그룹', keep='last')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,AB,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


## 3. Drop - column/row 제거하기

In [44]:
df = pd.read_csv('data/korean-idol.csv')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 3.1. column 제거하기

- drop()을 활용하여 column을 제거(axis=1)

In [47]:
df.drop('그룹',axis=1)   # '그룹'이라는 column을 제거할거라는 명령

Unnamed: 0,이름,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,큐브,여자,1998-08-26,,B,4668615
8,진,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


- 복수의 column를 제거하고자 할 때는 list로 지정

In [48]:
df.drop(['그룹','소속사'],axis=1)

Unnamed: 0,이름,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,남자,1995-10-13,173.6,A,10523260
1,지드래곤,남자,1988-08-18,177.0,A,9916947
2,강다니엘,남자,1996-12-10,180.0,A,8273745
3,뷔,남자,1995-12-30,178.0,AB,8073501
4,화사,여자,1995-07-23,162.1,A,7650928
5,정국,남자,1997-09-01,178.0,A,5208335
6,민현,남자,1995-08-09,182.3,O,4989792
7,소연,여자,1998-08-26,,B,4668615
8,진,남자,1992-12-04,179.2,O,4570308
9,하성운,남자,1994-03-22,167.1,A,4036489


### 3.2. row 제거하기

- drop()을 활용하여 row 제거(axis=0)

In [49]:
df.drop(3,axis=0)   # index이용하여 제거

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


- 복수의 row를 제거하고자 할 때는 list로 지정

In [50]:
df.drop([3,5],axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


## 4. DataFrame 합치기 
### 4.1. concat()

In [54]:
df = pd.read_csv('data/korean-idol.csv')
df2= pd.read_csv('data/korean-idol-2.csv')

#### 4.1.1. row 기준 합치기

In [55]:
df_copy = df.copy()
df_copy

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


- row에 합칠 때는 pd.concat에 합칠 데이터프레임을 list로 넣어줌.
- row 기준으로 합칠 때는 **sort=False 옵션**을 주어 순서가 유지되도록 한다.

In [56]:
pd.concat([df, df_copy], sort=False)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


- reset_index() 로 인덱스를 초기화 해줄 수 있다.

In [57]:
df_concat = pd.concat([df, df_copy], sort=False)
df_concat

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [58]:
df_concat.reset_index()

Unnamed: 0,index,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


- **drop=True** 옵션

In [59]:
df_concat.reset_index(drop=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


#### 4.1.2. column 기준 합치기

column을 기준으로 합치고자 할 때는 **axis=1 옵션**을 부여

In [60]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [61]:
df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
3,뷔,3050,4
4,화사,4300,3
5,정국,2900,5
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4


In [62]:
pd.concat([df, df2], axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000,3
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500,3
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200,4
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,뷔,3050,4
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300,3
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,정국,2900,5
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400,6
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500,5
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200,4
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300,4


In [64]:
df3 = df2.drop([3,5])
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
4,화사,4300,3
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4
10,태연,3700,3
11,차은우,3850,5


행의 갯수가 맞지 않는 상태에서 column concat

In [65]:
pd.concat([df,df3],axis=1)   # index 기준 없는 값은 NaN으로 표시됨

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500.0,3.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500.0,5.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300.0,4.0


### 4.2. merge()

- concat과 merge는 단순 합치는 목적과 특정 기준(index)으로 합치느냐에 따라 용도가 다르다.
- concat: row나 column 기준으로 단순하게 이어 붙히기
- merge: 특정 고유한 키(unique id) 값을 기준으로 병합하기

In [66]:
df = pd.read_csv('data/korean-idol.csv')
df2= pd.read_csv('data/korean-idol-2.csv')

In [67]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [68]:
df2.head()

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
3,뷔,3050,4
4,화사,4300,3


- df와 df2는 **'이름' 이라는 column이 겹침** 
- '이름'을 기준으로 두 DataFrame을 **병합**할 수 있다.

**pd.merge(left, right, on='기준column', how='left')**

* left와 right는 병합할 두 DataFrame을 대입
* on 에는 병합의 기준이 되는 column명
* how 에는 'left', 'right', 'inner', 'outer' 라는 4가지의 병합 방식중 한가지를 택

#### 4.2.1. left, right 방식

In [69]:
df_right = df2.drop([1,3,5,7,9], axis=0)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,강다니엘,3200,4
4,화사,4300,3
6,민현,3400,6
8,진,4200,4
10,태연,3700,3
11,차은우,3850,5
12,백호,3900,4
13,JR,4100,3
14,슈가,4150,3


In [70]:
df_right = df_right.reset_index(drop=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [71]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [72]:
pd.concat([df, df_right],axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,강다니엘,3200.0,4.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,화사,4300.0,3.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,민현,3400.0,6.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,진,4200.0,4.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,태연,3700.0,3.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,차은우,3850.0,5.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,백호,3900.0,4.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,JR,4100.0,3.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,슈가,4150.0,3.0


- 병합할 2개의 DataFrame의 행의 갯수가 맞지 않다. 흔하게 생기는 경우.
- 'left' 옵션을 부여하면, left DataFrame에 키 값이 존재하면 해당 데이터를 유지하고, 병합한 right DataFrame의 값에 NaN이 대입

In [73]:
pd.merge(df, df_right, on='이름', how='left')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


- 'right' 옵션을 부여하면 right DataFrame을 기준으로 병합하게 됩니다.
- left DataFrame이 더 많은 데이터를 보유하고 있으니, right를 기준으로 병합하면 DataFrame 사이즈가 줄어듬

In [74]:
pd.merge(df, df_right, on='이름', how='right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,AB,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


#### 4.2.2. inner, outer 방식

* inner 방식은 두 DataFrame에 모두 키 값이 존재하는 경우만 병합 : 교집합
* outer 방식은 하나의 DataFrame에 키 값이 존재하는 경우 모두 병합 : 합집합
* outer 방식에서는 없는 값은 NaN으로 대입

In [75]:
pd.merge(df, df_right, on='이름', how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,AB,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


In [76]:
pd.merge(df, df_right, on='이름', how='outer')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


## 5. DataFrame의 type 다루기
- DataFrame은 여러가지 Series의 집합체
- 각 Series별로 type을 확인하는게 중요!!

### 5.1. type 확인하기

In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


* object: 일반 문자열 타입
* float: 실수
* int: 정수
* category: 카테고리
* datetime: 시간

### 5.2. type 변환하기

- df[컬럼명].dtypes : 타입을 알수 있다.
- **astype()** : type 변환 함수

- 키 column은 현재 float로 명시되어 있다.-> 정수형인 int type으로 변경하면?

In [78]:
df['키'].dtypes

dtype('float64')

In [80]:
# df['키'].astype(int)    >> NaN값이 있기 때문에 Error

- 키 값에 NaN 값이 들어있기 때문에 error!! -> fillna()

In [81]:
df['키'] = df['키'].fillna(-1)
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [82]:
df['키'].astype(int)

0     173
1     177
2     180
3     178
4     162
5     178
6     182
7      -1
8     179
9     167
10     -1
11    183
12    175
13    176
14    174
Name: 키, dtype: int32

In [83]:
df['키'].astype(object)

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: object

### 5.3. 날짜 변환하기 (datetime type)

- **to_datetime()**


In [84]:
df['생년월일']

0     1995-10-13
1     1988-08-18
2     1996-12-10
3     1995-12-30
4     1995-07-23
5     1997-09-01
6     1995-08-09
7     1998-08-26
8     1992-12-04
9     1994-03-22
10    1989-03-09
11    1997-03-30
12    1995-07-21
13    1995-06-08
14    1993-03-09
Name: 생년월일, dtype: object

In [86]:
df['생년월일'] = pd.to_datetime(df['생년월일'])
df['생년월일']

0    1995-10-13
1    1988-08-18
2    1996-12-10
3    1995-12-30
4    1995-07-23
5    1997-09-01
6    1995-08-09
7    1998-08-26
8    1992-12-04
9    1994-03-22
10   1989-03-09
11   1997-03-30
12   1995-07-21
13   1995-06-08
14   1993-03-09
Name: 생년월일, dtype: datetime64[ns]

- datetime type : 손쉽게, 월, 일, 요일 등등의 날짜 정보를 세부적으로 추출 가능
* datetime의 약어인 **'dt'**에는 다양한 정보들을 제공

In [87]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [88]:
df['생년월일'].dt   # datetime 자료형이기 때문에 '.dt'가 가능한 것

<pandas.core.indexes.accessors.DatetimeProperties object at 0x00000133F0E6F2E0>

In [89]:
df['생년월일'].dt.year

0     1995
1     1988
2     1996
3     1995
4     1995
5     1997
6     1995
7     1998
8     1992
9     1994
10    1989
11    1997
12    1995
13    1995
14    1993
Name: 생년월일, dtype: int64

In [90]:
df['생년월일'].dt.month

0     10
1      8
2     12
3     12
4      7
5      9
6      8
7      8
8     12
9      3
10     3
11     3
12     7
13     6
14     3
Name: 생년월일, dtype: int64

In [91]:
df['생년월일'].dt.day

0     13
1     18
2     10
3     30
4     23
5      1
6      9
7     26
8      4
9     22
10     9
11    30
12    21
13     8
14     9
Name: 생년월일, dtype: int64

**월요일: 0 화요일: 1, 수요일: 2, 목요일: 3, 금요일: 4, 토요일: 5, 일요일: 6**

In [92]:
df['생년월일'].dt.dayofweek

0     4
1     3
2     1
3     5
4     6
5     0
6     2
7     2
8     4
9     1
10    3
11    6
12    4
13    3
14    1
Name: 생년월일, dtype: int64

In [93]:
df['생년월일'].dt.weekofyear   # 1년을 기준으로 몇주째인지

  df['생년월일'].dt.weekofyear


0     41
1     33
2     50
3     52
4     29
5     36
6     32
7     35
8     49
9     12
10    10
11    13
12    29
13    23
14    10
Name: 생년월일, dtype: int64

In [95]:
df['생일_년'] = df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,생일_년,생일_월,생일_일
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1995,10,13
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1988,8,18
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1996,12,10
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1995,12,30
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,1995,7,23


In [97]:
df.groupby(['생일_년'])[['키','브랜드평판지수']].mean()

Unnamed: 0_level_0,키,브랜드평판지수
생일_년,Unnamed: 1_level_1,Unnamed: 2_level_1
1988,177.0,9916947
1989,-1.0,3918661
1992,179.2,4570308
1993,174.0,2925442
1994,167.1,4036489
1995,174.5,6302212
1996,180.0,8273745
1997,180.5,4357181
1998,-1.0,4668615


### 5.4. category 자료형
- 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용. 
- 예: 남자/여자, 10대/20대/30대/40대..., 
- object type보다 용량과 속도면에서 효율적

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [5]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [7]:
df['성별'] = df['성별'].astype('category')

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   이름       15 non-null     object  
 1   그룹       14 non-null     object  
 2   소속사      15 non-null     object  
 3   성별       15 non-null     category
 4   생년월일     15 non-null     object  
 5   키        13 non-null     float64 
 6   혈액형      15 non-null     object  
 7   브랜드평판지수  15 non-null     int64   
dtypes: category(1), float64(1), int64(1), object(5)
memory usage: 1.1+ KB
