In [1]:
import pandas as pd
import numpy as np

# 1. DataFrame의 산술연산

**예제 DataFrame 생성**

In [2]:
df = pd.DataFrame({'프로그래밍': [60, 70, 80, 85, 75], 
                   '자료구조': [50, 55, 80, 100, 95], 
                   '데이터베이스': [70, 65, 50, 95, 100] })
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


## 1.1. Column 과 Column 간 연산 (+, -, *, /, %)

In [3]:
type(df['프로그래밍'])

pandas.core.series.Series

In [4]:
df['프로그래밍']+df['자료구조']+df['데이터베이스']

0    180
1    190
2    210
3    280
4    270
dtype: int64

In [5]:
df['프로그래밍']-df['자료구조']-df['데이터베이스']

0    -60
1    -50
2    -50
3   -110
4   -120
dtype: int64

In [6]:
df['프로그래밍']*df['자료구조']*df['데이터베이스']

0    210000
1    250250
2    320000
3    807500
4    712500
dtype: int64

In [7]:
df['프로그래밍']/df['자료구조']/df['데이터베이스']

0    0.017143
1    0.019580
2    0.020000
3    0.008947
4    0.007895
dtype: float64

## 1.2. Column 과 숫자 간 연산 (+, -, *, /, %)
- numpy broadcating 상수 연산

In [8]:
df['프로그래밍']+10

0    70
1    80
2    90
3    95
4    85
Name: 프로그래밍, dtype: int64

In [9]:
df['프로그래밍']-10

0    50
1    60
2    70
3    75
4    65
Name: 프로그래밍, dtype: int64

In [10]:
df['프로그래밍']*10

0    600
1    700
2    800
3    850
4    750
Name: 프로그래밍, dtype: int64

In [11]:
df['프로그래밍']/10

0    6.0
1    7.0
2    8.0
3    8.5
4    7.5
Name: 프로그래밍, dtype: float64

In [12]:
df['프로그래밍']%10

0    0
1    0
2    0
3    5
4    5
Name: 프로그래밍, dtype: int64

## 1.3. 복합 연산

In [13]:
df = pd.DataFrame({'프로그래밍': [60, 70, 80, 85, 75], 
                   '자료구조': [50, 55, 80, 100, 95], 
                   '데이터베이스': [70, 65, 50, 95, 100] })
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


In [14]:
df['프/자 합계'] = df['프로그래밍']+df['자료구조']+10
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스,프/자 합계
0,60,50,70,120
1,70,55,65,135
2,80,80,50,170
3,85,100,95,195
4,75,95,100,180


In [15]:
df['프로그래밍']+df['자료구조']-df['데이터베이스']

0     40
1     60
2    110
3     90
4     70
dtype: int64

## 1.4. mean(), sum()을 axis 기준으로 연산

In [16]:
df = pd.DataFrame({'프로그래밍': [60, 70, 80, 85, 75], 
                   '자료구조': [50, 55, 80, 100, 95], 
                   '데이터베이스': [70, 65, 50, 95, 100] })
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


In [18]:
df.sum()
# =df.sum(axis=0)

프로그래밍     370
자료구조      380
데이터베이스    380
dtype: int64

In [19]:
df.sum(axis=1)

0    180
1    190
2    210
3    280
4    270
dtype: int64

In [20]:
df.mean(axis=1)

0    60.000000
1    63.333333
2    70.000000
3    93.333333
4    90.000000
dtype: float64

## 1.5. NaN 값이 존재할 경우 연산
- 산술연산시 Nan값이 하나라도 있으면 결과도 Nan!!

In [22]:
df = pd.DataFrame({'프로그래밍': [60, 70, np.nan, 85, 75], 
                   '자료구조': [50, 55, 80, np.nan, 95], 
                   '데이터베이스': [70, np.nan, 50, 95, 100] })
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,60.0,50.0,70.0
1,70.0,55.0,
2,,80.0,50.0
3,85.0,,95.0
4,75.0,95.0,100.0


In [25]:
df['프로그래밍']/10

0    6.0
1    7.0
2    NaN
3    8.5
4    7.5
Name: 프로그래밍, dtype: float64

In [23]:
df['프로그래밍']/np.nan

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
Name: 프로그래밍, dtype: float64

In [24]:
np.nan/df['프로그래밍']

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
Name: 프로그래밍, dtype: float64

## 1.6. DataFrame 과 DataFrame 간 연산

In [26]:
df = pd.DataFrame({'프로그래밍': [60, 70, np.nan, 85, 75], 
                   '자료구조': [50, 55, 80, np.nan, 95], 
                   '데이터베이스': [70, np.nan, 50, 95, 100] })
df

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,60.0,50.0,70.0
1,70.0,55.0,
2,,80.0,50.0
3,85.0,,95.0
4,75.0,95.0,100.0


In [28]:
df2 = pd.DataFrame({'프로그래밍': ['good', 'bad', 'ok', 'good', 'ok'], 
                   '자료구조': [50, 55, 80, 100, 95], 
                   '데이터베이스': [70, 65, 50, 95, 100] })
df2

Unnamed: 0,프로그래밍,자료구조,데이터베이스
0,good,50,70
1,bad,55,65
2,ok,80,50
3,good,100,95
4,ok,95,100


**문자열이 포함된 DataFrame의 경우**

In [30]:
#error!!
#df1 + df2

column의 순서가 바뀌어 있는 경우

In [40]:
df1 = pd.DataFrame({'자료구조': [10, 20, 30, 40, 50], '프로그래밍':[60, 70, 80, 90, 100] })
df2 = pd.DataFrame({'프로그래밍': [10, 20, 30, 40, 50], '자료구조': [60, 70, 80, 90, 100] })

In [32]:
df1

Unnamed: 0,자료구조,프로그래밍
0,10,60
1,20,70
2,30,80
3,40,90
4,50,100


In [33]:
df2

Unnamed: 0,프로그래밍,자료구조
0,10,60
1,20,70
2,30,80
3,40,90
4,50,100


In [41]:
df1 + df2

Unnamed: 0,자료구조,프로그래밍
0,70,70
1,90,90
2,110,110
3,130,130
4,150,150


**행의 갯수가 다른경우**

In [36]:
df1 = pd.DataFrame({'자료구조': [10, 20, 30, 40, 50, 60], '프로그래밍':[60, 70, 80, 90, 100, 110] })
df2 = pd.DataFrame({'프로그래밍': [10, 20, 30, 40, 50], '자료구조': [60, 70, 80, 90, 100] })

In [37]:
df1*df2

Unnamed: 0,자료구조,프로그래밍
0,600.0,600.0
1,1400.0,1400.0
2,2400.0,2400.0
3,3600.0,3600.0
4,5000.0,5000.0
5,,


# 2. Series 나 DataFrame에 좀 더 구체적인 로직을 적용하는 함수

## 2.1. apply()

- Series나 DataFrame에 좀 더 **구체적인 로직**을 적용하고 싶은 경우 활용
- apply를 적용하기 위해서는 함수가 먼저 정의되어야 한다.
- apply는 정의한 로직 함수를 인자로 넘겨준다.

In [90]:
df = pd.read_csv('data/korean-idol.csv')
df_rain = pd.read_csv('data/rain.csv')

In [44]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


**실습1)남자/ 여자의 문자열 데이터로 구성된 '성별' column을 1 / 0 으로 바꾸기**

- 남자: 1 / 여자: 0 / 기타: -1
- **df.apply(함수)** : 함수는 반드시 return 값이 존재

In [45]:
df.loc[df['성별'] == '남자','성별']

0     남자
1     남자
2     남자
3     남자
5     남자
6     남자
8     남자
9     남자
11    남자
12    남자
13    남자
14    남자
Name: 성별, dtype: object

In [47]:
df.loc[df['성별']=='남자','성별'] = 1
df.loc[df['성별']=='여자','성별'] = 0
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,1,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,1,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,1,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,1,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,0,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,1,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,1,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,0,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,1,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,1,1994-03-22,167.1,A,4036489


In [50]:
df = pd.read_csv('data/korean-idol.csv')
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [51]:
# apply에 활용할 함수정의

def male_or_female(x):
    if x == '남자' : return 1
    else : return 0
    

In [53]:
df['성별'].apply(male_or_female)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [54]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [55]:
df['성별_new'] = df['성별'].apply(male_or_female)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성별_new
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


**실습2) 키의 cm당 브랜드 평판지수를 구하기 (브랜드평판지수/ 키)**

키: 178
브랜드평판지수: 99000

값: 99000 / 178

In [57]:
def cm_to_brand(df):
    value = df['브랜드평판지수']/df['키']
    return value

In [58]:
df.apply(cm_to_brand, axis=1)   
# axis=1 : 컬럼은 고정되어 있고 행이 바껴서 들어가야 하기 때문에 

0     60617.857143
1     56027.949153
2     45965.250000
3     45356.747191
4     47198.815546
5     29260.308989
6     27371.321997
7              NaN
8     25503.950893
9     24156.128067
10             NaN
11    19158.617486
12    18866.594286
13    18603.051136
14    16812.885057
dtype: float64

**연습문제1) df_rain.csv 에서 apply()를 활용하여 아래와 같은 df_rain을 출력하시오.**
- rainRate() 생성 하여 apply()에 적용
- rainRage() : 강수확률이 >50 : high / <=50 : low / -1 : column 값 그대로 리턴
- apply() 호출전에 fillna(-1)을 이용해서 결측값 처리를 한다. 

In [5]:
#출력양식

Unnamed: 0,지역,요일,강수량,강수확률,강수확률_new
0,서울,월요일,100.0,80.0,high
1,서울,화요일,80.0,70.0,high
2,서울,수요일,1000.0,90.0,high
3,경기,월요일,200.0,10.0,low
4,경기,화요일,200.0,20.0,low
5,부산,월요일,100.0,-1.0,-1
6,서울,목요일,50.0,50.0,low
7,서울,금요일,,90.0,high
8,부산,화요일,200.0,20.0,low
9,경기,수요일,100.0,80.0,high


In [71]:
def rainRage(x):
    if x==-1 : return x
    elif x > 50 : return 'high'
    else : return 'low'

    
df_rain['강수확률'] =df_rain['강수확률'].fillna(-1)
df_rain['강수확률_new']=df_rain['강수확률'].apply(rainRage)
df_rain

Unnamed: 0,지역,요일,강수량,강수확률,강수확률_new
0,서울,월요일,100.0,80.0,high
1,서울,화요일,80.0,70.0,high
2,서울,수요일,1000.0,90.0,high
3,경기,월요일,200.0,10.0,low
4,경기,화요일,200.0,20.0,low
5,부산,월요일,100.0,-1.0,-1.0
6,서울,목요일,50.0,50.0,low
7,서울,금요일,,90.0,high
8,부산,화요일,200.0,20.0,low
9,경기,수요일,100.0,80.0,high


## 2.2. lambda() 적용

* lambda는 1줄로 작성하는 간단 함수식입니다.
* return을 별도로 명기하지 않습니다

In [72]:
f = lambda x : 1 if x == '남자' else 0
df['성별'].apply(f)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

- 실제로는 **간단한 계산식을 적용하려는 경우에 많이 사용**
- df에서 '키/2' column에 키/2 한값을 넣고 싶다면??

In [76]:
df['키/2'] = df['키'].apply(lambda x : x/2)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,키/2
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,86.8
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,88.5
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,90.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,89.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,81.05


In [77]:
df['키/2'] = df['키'].apply(lambda x : x**2)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,키/2
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,30136.96
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,31329.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,32400.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,31684.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,26276.41


apply에 함수식을 만들어서 적용해주는 것과 동일하기 때문에, **복잡한 조건식은 함수**로 **간단한 계산식은 lambda로 적용**할 수 있다.

**연습문제2) df_rain에서 '강수량'과 '강수량'평균값의 차이를 구하시오.**
- apply()를 이용하고 함수는 lambda 함수를 적용할것.
- 차이는 절대값으로 나타낼것

In [6]:
#출력결과

0      98.181818
1     118.181818
2     801.818182
3       1.818182
4       1.818182
5      98.181818
6     148.181818
7            NaN
8       1.818182
9      98.181818
10    148.181818
11     98.181818
Name: 강수량, dtype: float64

In [86]:
df_rain.head()

Unnamed: 0,지역,요일,강수량,강수확률
0,서울,월요일,100.0,80.0
1,서울,화요일,80.0,70.0
2,서울,수요일,1000.0,90.0
3,경기,월요일,200.0,10.0
4,경기,화요일,200.0,20.0


In [81]:
f = df_rain['강수량'].apply(lambda x : abs(x - df_rain['강수량'].mean()))
f

0      98.181818
1     118.181818
2     801.818182
3       1.818182
4       1.818182
5      98.181818
6     148.181818
7            NaN
8       1.818182
9      98.181818
10    148.181818
11     98.181818
Name: 강수량, dtype: float64

In [87]:
df_rain['차이'] = df_rain['강수량'].apply(lambda x : abs(x - df_rain['강수량'].mean()))
df_rain.head()

Unnamed: 0,지역,요일,강수량,강수확률,차이
0,서울,월요일,100.0,80.0,98.181818
1,서울,화요일,80.0,70.0,118.181818
2,서울,수요일,1000.0,90.0,801.818182
3,경기,월요일,200.0,10.0,1.818182
4,경기,화요일,200.0,20.0,1.818182


## 2.3. map()
- Series type에서만 사용
- **df[column].map(dict)**

In [91]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [92]:
gender = {
    '남자' : 1,
    '여자' : 0
}

In [93]:
df['성별'].map(gender)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [94]:
gender = {
    '남자' : 'male',
    '여자' : 'female'
}

In [95]:
df['성별'].map(gender)

0       male
1       male
2       male
3       male
4     female
5       male
6       male
7     female
8       male
9       male
10    female
11      male
12      male
13      male
14      male
Name: 성별, dtype: object

## 2.4. select_dtype() : 데이터 타입별 column 선택
- df.select_dtypes(**include**='object') : object type만
- df.select_dtypes(**exclude**='object') : object type을 배제하고

In [96]:
df = pd.read_csv('data/korean-idol.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


**문자열이 있는 column 만 선택**

In [97]:
df.select_dtypes(include='object')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


In [98]:
df.select_dtypes(exclude='object') 

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


문자열이 포함된 DataFrame의 연산으로 발생되는 Error를 피하기 위해서는...

In [100]:
#df + 10

In [101]:
df.select_dtypes(exclude='object')+10

Unnamed: 0,키,브랜드평판지수
0,183.6,10523270
1,187.0,9916957
2,190.0,8273755
3,188.0,8073511
4,172.1,7650938
5,188.0,5208345
6,192.3,4989802
7,,4668625
8,189.2,4570318
9,177.1,4036499


In [104]:
num_cols = df.select_dtypes(exclude='object').columns
num_cols

Index(['키', '브랜드평판지수'], dtype='object')

In [106]:
obj_cols = df.select_dtypes(include='object').columns
obj_cols

Index(['이름', '그룹', '소속사', '성별', '생년월일', '혈액형'], dtype='object')

## 2.5. 원핫인코딩 (One-hot-encoding)

- 원핫인코딩은 한개의 요소는 True 그리고 나머지 요소는 False로 만들어 주는 기법
- 연산이 힘든 데이터들을 연산가능하도록 처리하는 기법
- 해당 범주에 해당하면 1 아니면 0으로 채우는 기법

In [107]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


**pd.get_dummies(df)**
- object type의 모든 범주들을 column으로 생성

In [109]:
pd.get_dummies(df)

Unnamed: 0,키,브랜드평판지수,이름_JR,이름_강다니엘,이름_민현,이름_백호,이름_뷔,이름_소연,이름_슈가,이름_정국,...,생년월일_1995-10-13,생년월일_1995-12-30,생년월일_1996-12-10,생년월일_1997-03-30,생년월일_1997-09-01,생년월일_1998-08-26,혈액형_A,혈액형_AB,혈액형_B,혈액형_O
0,173.6,10523260,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,1,0,0,0
1,177.0,9916947,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
2,180.0,8273745,0,1,0,0,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
3,178.0,8073501,0,0,0,0,1,0,0,0,...,0,1,0,0,0,0,0,1,0,0
4,162.1,7650928,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
5,178.0,5208335,0,0,0,0,0,0,0,1,...,0,0,0,0,1,0,1,0,0,0
6,182.3,4989792,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
7,,4668615,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,1,0
8,179.2,4570308,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
9,167.1,4036489,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


**특정 column만 만들고 싶다면?**

In [110]:
pd.get_dummies(df, columns=['혈액형', '성별'])

Unnamed: 0,이름,그룹,소속사,생년월일,키,브랜드평판지수,혈액형_A,혈액형_AB,혈액형_B,혈액형_O,성별_남자,성별_여자
0,지민,방탄소년단,빅히트,1995-10-13,173.6,10523260,1,0,0,0,1,0
1,지드래곤,빅뱅,YG,1988-08-18,177.0,9916947,1,0,0,0,1,0
2,강다니엘,,커넥트,1996-12-10,180.0,8273745,1,0,0,0,1,0
3,뷔,방탄소년단,빅히트,1995-12-30,178.0,8073501,0,1,0,0,1,0
4,화사,마마무,RBW,1995-07-23,162.1,7650928,1,0,0,0,0,1
5,정국,방탄소년단,빅히트,1997-09-01,178.0,5208335,1,0,0,0,1,0
6,민현,뉴이스트,플레디스,1995-08-09,182.3,4989792,0,0,0,1,1,0
7,소연,아이들,큐브,1998-08-26,,4668615,0,0,1,0,0,1
8,진,방탄소년단,빅히트,1992-12-04,179.2,4570308,0,0,0,1,1,0
9,하성운,핫샷,스타크루이엔티,1994-03-22,167.1,4036489,1,0,0,0,1,0


**drop_first 옵션**

In [111]:
pd.get_dummies(df, columns=['혈액형', '성별'],drop_first=True)

Unnamed: 0,이름,그룹,소속사,생년월일,키,브랜드평판지수,혈액형_AB,혈액형_B,혈액형_O,성별_여자
0,지민,방탄소년단,빅히트,1995-10-13,173.6,10523260,0,0,0,0
1,지드래곤,빅뱅,YG,1988-08-18,177.0,9916947,0,0,0,0
2,강다니엘,,커넥트,1996-12-10,180.0,8273745,0,0,0,0
3,뷔,방탄소년단,빅히트,1995-12-30,178.0,8073501,1,0,0,0
4,화사,마마무,RBW,1995-07-23,162.1,7650928,0,0,0,1
5,정국,방탄소년단,빅히트,1997-09-01,178.0,5208335,0,0,0,0
6,민현,뉴이스트,플레디스,1995-08-09,182.3,4989792,0,0,1,0
7,소연,아이들,큐브,1998-08-26,,4668615,0,1,0,1
8,진,방탄소년단,빅히트,1992-12-04,179.2,4570308,0,0,1,0
9,하성운,핫샷,스타크루이엔티,1994-03-22,167.1,4036489,0,0,0,0
