# Make New Columns
## assign으로 새로운 컬럼 만들기, qcut으로 binning, bucketing하기
- 기존의 컬럼에 새로운 컬럼을 추가해보자

In [5]:
import pandas as pd
import numpy as np

In [2]:
# 비어있는 dataframe을 하나 만들기
df = pd.DataFrame([])
df

In [3]:
df.assign?

In [8]:
# 도움말에 있는 df을 가져오기
df = pd.DataFrame({'A': range(1, 11), 'B': np.random.randn(10)})
df

Unnamed: 0,A,B
0,1,-0.157497
1,2,-0.567013
2,3,0.630731
3,4,0.388622
4,5,-0.613625
5,6,-2.213148
6,7,-1.205489
7,8,0.013469
8,9,1.618282
9,10,-1.087442


## df.assign(Area=lambda df: df.Length*df.Height)
### df라는 데이터프레임에 length, height라는 컬럼의 값을 곱해서 면적이라는 컬럼을 새로 만들어주라는 의미.
### 근데 df에 length, height라는 컬럼이 없으니 다른 예제를 해보자


In [10]:
# 새로운 컬럼에 ln_A 컬럼을 추가해줘보자 
df.assign(ln_A = lambda x: np.log(x.A)).head()

Unnamed: 0,A,B,ln_A
0,1,-0.157497,0.0
1,2,-0.567013,0.693147
2,3,0.630731,1.098612
3,4,0.388622,1.386294
4,5,-0.613625,1.609438


In [11]:
df

Unnamed: 0,A,B
0,1,-0.157497
1,2,-0.567013
2,3,0.630731
3,4,0.388622
4,5,-0.613625
5,6,-2.213148
6,7,-1.205489
7,8,0.013469
8,9,1.618282
9,10,-1.087442


## df['Volume'] = df.Length*df.Height*df.Depth
### df에 ln_A라는 컬럼을 만들어줘보자. 
### np.log(x.A)를 넣어줄 수도 있지만 위에서는 익명함수lambda를 통해 x로 값을 받았기에 여기서는 df의 A컬럼을 받을 것이므로 np.log(df.A)라고 해준다.

In [13]:
df["ln_A"] = np.log(df.A)  # df.ln_A = np.log(df.A) 로 해도 똑같다.
df

Unnamed: 0,A,B,ln_A
0,1,-0.157497,0.0
1,2,-0.567013,0.693147
2,3,0.630731,1.098612
3,4,0.388622,1.386294
4,5,-0.613625,1.609438
5,6,-2.213148,1.791759
6,7,-1.205489,1.94591
7,8,0.013469,2.079442
8,9,1.618282,2.197225
9,10,-1.087442,2.302585


## pd.qcut(df.col, n, labels=False)
- n개의 bucket수만큼 bin column을 만들어주라는 의미
- 숫자형 데이터를 카테고리컬한 데이터로 변환해줄 때 사용한다

In [14]:
pd.qcut?

In [16]:
# 도움말의 예시
pd.qcut(range(5), 3, labels = ["good", "medium", "bad"])

[good, good, medium, bad, bad]
Categories (3, object): [good < medium < bad]

In [17]:
# df의 A값을 가져와서 3개의 구간으로 나눈 것.
pd.qcut(df.A, 3, labels = ["good", "medium", "bad"])

0      good
1      good
2      good
3      good
4    medium
5    medium
6    medium
7       bad
8       bad
9       bad
Name: A, dtype: category
Categories (3, object): [good < medium < bad]

In [20]:
# df의 B값을 가져와서 3개의 구간으로 나눈 것.
pd.qcut(df.B, 3, labels = ["good", "medium", "bad"])

0    medium
1    medium
2       bad
3       bad
4      good
5      good
6      good
7    medium
8       bad
9      good
Name: B, dtype: category
Categories (3, object): [good < medium < bad]

In [21]:
# 2개의 구간으로 나누고싶다면? good과 bad로.
pd.qcut(df.B, 2, labels = ["good", "bad"])

0     bad
1    good
2     bad
3     bad
4    good
5    good
6    good
7     bad
8     bad
9    good
Name: B, dtype: category
Categories (2, object): [good < bad]

## max(axis = 1)
- axis = 1을 할 경우, 각 열(컬럼)에서의 최댓값을 가져와준다.
- axis = 0을 할 경우, 각 행(로우)에서의 최댓값을 가져와준다.

In [22]:
# 열에서 가장 큰 값
df.max(axis = 1)

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
dtype: float64

In [23]:
# 행에서 가장 큰 값
df.max(axis = 0)

A       10.000000
B        1.618282
ln_A     2.302585
dtype: float64

In [None]:
# 행에서 가장 작은 값
df.min(axis = 0)

## clip(lower = -10, upper = 10)
- 임계치를 지정하여 값을 trim시켜준다.

In [24]:
# A컬럼에서 값을 -10에서 10까지 trim해준다. 
df["A"].clip(lower = -10, upper = 10)

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: A, dtype: int64

In [25]:
df["A"].clip(lower = 2, upper = 5)

0    2
1    2
2    3
3    4
4    5
5    5
6    5
7    5
8    5
9    5
Name: A, dtype: int64

In [26]:
df["B"].clip(lower = 1, upper = 3)

0    1.000000
1    1.000000
2    1.000000
3    1.000000
4    1.000000
5    1.000000
6    1.000000
7    1.000000
8    1.618282
9    1.000000
Name: B, dtype: float64

## abs()
- absolute value
- 값에 절대값을 씌워준다.

In [27]:
df.abs

<bound method NDFrame.abs of     A         B      ln_A
0   1 -0.157497  0.000000
1   2 -0.567013  0.693147
2   3  0.630731  1.098612
3   4  0.388622  1.386294
4   5 -0.613625  1.609438
5   6 -2.213148  1.791759
6   7 -1.205489  1.945910
7   8  0.013469  2.079442
8   9  1.618282  2.197225
9  10 -1.087442  2.302585>

In [29]:
df["B"]

0   -0.157497
1   -0.567013
2    0.630731
3    0.388622
4   -0.613625
5   -2.213148
6   -1.205489
7    0.013469
8    1.618282
9   -1.087442
Name: B, dtype: float64

In [28]:
# B컬럼에 절대값씌워주기
df["B"].abs()

0    0.157497
1    0.567013
2    0.630731
3    0.388622
4    0.613625
5    2.213148
6    1.205489
7    0.013469
8    1.618282
9    1.087442
Name: B, dtype: float64