* 영상링크 : https://youtu.be/CGEhwAd7Dbk

1. 실습 데이터 생성
실습을 위해 A 컬럼(1~10까지의 숫자)과 B 컬럼(랜덤한 숫자)을 가진 데이터프레임을 만듭니다.

In [6]:
import pandas as pd
import numpy as np

In [None]:
# 1. 예제 데이터프레임 생성
# A: 1부터 10까지 정수
# B: 표준정규분포(평균 0, 표준편차 1)를 따르는 난수 10개
df = pd.DataFrame({'A': range(1, 11), 'B': np.random.randn(10)})
df

Unnamed: 0,A,B
0,1,2.052028
1,2,1.710044
2,3,-1.174701
3,4,0.23434
4,5,-1.025556
5,6,-0.091295
6,7,-2.052226
7,8,-0.233776
8,9,-0.7837
9,10,-1.13191


2. 컬럼 생성 방법 1: assign() 메서드
assign()은 원본 데이터를 건드리지 않고, 새로운 컬럼이 추가된 새로운 데이터프레임을 반환합니다. 체이닝(Chaining) 기법을 쓸 때 유용합니다.

In [None]:
# assign() 도움말 확인 (사용법 궁금할 때)
df.assign?

In [None]:
# A 컬럼에 자연로그(np.log)를 취한 값을 'ln_A'라는 새 컬럼으로 만듭니다.
# lambda 함수를 사용하여 x(현재 df)의 A 컬럼에 접근합니다.
# 주의: 이 코드는 원본 df를 바꾸지 않고, 결과만 보여줍니다.
df.assign(ln_A = lambda x: np.log(x.A)).head()

Unnamed: 0,A,B,ln_A
0,1,2.052028,0.0
1,2,1.710044,0.693147
2,3,-1.174701,1.098612
3,4,0.23434,1.386294
4,5,-1.025556,1.609438


3. 컬럼 생성 방법 2: 직접 할당
가장 직관적이고 많이 쓰는 방법입니다. df['새컬럼명'] = 값 형태로 사용합니다.

In [None]:
# 'A' 컬럼에 로그를 취한 값을 'ln_A'라는 컬럼으로 원본 df에 직접 추가합니다.
# 이 방식은 원본 데이터프레임(df) 자체가 변경됩니다.
df.ln_A = np.log(df.A) # 또는 df['ln_A'] = np.log(df['A']) 가 더 권장되는 문법입니다.
df

Unnamed: 0,A,B,ln_A
0,1,2.052028,0.0
1,2,1.710044,0.693147
2,3,-1.174701,1.098612
3,4,0.23434,1.386294
4,5,-1.025556,1.609438
5,6,-0.091295,1.791759
6,7,-2.052226,1.94591
7,8,-0.233776,2.079442
8,9,-0.7837,2.197225
9,10,-1.13191,2.302585


4. 수치형 데이터를 범주형 구간으로 나누기 (qcut)
연속된 숫자를 "상/중/하" 또는 "좋음/나쁨" 같은 구간(Category)으로 나눌 때 사용합니다.

In [None]:
# B 컬럼의 값을 크기순으로 2개의 구간(q=2)으로 나눕니다.
# 값이 작은 구간은 "good", 큰 구간은 "bad"라는 라벨을 붙입니다.
# (통계적으로 50%씩 나누는 분위수 기반입니다)
pd.qcut(df.B, 2, labels=["good", "bad"])

0     bad
1     bad
2    good
3     bad
4    good
5     bad
6    good
7     bad
8    good
9    good
Name: B, dtype: category
Categories (2, object): [good < bad]

5. 통계값 계산 (Max, Min)
데이터프레임 전체 또는 특정 축(axis)에 대한 최대/최소를 구합니다.

In [None]:
# 1. 각 컬럼별 최댓값(max) 구하기
# axis=0 : '열(세로)' 방향으로 계산하여 각 컬럼의 최댓값을 찾습니다.
df.max(axis=0)

A       10.000000
B        2.052028
ln_A     2.302585
dtype: float64

In [None]:
# 2. 각 컬럼별 최솟값(min) 구하기
df.min(axis=0)

A       1.000000
B      -2.052226
ln_A    0.000000
dtype: float64

6. 값의 범위 제한하기 (clip)
데이터가 너무 크거나 작을 때, 상한선과 하한선을 정해서 값을 잘라냅니다. 이상치(Outlier) 처리에 유용합니다.

In [None]:
# B 컬럼의 값을 최소 1, 최대 3 사이로 제한합니다.
# 1보다 작은 값은 모두 1로 바뀌고, 3보다 큰 값은 3으로 바뀝니다.
# (예: -2.05 -> 1.0, 5.2 -> 3.0)
df["B"].clip(lower=1,upper=3)

0    2.052028
1    1.710044
2    1.000000
3    1.000000
4    1.000000
5    1.000000
6    1.000000
7    1.000000
8    1.000000
9    1.000000
Name: B, dtype: float64

7. 절대값 구하기 (abs)
음수를 모두 양수로 바꿉니다.

In [None]:
# B 컬럼의 모든 값에 절댓값(absolute value)을 취합니다.
# (예: -1.17 -> 1.17)
df["B"].abs()

0    2.052028
1    1.710044
2    1.174701
3    0.234340
4    1.025556
5    0.091295
6    2.052226
7    0.233776
8    0.783700
9    1.131910
Name: B, dtype: float64