In [1]:
import pandas as pd

# Pandas 함수 적용 (apply, lambda, map)

DataFrame에 사용자 정의 함수를 적용하는 방법을 학습합니다.

**학습 목표:**
- `apply()`로 사용자 정의 함수 적용
- `lambda` 함수를 활용한 간단한 연산
- `map()`으로 딕셔너리 기반 값 매핑
- Series와 DataFrame에 함수 적용하기

---

## 실습에 사용할 예제 파일

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## 데이터프레임 로드

In [2]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

## 1. apply

In [3]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


apply는 Series나 DataFrame에 좀 더 **구체적인 로직**을 적용하고 싶은 경우 활용합니다.

* apply를 적용하기 위해서는 함수가 먼저 정의되어야합니다.
* apply는 정의한 로직 함수를 인자로 넘겨줍니다.



In [None]:
df.loc[df['성별'] == '남자', '성별'] = 1
df.loc[df['성별'] == '여자', '성별'] = 0

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,1,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,1,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,1,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,1,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,0,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,1,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,1,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,0,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,1,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,1,1994-03-22,167.1,A,4036489


### 1-1. (목표) 남자/ 여자의 문자열 데이터로 구성된 '성별' column을 1 / 0 으로 바꿔보세요

In [None]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


남자: 1
여자: 0
기타: -1

**[주의] 반드시 return 값이 존재**하여야합니다.

In [6]:
# 먼저 apply에 활용할 함수를 정의합니다.
#파이썬 일반함수를 만들어준다.
def male_or_female(x):
    if x == '남자':
        return 1
    elif x == '여자':
        return 0

In [7]:
 #pandas에서는 series데이터를 전달하면 apply함수는 값을 하나씩 male-or-female함수로 전달
df['성별_NEW'] = df['성별'].apply(male_or_female)

In [None]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성별_NEW
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


### 1-2. (목표) cm당 브랜드 평판지수를 구해보세요 (브랜드평판지수/ 키)

키: 178
브랜드평판지수: 99000

값: 99000 / 178

In [8]:
# 먼저 apply에 활용할 함수를 정의합니다.
def cm_to_brand(df):
    value = df['브랜드평판지수'] / df['키']
    return value

In [9]:
# apply를 통해 cm_to_brand함수의 입력으로 df 데이터프레임 전체를 전달한다.
# df를 전달할때는 axis=1이어야 한다.
df.apply(cm_to_brand, axis=1)

Unnamed: 0,0
0,60617.857143
1,56027.949153
2,45965.25
3,45356.747191
4,47198.815546
5,29260.308989
6,27371.321997
7,
8,25503.950893
9,24156.128067


apply함수를 이해
[연습문제2] '키'컬럼의 값이 현재 float64로 되어 있는데 proc함수를 만들어서 int로 데이터 형변환 astype()를 사용하여 새로운 컬럼 '키_int'를 추가하기

In [12]:
# '키' 컬럼의 평균값을 계산합니다.
mean_height_for_fill = df['키'].mean()

# 결측치를 평균값으로 채우는 함수를 정의합니다.
def fill_nan_with_mean(height):
    if pd.isna(height):
        return mean_height_for_fill
    return height

# apply()를 사용하여 '키' 컬럼에 fill_nan_with_mean 함수를 적용하고 '키_filled' 컬럼을 생성합니다.
df['키_filled'] = df['키'].apply(fill_nan_with_mean)

# 변경된 DataFrame의 상위 5행과 '키_filled' 컬럼을 출력하여 확인합니다.
display(df[['키', '키_filled']].head())

Unnamed: 0,키,키_filled
0,173.6,173.6
1,177.0,177.0
2,180.0,180.0
3,178.0,178.0
4,162.1,162.1


In [10]:
import numpy as np

# '키' 컬럼의 평균값을 계산합니다. (NaN 값 제외)
mean_height = df['키'].mean()

# proc 함수를 정의합니다.
def proc_convert_height_to_int(height):
    # 결측치(NaN)가 있으면 평균값으로 채우고 정수형으로 변환합니다.
    if pd.isna(height):
        return int(mean_height)
    # 아니면 현재 값을 정수형으로 변환합니다.
    return int(height)

# apply()를 사용하여 '키' 컬럼에 proc_convert_height_to_int 함수를 적용하고 '키_int' 컬럼을 생성합니다.
df['키_int'] = df['키'].apply(proc_convert_height_to_int)

In [11]:
# 변경된 DataFrame의 상위 5행을 출력하여 '키_int' 컬럼을 확인합니다.
display(df.head())

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성별_NEW,키_int
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1,173
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1,177
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1,180
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1,178
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0,162


### astype() 함수 사용에 대한 참고

`astype()`은 주로 Series나 DataFrame 전체의 데이터 타입을 변경할 때 사용하는 pandas 메서드입니다. 예를 들어 `df['키'].astype(int)`와 같이 사용됩니다.

그러나 `apply()` 메서드가 Series의 각 요소를 개별적으로 함수에 전달할 때는 파이썬의 기본 타입 변환 함수인 `int()`를 사용해야 합니다. `proc_convert_height_to_int` 함수 내에서 `int(height)`를 사용한 것은 이러한 이유 때문입니다. 만약 `astype()`을 사용하려면 `pd.Series([height]).astype(int).iloc[0]`와 같이 임시 Series를 만들어서 적용할 수 있지만, 이는 비효율적입니다.

연습문제 1] '키'컬럼에서 결측치가 있으면 결측치를 평균값으로 채워주는 작업 apply함수를 사용해서 구현

In [13]:
# 각 컬럼의 결측치 개수를 확인합니다.
missing_values = df.isnull().sum()

# 결측치가 있는 컬럼만 필터링하여 출력합니다.
missing_values_exist = missing_values[missing_values > 0]

if not missing_values_exist.empty:
    print("결측치가 있는 컬럼:")
    display(missing_values_exist)
else:
    print("결측치가 있는 컬럼이 없습니다.")

결측치가 있는 컬럼:


Unnamed: 0,0
그룹,1
키,2


## 2. lambda 함수의 적용

* lambda는 1줄로 작성하는 간단 함수식입니다.
* return을 별도로 명기하지 않습니다

In [14]:
f = lambda x: 1 if x == '남자' else 0

In [15]:
df['성별'].apply(f)

Unnamed: 0,성별
0,1
1,1
2,1
3,1
4,0
5,1
6,1
7,0
8,1
9,1


실제로는 **간단한 계산식을 적용하려는 경우에 많이 사용**합니다.

In [16]:
df['키/2'] = df['키'].apply(lambda x: x / 2)

In [17]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성별_NEW,키_int,키_filled,키/2
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1,173,173.6,86.8
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1,177,177.0,88.5
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1,180,180.0,90.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1,178,178.0,89.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0,162,162.1,81.05


In [18]:
df['키'].apply(lambda x: x ** 2)

Unnamed: 0,키
0,30136.96
1,31329.0
2,32400.0
3,31684.0
4,26276.41
5,31684.0
6,33233.29
7,
8,32112.64
9,27922.41


apply에 함수식을 만들어서 적용해주는 것과 동일하기 때문에, **복잡한 조건식은 사용자함수**로 **간단한 계산식은 lambda로 적용**할 수 있습니다.

## 3. map - 값을 매핑!

In [None]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성별_NEW,키/2
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1,86.8
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1,88.5
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1,90.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1,89.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0,81.05


In [None]:
my_map = {
    '남자': 1,
    '여자': 0
}

In [None]:
week=

In [None]:
# map이라는 함수를 사용할 때는 dict{} 하나 정의되어있어야 하고
# .map({dict})
df['성별'].map(my_map)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

---
## 정리

| 메서드 | 용도 | 예시 |
|--------|------|------|
| `apply()` | 사용자 정의 함수 적용 | `df['col'].apply(함수)` |
| `lambda` | 간단한 익명 함수 | `df['col'].apply(lambda x: x * 2)` |
| `map()` | 딕셔너리로 값 매핑 | `df['col'].map({'A': 1, 'B': 0})` |

### apply 활용 패턴
```python
# Series에 적용 (1개 column)
df['new'] = df['col'].apply(함수)

# DataFrame 전체에 적용 (여러 column 참조)
df['new'] = df.apply(함수, axis=1)
```

### lambda vs 함수
- **lambda**: 간단한 1줄 계산에 적합
- **함수 정의**: 복잡한 조건문이 필요할 때

**주의:** `apply()` 함수는 반드시 `return` 값이 있어야 합니다!

In [None]:
df['성별'].map(my_map)

0       male
1       male
2       male
3       male
4     female
5       male
6       male
7     female
8       male
9       male
10    female
11      male
12      male
13      male
14      male
Name: 성별, dtype: object