# 13. 함수적용
---
- pandas에서 데이터 변형을 수행할 때, apply()함수는 강력한 도구이다.
- 이함수를 사용하면 DataFrame 또는 Series의 각 요소에 대해 원하는 연산을 수행 할 수 있다.

In [6]:
import pandas as pd
df = pd.read_csv('data/customers3.csv', index_col='고객ID')
df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C003,박지성,35,울산,,95,110,91,88
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C007,한유진,31,파주,,68,65,77,83
C008,강민호,29,일산,Sports,98,125,96,90


In [2]:
df['최근1년_방문빈도'] = df['최근1년_방문빈도'] + '회' # 정수형데이터에 문자열을 더하려니까 문제가발생

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('int64'), dtype('<U1')) -> None

**데이터에 함수 적용 `apply()`**
- DataFrame이나 Series의 각 요소에 함수를 적용할 때 사용된다.
- 특히 열(Column) 단위나 행(row) 단위로 복잡한 연산을 적용할 때 유용하다.

In [7]:
def add_keyward(count):
    return str(count) + '회'

df['최근1년_방문빈도'] = df['최근1년_방문빈도'].apply(add_keyward)
df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75회,70,78,92
C002,이영희,30,안양,fashion,85회,92,88,85
C003,박지성,35,울산,,95회,110,91,88
C004,최민아,40,창원,Fashion,92회,105,82,96
C005,정수빈,28,구로,Fashion,82회,88,94,79
C006,윤태영,27,시흥,Electronics,88회,95,85,91
C007,한유진,31,파주,,68회,65,77,83
C008,강민호,29,일산,Sports,98회,125,96,90


In [8]:
def capitalize(interests):
    if pd.notnull(interests): # NaN이 인지 아닌지
        return interests.capitalize() # 문자열 첫글자만 대문자로 변환하는 함수
    return interests

In [9]:
df['주요관심사'] = df['주요관심사'].apply(capitalize)
df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75회,70,78,92
C002,이영희,30,안양,Fashion,85회,92,88,85
C003,박지성,35,울산,,95회,110,91,88
C004,최민아,40,창원,Fashion,92회,105,82,96
C005,정수빈,28,구로,Fashion,82회,88,94,79
C006,윤태영,27,시흥,Electronics,88회,95,85,91
C007,한유진,31,파주,,68회,65,77,83
C008,강민호,29,일산,Sports,98회,125,96,90


**`merge()`**
- SQL의 JOIN과 유사하게 두개의 DataFrame을 특정 열을 기준으로 결합한다.

In [15]:
# 두 개의 데이터프레임 생성
df1 = pd.DataFrame({'CustomerID': [1, 2, 3], 'Product': ['Laptop', 'Mouse', 'Keyboard']})
df1

Unnamed: 0,CustomerID,Product
0,1,Laptop
1,2,Mouse
2,3,Keyboard


In [16]:
df2 = pd.DataFrame({'CustomerID': [2, 3, 4], 'Location': ['USA', 'Canada', 'Mexico']})
df2

Unnamed: 0,CustomerID,Location
0,2,USA
1,3,Canada
2,4,Mexico


In [17]:
# CustomerID를 기준으로 두 DataFrame 결합 (inner join)
df_merged = pd.merge(df1, df2, on='CustomerID', how='inner')
print(df_merged)

   CustomerID   Product Location
0           2     Mouse      USA
1           3  Keyboard   Canada


**`concat()`**
- DataFrame을 위아래또는 좌, 우로 결합할때 사용한다.
- 행을 추가할때는 `axis=0`, 열을추가할땐는 `axis=1`을 사용한다.

In [18]:
# 두 개의 데이터프레임을 세로로 연결
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df1

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [None]:
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
df2

Unnamed: 0,A,B
0,A2,B2
1,A3,B3


In [21]:
df_concat = pd.concat([df1, df2], axis=0)
df_concat

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


In [22]:
df_concat = pd.concat([df1, df2], axis=1)
df_concat

Unnamed: 0,A,B,A.1,B.1
0,A0,B0,A2,B2
1,A1,B1,A3,B3


**`join()`**
- 두개의 DataFrame을 인덱스를 기준으로 결합 할 때 사용한다.

In [23]:
# 예시 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1']}, index=['K0', 'K1'])
df2 = pd.DataFrame({'B': ['B0', 'B1']}, index=['K0', 'K1'])

# join을 이용해 인덱스를 기준으로 결합
df_join = df1.join(df2)
print(df_join)

     A   B
K0  A0  B0
K1  A1  B1
