# 11_데이터프레임에 함수 적용하기
### 1. apply()
- **apply()** : 데이터프레임 또는 시리즈의 각 요소별로 특정 함수를 적용시킴
        DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(),
        by_row='compat', engine='python', engine_kwargs=None, **kwargs)
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

    - **func** : 각 열 또는 행에 적용할 함수  
    - **axis** : 함수가 적용될 축.   
      기본값(0 또는 ‘index’)이면 각 열 별로 함수가 적용  
      1 또는 ‘columns’이면 각 행 별로 함수가 적용

- 항목별 동작과 축 별동작
    - 넘파이의 round는 항목별로 동작하는 함수
    - 넘파이의 sum은 축별로 동작하는 함수(집계 함수)

In [1]:
import seaborn as sns

In [2]:
iris_df = sns.load_dataset('iris')

In [3]:
import numpy as np

In [4]:
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [5]:
iris_df.iloc[:, :-1].apply(np.round).head()  # [:, :-1] : 모든 행, 마지막 열을 뺀 데이터 인덱싱

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.0,4.0,1.0,0.0
1,5.0,3.0,1.0,0.0
2,5.0,3.0,1.0,0.0
3,5.0,3.0,2.0,0.0
4,5.0,4.0,1.0,0.0


In [6]:
iris_df.iloc[:, :-1].apply(np.sum)

Unnamed: 0,0
sepal_length,876.5
sepal_width,458.6
petal_length,563.7
petal_width,179.9


In [7]:
iris_df.iloc[:, :-1].apply(np.mean)

Unnamed: 0,0
sepal_length,5.843333
sepal_width,3.057333
petal_length,3.758
petal_width,1.199333


- 시리즈와 람다식의 사용

In [8]:
iris_avg = iris_df.iloc[:, :-1].apply(np.average)  # 변수별 평균값을 갖는 시리즈 객체

In [9]:
iris_avg

Unnamed: 0,0
sepal_length,5.843333
sepal_width,3.057333
petal_length,3.758
petal_width,1.199333


In [10]:
# apply() 인수로 람다식과 시리즈의 사용 예
iris_df.iloc[:, :-1].apply(lambda x : x-iris_avg, axis=1).head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,-0.743333,0.442667,-2.358,-0.999333
1,-0.943333,-0.057333,-2.358,-0.999333
2,-1.143333,0.142667,-2.458,-0.999333
3,-1.243333,0.042667,-2.258,-0.999333
4,-0.843333,0.542667,-2.358,-0.999333


- 함수가 리스트를 반환할 경우

In [11]:
iris_df2 = iris_df.iloc[:, :-1]

In [12]:
iris_df2.apply(lambda x : list(x-iris_avg), axis=1).head()

Unnamed: 0,0
0,"[-0.7433333333333341, 0.4426666666666663, -2.3..."
1,"[-0.9433333333333334, -0.05733333333333368, -2..."
2,"[-1.1433333333333335, 0.1426666666666665, -2.4..."
3,"[-1.243333333333334, 0.04266666666666641, -2.2..."
4,"[-0.8433333333333337, 0.5426666666666664, -2.3..."


result_type=‘broadcast’ 매개변수를 설정하면 원본 데이터의 열 이름과 구조를 그대로 유지함

In [13]:
iris_df2.apply(lambda x : list(x-iris_avg), axis=1,
               result_type='broadcast').head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,-0.743333,0.442667,-2.358,-0.999333
1,-0.943333,-0.057333,-2.358,-0.999333
2,-1.143333,0.142667,-2.458,-0.999333
3,-1.243333,0.042667,-2.258,-0.999333
4,-0.843333,0.542667,-2.358,-0.999333


### 2. applymap()
-  applymap() 함수는 각 요소(element)별로 작동

In [14]:
iris_df2.applymap(lambda x : x**2).head()

  iris_df2.applymap(lambda x : x**2).head()


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,26.01,12.25,1.96,0.04
1,24.01,9.0,1.96,0.04
2,22.09,10.24,1.69,0.04
3,21.16,9.61,2.25,0.04
4,25.0,12.96,1.96,0.04


### 3. map()
- map() 함수는 시리즈의 각 요소(element)별로 작동
- map() 함수는 시리즈(Series) 타입에서만 사용할 수 있음

In [15]:
iris_df.sepal_length.map(np.round)

Unnamed: 0,sepal_length
0,5.0
1,5.0
2,5.0
3,5.0
4,5.0
...,...
145,7.0
146,6.0
147,6.0
148,6.0


In [16]:
iris_df.sepal_length.map(np.sum)

Unnamed: 0,sepal_length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


[정리]

    apply() : 데이터프레임 또는 함수에 적용
            적용하는 함수에 따라 요소마다 함수가 실행되거나 축 별로 적용될 수 있음
    applymap() : 데이터프레임에만 적용 가능
            항상 요소별로 함수가 적용됨
    map() : 시리즈에만 적용 가능
            항상 요소별로 함수가 적용됨    