# Map & Apply & lambda

In [88]:
import pandas as pd
import numpy as np
from pandas import Series

## 1. map & lambda

### 1.1 Series 메소드 map

In [89]:
s1 = Series(np.arange(6))
s1.head(5)

0    0
1    1
2    2
3    3
4    4
dtype: int32

- `Series`의 `메소드`로서 `value`에 함수 `f`를 적용해주었습니다.

In [90]:
# f = lambda x: x**2
def f(x):
    return x + 5


s1.map(f)

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

- `Series`의 메소드로서 `value`에 `z`라는 함수를 적용했다고 생각하면 편합니다.
- z와 같은 `dict` 타입을 함수로 적용한다면 당연히 `key값이 index`를 나타내며, 이에 맞춰서 `value값은 value`로 치환해라! 는 뜻으로 적용될 것입니다.


In [91]:
z = {1: "A", 2: "B", 3: "C"}
s1.map(z)

0    NaN
1      A
2      B
3      C
4    NaN
5    NaN
dtype: object

- 이번에는 s2라는 Series 객체가 함수 자리에 왔습니다.
- 같은 인덱스를 가지는 위치의 value에 s2의 값으로 치환해주면 됩니다.

In [92]:
s2 = Series(np.arange(10, 30))
s1.map(s2)

0    10
1    11
2    12
3    13
4    14
5    15
dtype: int32

In [93]:
df = pd.read_csv("./wages.csv")
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


> unique() 메서드 :  데이터가 가지는 값의 유일한 유형을 보여주기 때문에 매우 유용하게 쓸 수 잇습니다.

In [94]:
df.sex.unique()

array(['male', 'female'], dtype=object)

In [95]:
df.race.unique()

array(['white', 'other', 'hispanic', 'black'], dtype=object)

In [99]:
dict(enumerate(df.race.unique()))

{0: 'white', 1: 'other', 2: 'hispanic', 3: 'black'}

In [100]:
np.array(dict(enumerate(df.race.unique())))

array({0: 'white', 1: 'other', 2: 'hispanic', 3: 'black'}, dtype=object)

- 아래와 같이 함수를 정의하고 (원핫인코딩과 같은 전처리함수) 적용하기도 합니다.

In [51]:
def change_sex(x):
    return 0 if x == "male" else 1

df.sex.map(change_sex)

0       0
1       1
2       1
3       1
4       1
       ..
1374    0
1375    1
1376    1
1377    0
1378    0
Name: sex, Length: 1379, dtype: int64

- 위를 lambda와 map을 활용하여 똑같이 구현할 수 있습니다.

In [52]:
# lambda 와 map 같이 활용
df.sex.map(lambda x: 0 if x=='male' else 1)

0       0
1       1
2       1
3       1
4       1
       ..
1374    0
1375    1
1376    1
1377    0
1378    0
Name: sex, Length: 1379, dtype: int64

- 또한 dict의 key, value를 이용하여 다음과 같이 구현할 수도 있을 것이다.

In [20]:
# dict를 map과 활용
df["sex_code"] = df.sex.map({"male": 0, "female": 1})
df.head(5)

Unnamed: 0,earn,height,sex,race,ed,age,sex_code
0,79571.299011,73.89,male,white,16,49,0
1,96396.988643,66.23,female,white,16,62,1
2,48710.666947,63.77,female,white,16,33,1
3,80478.096153,63.22,female,other,16,95,1
4,82089.345498,63.08,female,white,17,43,1


## 2. replace

- 위에서 보듯이 map을 통해 다양하게 조건문활용 인코딩을 적용해보았습니다.
- 사실, 이와 같은 전처리에서는 replace 메서드가 더 간편하게 조작이 가능합니다
    - 하지만 유의해야할 점은 inplace 인자에 True를 주어야 해당 인스턴스에 적용되는 메서드로서 작동합니다.
    - inplace=False가 default이며 이는 해당 인스턴스에 직접적으로 작동하지는 않고 적용한 값을 return 값으로 반환해줍니다.

In [54]:
df.sex.replace({"male": 0, "female": 1})

0       0
1       1
2       1
3       1
4       1
       ..
1374    0
1375    1
1376    1
1377    0
1378    0
Name: sex, Length: 1379, dtype: int64

In [55]:
df.sex.head(5)

0      male
1    female
2    female
3    female
4    female
Name: sex, dtype: object

> inplace 인자 (T, F)의 차이 : return 값이 있는가 없는가의 차이
    
    - sort() 메서드와 sorted() 함수의 차이와 비슷하게 생각할 수 있겠다.

In [57]:
df.sex.replace(["male", "female"], [0, 1], inplace=False)

0       0
1       1
2       1
3       1
4       1
       ..
1374    0
1375    1
1376    1
1377    0
1378    0
Name: sex, Length: 1379, dtype: int64

In [58]:
df.sex.replace(["male", "female"], [0, 1], inplace=True)

In [59]:
df

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,white,16,49
1,96396.988643,66.23,1,white,16,62
2,48710.666947,63.77,1,white,16,33
3,80478.096153,63.22,1,other,16,95
4,82089.345498,63.08,1,white,17,43
...,...,...,...,...,...,...
1374,30173.380363,71.68,0,white,12,33
1375,24853.519514,61.31,1,white,18,86
1376,13710.671312,63.64,1,white,12,37
1377,95426.014410,71.65,0,white,12,54


In [60]:
del df["sex_code"]

KeyError: 'sex_code'

In [61]:
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,white,16,49
1,96396.988643,66.23,1,white,16,62
2,48710.666947,63.77,1,white,16,33
3,80478.096153,63.22,1,other,16,95
4,82089.345498,63.08,1,white,17,43


## 3. apply & applymap

### 3.1 apply for DataFrame
- map과 달리, series 전체(columns) 별로 해당 함수를 각각 적용
- (map은 Series 하나에 적용하던 메서드였음)
- `df.apply(lambda x: x.max()-x.min()` 과 같이 코드를 쓰게 되면 `df`라는 데이터프레임에 `컬럼별(x)`로 각각 다음값을 계산하여 반환하게 된다 => **(해당컬럼에서의 최댓값 - 해당컬럼에서의 최솟값)**

In [101]:
df = pd.read_csv("wages.csv")
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


In [102]:
df_info = df[["earn", "height", "age"]]
df_info.head()

Unnamed: 0,earn,height,age
0,79571.299011,73.89,49
1,96396.988643,66.23,62
2,48710.666947,63.77,33
3,80478.096153,63.22,95
4,82089.345498,63.08,43


- 각 컬럼별로 mean을 계산하여 결과값을 반환한 것을 볼 수 있다.

In [103]:
f = lambda x: np.mean(x)
df_info.apply(f)

earn      32446.292622
height       66.592640
age          45.328499
dtype: float64

In [104]:
df_info.apply(np.mean)

earn      32446.292622
height       66.592640
age          45.328499
dtype: float64

- 사실 데이터프레임의 기본 메서드로서 다음과 같이 평균을 구할 수가 있다. 


In [105]:
df_info.mean()

earn      32446.292622
height       66.592640
age          45.328499
dtype: float64

- (하지만, 어차피 정의되어있는 메서드가 아닌, 사용자정의 함수 같은 것들을 적용할 일이 많기 때문에 apply 메서드는 꼭 알아두는 것이 좋다)


In [106]:
# 사실 apply에는 axis 인자가 있다.

In [107]:
df_info.apply(np.mean,axis=0) # column마다 적용하였다.

earn      32446.292622
height       66.592640
age          45.328499
dtype: float64

In [108]:
df_info.apply(np.mean,axis=1) # row마다 적용해주었다.

0       26564.729670
1       32175.072881
2       16269.145649
3       26878.772051
4       27398.475166
            ...     
1374    10092.686788
1375     8333.609838
1376     4603.770437
1377    31850.554803
1378     3224.893952
Length: 1379, dtype: float64

> 사실 여기서 쪼금 헷갈릴 수가 있다.

> axis=0이 행 기준, axis=1이 열 기준 아니었나? 라면서 말이다.


    - 행 구분은 사라지고 열에 대해 수행한 연산결과만 남게 만드는 것이 axis=0
    - 열 구분은 사라지고 행에 대해 수행한 연산결과만 남게 만드는 것이 axis=1
    
    - 내가 생각히기에 여기서 헷갈리지 않고 이해하기 위해 가장 중요한 부분은 결국 `생성되는 결과 벡터의 차원이 무엇이랑 일치하는가? 이다


> 예를 들어, n X p data가 있다고 해보자
    
    1) axis=0, apply 적용 : 행 구분 사라지고 열에 대한 연산결과값만을 담고 있는 n X 1 Vector (실제 객체타입은 Series지만 이해를 위해 표현하고 있는 것이다)
        - 결국, 결과값은 df의 행과 같은 차원을 가지고 있다.
        
    2) axis=1, apply 적용 : 열 구분 사라지고 행에 대한 연산겨로가값만을 담고 있는 p X 1 Vector
        - 결국, 결과값은 df의 열과 같은 차원을 가지고 있다.

In [111]:
## apply 결과는 무조건 하나의 열? 행? 일까?

# 함수를 새로 정의해주면 된다.
## mean()과 같은 함수는 return 값이 scalar이기 때문에 apply 적용하면 해당 열 혹은 행.
## 그럼 만약에 return scalar 가 아니라 return Series 타입이라면?

def f(x):
    return Series([x.max(),x.min()], index=["min","max"])

df_info.apply(f,axis=0)

Unnamed: 0,earn,height,age
min,317949.127955,77.21,95
max,-98.580489,57.34,22


In [112]:
def f(x):
    return Series(
        [x.min(), x.max(), x.mean(), sum(x.isnull())],
        index=["min", "max", "mean", "null"],
    )


df_info.apply(f)

Unnamed: 0,earn,height,age
min,-98.580489,57.34,22.0
max,317949.127955,77.21,95.0
mean,32446.292622,66.59264,45.328499
,0.0,0.0,0.0


### 3.2 applymap for DataFrame

- Series 단위로 함수를 적용하는 apply와 달리, element 하나하나 단위로 함수를 적용한다.
- Series단위에 apply를 적용시킬 때와 같은 효과라고 보면 된다.

In [113]:
df_info

Unnamed: 0,earn,height,age
0,79571.299011,73.89,49
1,96396.988643,66.23,62
2,48710.666947,63.77,33
3,80478.096153,63.22,95
4,82089.345498,63.08,43
...,...,...,...
1374,30173.380363,71.68,33
1375,24853.519514,61.31,86
1376,13710.671312,63.64,37
1377,95426.014410,71.65,54


In [114]:
f = lambda x: x // 2
df_info.applymap(f).head(5)    
# 모든 element에 함수 f가 적용되었습니다.

Unnamed: 0,earn,height,age
0,39785.0,36.0,24
1,48198.0,33.0,31
2,24355.0,31.0,16
3,40239.0,31.0,47
4,41044.0,31.0,21


In [87]:
f = lambda x: x ** 2
df_info["earn"].apply(f)   
# Series에 apply 적용하면, element마다 적용됨.
# 이런것처럼, DataFrame에 applymap을 하면 element마다 적용

0       6.331592e+09
1       9.292379e+09
2       2.372729e+09
3       6.476724e+09
4       6.738661e+09
            ...     
1374    9.104329e+08
1375    6.176974e+08
1376    1.879825e+08
1377    9.106124e+09
1378    9.168947e+07
Name: earn, Length: 1379, dtype: float64

In [116]:
df_info["earn"]

0       79571.299011
1       96396.988643
2       48710.666947
3       80478.096153
4       82089.345498
            ...     
1374    30173.380363
1375    24853.519514
1376    13710.671312
1377    95426.014410
1378     9575.461857
Name: earn, Length: 1379, dtype: float64

In [118]:
# Series에는 applymap이 없습니다!

In [119]:
f = lambda x: np.mean(x)
df_info["earn"].applymap(f)   

AttributeError: 'Series' object has no attribute 'applymap'