In [1]:
import numpy as np
import pandas as pd

### 1. lambda

In [6]:
# 
f = lambda x, y : x + y
f(1,4)

5

In [7]:
# def 사용
def f(x , y) : 
    return x + y

In [9]:
f(3,1)

4

In [10]:
f = lambda x : x ** 2
f(2)

4

In [11]:
f = lambda x : x + 5
f(3)

8

In [12]:
# 축약해서 사용 가능
(lambda x : x + 1)(5)

6

In [14]:
f = lambda x, y : x ** y
f(3,3)

27

In [19]:
# lambda를 사용한 if문
# if문이 참일경우를 먼저 적고 if 조건문, 만족 못하는 경우를 마지막에 대입함
f = lambda x : 'pass' if x > 10 else 'fail' 
print(f(5))
print(f(12))

fail
pass


### map for series

- pandas의 시리즈 데이터에 map함수 사용 가능

In [4]:
s1 = pd.Series(np.arange(10))
s1.head(5)

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [5]:
# series에 lambda 적용
s1.map(lambda x : x ** 2).head(5)

0     0
1     1
2     4
3     9
4    16
dtype: int64

### map 사용

In [41]:
# series 생성 
s1 = pd.Series(np.arange(10))
s1.head()

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [42]:
f = (lambda x : x ** 2)
f(s1)

0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int32

In [43]:
# s1의 1,2,3을 map을 사용하여 A,B,C로 바꿈
z = {1 : "A", 2 : "B", 3 : "C"}
s1.map(z)

0    NaN
1      A
2      B
3      C
4    NaN
5    NaN
6    NaN
7    NaN
8    NaN
9    NaN
dtype: object

In [45]:
s1 = pd.Series(np.arange(0,10))
s1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [44]:
s2 = pd.Series(np.arange(10,20)) 
s2

0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int32

In [47]:
# 같은 위치에 있는 값끼리 값 변환
s1.map(s2) 

0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int32

In [54]:
# df생성
df1 = pd.DataFrame({"city" :["부산","대전","광명","대구"],
                   "region" : ["경남","충청","경기","경북"],
                   "city_code" : ['11','12','13','11']
                   })
df1

Unnamed: 0,city,region,city_code
0,부산,경남,11
1,대전,충청,12
2,광명,경기,13
3,대구,경북,11


In [55]:
df1.city_code.unique()

array(['11', '12', '13'], dtype=object)

In [58]:
# map을 활용한 값 변경
df1['city_number'] = df1.city_code.map({"11" : "경상", "12" : "충청", "13" : "경기"})
df1

Unnamed: 0,city,region,city_code,city_number
0,부산,경남,11,경상
1,대전,충청,12,충청
2,광명,경기,13,경기
3,대구,경북,11,경상


In [59]:
del df1['city_number']

In [60]:
df1

Unnamed: 0,city,region,city_code
0,부산,경남,11
1,대전,충청,12
2,광명,경기,13
3,대구,경북,11


### apply for dataframe

- map과 달리 series 전체(column)에 해당 함수 적용<br>
- 입력값이 series데이터로 입력받음


In [64]:
df = pd.DataFrame({"earn" : [1,2,4,4,10],
                  "height" : [73,71,45,55,67],
                  "age" : [15,22,65,33,17]})

df

Unnamed: 0,earn,height,age
0,1,73,15
1,2,71,22
2,4,45,65
3,4,55,33
4,10,67,17


In [66]:
df_info = df[["earn", "height", "age"]]
df_info

Unnamed: 0,earn,height,age
0,1,73,15
1,2,71,22
2,4,45,65
3,4,55,33
4,10,67,17


In [69]:
# 하나의 컬럼을 그대로 가져와 column별로 결과값 반환
f = lambda x : x.max() - x.min()
df_info.apply(f)

earn       9
height    28
age       50
dtype: int64

In [74]:
# 내장 연산 함수를 사용할 때도 똑같은 효과를 거둘 수 있다
df_info.sum()

earn       21
height    311
age       152
dtype: int64

In [75]:
df_info.apply(sum)

earn       21
height    311
age       152
dtype: int64

In [80]:
#  scalar 값 이외에 series값의 반환도 가능
# df_info의 컬럼별 min, max값을 추출하여 Series로 반환

def f(x) :
    return pd.Series([x.min(),x.max()],index = ['min','max'])

df_info.apply(f)

Unnamed: 0,earn,height,age
min,1,45,15
max,10,73,65


In [82]:
# applymap을 사용시 전체 map에 적용
f = lambda x : -x
df_info.applymap(f).head(5)

Unnamed: 0,earn,height,age
0,-1,-73,-15
1,-2,-71,-22
2,-4,-45,-65
3,-4,-55,-33
4,-10,-67,-17


In [83]:
# 개별 series에도 적용하는데 사용
f = lambda x : -x
df_info['earn'].apply(f)

0    -1
1    -2
2    -4
3    -4
4   -10
Name: earn, dtype: int64

### pandas built - in function

In [84]:
# describe
# Numeric 타입 데이터의 요약 정보를 보여준다
df.describe()

Unnamed: 0,earn,height,age
count,5.0,5.0,5.0
mean,4.2,62.2,30.4
std,3.49285,11.882761,20.562101
min,1.0,45.0,15.0
25%,2.0,55.0,17.0
50%,4.0,67.0,22.0
75%,4.0,71.0,33.0
max,10.0,73.0,65.0


In [86]:
# unique
# series data의 유일한 값을 list로 반환함
df.earn.unique()

array([ 1,  2,  4, 10], dtype=int64)