### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

## apply

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html
- apply 라는 함수를 적용할 때 특정 컬럼에 적용하는 형태 이거나, 전체 df에 적용하는 형태 가능
- ex) df.apply(함수), df['컬럼명'].apply(함수)
- df.apply 일 때 중요한 부분은 방향임

```
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)

axis = 0 이라는 소리는 하나의 컬럼에 속하는 모든 행에 적용된다는 의미

axis = 1 이라는 소리는 하나의 행에 있는 모든 컬럼이 같이 적용 된다는 의미

```




In [None]:
import pandas as pd
import seaborn as sns
import numpy as np  # 과학계산 및 수학계산

### [실습1]

In [3]:
df = pd.DataFrame({
    '영어': [60,70],
    '수학': [100,50]
}, index=['Dave', 'David']
)
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [9]:
# 함수 정의
def func(df):
    print(df.index)
    print(df.values)
    return df


In [8]:
df.apply(func)


Index(['Dave', 'David'], dtype='object')
[60 70]
Index(['Dave', 'David'], dtype='object')
[100  50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [11]:
# 행기준을 적용시키고 싶을 때

df_func = df.apply(func, axis=1)
df_func

Index(['영어', '수학'], dtype='object')
[ 60 100]
Index(['영어', '수학'], dtype='object')
[70 50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [12]:
# apply 를 통해 데이터 값 수정

def func2(df):
    df['영어'] = 80
    return df


In [13]:
df_func = df.apply(func2, axis=1)
df

Unnamed: 0,영어,수학
Dave,80,100
David,80,50


### [실습2]

<img src='https://www.w3resource.com/w3r_images/pandas-dataframe-apply-1.png' width="300" height="300">

In [15]:
[[9,25]] * 3

[[9, 25], [9, 25], [9, 25]]

In [16]:
# df = pd.DataFrame(
#     {
#     "P": [9,9,9],
#     "Q": [25,25,25]
#     }
# )

df= pd.DataFrame([[9,25]]*3, columns=["P","Q"])


df

Unnamed: 0,P,Q
0,9,25
1,9,25
2,9,25


In [18]:
df.apply(np.sqrt)

Unnamed: 0,P,Q
0,3.0,5.0
1,3.0,5.0
2,3.0,5.0


<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-2.png" width="300" height="350">

In [19]:
df.apply(np.sum)

P    27
Q    75
dtype: int64

<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-3.png">

In [20]:
df.apply(np.sum, axis=1)

0    34
1    34
2    34
dtype: int64

### [실습3]

In [21]:
df = pd.DataFrame(
    {
        "yyyy-mm-dd": ['2005-09-28', '2007-10-05', '2012-12-20']
    }
)
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


#### 1) 년-월-일 순으로 되어 있는 데이터를 받아서 년도만 잘라내서 리턴

In [24]:
# 2015-04-20

# '2015-04-20'.split("-")[0]

def extract_year(col):
    return col.split("-")[0]

In [25]:
df['yyyy-mm-dd'].apply(extract_year)

0    2005
1    2007
2    2012
Name: yyyy-mm-dd, dtype: object

In [26]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)

df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


#### 2) 적용할 함수와 다른 인자를 넘길 수 있는가?

In [29]:
# age 컬럼 

# 2025 - int('2005')

def get_age(year, cur_year):
    return cur_year - int(year)


In [32]:
df['age'] = df['year'].apply(get_age,2025, cur_year=2025)
df

  df['age'] = df['year'].apply(get_age,2025, cur_year=2025)


Unnamed: 0,yyyy-mm-dd,year,age
0,2005-09-28,2005,20
1,2007-10-05,2007,18
2,2012-12-20,2012,13


In [34]:
# + : 연결 (문자 + str(숫자))

def get_introduce(age, prefix, suffix):
    return prefix + str(age) + suffix


In [36]:
df['introduce'] = df['age'].apply(get_introduce, prefix='나는 ', suffix=' 입니다.')
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2005-09-28,2005,20,나는 20 입니다.
1,2007-10-05,2007,18,나는 18 입니다.
2,2012-12-20,2012,13,나는 13 입니다.


#### 3) 여러개의 컬럼을 가져와서 apply() 적용하기

In [41]:
def get_introduce2(df):
    return '나는 ' + str(df.year) + ' 년에 태어났고, 나의 나이는 ' + str(df.age) + ' 입니다.'

In [42]:
df['introduce'] = df.apply(get_introduce2, axis=1)
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2005-09-28,2005,20,"나는 2005 년에 태어났고, 나의 나이는 20 입니다."
1,2007-10-05,2007,18,"나는 2007 년에 태어났고, 나의 나이는 18 입니다."
2,2012-12-20,2012,13,"나는 2012 년에 태어났고, 나의 나이는 13 입니다."


### lambda

In [43]:
df = sns.load_dataset('iris')
df.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [46]:
for s in 'setosa':
    print(s)

'setosa'[0:2]
'setosa'[0]

s
e
t
o
s
a


's'

In [None]:
df.apply(lambda x:x[0])  # -> head() 와 같은 결과 가지고 옴

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
dtype: object

In [48]:
# 첫번째 글자만 가져오기

df['species'].apply(lambda x:x[0])


0      s
1      s
2      s
3      s
4      s
      ..
145    v
146    v
147    v
148    v
149    v
Name: species, Length: 150, dtype: object

In [52]:
df['species_3'] = df['species'].apply(lambda x:x[:3])
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3,species-3
0,5.1,3.5,1.4,0.2,setosa,set,o
1,4.9,3.0,1.4,0.2,setosa,set,o
2,4.7,3.2,1.3,0.2,setosa,set,o
3,4.6,3.1,1.5,0.2,setosa,set,o
4,5.0,3.6,1.4,0.2,setosa,set,o
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir,i
146,6.3,2.5,5.0,1.9,virginica,vir,i
147,6.5,3.0,5.2,2.0,virginica,vir,i
148,6.2,3.4,5.4,2.3,virginica,vir,i


In [None]:
# 뒤에서(-) 세번쨰까지 문자 가져오기





In [53]:
df['species-3'] = df['species'].apply(lambda x:x[-3])
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3,species-3
0,5.1,3.5,1.4,0.2,setosa,set,o
1,4.9,3.0,1.4,0.2,setosa,set,o
2,4.7,3.2,1.3,0.2,setosa,set,o
3,4.6,3.1,1.5,0.2,setosa,set,o
4,5.0,3.6,1.4,0.2,setosa,set,o
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir,i
146,6.3,2.5,5.0,1.9,virginica,vir,i
147,6.5,3.0,5.2,2.0,virginica,vir,i
148,6.2,3.4,5.4,2.3,virginica,vir,i


## map

- https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html
- apply() 와 동일

Series.map(arg, na_action=None)
```

### [실습1]

In [54]:
ser = pd.Series(['cat', 'dog', None, 'rabbit'])
ser

0       cat
1       dog
2      None
3    rabbit
dtype: object

In [55]:
ser.map({"cat":"kitten", "dog":"puppy"})

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

- map 은 dict or Series 를 받아 들임
- 값을 찾지 못하면 dict 의 경우는 NaN 으로 변환, default value 가 있다면 그 값으로

### [실습2]

In [56]:
df = pd.DataFrame(
    {
        "yyyy-mm-dd": ['2005-09-28', '2007-10-05', '2012-12-20']
    }
)
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


In [57]:
df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


### [실습3]

In [58]:
df = pd.DataFrame({
    "age":[20,30,30],
    "job":['student','developer','teacher']
})
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher


In [60]:
df['job_id'] = df['job'].map({'student':1, 'developer':2, 'teacher':3})
df

Unnamed: 0,age,job,job_id
0,20,student,1
1,30,developer,2
2,30,teacher,3


## map(applymap 이 변경됨)

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.map.html
- map 은 모든 값에 적용하고, apply() 는 행, 열 단위로 적용
- df['컬럼명'].applymap() => X 안됨


```
DataFrame.map(func, na_action=None, **kwargs)[source]
```

### [실습1]

In [67]:
df = pd.DataFrame([[1,2.12],[3.356,4.567]])
df

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [68]:
df.dtypes

0    float64
1    float64
dtype: object

In [70]:
# 타입 변환 : float64 -> object
# int('34') => 34
# str(34) => '34'

df.map(lambda x: str(x))
df

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [72]:
df.dtypes


0    float64
1    float64
dtype: object

In [73]:
df.map(lambda x:len(str(x)))

Unnamed: 0,0,1
0,3,4
1,5,5


### [실습2]

In [74]:
df = pd.DataFrame({
    "x": [5.5,-5.2,-1.6],
    "y": [-5.6,5.5,-4.5],
    "Z": [-1.1,-2.2,-3.3]
})
df

Unnamed: 0,x,y,Z
0,5.5,-5.6,-1.1
1,-5.2,5.5,-2.2
2,-1.6,-4.5,-3.3


In [75]:
# round() : 반올림

df.map(np.round)

Unnamed: 0,x,y,Z
0,6.0,-6.0,-1.0
1,-5.0,6.0,-2.0
2,-2.0,-4.0,-3.0
