<a href="https://colab.research.google.com/github/Kimsumin1234/pandas/blob/main/09_apply_map_applymap.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

## apply

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html
- apply 라는 함수를 적용할 때 특정 컬럼에 적용하는 형태 이거나, 전체 df에 적용하는 형태 가능
- ex) df.apply(함수), df['컬럼명'].apply(함수)
- df.apply 일 때 중요한 부분은 방향임

```
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)

axis = 0 이라는 소리는 하나의 컬럼에 속하는 모든 행에 적용된다는 의미

axis = 1 이라는 소리는 하나의 행에 있는 모든 컬럼이 같이 적용 된다는 의미

```




In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

### [실습1]

In [None]:
df = pd.DataFrame(
    {
        '영어':[60,70],
        '수학':[100,50]
    },
    index=['Dave','David']
)
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [None]:
# 함수 정의

def func(df):
  print(type(df))
  print(df.index)
  print(df.values)
  return df

In [None]:
# 결국 열에 함수가 적용
# axis=0 이 기본

df.apply(func)

<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[60 70]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[100  50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [None]:
# 행기준을 적용시키고 싶을 때

df.apply(func,axis=1)

<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 60 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[70 50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [None]:
# apply 를 통해 데이터 값 수정

def func2(df):
  df['영어'] = 80
  return df

In [None]:
df.apply(func2,axis=1)

Unnamed: 0,영어,수학
Dave,80,100
David,80,50


### [실습2]

<img src='https://www.w3resource.com/w3r_images/pandas-dataframe-apply-1.png' width="300" height="300">

In [None]:
# df = pd.DataFrame(
#     [
#         [9,25],
#         [9,25],
#         [9,25]
#     ],
#     columns=['P','Q']
# )
df = pd.DataFrame(
    [[9,25]] * 3, columns=['P','Q']
)
df

Unnamed: 0,P,Q
0,9,25
1,9,25
2,9,25


In [None]:
# df.apply(np.sqrt)
df.applymap(np.sqrt)

Unnamed: 0,P,Q
0,3.0,5.0
1,3.0,5.0
2,3.0,5.0


<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-2.png" width="300" height="350">

In [None]:
df.apply(np.sum)

P    27
Q    75
dtype: int64

<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-3.png">

In [None]:
df.apply(np.sum, axis=1)

0    34
1    34
2    34
dtype: int64

### [실습3]

In [None]:
df = pd.DataFrame(
    {
        'yyyy-mm-dd':['2005-09-28','2007-10-05','2012-12-20']
    }
)
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


#### 1) 년-월-일 순으로 되어 있는 데이터를 받아서 년도만 잘라내서 리턴

In [10]:
# dtype: object 라서 str 사용가능
# df['yyyy-mm-dd']

# df['yyyy-mm-dd'].str.split("-") 이상태로 바로 하는거는 아직 안배움

def extract_year(date):
  return date.split("-")[0]

In [None]:
df['yyyy-mm-dd'].apply(extract_year)

0    2005
1    2007
2    2012
Name: yyyy-mm-dd, dtype: object

In [None]:
# 잘라낸 값을 컬럼으로 추가하기
df['year']=df['yyyy-mm-dd'].apply(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


#### 2) 적용할 함수와 다른 인자를 넘길 수 있는가?

In [None]:
# 나이계산 함수 생성

def get_age(year, current_year):
  return current_year - int(year)

In [None]:
# df['year'] 가 def get_age(year, current_year): 에서 year 변수값으로 들어간다

df['age']=df['year'].apply(get_age, current_year=2024)
df

Unnamed: 0,yyyy-mm-dd,year,age
0,2005-09-28,2005,19
1,2007-10-05,2007,17
2,2012-12-20,2012,12


In [None]:
# introduce 작성
def get_introduce(age,prefix,suffix):
    return prefix + str(age) + suffix

In [None]:
# age 필드의 값을 가져와서 get_introduce 적용

df['introduce'] = df['age'].apply(get_introduce, prefix="나는 ", suffix='세 입니다')
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2005-09-28,2005,19,나는 19세 입니다
1,2007-10-05,2007,17,나는 17세 입니다
2,2012-12-20,2012,12,나는 12세 입니다


#### 3) 여러개의 컬럼을 가져와서 apply() 적용하기

In [None]:
def get_introduce2(df):
  return "나는 " + str(df.year) + "년에 태어났고, 나의 나이는 " + str(df.age) + "세 입니다."

In [None]:
df['introduce2'] = df.apply(get_introduce2, axis=1)
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce,introduce2
0,2005-09-28,2005,19,나는 19세 입니다,"나는 2005년에 태어났고, 나의 나이는 19세 입니다."
1,2007-10-05,2007,17,나는 17세 입니다,"나는 2007년에 태어났고, 나의 나이는 17세 입니다."
2,2012-12-20,2012,12,나는 12세 입니다,"나는 2012년에 태어났고, 나의 나이는 12세 입니다."


### lambda

In [None]:
# lambda 함수 : 1회성 함수

In [None]:
df = sns.load_dataset("iris")
df.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [None]:
df.apply(lambda x : x[0])

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
dtype: object

In [None]:
# 첫번째 글자만 가져오기

df['species'].apply(lambda x : x[0])

0      s
1      s
2      s
3      s
4      s
      ..
145    v
146    v
147    v
148    v
149    v
Name: species, Length: 150, dtype: object

In [None]:
df['species_3'] = df['species'].apply(lambda x : x[:3])
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3
0,5.1,3.5,1.4,0.2,setosa,set
1,4.9,3.0,1.4,0.2,setosa,set
2,4.7,3.2,1.3,0.2,setosa,set
3,4.6,3.1,1.5,0.2,setosa,set
4,5.0,3.6,1.4,0.2,setosa,set
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir
146,6.3,2.5,5.0,1.9,virginica,vir
147,6.5,3.0,5.2,2.0,virginica,vir
148,6.2,3.4,5.4,2.3,virginica,vir


In [None]:
# 뒤에서 세번쨰까지 문자 가져오기
# [-3:] : 뒤에서 3개

def smp(x):
    x = x[-3:]
    return x

In [None]:
df['species-3'] = df['species'].apply(smp)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3,species-3
0,5.1,3.5,1.4,0.2,setosa,set,osa
1,4.9,3.0,1.4,0.2,setosa,set,osa
2,4.7,3.2,1.3,0.2,setosa,set,osa
3,4.6,3.1,1.5,0.2,setosa,set,osa
4,5.0,3.6,1.4,0.2,setosa,set,osa
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir,ica
146,6.3,2.5,5.0,1.9,virginica,vir,ica
147,6.5,3.0,5.2,2.0,virginica,vir,ica
148,6.2,3.4,5.4,2.3,virginica,vir,ica


## map

- https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html
- apply() 와 동일하나, 데이터프레임에는 적용 못함(<b style='color:red'>시리즈</b>만 가능)
```
Series.map(arg, na_action=None)
arg : function, dict, series 가능
```

### [실습1]

In [6]:
s = pd.Series(['cat','dog',np.nan,'rabbit'])
s

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

In [7]:
# cat ==> kitten , dog ==> puppy 변경
# s.loc[0] = 'kitten'
# s.loc[1] = 'puppy'

s.map({'cat':'kitten','dog':'puppy'})
# rabbit 을 지정 안하니까, rabbit ==> NaN 으로 바껴버림 (지정하지 않은 값은 NaN 으로 바껴버린다)

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

- map 은 dict or Series 를 받아 들임
- 값을 찾지 못하면 dict 의 경우는 NaN 으로 변환, default value 가 있다면 그 값으로

### [실습2]

In [8]:
df = pd.DataFrame({'yyyy-mm-dd':['2005-09-28','2007-10-05','2012-12-20']})
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


In [12]:
# 년도만 추출
# extract_year 위에 함수를 정의해 놨음

df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


### [실습3]

In [14]:
data = {
    'age':[20,30,30],
    'job':['student','developer','teacher']
  }

df = pd.DataFrame(data)
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher


In [16]:
# job_id 컬럼을 새로 생성
# student : 1 , developer : 2 , teacher : 3 부여
# 예를들어 문자를 숫자형태로 바꿀때 map 을 사용하면 dict 구조를 사용해서 간단하게 변경 가능하다
# map() 은 Series 구조 에만 적용 가능하다(DataFrame 에 적용불가)

df['job_id'] = df['job'].map({'student':1,'developer':2,'teacher':3})
df

Unnamed: 0,age,job,job_id
0,20,student,1
1,30,developer,2
2,30,teacher,3


## applymap

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html
- 모든 값에 적용
- 시리즈 형태에다가는 적용 불가(<b style='color:red'>데이터프레임</b>만 가능)
- df['컬럼명'].applymap() => X 안됨

```
DataFrame.applymap(func, na_action=None, **kwargs)[source]
```

### [실습1]

In [17]:
df = pd.DataFrame([
    [1,2.12],
    [3.356,4.567]
])
df

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [18]:
df.dtypes

0    float64
1    float64
dtype: object

In [20]:
x = 10.1
print(type(x))

# str() : 문자열로 변경
print(type(str(x)))

<class 'float'>
<class 'str'>


In [22]:
# float64 ==> object(판다스에서 문자열타입) 변경
# 시리즈에는 사용불가 : df[0].applymap()  (X)
# 특정 컬럼만 함수 적용해야 한다면 둘 중에서 선택 (apply, map)
# df[0].apply()  (O)
# df[1].map()  (O)
# apply() 는 시리즈, 데이타프레임 둘다 가능해서 apply 를 많이 사용한다

df = df.applymap(lambda x : str(x))
print(df.dtypes)

df

0    object
1    object
dtype: object


Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [24]:
df.applymap(lambda x : len(x))

Unnamed: 0,0,1
0,3,4
1,5,5


### [실습2]

In [25]:
df = pd.DataFrame(
    {
        'x':[5.5,-5.2,-1.6],
        'y':[-5.6,5.5,-4.5],
        'z':[-1.1,-2.2,-3.3],
    }
)

df

Unnamed: 0,x,y,z
0,5.5,-5.6,-1.1
1,-5.2,5.5,-2.2
2,-1.6,-4.5,-3.3


In [26]:
# 파이썬 에서 반올림

# math 패키지 안에는 round 가 없음 (파이썬 자체 내장함수로 빼놧음)
round(5.7)

6

In [28]:
# 반올림

# df.applymap(round) int 타입
df.applymap(np.around) # float 타입

Unnamed: 0,x,y,z
0,6.0,-6.0,-1.0
1,-5.0,6.0,-2.0
2,-2.0,-4.0,-3.0
