### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

### 1) apply()
- Series, DataFrame 둘다 적용 가능

In [2]:
# 생성
df = pd.DataFrame([[9,25]]*3, columns=['P','Q'])
df

Unnamed: 0,P,Q
0,9,25
1,9,25
2,9,25


<img src='https://www.w3resource.com/w3r_images/pandas-dataframe-apply-1.png' width="300" height="150">

In [3]:
# axis : 'Axis' = 0 => 기본
df.apply(np.sqrt)

Unnamed: 0,P,Q
0,3.0,5.0
1,3.0,5.0
2,3.0,5.0


<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-2.png" width="300" height="200">

In [4]:
df.apply(np.sum)

P    27
Q    75
dtype: int64

<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-apply-3.png">

In [5]:
df.apply(np.sum, axis=1)

0    34
1    34
2    34
dtype: int64

In [6]:
# 생성
date_list = {"yyyy-mm-dd" : ["2005-09-28","2007-10-05","2012-12-20"]}
df = pd.DataFrame(date_list)
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


#### 1) 년도 추출

In [7]:
# 함수 만들기
def extract_year(value):
    return value.split("-")[0] # ['2005','09','28']

In [8]:
df['yyyy-mm-dd'].apply(extract_year)

0    2005
1    2007
2    2012
Name: yyyy-mm-dd, dtype: object

In [9]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


In [10]:
# 나이 계산 함수
def getAge(year, cur_year):
    return cur_year - int(year)

In [11]:
df['year'].apply(getAge, cur_year = 2022)

0    17
1    15
2    10
Name: year, dtype: int64

In [12]:
df['age'] = df['year'].apply(getAge, cur_year = 2022)
df

Unnamed: 0,yyyy-mm-dd,year,age
0,2005-09-28,2005,17
1,2007-10-05,2007,15
2,2012-12-20,2012,10


In [14]:
def get_introduce(age, prefix, suffix):
    return prefix + str(age) + suffix

In [15]:
df['age'].apply(get_introduce, prefix = "나는 " ,suffix=" 살 입니다.")

0    나는 17 살 입니다.
1    나는 15 살 입니다.
2    나는 10 살 입니다.
Name: age, dtype: object

In [16]:
df['introduce'] = df['age'].apply(get_introduce, prefix = "나는 " ,suffix=" 살 입니다.")

In [17]:
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2005-09-28,2005,17,나는 17 살 입니다.
1,2007-10-05,2007,15,나는 15 살 입니다.
2,2012-12-20,2012,10,나는 10 살 입니다.


In [18]:
def get_introduce2(col):
    return "나는 " + str(col.year)+ " 년에 태어났고, 나의 나이는 " + str(col.age) + " 입니다."

In [19]:
df.apply(get_introduce2, axis=1)

0    나는 2005 년에 태어났고, 나의 나이는 17 입니다.
1    나는 2007 년에 태어났고, 나의 나이는 15 입니다.
2    나는 2012 년에 태어났고, 나의 나이는 10 입니다.
dtype: object

In [20]:
df['introduce2'] = df.apply(get_introduce2, axis=1)
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce,introduce2
0,2005-09-28,2005,17,나는 17 살 입니다.,"나는 2005 년에 태어났고, 나의 나이는 17 입니다."
1,2007-10-05,2007,15,나는 15 살 입니다.,"나는 2007 년에 태어났고, 나의 나이는 15 입니다."
2,2012-12-20,2012,10,나는 10 살 입니다.,"나는 2012 년에 태어났고, 나의 나이는 10 입니다."


In [21]:
# 생성
df = pd.DataFrame({
    "영어" : [60,70],
    "수학" : [100,50]
}, index=["Tom","David"])
df

Unnamed: 0,영어,수학
Tom,60,100
David,70,50


In [22]:
def func(df1):
    print(type(df1))
    print(df1.index)
    print(df1.values)

In [23]:
# 전체 데이터에 함수 적용
# 기본 axis=0 행 방향
df.apply(func)

<class 'pandas.core.series.Series'>
Index(['Tom', 'David'], dtype='object')
[60 70]
<class 'pandas.core.series.Series'>
Index(['Tom', 'David'], dtype='object')
[100  50]


영어    None
수학    None
dtype: object

In [24]:
# 열 방향
df.apply(func, axis=1)

<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 60 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[70 50]


Tom      None
David    None
dtype: object

#### 1) 영어 성적을 80으로 변경

In [25]:
def func2(df1):
    df1['영어'] = 80
    return df1

In [26]:
df1 = df.apply(func2, axis=1)
df1

Unnamed: 0,영어,수학
Tom,80,100
David,80,50


In [27]:
import seaborn as sns

In [28]:
iris_df = sns.load_dataset('iris')
iris_df.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [29]:
# 함수를 안 만들고 lambda에 적용
iris_df.apply(lambda x:x[0])

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
dtype: object

In [30]:
# 특정 컬럼에 적용
iris_df['species'].apply(lambda x:x[0])

0      s
1      s
2      s
3      s
4      s
      ..
145    v
146    v
147    v
148    v
149    v
Name: species, Length: 150, dtype: object

In [32]:
# iris_df['species'].apply(lambda x:x[0:3])
iris_df['species'].apply(lambda x:x[:3])

0      set
1      set
2      set
3      set
4      set
      ... 
145    vir
146    vir
147    vir
148    vir
149    vir
Name: species, Length: 150, dtype: object

In [34]:
# 끝에서 3번째
iris_df['species-3']= iris_df['species'].apply(lambda x:x[-3:])
iris_df.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species-3
0,5.1,3.5,1.4,0.2,setosa,osa
1,4.9,3.0,1.4,0.2,setosa,osa
2,4.7,3.2,1.3,0.2,setosa,osa


In [35]:
# 위의 작업을 함수로
def sample(x):
    return x[-3:]

In [36]:
iris_df['species-3-1']= iris_df['species'].apply(sample)
iris_df.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species-3,species-3-1
0,5.1,3.5,1.4,0.2,setosa,osa,osa
1,4.9,3.0,1.4,0.2,setosa,osa,osa
2,4.7,3.2,1.3,0.2,setosa,osa,osa


### 2) map()
 - Series 만 적용 가능
 - key, value 형태로 보낼 수 있음

In [38]:
# 생성
s = pd.Series(['cat','dog',np.nan,'rabbit'])
s

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

In [39]:
# 지정하지 않으면 NaN
s.map({'cat':'kitten','dog':'puppy'})

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

In [40]:
# 생성
date_list = {"yyyy-mm-dd" : ["2005-09-28","2007-10-05","2012-12-20"]}
df = pd.DataFrame(date_list)
df

Unnamed: 0,yyyy-mm-dd
0,2005-09-28
1,2007-10-05
2,2012-12-20


In [41]:
df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2005-09-28,2005
1,2007-10-05,2007
2,2012-12-20,2012


In [44]:
# 생성
job_list = {
    "age":[20,30,40],
    "job" : ["student","developer","teacher"]
}
df = pd.DataFrame(job_list)
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,40,teacher


In [45]:
# job_id 컬럼 생성 후 job 숫자 부여

df['job_id'] = df['job'].map({"student":1,"developer":2, "teacher":3})
df

Unnamed: 0,age,job,job_id
0,20,student,1
1,30,developer,2
2,40,teacher,3


### 3) applymap
- DataFrame만 가능(시리즈 사용 불가)
- 모든 셀에 동일한 작업할 때 유용

In [46]:
# 생성
df = pd.DataFrame([[1,2.12],[3.356,4.567]])
df

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [47]:
# 문자열로 바꿈
df.applymap(lambda x:str(x))

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [48]:
# 길이 측정
df.applymap(lambda x:len(str(x)))

Unnamed: 0,0,1
0,3,4
1,5,5


In [49]:
# 생성
df = pd.DataFrame([[9,25]]*3, columns=['P','Q'])
df

Unnamed: 0,P,Q
0,9,25
1,9,25
2,9,25


In [50]:
df.applymap(np.sqrt)

Unnamed: 0,P,Q
0,3.0,5.0
1,3.0,5.0
2,3.0,5.0
