In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 개별 원소에 함수 매핑

In [4]:
titanic = sns.load_dataset('titanic') # seaborn 라이브러리의 titanic 데이터셋 불러오기
df = titanic.loc[:,['age','fare']] # titanic 데이터셋의 모든 행,  age,fare 컬럼을 데이터프레임으로 생성
df['ten'] = 10 # ten 컬럼을 모든 값을 10으로 생성
print(df.head(), '\n')

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10 



In [5]:
def add_10(n): # 값에 10을 더하는 함수 정의
    return n+10

def add_two_obj(a,b): # 인자를 더하는 함수 정의
    return a+b

print(add_10(10), '\n')
print(add_two_obj(10,10), '\n')

20 

20 



In [7]:
# 시리즈 원소에 함수 매핑
sr1 = df['age'].apply(add_10) # df의 age컬럼의 각 값에 대해서 add_10()함수를 적용한 뒤 시리즈로 반환
print(sr1.head(), '\n')

sr2 = df['age'].apply(add_two_obj, b=10)  # df의 age컬럼의 각 값에 대해서 add_two_obj() 함수를 적용한 뒤 시리즈로 반환, b=10으로 고정
print(sr2.head(), '\n')

sr3 = df['age'].apply(lambda x: add_10(x)) # lambda를 이용해 적용할 함수를 생성하고, 해당 함수를 age컬럼의 각 값에 적용 후 시리즈로 반환
print(sr3.head(), '\n')

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64 

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64 

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64 



In [8]:
# 데이터프레임 원소에 함수 매핑
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] 
print(df.head(), '\n')

def add_10(n): 
    return n+10

df_map = df.applymap(add_10) # 데이터프레임 df의 모든 값에 대해 각각 add_10함수를 적용한 결과를 데이터프레임으로 반환
print(df_map, '\n')

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500 

      age     fare
0    32.0  17.2500
1    48.0  81.2833
2    36.0  17.9250
3    45.0  63.1000
4    45.0  18.0500
..    ...      ...
886  37.0  23.0000
887  29.0  40.0000
888   NaN  33.4500
889  36.0  40.0000
890  42.0  17.7500

[891 rows x 2 columns] 



In [12]:
# 시리즈 객체에 함수 매핑
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] 
print(df.head(), '\n')

def missing_value(series): # 시리즈 객체를 입력받아 isnull() 함수(해당 시리즈의 값이 NaN이면 True, 아니면 False를 반환)를 적용한 결과를 반환하는 함수 정의
    return series.isnull()

result = df.apply(missing_value, axis=0) # axis=0을 통해 행 기준(세로방향)으로 df의 각 요소에 missing_value함수를 적용한 결과를 반환
print(result, '\n')
print(type(result), '\n')

def min_max(x): # 입력한 데이터의 최대값과 최소값의 뺄셈 결과를 반환하는 함수 정의
    return x.max() - x.min()

result2 = df.apply(min_max) # axis=0이 default, 세로방향이므로 각 컬럼에 대해 최대값-최소값의 결과를 반환함
print(result2, '\n')
print(type(result2), '\n')

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500 

       age   fare
0    False  False
1    False  False
2    False  False
3    False  False
4    False  False
..     ...    ...
886  False  False
887  False  False
888   True  False
889  False  False
890  False  False

[891 rows x 2 columns] 

<class 'pandas.core.frame.DataFrame'> 

age      79.5800
fare    512.3292
dtype: float64 

<class 'pandas.core.series.Series'> 



In [13]:
# 데이터프레임의 각 행에 함수 매핑
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] 
df['ten'] = 10 
print(df.head(), '\n')

def add_two_obj(a,b): # 인자를 더하는 함수 정의
    return a+b

df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']), axis =1)
# add_two_obj함수를 해당 데이터프레임의 age열과 ten열의 값을 인자로 사용해 수행,axis=1이므로 가로방향(열 기준) 진행
print(df.head(), '\n')

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10 

    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0 



In [18]:
# 데이터프레임 객체에 함수 매핑
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] 
print(df.head(), '\n')

def missing_value(x): # 입력한 데이터에서 NaN이 존재하면 True, 아니면 False 반환
    return x.isnull()

def missing_count(x): # 입력 데이터에서 NaN의 개수를 컬럼별로 반환
    return missing_value(x).sum()

def total_number_missing(x): # 입력 데이터에서 총 NaN 개수를 반환
    return missing_count(x).sum()

result_df = df.pipe(missing_value)
print(result_df, '\n')
print(type(result_df), '\n')

result_df2 = df.pipe(missing_count)
print(result_df2, '\n')
print(type(result_df2), '\n')

result_df3 = df.pipe(total_number_missing)
print(result_df3, '\n')
print(type(result_df3), '\n')

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500 

       age   fare
0    False  False
1    False  False
2    False  False
3    False  False
4    False  False
..     ...    ...
886  False  False
887  False  False
888   True  False
889  False  False
890  False  False

[891 rows x 2 columns] 

<class 'pandas.core.frame.DataFrame'> 

age     177
fare      0
dtype: int64 

<class 'pandas.core.series.Series'> 

177 

<class 'numpy.int64'> 

