# 데이터프레임의 다양한 응용

- 데이터프레임에 함수를 매핑하는 방법, 데이터를 집계하는 그룹 연산, 데이터프레임을 합치거나 다양한 형태로 구조를 변경하는 방법 등에 관해 차례대로 살펴보기로 한다.

## 1. 함수매핑

### 1-1 개별 원소에 함수 매핑

In [1]:
# 시리즈 원소에 apply() 원소 적용

import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 
df['ten'] = 10 # 새로운 열 추가
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [2]:
# 이어서 
def add_10(n):    # 10을 더하는 함수 생성
    return n + 10

def add_two_obj(a,b):  # 두 객체의 합 함수 생성
    return a + b

print(add_10(10))
print(add_two_obj(10,10))

20
20


In [3]:
# 이어서

# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)  # n =df['age']의 모든 원소
print(sr1.head())
print('\n')

# 시리즈 객체와 숫자에 적용: 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, b=10)    # a = add_two_obj
print(sr2.head())
print('\n')

# lambda 함수 활용: 시리즈 객체 적용               
sr3 = df['age'].apply(lambda x :add_10(x))  # x = df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


### 데이터프레임 원소에  함수 매핑

- applymap() 메소드를 활용하여 데이터프레임의 개별 원소에 특정 함수를 매핑한다.
- 매핑함수에 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받는다.


In [5]:
# 데이터프레임 원소에 applymap() 적용 

import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 

print(df.head())

def add_10(n):    # 10을 더하는 함수 생성
    return n + 10

df_map = df.applymap(add_10)  # 데이터프레임에 applymap()으로 add_10() 함수를 매핑 적용
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


## 시리즈 객체에 함수 매핑

### 데이터프레임 각 열에 함수 매핑

- 데이터프레임에 apply(axis=0) 메소드를 적용하면 모든 열을 하나씩 분리하여 매핑 함수의 인자로 각 열(시리즈)이 전달된다.
- 데이터프레임의 열을 매핑 함수에 전달하면 각 열의 리턴값은 시리즈 형태로 반환된다.
- missing_value(series) 함수를 정의할 때 활용한 isnull() 메소드는 시리즈 객체에서 누락 데이터를 찾고 그 결과를 불린 시리즈 형태로 반환하는 함수이다.

In [7]:
# 데이터프레임에 apply(axis=0) 적용
import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 

print(df.head())

# 사용자 함수 정의
def missing_value(series):  # 시리즈 인자로 전달
    return series.isnull() # 불린 시리즈를 반환

# 데이터프레임의 각 열을 인자로 전달하면 데이터프레임을 반환

result = df.apply(missing_value, axis = 0)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


In [9]:
# 데이터 프레임에 apply(axis=0) 적용

import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 

print(df.head())

# 사용자 함수 정의
def min_max(x):
    return x.max() - x.min()

# 데이터프레임의 각 열을 인자로 전달하면 시리즈를 반환
result = df.apply(min_max) # 기본값 axis = 0 , 생략가능!
print(result)
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


### 데이터프레임에 apply() 적용


In [11]:
# 데이터프레임에 apply() 적용
import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 
df['ten'] = 10
print(df.head())
print()

# 사용자 함수 정의
def add_two_obj(a,b): # 두 객체의 합
    return a + b

# 데이터프레임 2개 열을 선택하여 적용
# x = df, a = df['age'], b = df['ten']

df['add'] = df.apply(lambda x : add_two_obj(x['age'],x['ten']), axis =1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10

    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


## 데이터프레임 객체에 함수 매핑

- 데이터프레임 객체를 함수에 매핑하려면 pipe() 메소드를 활용한다.
- 이 때 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메소드가 반환하는 객체의 종류가 결정된다.
- 데이터프레임을 반환하는 경우, 개별 값을 반환하는 경우로 나눌 수 있다.


In [13]:
# 데이터프레임에 pipe() 적용
import seaborn as sns

# titanic 데이터셋에서 age,fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']] # loc로 행 부분 슬라이싱 
print(df.head())
print()

# 각 열의 NaN 찾기 - 데이터프레임 전달하면 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# 각 열의 NaN 개수 반환 - 데이터프레임 전달하면 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수 - 데이터프레임 전달하면 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

result_df = df.pipe(missing_value)  # 데이터프레임에 pipe() 메소드로 함수 매핑
print(result_df.head())
print(type(result_df))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [14]:
result_series = df.pipe(missing_count) # 각 열의 누락데이ㅣ터 개수를 시리즈 형태로 반환
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [15]:
result_value = df.pipe(total_number_missing)  # 각 열의 누락데이터 개수 합산하여 반환
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>


## 열 재구성

### 열 순서 변경


In [21]:
# 열 순서 바꾸기

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4 , 'survived':'age']
print(df,'\n')

# 열 이름 리스트 만들기
columns = list(df.columns.values) # 기존 열 이름
print(columns, '\n')

columns_sorted = sorted(columns)  # 알파벳 순으로 정렬
df_sorted = df[columns_sorted]
print(df_sorted, '\n')

# 열 이름을 기존 순서의 정반대 역순으로 정렬하기
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
print(df_reversed, '\n')

# 열 이름을 사용자가 정의한 임의의 순서로 재배치하기
columns_customed = ['pclass','sex','age','survived']
df_customed = df[columns_customed]
print(df_customed)

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 

['survived', 'pclass', 'sex', 'age'] 

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0 

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0 

   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35.0         0


## 열 분리


In [22]:
# 열 분리하기
import pandas as pd

# 데이터셋 가져오기
df = pd.read_excel('./주가데이터.xlsx', engine= 'openpyxl')
print(df.head(), '\n')
print(df.dtypes, '\n')

# 연, 월, 일 데이터 분리하기
df['연월일'] = df['연월일'].astype('str')   # 문자열 메소드 사용을 자료형 변경
dates = df['연월일'].str.split('-')        # 문자열을 split() 메서드로 분리
print(dates.head(), '\n')

# 분리된 정보를 각각 새로운 열에 담아서 df에 추가하기
df['연'] = dates.str.get(0)     # dates 변수의 원소 리스트의 0번째 인덱스 값
df['월'] = dates.str.get(1)     # dates 변수의 원소 리스트의 1번째 인덱스 값 
df['일'] = dates.str.get(2)     # dates 변수의 원소 리스트의 2번째 인덱스 값
print(df.head())

FileNotFoundError: [Errno 2] No such file or directory: './주가데이터.xlsx'

## 필터링 

### 불린 인덱싱


In [23]:
# 불린 인덱싱
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# 나이가 10대(10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head())
print('\n')

# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head())
print('\n')

# 나이가 10세 미만(0~9세) 또는 60세 이상인 승객의 age, sex, alone 열만 선택
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
print(df_under10_morethan60.head())

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False  


     survived  pclass     sex  age  sibsp  parch     fare embarked   class  \
10          1       3  female  4.0      1      1  16.7000        S   Third   
24          0       3  female  8.0   

In [None]:
# isin() 메소드 활용
