# 데이터프레임의 다양한 응용

### 함수 매핑

함수 매핑
- 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
- 사용자가 직접 만든 함수를 적용할 수 있음       
-> 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용하는 것이 가능

#### 개별 원소에 함수 매핑

##### 시리즈 원소에 함수 매핑

- 시리즈 객체에 apply() 메서드를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 돌려받음
- 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환

In [None]:
# 시리즈의 원소에 함수 매핑
Serise객체.apply(매핑함수)

In [5]:
# 6.1_series_apply.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [6]:
# 사용자 함수 정의
def add_10(n): # 10을 더하는 함수
    return n + 10

def add_two_obj(a, b): # 두 객체의 합
    return a + b

print(add_10(10))
print(add_two_obj(10, 10))

20
20


In [8]:
# 시리즈 객체에 적용
st1 = df['age'].apply(add_10) # n = df['age']의 모든 원소
print(st1.head())
print('\n')

# 시리즈 객체와 숫자에 적용: 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, b = 10) # a = df['age']의 모든 원소 b = 10
print(sr2.head())
print('\n')

# lambda 함수 활용: 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x : add_10(x)) # x = df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


##### 데이터프레임 원소에 함수 매핑

- 데이터프레임의 개별 원소에 특정 함수를 매핑하려면, applymap() 메서드를 활용
- 매핑 함수에 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받음
- 원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 동일한 형태의 데이터프레임이 만들어짐

In [None]:
# 데이터프레임의 원소에 함수 매핑
DataFrame객체.applymap(매핑함수)

In [9]:
# 6.2_df_applymap.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def add_10(n): # 10을 더하는 함수
    return n + 10

# 데이터프레임에 add_10() 함수를 매핑 적용
df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


### 시리즈 객체에 함수 매핑

##### 데이터프레임의 각 열에 함수 매핑

- 데이터프레임에 apply(axis = 0) 메서드를 적용하면 모든 열을 하나씩 분리하여 매핑 함수의 인자로 각 열(시리즈)이 전달
- 매핑 함수에 따라 반환되는 객테의 종류가 다름

In [None]:
# 데이터프레임의 열에 함수 매핑
DataFrame객체.apply(매핑함수, axis = 0)

- 시리즈를 입력받고 시리즈를 반환하는 함수를 매핑하면, 데이터프레임을 반환

In [10]:
# 6.3_df_apply_isnull.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def missing_value(series): # 시리즈를 인자로 전달
    return series.isnull() # 불린 시리즈를 반환

# 데이터프레임에 apply 메서드를 적용
result = df.apply(missing_value, axis = 0)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


- 시리즈를 입력받아서 하나의 값을 반환하는 함수를 매핑하면 시리즈를 반환
- 데이터프레임의 각 열을 매핑 함수에 전달하면 각 열의 리턴값은 하나의 값으로 반환됨
- 마지막으로 이들 값을 하나의 시리즈로 통합
- 각 열의 이름이 시리즈의 인덱스가 되고, 함수가 반환하는 값이 각 인덱스에 매칭되는 데이터 값이 됨
- axis = 0 옵션의 경우 따로 설정하지 않아도 apply() 함수에서 기본 적용

In [11]:
# 6.4_df_apply_min_max.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def min_max(x): # 최대값 - 최소값
    return x.max() - x.min()

# 데이터프레임에 apply 매서드를 적용
result = df.apply(min_max) # 기본값 axis = 0
print(result)
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


##### 데이터프레임의 각 행에 함수 매핑

- 데이터프레임 객체에 apply(axis = 1) 메서드를 적용하면 데이터프레임의 각 행을 매핑 함수의 인자로 전달
- 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 됨
- 시리즈의 인덱스에 매칭되는 데이터 값에는 각 행의 데이터를 함수에 적용한 리턴값을 가져옴

In [None]:
# 데이터프레임의 행에 함수 매핑
DataFrame객체.apply(매핑함수, axis = 1)

In [17]:
# 6.5_df_apply_row.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())
print('\n')

# 사용자 함수 정의
def add_two_obj(a, b): # 두 객체의 합
    return a + b

# 데이터프레임의 2개 열에 적용
# x = df, a = df['age'], b = df['ten']
df['add'] = df.apply(lambda x : add_two_obj(x['age'], x['ten']), axis = 1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


### 데이터프레임 객체에 함수 매핑

- 데이터프레임 객체를 함수에 매핑하려면 pipe() 메서드를 활용
- 이때 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메서드가 반환하는 객체의 종류가 결정
- 데이터프레임을 반환하는 경우, 시리즈를 반환하는 경우, 개별 값을 반환하는 경우로 나눌 수 있음

In [None]:
# 데이터프레임 객체에 함수 매핑
DataFrame객체.pipe(매핑함수)

In [18]:
# 6.6_df_pipe.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]

# 각 열의 NaN 찾기 - 데이터프레임을 전달하면 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# 각 열의 NaN 개수 반환 - 데이터프레임을 전달하면 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수 - 데이터프레임을 전달하면 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

In [23]:
# 데이터프레임에 함수 매핑
# 데이터프레임의 각 원소에서 누락 데이터 여부를 True 또는 False로 표시 -> 데이터프레임으로 반환
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [24]:
# 데이터프레임을 입력받으면 각 열의 누락 데이터 개수를 시리즈 형태로 반환
result_series = df.pipe(missing_count)
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [25]:
# 데이터프레임을 입력받으면 각 열의 누락 데이터의 개수를 합산하여 반환
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>


### 열 재구성

#### 열 순서 변경

- 열 이름을 원하는 순서대로 정리해서 리스트를 만들고 데이터프레임에서 열을 다시 선택하는 방식으로 열 순서를 바꿀 수 있음

In [None]:
# 데이터프레임의 열 순서 변경
DataFrame객체[재구성한 열 이름의 리스트]

In [27]:
# 6.7_df_column_order.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋의 부분을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[0 : 4, 'survived' : 'age']
print(df, '\n')

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 



In [28]:
# 열 이름의 리스트 만들기
columns = list(df.columns.values) # 기존 열 이름
print(columns, '\n')

['survived', 'pclass', 'sex', 'age'] 



In [29]:
# 열 이름을 알파벳 순으로 정렬하기
columns_sorted = sorted(columns) # 알파벳 순으로 정렬
df_sorted = df[columns_sorted]
print(df_sorted, '\n')

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0 



In [30]:
# 열 이름을 기존 순서의 정반대 역순으로 정렬하기
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
print(df_reversed, '\n')

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0 



In [31]:
# 열 이름을 사용자가 정의한 임의의 순서로 재배치하기
columns_customed = ['pclass', 'sex', 'age', 'survived']
df_customed = df[columns_customed]
print(df_customed)

   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35.0         0


#### 열 분리

- 하나의 열이 여러 가지 정보를 담고 있을 때 각 정보를 서로 분리해서 사용하는 경우

In [32]:
# 6.8_column_split.py

# 라이브러리 불러오기
import pandas as pd

# 데이터셋 가져오기
df = pd.read_excel('/Users/youju/Downloads/5674-833_4th/part6/주가데이터.xlsx', engine = 'openpyxl')
print(df.head(), '\n')
print(df.dtypes, '\n')

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039 

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object 



In [34]:
# 연, 월, 일 데이터 분리하기
df['연월일'] = df['연월일'].astype('str') # 문자열 메소드 사용을 위해 자료형 변경
dates = df['연월일'].str.split('-') # 문자열을 split() 메서드로 분리
print(dates.head(), '\n')

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object 



- 변수에 저장된 문자열 리스트의 원소를 선택하기 위해 get() 메서드 활용

In [None]:
# 시리즈의 문자열 리스트 인덱싱
Series객체.str.get(인덱스)

In [35]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가하기
df['연'] = dates.str.get(0) # dates 변수의 원소 리스트의 0번째 인덱스 값
df['월'] = dates.str.get(1) # dates 변수의 원소 리스트의 1번째 인덱스 값
df['일'] = dates.str.get(2) # dates 변수의 원소 리스트의 2번째 인덱스 값
print(df.head())

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26  10800   350  10900  11000  10700   63039  2018  06  26


### 필터링

시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출

#### 불린 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불란(참, 거짓) 값으로 구성된 시리즈를 반환
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있는데, 많은 데이터 중에서 어떤 조건을 만족하는 데이터만을 추출하는 필터링 기법의 한 유형이다

- 데이터프레임의 각 열은 시리즈 객체이므로, 조건식(<, >, == 등)을 적용하면 각 원소가 조건을 만족하는지 여부를 참과 거짓 값으로 표시하여 불린 시리즈를 만들 수 있음
- 이 불린 시리즈를 데이터프레임에 대입함녀 조건을 만족하는 행들만 선택 가능

In [None]:
# 데이터프레임의 불린 인덱싱
DataFrame객체[불린 시리즈]

In [36]:
# 6.0_filter_boolean.py

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# 나이가 10대(10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head())

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False  


- AND 연산자로 결합하여 두 조건식이 모두 참인 경우 추출

In [37]:
# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head())

     survived  pclass     sex  age  sibsp  parch     fare embarked   class  \
10          1       3  female  4.0      1      1  16.7000        S   Third   
24          0       3  female  8.0      3      1  21.0750        S   Third   
43          1       2  female  3.0      1      2  41.5792        C  Second   
58          1       2  female  5.0      1      2  27.7500        S  Second   
119         0       3  female  2.0      4      2  31.2750        S   Third   

       who  adult_male deck  embark_town alive  alone  
10   child       False    G  Southampton   yes  False  
24   child       False  NaN  Southampton    no  False  
43   child       False  NaN    Cherbourg   yes  False  
58   child       False  NaN  Southampton   yes  False  
119  child       False  NaN  Southampton    no  False  


- OR 연산자로 결합하여 두 조건 중에서 하나라도 참인 값을 추출

In [38]:
# 나미가 10세 미만(0~9세) 또는 60세 이상인 승객의 age, sex, alone 열만
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
print(df_under10_morethan60.head())

     age     sex  alone
7    2.0    male  False
10   4.0  female  False
16   2.0    male  False
24   8.0  female  False
33  66.0    male   True


#### isin() 메서드 활용

- 데이터프레임의 열에 isim() 메서드를 적용하면 특정 값을 가진 행들을 따로 추출할 수 있음
- isin() 메서드에 데이터프레임의 열에서 추출하려는 값들로 만든 리스트를 전달

In [None]:
# isin() 메서드를 활용한 필터링
DataFrame의 열 객체.isin(추출 값의 리스트)

In [39]:
# 6.10_filter_isin.py

# 라이브러리 불러오기
import seaborn as 눈
import pandas as pd

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# Ipython 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns', 10)

# 함께 탑승한 형제 또는 배우자의 수가 3, 4, 5인 승객만 따로 추출 - 불린 인덱싱
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]


isin() 메서드를 활용하는 필터링
- isin() 메서드의 인자로 리스트를 전달하면 해당 값이 존재하는 행은 참을 반환하고, 값이 없으면 거짓을 반환

In [40]:
# isin() 메서드를 활용하여 동일한 조건으로 추출
isin_filter = titanic['sibsp'].isin([3, 4, 5])
df_isin = titanic[isin_filter]
print(df_isin.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]
