# 데이터프레임의 다양한 응용

## 함수매핑

함수 매핑은 시리즈 또는 데이터프레임의 개별원소를 특정 함수에 일대일 대응시키는 과정을 뜻한다. 사용자가 직접 만든 함수(lambda 함수 포함)를 적용할 수 있다.   
판다스 기본함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용하는 것이 가능하다.

### 개별 원소에 함수 매핑

시리즈 원소에 함수 매핑: 시리즈 객체에 apply() 함수를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 돌려받는다.   
시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환한다.

In [1]:
import seaborn as sns

In [2]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


titanic 데이터셋에서 숫자데이터로 구성된 2개의 열 ['age','fare']을 선택하고, 숫자 10 만을 원소 값으로 갖는 새로운 열'ten'열을 추가했다.

두가지의 사용자 함수를 만들어 줄 것이다. 하나는 객체 n에 숫자 10을 더하는 add_ten(n) 함수, 객체 a와 b를 더하는 add_two_obj(a,b) 함수를 만들어 준다.

In [3]:
def add_ten(n):
    return n + 10

def add_two_obj(a,b):
    return a + b

print(add_ten(10))
print(add_two_obj(10,10))

20
20


이제 apply() 함수를 통해서 사용자 함수를 적용할 것이다. df['age']열에 add_ten함수를 적용을 하면 age데이터에서 10을 더해주는 것이고, 다음으로 add_two_obj() 에는 df['age']열에 매핑하면 함께전달된 숫자 10을 모든 원소에다 더하자. 결과값은 같을 것이다.

In [5]:
sr1 = df['age'].apply(add_ten)
print(sr1.head())

sr2 = df['age'].apply(add_two_obj, b=10)
print(sr2.head())

sr3 = df['age'].apply(lambda x : add_ten(x)) #x=df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


데이터프레임 원소에 함수 매핑: 데이터프레임의 개별 원소에 특정 함수를 매핑하려면, applymap() 메소드를 활용한다. 매핑함수에 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받는다.    
원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 동일한 형태의 데이터프레임이 만들어진다.

In [7]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())

def add_ten(n):
    return n + 10

df_map = df.applymap(add_ten)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


다 적용된 것을 볼수 있다.

### 시리즈 객체에 함수 매핑

데이터프레임의 각 **열**에 함수 매핑: 데이터프레임에 apply(axis=0) 메소드를 적용하면 모든 열을 하나씩 분리하여 매핑함수의 인자로 각열(시리즈)이 전달된다. 매핑함수에 따라 반환되는 객체의 종류가 다르다.

DataFrames.apply(매핑함수, axis=0)   
시리즈를 입력받고, 시리즈를 반환하는 함수를 매핑하면, 데이터프레임을 반환한다.   
데이터프레임의 열을 매핑함수에 전달하면 각 열의 리턴값은 시리즈 형태로 반환된다. 그리고 이들 시리즈가 하나의 데이터프레임으로 통합되는 과정을 거친다.

In [8]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())

#사용자 함수 정의
def missing_value(series):
    return series.isnull()

result = df.apply(missing_value,axis=0)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


시리즈를 입력받아서 하나의 값을 반환하는 함수를 매핑하면 시리즈를 반환한다.    
데이터프레임의 각 열을 매핑함수에 전달하면 각 열의 리턴값은 하나의 값으로 반환된다.    
마지막으로 이들 값을 하나의 시리즈로 통합하는 과정을 거친다.

In [10]:
def min_max(x):
    return x.max() - x.min()

result = df.apply(min_max)
print(result)
print(type(result))

age      79.5800
fare    512.3292
dtype: float64
<class 'pandas.core.series.Series'>


데이터프레임의 각 **행**에 함수 매핑: 데이터프레임 객체에 apply(axis=1) 메소드를 적용하면 데이터프레임의 각 행을 매핑 함수의 인자로 전달, 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 된다.    
시리즈의 인덱스에 매핑되는 데이터값에는 각 행의 데이터를 함수에 적용한 리턴값을 가져온다.

In [11]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df['ten'] = 10
print(df.head())

def add_two_obj(a,b):
    return a+b

df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']), axis=1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


### 데이터프레임 객체에 함수 매핑

- 데이터프레임 객체를 함수에 매핑하려면 pipe() 메소드를 활용한다. 
- 이때 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메소드가 반환하는 객체의 종류가 결정된다.
- 데이터프레임, 시리즈,개별값을 반환하는 경우로 나눌 수 있다.

In [13]:
# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]

# 각 열의 NaN 찾기 - 데이터프레임 전달하면 데이터프레임을 반환
def missing_value(x):    
    return x.isnull()    

# 각 열의 NaN 개수 반환 - 데이터프레임 전달하면 시리즈 반환
def missing_count(x):    # 
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수 - 데이터프레임 전달하면 값을 반환
def totoal_number_missing(x):    
    return missing_count(x).sum()
    
# 데이터프레임에 pipe() 메소드로 함수 매핑
result_df = df.pipe(missing_value)   
print(result_df.head())
print(type(result_df))
print('\n')

result_series = df.pipe(missing_count)   
print(result_series)
print(type(result_series))
print('\n')

result_value = df.pipe(totoal_number_missing)   #데이터프레임을 입력받으면 각 열의 누락데이터 NaN의 개수를 합산하여 반환한다.
print(result_value)
print(type(result_value))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


177
<class 'numpy.int64'>


## 열 재구성

### 열 순서 변경

데이터프레임의 열 순서를 변경하는 방법은 열 이름을 원하는 순서대로 정리해서 리스트를 만들고 데이터 프레임에서 열을 다시 선택하는 방식으로 열 순서를 바꿀 수 있다.

In [17]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4,'survived':'age'] #파이썬 리스트 슬라이싱과 다르게 마지막 범위의 값이 포함된다.
print(df, '\n')

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 



데이터프레임의 열 이름 배열을 나타내는 df.columns.values 속성을 선택하여 파이썬 list()함수에 전달한다. 데이터프레임의 열이 원래 순서를 유지한 상태에서 리스트로 변환된다.

In [19]:
#열 이름의 리스트 만들기
columns = list(df.columns.values)
columns2 = list(df.columns[1])
print(columns)

['survived', 'pclass', 'sex', 'age']


sorted() 함수에 columns 변수를 입력하면 열 이름이 알파벳 순으로 정렬된다. 정렬된 열 이름의 리스트를 이용하여 df 열 순서를 재배치하는 것이다.

In [20]:
columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
print(df_sorted)

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0


기존순서의 정반대 역순으로 정렬되는 reversed() 함수를 사용할 수도 있다. 

In [21]:
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
print(df_reversed)

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0


임의로 열의 순서도 바꿀수 있다.

In [22]:
columns_customed = ['pclass', 'sex', 'age', 'survived']
df_customed = df[columns_customed]
print(df_customed)

   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35.0         0


### 열 분리

- 하나의 열이 여러가지 정보를 담고 있을 때 각 정보를 서로 분리해서 사용하는 경우가 있다.
- 어떤 열에 '연월일' 정보가 있을때 '연','월','일'을 구분하여 3개의 열을 만드는 것이나, 사람의 이름이 들어 있는 열을 '성'과 '이름'구분하는 것을 예로 들 수 있다.
- 시계열데이터의 속성과 연산자를 이용하는 방법과 비교할 수 있다.

사용데이터: 한국주식시장에서 상장된 하나의 회사의 날짜별 주가를 정리한 데이터이다.

In [24]:
import pandas as pd

In [25]:
df = pd.read_excel('./주가데이터.xlsx', engine='openpyxl')
print(df.head(), '\n')
print(df.dtypes)

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039 

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object


연월일 열은 데이터 타입이 datetime64이다. astype() 메서드를 사용하여 연월일 열의 시간형 데이터를 문자열로 변경한다. split() 메소드를 사용하여 '연-월-일' 형태에서 구분자 '-'로 하여 분리를 진행해준다.

In [26]:
df['연월일'] = df['연월일'].astype('str')
dates = df['연월일'].str.split('-')
print(dates.head())

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object


dates 변수에 저장된 문자열 리스트의 원소를 선택하기 위해 get() 메소드를 활용한다. 각 원소리스트 인덱스 0,1,2를 전달하여 '연', '월', '일' 데이터를 따로 선택할 수 있다. 그리고 순서대로 데이터 프레임df의 새로운 열로 추가한다.

In [27]:
df['연'] = dates.str.get(0) #dates 변수의 원소 리스트의 0번째 인덱스 값
df['월'] = dates.str.get(1) #dates 변수의 원소 리스트의 1번째 인덱스 값
df['일'] = dates.str.get(2) #dates 변수의 원소 리스트의 2번째 인덱스 값

print(df.head())

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26  10800   350  10900  11000  10700   63039  2018  06  26


## 필터링

시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출하는 개념이다. 가장 대표적인 방법인 불린 인덱싱이 있다.

### 불린 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 boolean 데이터로 구성된 시리즈를 반환한다.
- 많은 데이터 중에서 어떤 조건을 만족하는 데이터만을 추출하는 필터링 기법의 한 유형이다.
- 이렇게 나온 불린 시리즈를 데이터프레임에 대입하면 조건을 만족하는 행들만 선택할 수 있다.

In [30]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# 나이가 10대(10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head())
print('\n')
print(df_teenage.age.max(), df_teenage.age.min())

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False  


19.0 10.0


In [34]:
# 나이가 10세 이하이고, 여자인 승객만 따로 선택
mask2 = (titanic.age <10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head())
print('\n')
print(df_female_under10.sex.value_counts(), df_female_under10.age.describe())

     survived  pclass     sex  age  sibsp  parch     fare embarked   class  \
10          1       3  female  4.0      1      1  16.7000        S   Third   
24          0       3  female  8.0      3      1  21.0750        S   Third   
43          1       2  female  3.0      1      2  41.5792        C  Second   
58          1       2  female  5.0      1      2  27.7500        S  Second   
119         0       3  female  2.0      4      2  31.2750        S   Third   

       who  adult_male deck  embark_town alive  alone  
10   child       False    G  Southampton   yes  False  
24   child       False  NaN  Southampton    no  False  
43   child       False  NaN    Cherbourg   yes  False  
58   child       False  NaN  Southampton   yes  False  
119  child       False  NaN  Southampton    no  False  


female    30
Name: sex, dtype: int64 count    30.000000
mean      4.416667
std       2.709604
min       0.750000
25%       2.000000
50%       4.000000
75%       6.000000
max       9.000000
Name

0-9세의 여자인 데이터 30개만 인덱싱이 되어서 df_female_under10 데이터프레임에 들어가 있음을 볼수 있다.

두 조건식을 OR(|) 연산자로 결합하여 두 조건 중에서 하나라도 참인 값을 추출할 수 있다. 

In [35]:
# 나이가 10세 미만이면서, 또는 60세 이상인 승객의 age,sex,alone 열만 선택
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_upper60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
print(df_under10_upper60)

       age     sex  alone
7     2.00    male  False
10    4.00  female  False
16    2.00    male  False
24    8.00  female  False
33   66.00    male   True
..     ...     ...    ...
831   0.83    male  False
850   4.00    male  False
851  74.00    male   True
852   9.00  female  False
869   4.00    male  False

[88 rows x 3 columns]


### isin() 메소드 활용

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 가진 행들을 따로 추출할 수 있다.
- 이때 isin() 메소드에 데이터프레임의 열에서 추출하려는 값들로 만든 리스트를 전달한다.

In [38]:
# 라이브러리 불러오기
import seaborn as sns
import pandas as pd

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# IPyhton 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns', 10)  
    
# 함께 탑승한 형제 또는 배우자의 수가 3, 4, 5인 승객만 따로 추출 - 불린 인덱싱
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head())
print('\n')

# isin() 메서드 활용하여 동일한 조건으로 추출
isin_filter = titanic['sibsp'].isin([3, 4, 5])
df_isin = titanic[isin_filter]
print(df_isin.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]


    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        Tr

isin() 메소드의 인자로 [3,4,5] 형태의 리스트를 전달하면 해당 값이 존재하는 행은 참을 반환하고, 값이 없으면 거짓을 반환한다. 조건을 만족하는 행들만 선택하여 df_isin에 저장한다.