# Part 6 데이터프레임의 다양한 응용

## 1 함수 매핑

### 1-1 개별 원소에 함수 매핑

In [1]:
import sys
sys.path.append('/content/drive/MyDrive/AI/Bart/파이썬 머신러닝 판다스 데이터 분석/data')

#### 시리즈 원소에 함수 매핑

In [2]:
import seaborn as sns

# titanic 데이터셋에서 age , fare 2개 열을 선택하여 데이터 프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[: , ['age' , 'fare']]
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [5]:
# 사용자 함수 정의
def add_10(n):
    return n+10

def add_two_obj(a, b):
    return a+b

print(add_10(10))
print(add_two_obj(10 , 10))

20
20


In [6]:
# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)
print(sr1.head())
print('\n')

# 시리즈 객체와 숫자에 적용: 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj , b = 10)
print(sr2.head())
print('\n')

# lambda 함수 활용: 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x : add_10(x))
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


#### 데이터프레임 원소에 함수 매핑

In [7]:
# applymap

import seaborn as sns

# titanic 데이터셋이서 age , fare 2개 열을 선탣하여 데이터프레임 마들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[: , ['age' , 'fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def add_10(n):
    return n + 10

# 데이터프레임에 add_10() 함수를 매핑 적용
df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


### 1-2 시리즈 객체에 함수 매핑

#### 데이터프레임의 각 열에 함수 매핑

In [9]:
#axis = 0

# 라이브러리 불러오기
import seaborn as sns
# titanic 데이터셋에서 age , fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[: , ['age' , 'fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def missing_value(series):
    return series.isnull()

#데이터프레임에 apply 메소드를 적용
result = df.apply(missing_value , axis = 0)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


In [10]:
def min_max(x):
    return x.max() - x.min()

# 데이터프레임에 apply 메소드를 적용
result = df.apply(min_max)
print(result)
print('\n')
print(type(result))

age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


#### 데이터프레임의 각 행에 함수 매핑

In [12]:
df['ten'] = 10

df['add'] = df.apply(lambda x : add_two_obj(x['age'], x['ten'] ) , axis = 1)
print(df.head())

    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


### 1-3 데이터프레임 객체에 함수 매핑

In [13]:
import seaborn as sns

# titanic 데이텃세이서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[: , ['age' , 'fare']]

# 각 열의 NaN 찾기 - 데이터프레임을 전달하면 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# 각 열의 NaN 개수 반환 - 데이터프레임을 전달하면 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 총 naN 개수 - 데이터프레임을 전달하면 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

In [14]:
# 데이터프레임에 함수 매핑
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [16]:
result_series = df.pipe(missing_count)
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [19]:
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>


## 2 열 재구성

### 2-1 열 순서 변경

In [20]:
df = titanic.loc[0:4 , 'survived' : 'age']
print(df , '\n')

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 



In [21]:
# 열 이름의 리스트 만들기
columns = list(df.columns.values)   # 기존 열 이름
print(columns , '\n')

['survived', 'pclass', 'sex', 'age'] 



In [22]:
# 열 이름을 알파벳 순으로 정렬하기
columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
print(df_sorted , '\n')

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0 



In [24]:
# 열 이름을 기존 순서의 정반대 역순으로 정렬하기
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
print(df_reversed , '\n')

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0 



In [25]:
# 열 이름을 사용자가 정의한 임의의 순서로 재배치하기
columns_customed = ['pclass' , 'sex' , 'age' , 'survived']
df_customed = df[columns_customed]
print(df_customed)

   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35.0         0


### 2-2 열 분리

In [3]:
%cd /content/drive/MyDrive/AI/Bart/파이썬 머신러닝 판다스 데이터 분석/data

/content/drive/MyDrive/AI/Bart/파이썬 머신러닝 판다스 데이터 분석/data


In [6]:
# 데이터셋 가져오기
import numpy as np
import pandas as pd

df = pd.read_excel('주가데이터.xlsx' , engine = 'openpyxl')
print(df.head() , '\n')
print(df.dtypes , '\n')

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039 

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object 



In [8]:
# 연, 월, 일 데이터 분리하기
df['연월일'] = df['연월일'].astype('str')
dates = df['연월일'].str.split('-')
print(dates.head() , '\n')

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object 



In [9]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가하기
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
print(df.head())

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26  10800   350  10900  11000  10700   63039  2018  06  26


## 3 필터링

### 3-1 불린 인덱싱

In [10]:
import seaborn as sns

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# 나이가 10대(10 ~ 19세)인 승객만 따로 선택
mask1 = (titanic.age >=10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1 , :]
print(df_teenage.head())

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False  


In [12]:
# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head())

     survived  pclass     sex  age  sibsp  parch     fare embarked   class  \
10          1       3  female  4.0      1      1  16.7000        S   Third   
24          0       3  female  8.0      3      1  21.0750        S   Third   
43          1       2  female  3.0      1      2  41.5792        C  Second   
58          1       2  female  5.0      1      2  27.7500        S  Second   
119         0       3  female  2.0      4      2  31.2750        S   Third   

       who  adult_male deck  embark_town alive  alone  
10   child       False    G  Southampton   yes  False  
24   child       False  NaN  Southampton    no  False  
43   child       False  NaN    Cherbourg   yes  False  
58   child       False  NaN  Southampton   yes  False  
119  child       False  NaN  Southampton    no  False  


In [13]:
# 나이가 10세 미만 (0~9세) 또는 60세 이상인 승객의 age , sex , alone 열만 선택
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3 , ['age' , 'sex' , 'alone']]
print(df_under10_morethan60.head())

     age     sex  alone
7    2.0    male  False
10   4.0  female  False
16   2.0    male  False
24   8.0  female  False
33  66.0    male   True


### 3-2 isin() 메소드 활용

In [15]:
# 라이브러리 불러오기
import seaborn as sns
import pandas as pd

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# IPython 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns' , 10)

# 함께 탑승한 형제 또는 배우자의 수가 3, 4, 5인 승객만 따로 추출 - 불린 인덱싱
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]


In [16]:
# isin() 메소드를 활용하여 동일한 조건으로 추출
isin_filter = titanic['sibsp'].isin([3,4,5])
df_isin = titanic[isin_filter]
print(df_isin.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]


## 4 데이터프레임 합치기

## 4-1 데이터프레임 연결

In [22]:
import pandas as pd

# 데이터프레임 만들기
df1 = pd.DataFrame({'a' : ['a0' , 'a1' , 'a2' , 'a3'],
                    'b' : ['b0' , 'b1' , 'b2' , 'b3'],
                    'c' : ['c0' , 'c1' , 'c2' , 'c3']},
                    index=[0,1,2,3])

df2 = pd.DataFrame({'a' : ['a2' , 'a3' , 'a4' , 'a5'],
                    'b' : ['b2' , 'b3' , 'b4' , 'b5'],
                    'c' : ['c2' , 'c3' , 'c4' , 'c5'],
                    'd' : ['d2' , 'd3' , 'd4' , 'd5']},
                   index = [2,3,4,5])

print(df1 , '\n')
print(df2 , '\n')

# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결하기
result1 = pd.concat([df1 , df2])
print(result1 , '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5 

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   d3
4  a4  b4  c4   d4
5  a5  b5  c5   d5 



In [23]:
# ignore_index = True 옵션 설정하기
result2 = pd.concat([df1 , df2] , ignore_index = True)
print(result2 , '\n')

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5 



In [24]:
# 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결하기
result3 = pd.concat([df1 , df2] , axis = 1)
print(result3 , '\n')

     a    b    c    a    b    c    d
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5 



In [25]:
# join = 'inner' 옵션 적용하기(교집합)
result3_in = pd.concat([df1 , df2] , axis = 1 , join='inner')
print(result3_in , '\n')

    a   b   c   a   b   c   d
2  a2  b2  c2  a2  b2  c2  d2
3  a3  b3  c3  a3  b3  c3  d3 



In [26]:
# 시리즈 만들기
sr1 = pd.Series(['e0' , 'e1' , 'e3' , 'e3'] , name = 'e')
sr2 = pd.Series(['f0' , 'f1' , 'f2'], name = 'f' , index = [3,4,5])
sr3 = pd.Series(['g0' , 'g1' , 'g2' , 'g3'] , name = 'g')

# df1과 sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1 , sr1] , axis = 1)
print(result4 , '\n')

# df2과 sr2을 좌우 열 방향으로 연결하기
result5 = pd.concat([df2 , sr2] , axis = 1 , sort = True)
print(result5 , '\n')

    a   b   c   e
0  a0  b0  c0  e0
1  a1  b1  c1  e1
2  a2  b2  c2  e3
3  a3  b3  c3  e3 

    a   b   c   d    f
2  a2  b2  c2  d2  NaN
3  a3  b3  c3  d3   f0
4  a4  b4  c4  d4   f1
5  a5  b5  c5  d5   f2 



In [27]:
# sr1과 sr3을 좌우 열 방향으로 연결하기
result6 =pd.concat([sr1 , sr3] , axis = 1)
print(result6 , '\n')

result7 = pd.concat([sr1  ,sr3] , axis = 0)
print(result7 , '\n')

    e   g
0  e0  g0
1  e1  g1
2  e3  g2
3  e3  g3 

0    e0
1    e1
2    e3
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object 

