# 함수매핑
## - 데이터프레임 또는 시리즈에 저장된 원소들을 차례로 적용할 함수에 일대일로 대응시키는 과정
## - 사용자 정의 함수 적용가능

## 개별 원소에 함수 매핑
### apply() 메소드 
    - 매핑 함수에 시리즈에 저장된 모든 원소를 하나씩 차례로 입력해 처리한 후 리턴값을 돌려받음
    - 시리즈 원소 개수만큼 리턴값을 받아 같은 크기의 시리즈 객체로 반환

In [1]:
# 타이타닉 데이터셋을 사용하기 위해 seaborn 라이브러리를 불러옴
import seaborn as sns

# titanic 데이터셋으로부터 age와 fare 열을 선택해 데이터프레임 생성
titanic = sns.load_dataset('titanic')
print(titanic.head())

df = titanic.loc[:, ['age','fare']]

# 데이터 프레임 df에 10을 값으로 가지는 새로운 시리즈(열) 추가
df['ten'] = 10

# 데이터 확인
print(df.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [2]:
# 일단 적용시킬 함수를 만들어보자!
# 사용자 함수 정의
def add_ten(data):   # 매개변수 n에 10을 더해 반환하는 함수 정의
    return data + 10

def add_two_object(a, b):    # 두 객체의 합
    return a + b

# 함수 테스트
print(add_ten(10))
print(add_two_object(10, 10))

20
20


In [3]:
# 시리즈 객체에 적용해보기
print('함수 적용 전 : \n', df['age'].head())    # 전체 데이터는 890개임

# add_ten()를 apply()의 매개변수로 넘겨 df['age']의 모든 원소에 적용
series_1 = df['age'].apply(add_ten)              
print(series_1.head())

함수 적용 전 : 
 0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [8]:
# 시리즈 객체와 숫자에 적용해보기 : 2개의 인수(시리즈 + 숫자)
# add_two_object() 함수를 df['age']의 모든 원소를 매개변수 a로 매핑, b=10으로 매핑해 적용
series_1 = df['age'].apply(add_ten)              
print(series_1.head())

series_2 = df['age'].apply(add_two_object, b=10)    
print(series_2.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [5]:
# 람다 함수를 시리즈 객체에 적용해보기(1)
series_3 = df['age'].apply(lambda data: add_ten(data))  # data=df['age']
print(series_3.head(10))

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
5     NaN
6    64.0
7    12.0
8    37.0
9    24.0
Name: age, dtype: float64


In [6]:
# 람다 함수를 시리즈 객체에 적용해보기(2)
series_4 = df['age'].apply(lambda x, y=10: add_two_object(x,y))  # x=df['age'], y=10
print(series_4.head(10))

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
5     NaN
6    64.0
7    12.0
8    37.0
9    24.0
Name: age, dtype: float64


## 데이터 프레임 원소에 함수 매핑
### applymap() 메소드 
    - 데이터 프레임의 각 원소를 하나씩 전달하는 매핑 함수에 입력해 처리한 후 리턴값 반환
    - 원소의 원래 위치에 리턴값을 입력해 동일한 형태의 데이터 프레임 반환


In [7]:
# titanic 데이터셋으로부터 age와 fare 열을 선택한 데이터프레임 df를 출력해 미리 확인
print(df.head())
print('\n')
   
# 데이터 프레임에 applymap()으로 add_ten() 함수를 매핑 적용
df_mapping = df.applymap(add_ten)   
print(df_mapping.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten
0  32.0  17.2500   20
1  48.0  81.2833   20
2  36.0  17.9250   20
3  45.0  63.1000   20
4  45.0  18.0500   20


## 시리즈 객체에 함수 매핑

### ㅇ 데이터 프레임의 각 열에 대해 함수 매핑
###    apply(axis=0)
    - 모든 열을 하나씩 분리해 매핑 함수의 인자로 각 시리즈(열) 전달
    - 매핑 함수에 따라 반환되는 객체의 종류 다름
### ㅇ 데이터 프레임의 각 행에 대해 함수 매핑
###    apply(axis=1)
    - 데이터 프레임에 있는 모든 행을 매핑 함수 인자로 전달
    - 매핑 결과로 반환되는 시리즈의 인덱스로 데이터 프레임의 행 인덱스가  사용됨 

In [8]:
# 데이터 프레임의 각 열에 함수 매핑하는 예제
# -  시리즈 입력 -> 시리즈 반환 함수 적용 ===> 데이터프레임 반환

# 비교를 위해 titanic 데이터셋으로부터 age와 fare 열을 선택한 데이터프레임 df를 출력해 미리 확인
print(df.head(10))
print('\n')

# 사용자 정의 매핑 함수
def missing_value(series):    # 함수의 매개변수로 시리즈를 입력받음
    return series.isnull()    # 시리즈 데이터의 null 여부를 True 또는 False로 변환해 시리즈로 반환
    
# 데이터프레임의 열들을 매개변수로 전달해 처리한 후 데이터프레임을 반환
returned_series = df.apply(missing_value, axis=1)  
print(returned_series.head(10))
print('\n')
print(type(returned_series))

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
5   NaN   8.4583   10
6  54.0  51.8625   10
7   2.0  21.0750   10
8  27.0  11.1333   10
9  14.0  30.0708   10


     age   fare    ten
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
5   True  False  False
6  False  False  False
7  False  False  False
8  False  False  False
9  False  False  False


<class 'pandas.core.frame.DataFrame'>


In [9]:
# 데이터 프레임의 각 열에 함수 매핑하는 예제
# -  시리즈 입력 -> 단일값 반환 ===> 시리즈 반환
#    : 각 열의 이름이 시리즈의 인덱스로, 함수 반환 값이 각 인덱스에 매칭되는 데이터 값

# 비교를 위해 titanic 데이터셋으로부터 age와 fare 열을 선택한 데이터프레임 df를 출력
print(df.head())
print('\n')

# 사용자 함수 정의
def min_max(data):    # 최대값 - 최소값
    return data.max() - data.min()
    
# 데이터프레임의 각 열을 min_max()의 매개변수로 전달해 적용 후 시리즈를 반환 받음
result_series = df.apply(min_max)   # 행 축이 기본값 axis=0 
print(result_series)
print('\n')
print(type(result_series))

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


age      79.5800
fare    512.3292
ten       0.0000
dtype: float64


<class 'pandas.core.series.Series'>


In [10]:
# 데이터 프레임의 각 행에 함수 매핑하는 예제
# - 행의 모든 데이터(함수에 넘겨진 시리즈의 각 행별 데이터)를 함수에서 처리한 후 하나의 열값으로 반환 --> 최종 결과는 새로운 시리즈 

# 비교를 위해 titanic 데이터셋으로부터 age와 fare 열을 선택한 데이터프레임 df를 출력
import copy
new_df = copy.deepcopy(df)

print(new_df.head())
print('\n')

# 데이터프레임의 2개 열을 선택하여 적용
# x=new_df, a=new_df['age'], b=new_df['ten']
new_df['add'] = new_df.apply(lambda series: add_two_object(series['age'], series['ten']), axis=1)   
print(new_df.head())
print('\n')

# 원본 데이터 프레임이 보존되었는 지 확인
print(df.head())
print('\n')

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10




## 데이터 프레임 객체에 함수 매핑

### ㅇ pipe() 메소드
###    - 데이터 프레임 객체를 함수에 매핑
###    - 매핑 함수의 반환값에 따라 반환되는 객체의 종류 결정

In [11]:
# 실습에 사용할 함수들 정의

# 각 열의 NaN 찾기 - 데이터프레임을 매개변수로 받아 데이터프레임을 반환하기
def missing_value(data):    
    return data.isnull()    

# 각 열의 NaN 개수 반환 - 데이터프레임을 매개변수로 받아 시리즈를 반환하기
def missing_count(data):    # 
    return missing_value(data).sum()

# 데이터프레임의 총 NaN 개수 - 데이터프레임을 매개변수로 받아 값을 반환하기
def totoal_number_missing(data):    
    return missing_count(data).sum()

# 데이터 프레임 정보를 출력해 결과 확인
print(df.info())
print('\n')

# missing_value() 함수를 pipe() 메소드에 매핑
result_df = df.pipe(missing_value)   
print(type(result_df))
print(result_df)
print('\n')

# missing_count() 함수를 pipe() 메소드에 매핑
result_series = df.pipe(missing_count)   
print(type(result_series))
print(result_series)
print('\n')

# age 시리즈에서 891- 714 = 177개의 missing number 존재
result_value = df.pipe(totoal_number_missing)   
print(type(result_value))
print(result_value)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     714 non-null    float64
 1   fare    891 non-null    float64
 2   ten     891 non-null    int64  
dtypes: float64(2), int64(1)
memory usage: 21.0 KB
None


<class 'pandas.core.frame.DataFrame'>
       age   fare    ten
0    False  False  False
1    False  False  False
2    False  False  False
3    False  False  False
4    False  False  False
..     ...    ...    ...
886  False  False  False
887  False  False  False
888   True  False  False
889  False  False  False
890  False  False  False

[891 rows x 3 columns]


<class 'pandas.core.series.Series'>
age     177
fare      0
ten       0
dtype: int64


<class 'numpy.int64'>
177


# 열 재구성
## - 열 순서 변경 : 데이터 프레임 내의 시리즈 순서를 변경
## - 열 분리 :열의 데이터가 복합 정보로 구성되어 있을 때 각 정보를 분리 (예, 날짜 --> 년, 월, 일)

In [12]:
# 열 순서 변경
#    Step 1 : 데이터 프레임의 열 이름을 원하는 순서대로 정리해 리스트로 만듬
#    Step 2 : 재배열한 리스트 사용해 데이터 프레임에서 열을 다시 선택

# titanic 데이터셋의 부분을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
tmp_df = titanic.loc[0:4, 'survived':'age']
print(tmp_df, '\n')

# 열 이름의 리스트 만들기
columns = list(tmp_df.columns.values)   # 원본 열 이름
print(columns, '\n')

# 알파벳 순으로 열 이름을 정렬
columns_sorted = sorted(columns, reverse=True)    # 정렬 순서는 알파벳 순, reverse= True | False
sorted_df = tmp_df[columns_sorted]
print(sorted_df, '\n')

# 열 이름의 순서를 기존의 역순으로 정렬
columns_reversed = list(reversed(columns))
reversed_df = tmp_df[columns_reversed]
print(reversed_df, '\n')

# 임의의 순서로 열 이름을 재배치
columns_customed = ['pclass', 'age', 'sex',  'survived']  
customed_df = tmp_df[columns_customed]
print(customed_df)

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 

['survived', 'pclass', 'sex', 'age'] 

   survived     sex  pclass   age
0         0    male       3  22.0
1         1  female       1  38.0
2         1  female       3  26.0
3         1  female       1  35.0
4         0    male       3  35.0 

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0 

   pclass   age     sex  survived
0       3  22.0    male         0
1       1  38.0  female         1
2       3  26.0  female         1
3       1  35.0  female         1
4       3  35.0    male         0


In [13]:
# 열 분리
# 라이브러리 불러오기
import pandas as pd

# 데이터셋 가져오기
df = pd.read_excel('data/주식데이터.xlsx')
print(df.dtypes, '\n')
print(df.head(10), '\n')

# 복합 데이터를 개별 정보로 분리하기
df['연월일'] = df['연월일'].astype('str')   # astype() 메소드를 사용해 데이터 타입을 문자열로 변경
dates = df['연월일'].str.split('-')        # 변환한 문자열을 split() 메서드를 사용해 개별로 분리 -> 연, 월, 일
print(dates.head(10), '\n')

# 분리된 연, 월, 일을 새로운 열에 각각 저장한 후 df에 추가
df['연'] = dates.str.get(0)     # 리스트 dates의 0번째 값
df['월'] = dates.str.get(1)     # 리스트 dates의 1번째 값
df['일'] = dates.str.get(2)     # 리스트 dates의 2번째 값
print(df.head(10))

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object 

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039
5 2018-06-25  11150   150  11400  11450  11000   55519
6 2018-06-22  11300   100  11250  11450  10750  134805
7 2018-06-21  11200   350  11350  11750  11200  133002
8 2018-06-20  11550   250  11200  11600  10900  308596
9 2018-06-19  11300   700  11850  11950  11300  180656 

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
5    [2018, 06, 25]
6    [2018, 06, 22]
7    [2018, 06, 21]
8    [2018, 06, 20]
9    [2018, 06, 19]
Name: 연월일, dtype

# 필터링
## - 시리즈 또는 데이터 프레임을 대상으로 특정 조건식을 만족하는 원소만 따로 추출

In [14]:
# loc(행 인덱스, 열 인덱스)) 함수 활용
#  - 행 인덱스에 행을 선택하는 조건식 지정(불린 인덱싱) : 시리즈 객체에 조건식을 적용해 각 원소에 대해 True / False 값으로 구성된 시리즈 반환
#  - True에 해당 하는 값만 골라낼 수 있음
#  - loc(행 인덱스, 열 인덱스)) 함수 활용

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# 승객중 10대(10~19세)만 선택
filter_mask_1 = (titanic.age >= 10) & (titanic.age < 20)
df_teen = titanic.loc[filter_mask_1, :]
print(df_teen.head(10))
print('\n')

# 여성이고 10세 미만(0~9세)인 승객 선택
filter_mask_2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[filter_mask_2, :]
print(df_female_under10.head(10))
print('\n')

# age, sex, alone 열에 대해 10세 미만(0~9세)이거나 60세 이상인 경우만 선택
filter_mask_3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_or_morethan60 = titanic.loc[filter_mask_3, ['age', 'sex', 'alone']]
print(df_under10_or_morethan60.head(10))

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   
39         1       3  female  14.0      1      0   11.2417        C   Third   
44         1       3  female  19.0      0      0    7.8792        Q   Third   
49         0       3  female  18.0      1      0   17.8000        S   Third   
59         0       3    male  11.0      5      2   46.9000        S   Third   
67         0       3    male  19.0      0      0    8.1583        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       Fals

In [16]:
# isin() 메소드 활용
#  - 데이터프레임의 열을 대상으로 특정 값을 가진 행들만 추출
#  - 필터 생성 -> 데이터 프레임에 적용

# 라이브러리 불러오기
import seaborn as sns
import pandas as pd

# titanic 데이터셋 로딩
titanic = sns.load_dataset('titanic')

# IPyhton 디스플레이 설정 변경 - 출력할 최대 열의 개수
#pd.set_option('print.max_columns', 10)  
    
# 불린 인덱싱 : 동승한 형제 또는 배우자가 3 또는 5명인 승객 골라내기 
filter_mask_3 = titanic['sibsp'] == 3
filter_mask_5 = titanic['sibsp'] == 5
df_boolean = titanic[filter_mask_3 | filter_mask_5]
print(df_boolean.head(10))
print('\n')

# 위의 불린 인덱싱과 동일한 조건으로 추출 : isin() 메서드 활용
isin_filtering = titanic['sibsp'].isin([3, 5])
df_isin = titanic[isin_filtering]
print(df_isin.head(10))

     survived  pclass     sex   age  sibsp  parch      fare embarked  class  \
7           0       3    male   2.0      3      1   21.0750        S  Third   
24          0       3  female   8.0      3      1   21.0750        S  Third   
27          0       1    male  19.0      3      2  263.0000        S  First   
59          0       3    male  11.0      5      2   46.9000        S  Third   
63          0       3    male   4.0      3      2   27.9000        S  Third   
71          0       3  female  16.0      5      2   46.9000        S  Third   
85          1       3  female  33.0      3      0   15.8500        S  Third   
88          1       1  female  23.0      3      2  263.0000        S  First   
176         0       3    male   NaN      3      1   25.4667        S  Third   
229         0       3  female   NaN      3      1   25.4667        S  Third   

       who  adult_male deck  embark_town alive  alone  
7    child       False  NaN  Southampton    no  False  
24   child       F

# 데이터 프레임 합치기
## - 데이터가 여러 개의 데이터 프레임으로 나누어져 있어 이를 하나로 만들 때
## ㅇ 데이터 프레임 연결 : concat()
## ㅇ 데이터 프레임 병합 : merge()
## ㅇ 데이터 프레임 결합 : join()

In [None]:
# 데이터 프레임 연결 
# - concat(데이터 프레임 리스트) 사용
# - 기본 축방향 axis=0 : 위아래 연결, 각 행 인덱스 본래 형태 유지
# - 열 이름에 대한 기본 옵션 : join='outer', 열 이름의 합집합, 비교차 데이터 항목은 NaN

# 데이터 준비
import pandas as pd

# 딕셔너리로부터 데이터프레임 생성
dataframe_1 = pd.DataFrame({'aa': ['aa0', 'aa1', 'aa2', 'aa3'],
                    'bb': ['bb0', 'bb1', 'bb2', 'bb3'],
                    'cc': ['cc0', 'cc1', 'cc2', 'cc3']},
                    index=[0, 1, 2, 3])
 
dataframe_2 = pd.DataFrame({'aa': ['aa2', 'aa3', 'aa4', 'aa5'],
                    'bb': ['bb2', 'bb3', 'bb4', 'bb5'],
                    'cc': ['cc2', 'cc3', 'cc4', 'cc5'],
                    'dd': ['dd2', 'dd3', 'dd4', 'dd5']},
                    index=[2, 3, 4, 5])

print(dataframe_1)
print(dataframe_2)

    aa   bb   cc
0  aa0  bb0  cc0
1  aa1  bb1  cc1
2  aa2  bb2  cc2
3  aa3  bb3  cc3
    aa   bb   cc   dd
2  aa2  bb2  cc2  dd2
3  aa3  bb3  cc3  dd3
4  aa4  bb4  cc4  dd4
5  aa5  bb5  cc5  dd5


In [None]:
# 두 데이터 프레임을 행 방향(위, 아래)으로 이어 붙여 연결
r1 = pd.concat([dataframe_1, dataframe_2])
print(r1)

    aa   bb   cc   dd
0  aa0  bb0  cc0  NaN
1  aa1  bb1  cc1  NaN
2  aa2  bb2  cc2  NaN
3  aa3  bb3  cc3  NaN
2  aa2  bb2  cc2  dd2
3  aa3  bb3  cc3  dd3
4  aa4  bb4  cc4  dd4
5  aa5  bb5  cc5  dd5


In [None]:
# ignore_index=True 옵션 설정하기 : 원본 데이터 프레임들의 행 인덱스 무시하고 다시 설정
r2 = pd.concat([dataframe_1, dataframe_2], ignore_index=True)
print(r2)

    aa   bb   cc   dd
0  aa0  bb0  cc0  NaN
1  aa1  bb1  cc1  NaN
2  aa2  bb2  cc2  NaN
3  aa3  bb3  cc3  NaN
4  aa2  bb2  cc2  dd2
5  aa3  bb3  cc3  dd3
6  aa4  bb4  cc4  dd4
7  aa5  bb5  cc5  dd5


In [None]:
# 두 데이터 프레임을 열 방향(좌, 우)으로 이어 붙여 연결 
r3 = pd.concat([dataframe_1, dataframe_2], axis=1) # 기본 옵션 join='outer'
print(r3)

    aa   bb   cc   aa   bb   cc   dd
0  aa0  bb0  cc0  NaN  NaN  NaN  NaN
1  aa1  bb1  cc1  NaN  NaN  NaN  NaN
2  aa2  bb2  cc2  aa2  bb2  cc2  dd2
3  aa3  bb3  cc3  aa3  bb3  cc3  dd3
4  NaN  NaN  NaN  aa4  bb4  cc4  dd4
5  NaN  NaN  NaN  aa5  bb5  cc5  dd5


In [None]:
# join='inner' 옵션 적용하기(교집합) : 공통되는 열의 값들이 일치하는 열들에 대해서만 연결
r3_in = pd.concat([dataframe_1, dataframe_2], axis=1, join='inner')
print(r3_in)

    aa   bb   cc   aa   bb   cc   dd
2  aa2  bb2  cc2  aa2  bb2  cc2  dd2
3  aa3  bb3  cc3  aa3  bb3  cc3  dd3


In [None]:
# 데이터 프레임과 시리즈를 연결 : dataframe_1과 series_1을 좌우 열 방향으로 연결하기

# 시리즈 만들기
series_1 = pd.Series(['ee0', 'ee1', 'ee2', 'ee3'], name='ee')

r4 = pd.concat([dataframe_1, series_1], axis=1)
print('데이터 프레임\n', dataframe_1)
print('시리즈\n', series_1)
print('결과\n', r4)

데이터 프레임
     aa   bb   cc
0  aa0  bb0  cc0
1  aa1  bb1  cc1
2  aa2  bb2  cc2
3  aa3  bb3  cc3
시리즈
 0    ee0
1    ee1
2    ee2
3    ee3
Name: ee, dtype: object
결과
     aa   bb   cc   ee
0  aa0  bb0  cc0  ee0
1  aa1  bb1  cc1  ee1
2  aa2  bb2  cc2  ee2
3  aa3  bb3  cc3  ee3


In [None]:
# 데이터 프레임과 시리즈를 연결 : dataframe_2과 series_2을 좌우 열 방향으로 연결하기

# 시리즈 만들기
series_2 = pd.Series(['ff0', 'ff1'], name='ff', index=[3, 5])

r5 = pd.concat([dataframe_2, series_2], axis=1, sort=True)
print('데이터 프레임\n', dataframe_2)
print('시리즈\n', series_2)

# ff열의 데이터 내용을 확인해 볼 것!
print('결과\n', r5)

데이터 프레임
     aa   bb   cc   dd
2  aa2  bb2  cc2  dd2
3  aa3  bb3  cc3  dd3
4  aa4  bb4  cc4  dd4
5  aa5  bb5  cc5  dd5
시리즈
 3    ff0
5    ff1
Name: ff, dtype: object
결과
     aa   bb   cc   dd   ff
2  aa2  bb2  cc2  dd2  NaN
3  aa3  bb3  cc3  dd3  ff0
4  aa4  bb4  cc4  dd4  NaN
5  aa5  bb5  cc5  dd5  ff1


In [None]:
# 시리즈와 시리즈를 연결 : series_1과 series_3을 좌우 열 방향으로 연결하기

# 시리즈 만들기
series_1 = pd.Series(['ee0', 'ee1', 'ee2', 'ee3'], name='ee')
series_3 = pd.Series(['gg0', 'gg1', 'gg2', 'gg3'], name='gg')
print(series_1, series_3)

r6 = pd.concat([series_1, series_3], axis=1)
print(r6)

r7 = pd.concat([series_1, series_3], axis=0) # ignore_index=True 추가해 결과 비교해 보기
print(r7)

In [None]:
# 데이터 프레임 병합 
# - merge(dataframe_left, dataframe_right, on=None, how='inner') 사용
# - 특정 기준(key)에 따라 두 데이터 프레임을 병합
# - 키로 사용하는 인덱스 또는 열은 반드시 양쪽 데이터 프레임에 존재해야 함
# - 데이터베이스의 테이블 조인(join)과 유사

import pandas as pd

# IPyhton 디스플레이 설정 변경 
pd.set_option('print.max_columns', 10)                  # 출력할 최대 열의 개수
pd.set_option('print.max_colwidth', 20)                 # 출력할 열의 너비
pd.set_option('print.unicode.east_asian_width', True)   # 출력할 글자를 유니코드의 너비로 설정

# 주식가격과 주식평가자료를 로드해 데이터프레임 만들기
dataframe_1 = pd.read_excel('data/주식가격.xlsx')
dataframe_2 = pd.read_excel('data/주식평가자료.xlsx')

print(dataframe_1)
print(dataframe_2)

In [None]:
# 교집합으로 데이터프레임 합치기
merge_inner = pd.merge(dataframe_1, dataframe_2)
print(merge_inner)

In [None]:
# 합집합으로 데이터프레임 합치기
merge_outer = pd.merge(dataframe_1, dataframe_2, how='outer', on='id')
print(merge_outer)

In [None]:
# 왼쪽 데이터프레임을 기준으로 키 값을 분리해 데이터프레임 합치기
merge_left = pd.merge(dataframe_1, dataframe_2, how='left', right_on='name', left_on='stock_name')
print(merge_left)

In [None]:
# 오른쪽 데이터프레임을 기준으로 키 값을 분리해 데이터프레임 합치기
merge_right = pd.merge(dataframe_1, dataframe_2, how='right', right_on='name', left_on='stock_name')
print(merge_right)

In [None]:
# 원하는 데이터를 찾기 위해 불린 인덱싱과 결합 
price = dataframe_1[dataframe_1['price'] < 50000]
print(price.head(10))

value = pd.merge(price, dataframe_2)
print(value)

In [None]:
# 데이터 프레임 결합 
# - join(DataFrame2, how='left') 사용
# - mergy()함수를 기반으로 만들어졌음, 기본 동작 방식 유사
# - 행인덱스를 기준으로 결합
# - 행인덱스 대신 다른 열을 기준으로 결합 가능 on='keys'

# 주식가격과 주식평가자료를 로드해 데이터프레임 만들기
dataframe_1 = pd.read_excel('data/주식가격.xlsx', index_col='id')
dataframe_2 = pd.read_excel('data/주식평가자료.xlsx', index_col='id')

# join() 메서드로 데이터프레임 결합
dataframe_3 = dataframe_1.join(dataframe_2)
print(dataframe_3)

In [None]:
# join() 메서드로 교집합 구하기
dataframe_4 = dataframe_1.join(dataframe_2, how='inner')
print(dataframe_4)