In [None]:
# 1. 함수 매핑
# 데이터 프레임에 함수를 매핑하는 방법, 데이터를 집계하는 그룹 연산, 데이터프레임을 합치거나 다양한 형태로 구조를 변경하는 방법

In [10]:
# 1-1. 개별 원소에 함수 매핑

# 시리즈 원소에 함수 매핑
# 시리즈 원소에 함수 매핑 : Series객체.apply(매핑함수)
# 시리즈 객체에 apply() 메소드를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 돌려받음
# 즉, 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환

import seaborn as sns

# titanic 데이터셋에서 2개의 열을 선택하고, 하나의 열을 추가
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())
print('\n')

# 사용자 함수 정의
def add_10(n):
    return n + 10 # 10을 더하는 함수

def add_two_obj(a, b):
    return a + b # 두 객체의 합

print(add_10(10))
print(add_two_obj(10, 10))
print('\n')

# 1, 2, 3번 모두 시리즈의 원소에 10을 더한 같은 결과를 반환
# 1. 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)
print(sr1.head())
print('\n')

# 2. 시리즈 객체와 숫자에 적용 : 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, b = 10)
print(sr2.head())
print('\n')

# 3. lambda 함수 활용 : 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x : add_10(x))
print(sr3.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


20
20


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [12]:
# 데이터프레임 원소에 함수 매핑
# 데이터프레임 원소에 함수 매핑 : DataFrame 객체.applymap(매핑함수)
# 원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 동일한 형태의 데이터프레임이 만들어짐

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 정의 함수
def add_10(n):
    return n + 10 # 10을 더하는 함수

# 데이터프레임에 add_10() 함수를 매핑 적용
df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


In [14]:
# 1-2. 시리즈 객체에 함수 매핑

# 데이터프레임의 각 열에 함수 매핑
# 데이터프레임의 열에 함수 매핑 : DataFrame객체.apply(매핑함수, axis = 0)
# 시리즈를 입력받고 시리즈를 반환하는 함수를 매핑하면 결과적으로 데이터프레임을 반환
# 즉, 데이터프레임의 열을 매핑 함수에 전달하면 각 열의 리턴값은 시리즈 형태로 반환되고, 이들 시리즈가 하나의 데이터프레임으로 통합되는 과정을 거침
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 정의 함수
def missing_value(series): # 시리즈를 인자로 전달
    return series.isnull() # 불린 시리즈를 반환

# 데이터프레임에 apply 메소드를 적용
result = df.apply(missing_value, axis = 0)
print(result.head())
print('\n')
print(type(result))


# 그러나, 시리즈를 입력받아서 하나의 값을 반환하는 함수를 매핑하면 시리즈를 반환
# 아래에서 시리즈의 최대값과 최소값의 차이를 계산하여 값을 반환하는 min_max(x) 함수를 정의해서 사용
# 결과적으로 이들 값을 하나의 시리즈로 통합하는 과정을 거침
# 이 때, 각 열의 이름이 시리즈의 인덱스가 되고, 함수가 반환하는 값이 각 인덱스에 매칭되는 데이터 값이 됨
# axis = 0 옵션의 경우 따로 설정하지 않아도 기본 적용됨
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

# 사용자 정의 함수
def min_max(x): # 최대값 - 최소값
    return x.max() - x.min()

# 데이터프레임에 apply 메소드를 적용
res
ult = df.apply(min_max)
print(result)
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>
    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


In [2]:
# 데이터프레임의 각 행에 함수 매핑
# 데이터프레임의 행에 함수 매핑 : DataFrame 객체.apply(매핑함수, axis = 1)
# 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 됨

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())
print('\n')

# 사용자 정의 함수
def add_two_obj(a, b):
    return a + b

# 데이터프레임의 2개 열에 적용
# 즉, x = df, a = df['age'], b = df['ten']
df['add'] = df.apply(lambda x : add_two_obj(x['age'], x['ten']), axis = 1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


In [5]:
# 1-3. 데이터프레임 객체에 함수 매핑
# 데이터프레임 객체에 함수 매핑 : DataFrame 객체.pipe(매핑함수)
# 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메소드가 반환하는 객체의 종류가 결정
# 데이터프레임을, 시리즈를, 개별값을 반환할 수도 있음

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]

# 각 열의 NaN 찾기 - 데이터프레임을 전달하면 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# 각 열의 NaN 개수 반환 - 데이터프레임을 전달하면 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수 - 데이터프레임을 전달하면 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

# 데이터프레임에 함수 매핑
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))
print('\n')

result_series = df.pipe(missing_count)
print(result_series.head())
print(type(result_series))
print('\n')

result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


177
<class 'numpy.int64'>


In [None]:
# 함수 매핑 정리
# 1-1. 개별 원소에 함수 매핑 : series.apply(), dataframe.applymap()
# 1-2. 시리즈 객체에 함수 매핑 : dataframe.apply(axis = 0 => 열), dataframe.apply(axis = 1 => 행)
# 1-3. 데이터프레임 객체에 함수 매핑 : dataframe.pipe()

In [15]:
# 2. 열 재구성

# 2-1. 열 순서 변경
# 데이터프레임의 열 순서 변경 : DataFrame 객체[재구성한 열 이름의 리스트]

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4, 'survived':'age'] # 리스트 슬라이싱과 다르게 마지막 범위의 값이 포함됨
print(df, '\n')

# 열 이름 리스트 만들기
columns = list(df.columns.values) # 기존 열 이름, df.columns는 그냥 인덱스임
print(columns, '\n')

# 열 이름을 알파벳 순으로 정렬하기
columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
print(df_sorted, '\n')

# 열 이름을 기존 순서의 정반대 역순으로 정렬하기
columns_reversed = list(reversed(columns)) # reversed 하고, 리스트로 만들어주어야 함
df_reversed = df[columns_reversed]
print(df_reversed, '\n')

# 임의로 열 재배치
columns_customed = ['pclass', 'sex', 'age', 'survived']
df_customed = df[columns_customed]
print(df_customed)

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0 

['survived', 'pclass', 'sex', 'age'] 

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0 

    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0 

   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35.0         0


In [27]:
# 2-2. 열 분리
# 하나의 열이 여러 가지 정보를 담고 있을 대 각 정보를 서로 분리해서 사용
# (ex) 열에 '연월일' 정보가 있을 때, '연', '월', '일'을 구분하여 3개의 열을 만듦
# (ex) 열에 '성이름' 정보가 있을 때, '성', '이름'을 구분하여 2개의 열을 만듦

import pandas as pd

df = pd.read_excel('./주가데이터.xlsx', engine = 'openpyxl')
print(df.head(), '\n')
print(df.dtypes, '\n') # 각 열의 자료형 확인, '연월일'이 datetime64 자료형을 가짐

# 연, 월, 일 데이터 분리하기
df['연월일'] = df['연월일'].astype('str') # 시간형 데이터를 문자열로 변환
dates = df['연월일'].str.split('-')
print(dates.head(), '\n')

# 시리즈의 문자열 리스트 인덱싱 : Series 객체.str.get(인덱스)
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
print(df.head())

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039 

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object 

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object 

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26 

In [32]:
# 3. 필터링
# 시리즈 혹은 데이터프레임의 데이터 중 특정 조건식을 만족하는 원소만 따로 추출하는 개념

# 3-1. 불린 인덱싱
# 데이터프레임의 불린 인덱싱 : DataFrame 객체[불린 시리즈]

import seaborn as sns

titanic = sns.load_dataset('titanic')

# 나이가 10대(10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head(), '\n')

# 나이가 10세 미만이고 여성인 승객만 따로 선택
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head(), '\n')

# 나이가 10세 미만 또는 60세 이상인 승객의 age, sex, alone 열만 선택
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
print(df_under10_morethan60)

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False   

     survived  pclass     sex  age  sibsp  parch     fare embarked   class  \
10          1       3  female  4.0      1      1  16.7000        S   Third   
24          0       3  female  8.0   

In [35]:
# 3-2. isin() 메소드 활용
# isin() 메소드를 활용한 필터링 : DataFrame의 열 객체.isin(추출 값의 리스트)
# isin() 메소드를 데이터프레임의 열에 적용하면 특정 값을 가진 행들을 따로 추출할 수 있음
# 추출하려는 값들로 만든 리스트를 전달함

# titanic의 sibsp 열의 값이 3, 4, 5 중 하나인 행들을 추출

# 1. 불린 인덱싱으로 추출
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')

# IPython 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns', 10)

mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head(), '\n')


# 2. isin() 메소드를 활용하여 동일한 조건으로 추출
isin_filter = titanic['sibsp'].isin([3, 4, 5]) # 참, 거짓을 반환
df_isin = titanic[isin_filter]
print(df_isin.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns] 

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        Tr

In [41]:
# 4. 데이터프레임 합치기
# 대표적으로 concat(), merge(), join()을 예로 들 수 있음

# 4-1. 데이터프레임 연결
# 데이터프레임 연결 : pandas.concat(데이터프레임의 리스트)
# 서로 다른 데이터프레임의 구성 형태와 속성이 균일하다면, 행 또는 열 중 어느 한 방향으로 이어 붙여도 데이터 일관성 유지 가능
# 축 방향을 지정하지 않으면 기본 옵션 axis = 0이 적용되어 위 아래 행 방향으로 연결됨
# 이 때 각 데이터프레임의 행 인덱스는 본래 형태를 유지
# 열 이름에 대해서는 join = 'outer' 옵션이 기본 적용 => 합집합으로 구성
# join = 'inner' => 교집합으로 구성
# 빈 자리는 NaN으로 입력됨

import pandas as pd

df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'],
                    'b':['b0', 'b1', 'b2', 'b3'],
                    'c':['c0', 'c1', 'c2', 'c3']},
                    index = [0, 1, 2, 3])

df2 = pd.DataFrame({'a':['a2', 'a3', 'a4', 'a5'],
                    'b':['b2', 'b3', 'b4', 'b5'],
                    'c':['c2', 'c3', 'c4', 'c5'],
                    'd':['d2', 'd3', 'd4', 'd5']},
                    index = [2, 3, 4, 5])

print(df1, '\n')
print(df2, '\n')

# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결
result1 = pd.concat([df1, df2])
print(result1, '\n')
result1_1 = pd.concat([df1, df2], join = 'inner')
print(result1_1, '\n')

# ignore_index = True 옵션 설정하기, 기존 행 인덱스를 무시하고 새로운 행 인덱스 설정
result2 = pd.concat([df1, df2], ignore_index = True)
print(result2, '\n')


# axis = 1 옵션을 사용하면 데이터프레임을 좌우 열 방향으로 연결
# 따라서, 기존 열 이름 배열이 그대로 유지

# 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결하기
result3 = pd.concat([df1, df2], axis = 1)
print(result3, '\n')

# join = 'inner' 옵션 적용하기
result3_in = pd.concat([df1, df2], axis = 1, join = 'inner')
print(result3_in, '\n')



# 데이터프레임과 시리즈를 좌우 열 방향으로 연결 가능
# 데이터프레임에 열을 추가하는 것과 같으
# 이 때 시리즈의 이름이 데이터프레임의 열 이름으로 변환
# 단, 데이터프레임의 행 인덱스와 시리즈의 인덱스가 같아야 함
# 공통 인덱스가 없을 경우 NaN으로 처리함

# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name = 'e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name = 'f', index = [3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name = 'g')

# df1과 sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1, sr1], axis = 1)
print(result4, '\n')

# df2와 sr2을 좌우 열 방향으로 연결하기 (시리즈에 인덱스 2가 없어 NaN으로 채워짐)
result5 = pd.concat([df2, sr2], axis = 1, sort = True) # 인덱스를 기준으로 정렬
print(result5, '\n')

# sr1, sr3을 좌우 열 방향으로 연결하기
result6 = pd.concat([sr1, sr3], axis = 1)
print(result6, '\n')

# sr1, sr3을 위 아래 행 방향으로 연결하기
result7 = pd.concat([sr1, sr3], axis = 0)
print(result7)

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5 

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   d3
4  a4  b4  c4   d4
5  a5  b5  c5   d5 

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3
2  a2  b2  c2
3  a3  b3  c3
4  a4  b4  c4
5  a5  b5  c5 

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5 

     a    b    c    a    b    c    d
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5 

    a   b   c   a   b   c   d
2  a2  b2  c2  a2  b2  c2  d2
3  a3  b3  c3  a3  b3  c3  d3 

    a   b

In [4]:
# 4-2. 데이터프레임 병합
# 데이터프레임 병합 : pandas.merge(df_left, df_right, how = 'inner', on = None)
# on = None 옵션은 두 데이터프레임에 공통으로 속하는 모든 열을 기준으로 병합
# concat() 함수가 여러 데이터프레임을 이어 붙이듯 연결
# merge() 함수는 SQL의 join 명령과 비슷한 방식으로 어떤 기준에 의해 두 데이터프레임을 병합
# 이 때 기준이 되는 열이나 인덱스를 키(key)라고 부름

import pandas as pd

# IPython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10) # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20) # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True) # 유니코드 사용 너비 조정

df1 = pd.read_excel('./stock price.xlsx', engine = 'openpyxl')
df2 = pd.read_excel('./stock valuation.xlsx', engine = 'openpyxl')

print(df1)
print('\n')
print(df2)
print('\n')

# 데이터프레임 합치기 (기본값, inner, None)
merge_inner = pd.merge(df1, df2)
print(merge_inner)
print('\n')

# 데이터프레임 합치기 (outer, id 기준)
merge_outer = pd.merge(df1, df2, how = 'outer', on = 'id')
print(merge_outer)
print('\n')

# 데이터프레임 합치기 (left)
# left_on과 right_on은 기준 키의 이름이 다를 때 사용, 같으면 그냥 on으로 사용
# 기준 키가 아닌 id 열의 경우 양쪽 데이터프레임에 모두 존재하므로 id_x, id_y로 표시됨
merge_left = pd.merge(df1, df2, how = 'left', left_on = 'stock_name', right_on = 'name')
print(merge_left)
print('\n')

# 데이터프레임 합치기 (right)
merge_right = pd.merge(df1, df2, how = 'right', left_on = 'stock_name', right_on = 'name')
print(merge_right)
print('\n')

# 데이터프레임 합치기 (불린 인덱싱을 통해 주가 50,000원 미만인 종목 찾고 지표와 함께 확인)
price = df1.loc[df1['price'] < 50000]
print(price.head())
print('\n')

value = pd.merge

       id    stock_name          value   price
0  128940      한미약품   59385.666667  421000
1  130960        CJ E&M   58540.666667   98900
2  138250    엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280  녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400    쿠쿠홀딩스  179204.666667  177500
8  199800          툴젠   -2514.333333  115400
9  204210  모두투어리츠    3093.333333    3475


       id              name           eps     bps        per       pbr
0  130960            CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480              하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480            이마트  18268.166667  295780  13.931338  0.860437
4  145990            삼양사   5741.000000  108090  14.283226  0.758627
5  161390        한국타이어   5648.500000   51341   7.453306  0.820007
6  181710   NHN엔터테인먼트   2110.166667   784

In [6]:
# 4-3. 데이터프레임 결합
# 행 인덱스를 기준으로 결합 : DataFrame1.join(DataFrame2, how = 'left')
# join() 메소드는 merge() 함수를 기반으로 만들어져 기본 동작 방식이 서로 비슷
# 하지만, join() 메소드는 두 데이터프레임의 행 인덱스를 기준으로 결합
# 하지만, join() 메소드에 대해서도 on = keys 옵션을 설정하면 행 인덱스 대신 다른 열을 기준으로 결합하는 것이 가능

import pandas as pd

# IPython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_colwidth', 20)
pd.set_option('display.unicode.east_asian_width', True)

# 데이터프레임 불러오기 (index_col 옵션은 행 인덱스 설정)
df1 = pd.read_excel('./stock price.xlsx', index_col = 'id', engine = 'openpyxl')
df2 = pd.read_excel('./stock valuation.xlsx', index_col = 'id', engine = 'openpyxl')

# 데이터프레임 결합 (기본값, how = 'left')
df3 = df1.join(df2)
print(df3)
print('\n')

# 데이터프레임 결합 (how = 'inner')
# 즉, 공통으로 존재하는 행 인덱스를 기준으로 추출
df4 = df1.join(df2, how = 'inner')
print(df4)

          stock_name          value   price          name           eps  \
id                                                                        
128940      한미약품   59385.666667  421000           NaN           NaN   
130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
138250    엔에스쇼핑   14558.666667   13200           NaN           NaN   
139480        이마트  239230.833333  254500        이마트  18268.166667   
142280  녹십자엠에스     468.833333   10200           NaN           NaN   
145990        삼양사   82750.000000   82000        삼양사   5741.000000   
185750        종근당   40293.666667  100500        종근당   3990.333333   
192400    쿠쿠홀딩스  179204.666667  177500           NaN           NaN   
199800          툴젠   -2514.333333  115400           NaN           NaN   
204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

             bps        per       pbr  
id                                     
128940       NaN        NaN       NaN  
130960   54068.0  15.695091  1.

In [12]:
# 5. 그룹 연산
# 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나눠서 관찰
# 즉, 특정 기준을 적용하여 몇 개의 그룹으로 분할하여 처리하는 것을 그룹 연산이라고 부름

# 그룹 연산은 3단계를 통해 이루어짐
# 1단계) 분할(split) : 데이터를 특정 조건에 의해 분할 - groupby() 메소드를 사용
# 2단계) 적용(apply) : 데이터를 집계, 변환, 필터링하는데 필요한 메소드 적용
# 3단계) 결합(combine) : 2단계의 처리 결과를 하나로 집합


# 5-1. 그룹 객체 만들기(분할 단계)
# 1개 열을 기준으로 그룹화
# 그룹 연산(분할) : DataFrame 객체.groupby(기준이 되는 열)

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

print('승객 수:', len(df))
print(df.head())
print('\n')

# class 열('First', 'Second', 'Third')을 기준으로 분할
grouped = df.groupby(['class'])
print(grouped) # 그룹 객체
print('\n')

# 그룹 객체를 iteration으로 출력 : head() 메소드로 첫 5행만을 출력
# 각 승객의 행 인덱스가 그대로 유지됨
for key, group in grouped:
    print('* key :', key)
    print('* number:', len(group))
    print(group.head())
    print('\n')
    
# 연산 메소드 적용
# 연산이 가능한 열에 대해서만 연산 수행
average = grouped.mean()
print(average)
print('\n')

# 개별 그룹 선택하기 : 그룹객체.get_group()
group3 = grouped.get_group('Third')
print(group3.head())

승객 수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F377004C40>


* key : First
* number: 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1


* key : Second
* number: 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


* key : Third
* number: 491
    age     sex  class     fare  survived
0  22

In [16]:
# 여러 열을 기준으로 그룹화
# 그룹 연산(분할) : DataFrame 객체.groupby(기준이 되는 열의 리스트)
# 여러 개의 기준값을 사용하므로 반환되는 그룹 객체의 인덱스는 다중 구조를 가짐 (멀티인덱스)
# 가능한 조합이 튜플 형식으로 저장

# class열, sex 열을 기준으로 분할
grouped_two = df.groupby(['class', 'sex'])

# grouped_two 그룹 객체를 iteration으로 출력
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n')
    
# grouped_two 그룹 객체에 연산 메소드 적용
# 반환되는 데이터프레임이 키가 되는 2개의 열(class, sex)의 값으로부터 2중 멀티 인덱스가 지정
average_two = grouped_two.mean()
print(average_two)
print('\n')
print(type(average_two))
print('\n')

# grouped_two 그룹 객체에서 개별 그룹 선택하기
group3f = grouped_two.get_group(('Third', 'female'))
print(group3f.head())

* key : ('First', 'female')
* number : 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1


* key : ('First', 'male')
* number : 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0


* key : ('Second', 'female')
* number : 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1


* key : ('Second', 'male')
* number : 108
     age   sex   class  fare  survived
17   Na

In [17]:
# 5-2. 그룹 연산 메소드(적용-결합 단계)
# 데이터 집계(내장함수) : group 객체.내장함수()
# 그룹 객체에 다양한 연산을 적용할 수 있는데, 이를 데이터 집계(aggreagation)이라고 부름
# 집계 기능 내장 판다스 기본 함수 : mean(), max(), min(), sum(), count(), size(), var(), std(), describe(), info(), first(), last()
# 각 그룹을 행 인덱스로 갖는 데이터프레임을 반환함

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])

# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환
std_all = grouped.std()
print(std_all)
print('\n')
print(type(std_all)) # 데이터프레임 객체
print('\n')

# 각 그룹에 대한 fare 열의 표준편차를 집계하여 시리즈로 반환
std_fare = grouped.fare.std()
print(std_fare)
print('\n')
print(type(std_fare))
print('\n')

              age       fare  survived
class                                 
First   14.802856  78.380373  0.484026
Second  14.001077  13.417399  0.500623
Third   12.495398  11.778142  0.428949


<class 'pandas.core.frame.DataFrame'>


class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64


<class 'pandas.core.series.Series'>




In [21]:
# 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용 : agg() 메소드 사용
# agg() 메소드 데이터 집계 : group 객체.agg(매핑함수)

# 그룹 객체에 agg() 메소드 적용 - 사용자 정의 함수를 인자로 전달
def min_max(x): # 최대값 - 최소값
    return x.max() - x.min()

# 각 그룹의 최대값과 최소값의 차이를 계산하여 그룹별로 집계
agg_minmax = grouped.agg(min_max)
print(agg_minmax.head())



# 동시에 여러 개의 함수를 사용하여 각 그룹별 데이터에 대한 집계 연산 처리 가능
# 모든 열에 여러 함수를 매핑 : group 객체.agg([함수1, 함수2, 함수3, ...])
# 각 열마다 다른 함수를 매핑 : group 객체.agg({'열1': 함수1, '열2': 함수2, ...})
# 함수명을 열 이름에 추가하여 2중 열 구조를 만듦

# 여러 함수를 각 열에 동일하게 적용하여 집계
agg_all = grouped.agg(['min', 'max'])
print(agg_all.head())
print('\n')

# 각 열마다 다른 함수를 적용하여 집계
agg_sep = grouped.agg({'fare':['min', 'max'], 'age':'mean'})
print(agg_sep)

          age      fare  survived
class                            
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1
         age           sex       fare           survived    
         min   max     min   max  min       max      min max
class                                                       
First   0.92  80.0  female  male  0.0  512.3292        0   1
Second  0.67  70.0  female  male  0.0   73.5000        0   1
Third   0.42  74.0  female  male  0.0   69.5500        0   1


       fare                  age
        min       max       mean
class                           
First   0.0  512.3292  38.233441
Second  0.0   73.5000  29.877630
Third   0.0   69.5500  25.140620


  results[key] = self.aggregate(func)


In [25]:
# 그룹 연산 데이터 변환 
# 데이터 변환 연산 : group 객체.transform(매핑 함수)
# agg() 메소드는 각 그룹별 데이터 연산을 위한 함수를 구분 적용하고, 그룹별로 연산 결과를 집계하여 반환
# 그러나, transform() 메소드는 그룹별로 구분하여 각 원소에 함수를 적용하지만 그룹별 집계 대신 각 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
# 즉, 그룹 연산의 결과를 원본 데이터프레임과 같은 형태로 변형하여 정리하는 것

# 1. [내장 함수 이용해 직접 계산] age 열에 포함된 개별 데이터의 z-score을 구하는 과정
# 그룹별 age 열의 평균 집계 연산
age_mean = grouped.age.mean()
print(age_mean)
print('\n')

# 그룹별 age 열의 표준편차 집계 연산
age_std = grouped.age.std()
print(age_std)
print('\n')

# 그룹 객체의 age 열을 iteration으로 z-score를 계산하여 출력
for key, group in grouped.age:
    group_zscroe = (group - age_mean.loc[key]) / age_std.loc[key]
    print('* origin :', key)
    print(group_zscroe.head(3)) # 각 그룹의 첫 3개의 행 출력
    print('\n')
    
    
# 2. transform() 메소드를 사용하여 'age' 열의 데이터를 z-scroe로 직접 변환
# z-score을 계산하는 사용자 함수를 정의하고, transform() 메소드의 인자로 전달
# 각 그룹별 평균과 표준편차를 이용하여 각 원소의 z-score을 계산하지만, 반환되는 객체는 그룹별로 나누지 않고 원래 행 인덱스 순으로 정렬

# z-score을 계산하는 사용자 함수 정의
def z_score(x):
    return (x - x.mean()) / x.std()

# transform() 메소드를 이용하여 age 열의 데이터를 z-score로 변환
age_zscore = grouped.age.transform(z_score)
print(age_zscore.loc[[1, 9, 0]]) # 1, 2, 3 그룹의 첫 데이터 확인(변환 결과)
print('\n')
print(len(age_zscore)) # transform 메소드 반환 값의 길이, 원래 데이터프레임과 행 길이 동일
print('\n')
print(age_zscore[0:9]) # transform 메소드 반환값 출력(첫 10개)
print('\n')
print(type(age_zscore)) # 시리즈 객체

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64


class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64


* origin : First
1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64


* origin : Second
9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64


* origin : Third
0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64


1   -0.015770
9   -1.134029
0   -0.251342
Name: age, dtype: float64


891


0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
5         NaN
6    1.065103
7   -1.851931
8    0.148805
Name: age, dtype: float64


<class 'pandas.core.series.Series'>


In [27]:
# 그룹 객체 필터링
# 그룹 객체 필터링 : group 객체.filter(조건식 함수)
# 그룹 객체에 filter() 메소드를 적용할 때 조건식을 가진 함수를 전달하면 조건이 참인 그룹만을 남김

# 데이터 개수가 200개 이상인 그룹만을 따로 필터링하여 데이터프레임으로 반환
grouped_filter = grouped.filter(lambda x: len(x) >= 200)
print(grouped_filter.head())
print('\n')
print(type(grouped_filter))

# age 열의 평균값이 30보다 작은 그룹만을 따로 필터링하여 데이터프레임으로 변환
age_filter = grouped.filter(lambda x: x.age.mean() < 30)
print(age_filter.tail())
print('\n')
print(type(age_filter))

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


<class 'pandas.core.frame.DataFrame'>
      age     sex   class    fare  survived
884  25.0    male   Third   7.050         0
885  39.0  female   Third  29.125         0
886  27.0    male  Second  13.000         0
888   NaN  female   Third  23.450         0
890  32.0    male   Third   7.750         0


<class 'pandas.core.frame.DataFrame'>


In [32]:
# 그룹 객체에 함수 매핑
# 범용 메소드 : group 객체.apply(매핑 함수)
# apply() 메소드는 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑

# class 열을 기준으로 구분한 3개의 그룹에 요약 통계 정보를 나타내는 describe() 메소드 적용
agg_grouped = grouped.apply(lambda x: x.describe())
print(agg_grouped)
print('\n')

# z-score를 계산하는 사용자 함수를 사용하여 'age' 열의 데이터를 z-score로 반환
def z_score(x):
    return (x - x.mean()) / x.std()

age_zscore = grouped.age.apply(z_score)
print(age_zscore.head())
print('\n')

# 필터링 : age 열의 데이터 평균이 30보다 작은 그룹만을 필터링하여 출력
age_filter = grouped.apply(lambda x: x.age.mean() < 30)
print(age_filter)
print('\n')
for x in age_filter.index:
    if age_filter[x] == True:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print('\n')

                     age        fare    survived
class                                           
First  count  186.000000  216.000000  216.000000
       mean    38.233441   84.154687    0.629630
       std     14.802856   78.380373    0.484026
       min      0.920000    0.000000    0.000000
       25%     27.000000   30.923950    0.000000
       50%     37.000000   60.287500    1.000000
       75%     49.000000   93.500000    1.000000
       max     80.000000  512.329200    1.000000
Second count  173.000000  184.000000  184.000000
       mean    29.877630   20.662183    0.472826
       std     14.001077   13.417399    0.500623
       min      0.670000    0.000000    0.000000
       25%     23.000000   13.000000    0.000000
       50%     29.000000   14.250000    0.000000
       75%     36.000000   26.000000    1.000000
       max     70.000000   73.500000    1.000000
Third  count  355.000000  491.000000  491.000000
       mean    25.140620   13.675550    0.242363
       std     12.49

In [36]:
# 6. 멀티 인덱스
# groupby() 메소드에 여러 열을 리스트 형태로 전달하면 각 열들이 다중으로 행 인덱스를 구성
# 이처럼 판다스는 행 인덱스를 여러 레벨로 구현할 수 있도록 멀티 인덱스 클래스를 지원

# class 열, sex 열을 기준으로 분할
grouped = df.groupby(['class', 'sex'])

# 그룹 객체에 연산 메소드 적용
gdf = grouped.mean()
print(gdf)
print('\n')
print(type(gdf))
print('\n')

# 데이터프레임 gdf의 멀티 인덱스에서 하나의 인덱스만 사용하는 방법
# class 값이 First인 행을 선택하여 출력
print(gdf.loc['First'])
print('\n')

# 멀티 인덱스에서 두 개의 인덱스를 사용하는 방법
# loc 인덱서를 이용하고, 인자로 튜플 형태로 각 인덱스에서 찾는 값 전달
print(gdf.loc[('First', 'female')])
print('\n')

# loc 인덱서 대신 xs 인덱서 사용
# sex 인덱스에서 male 값을 갖는 행을 추출
print(gdf.xs('male', level = 'sex'))

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447


<class 'pandas.core.frame.DataFrame'>


              age        fare  survived
sex                                    
female  34.611765  106.125798  0.968085
male    41.281386   67.226127  0.368852


age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64


              age       fare  survived
class                                 
First   41.281386  67.226127  0.368852
Second  30.740707  19.741782  0.157407
Third   26.507589  12.661633  0.135447


In [41]:
# 7. 피벗
# 판다스 pivot_table() 함수
# 피벗테이블을 구성하는 4가지 요소 : 행 인덱스, 열 인덱스, 데이터 값, 데이터 집계 함수
# 이 4가지 요소에 적용할 데이터프레임의 열을 각각 지정하여 함수의 인자로 전달

import pandas as pd
import seaborn as sns

# IPython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_colwidth', 20)

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
print(df.head())
print('\n')

# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균 집계
pdf1 = pd.pivot_table(df, # 피벗할 데이터프레임
                      index = 'class', # 행 위치에 들어갈 열
                      columns = 'sex', # 열 위치에 들어갈 열
                      values = 'age', # 데이터로 사용할 열
                      aggfunc = 'mean') # 데이터 집계 함수
print(pdf1.head())
print('\n')

# 값에 적용하는 집계 함수 2개 이상 지정 가능 - 생존율, 생존자 수 집계
# 열 구조가 2중 멀티 인덱스가 됨
# 즉, 데이터 집계 함수가 한 층을, 열의 값인 sex가 한 층을 이룸
pdf2 = pd.pivot_table(df,
                      index = 'class',
                      columns = 'sex',
                      values = 'survived',
                      aggfunc = ['mean', 'sum'])
print(pdf2.head())
print('\n')

# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균 나이, 최대 요금 집계
# 행 인덱스는 2중 구조, 열은 3중 구조(집계함수, 데이터값, 열값)
pdf3 = pd.pivot_table(df,
                      index = ['class', 'sex'],
                      columns = 'survived',
                      values = ['age', 'fare'],
                      aggfunc = ['mean', 'max'])

# IPython Console 디스플레이 옵션 설정
pd.set_option('display.max_columns', 10)
print(pdf3.head())
print('\n')

# 행, 열 구조 살펴보기
print(pdf3.index)
print(pdf3.columns)

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


sex        female       male
class                       
First   34.611765  41.281386
Second  28.722973  30.740707
Third   21.750000  26.507589


            mean              sum     
sex       female      male female male
class                                 
First   0.968085  0.368852     91   45
Second  0.921053  0.157407     70   17
Third   0.500000  0.135447     72   47


                    mean                                      max        \
                     age                   fare               age         
survived               0          1           0           1     0     1   
class  sex                                                                
First  female  25.666667  34.939024  110.604167  105.978159  50

In [48]:
# 데이터프레임 pdf3의 행을 선택하기 위해 xs 인덱서 사용하기

# xs 인덱서 사용 - 행 선택(기본값 : axis = 0)
print(pdf3.xs('First'))
print('\n')

# 행 인덱스 레벨 0에서 First를, 행 인덱스 레벨 1에서 female을 가져오기
# 두 개의 인덱스 값을 튜플로 전달
print(pdf3.xs(('First', 'female')))
print('\n')

# 행 인덱스 레벨 직접 지정
print(pdf3.xs('male', level = 'sex'))
print('\n')

# 행 인덱스 레벨 0에서 Second, 행 인덱스 레벨 sex에서 male을 가져옴
# sex 대신 숫자형 레벨 1을 사용해도 결과는 동일
print(pdf3.xs(('Second', 'male'), level = [0, 'sex']))
print('\n')

# xs 인덱서 사용 - 열 선택(axis = 1 설정)
print(pdf3.xs('mean', axis = 1))
print('\n')

# 열 인덱스 레벨 0에서 mean 지정, 열 인덱스 레벨 1에서 age 지정
print(pdf3.xs(('mean', 'age'), axis = 1))
print('\n')

# 인덱스 레벨 직접 지정
print(pdf3.xs(1, level = 'survived', axis = 1))
print('\n')

# 3개의 열 인덱스 모두 지정
print(pdf3.xs(('max', 'fare', 0), level = [0, 1, 2], axis =1))

               mean                                      max                \
                age                   fare               age          fare   
survived          0          1           0           1     0     1       0   
sex                                                                          
female    25.666667  34.939024  110.604167  105.978159  50.0  63.0  151.55   
male      44.581967  36.248000   62.894910   74.637320  71.0  80.0  263.00   

                    
                    
survived         1  
sex                 
female    512.3292  
male      512.3292  


            survived
mean  age   0            25.666667
            1            34.939024
      fare  0           110.604167
            1           105.978159
max   age   0            50.000000
            1            63.000000
      fare  0           151.550000
            1           512.329200
Name: (First, female), dtype: float64


               mean                                    max    