In [None]:
# 1.  함수 매핑
# 1-1 개별 원소에 함수 매핑
# 시리즈 원소에 함수매핑 -> 시리즈객체.apply(함수) -> 시리즈 반환

In [1]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')

In [2]:
# titanic 에서 'age', 'fare' 컬럼만 추출해서 df 생서
df = titanic.loc[ :, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [3]:
# df에 'ten' 컬럼 추가 값은 10으로
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [4]:
# 함수 정의
def add_10(n):
    return  n + 10
def add_two(a, b):
    return a + b
print(add_10(30))  # 40
print(add_two(30, 40))    # 70

40
70


In [5]:
# df의 'age'컬럼의 각 원소에 add_10을 적요
print(df['age'].apply(add_10).head())
print()

# df의 'age'컬럼의 각 원소에 b의 값을 적용하여 add_two()
print(df['age'].apply(add_two, b=20))

# lambda 함수를 활용
print(df['age'].apply(lambda x: add_10(x)).head())
print()
print(df['age'].apply(lambda x: x + 10).head())
print()

# add_two
print(df['age'].apply(lambda x, y=20: x + y).head())  # 시리즈

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

0      42.0
1      58.0
2      46.0
3      55.0
4      55.0
       ... 
886    47.0
887    39.0
888     NaN
889    46.0
890    52.0
Name: age, Length: 891, dtype: float64
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

0    42.0
1    58.0
2    46.0
3    55.0
4    55.0
Name: age, dtype: float64


In [6]:
# 데이터프레임의 각 원소에 함수 매핑 : 데이터프레임.applymap(매핑함수) -> 데이터프레임 반환
df.applymap(lambda x: x + 10)

Unnamed: 0,age,fare,ten
0,32.0,17.2500,20
1,48.0,81.2833,20
2,36.0,17.9250,20
3,45.0,63.1000,20
4,45.0,18.0500,20
...,...,...,...
886,37.0,23.0000,20
887,29.0,40.0000,20
888,,33.4500,20
889,36.0,40.0000,20


In [7]:
# 1-2 시리즈 객체에 함수 매핑
# 데이터프레임의 각 컬럼에 함수 매핑 -> 데이터프레임.apply(매핑함수, axis=0) -> 데이터프레임 반환
result = df.apply(lambda x: x.isnull(), axis=0)
print(result.head())

print(df.apply(lambda x: x + 10, axis=0))

     age   fare    ten
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
      age     fare  ten
0    32.0  17.2500   20
1    48.0  81.2833   20
2    36.0  17.9250   20
3    45.0  63.1000   20
4    45.0  18.0500   20
..    ...      ...  ...
886  37.0  23.0000   20
887  29.0  40.0000   20
888   NaN  33.4500   20
889  36.0  40.0000   20
890  42.0  17.7500   20

[891 rows x 3 columns]


In [None]:
# 데이터프레임의 각 행에 함수 매핑 -> 데이터프레임.apply(매핑함수, axis=1) -> 시리즈 반환
df.apply(lambda x: x['age'] + x['ten'], axis=1)  

In [30]:
# 1-3 데이터프레임 객체에 함수 매핑 -> df.pipe(함수)
# 각 열의 Nan 찾기 -> 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# 각 열의 Nan 개수 반환  -> 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 Nan 총 개수 -> 값 반환
def missing_total(x):
    return missing_count(x).sum()

In [31]:
print(df.apply(missing_total, axis=0)) 
print()

df.pipe(missing_total)

age     177
fare      0
dtype: int64



177

In [22]:
df = titanic.loc[ :, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [None]:
df.pipe(missing_total)

In [None]:
# 2. 열 재구성
# 2-1 열 순서 변경 : df[변경된 열 리스트]
df = titanic.loc[ 0:4, 'survived' : 'age']
df

In [36]:
# 컬럼명을 알파벳 순으로 재 구성
df = df[sorted(list(df.columns.values))]
df

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [None]:
sorted(list(df.columns.values),reverse=True)

In [43]:
df.columns.values

array(['age', 'pclass', 'sex', 'survived'], dtype=object)

In [None]:
#['pclass', 'age', 'sex', 'survived'] 순서로 변경
df = df[['pclass', 'age', 'sex', 'survived']]
df

In [None]:
# 2-2 열 분리
df = pd.read_excel('./data/주가데이터.xlsx')
df.info()

In [None]:
# 연월일의 데이터타입을 str로
df['연월일'] = df['연월일'].astype('str')
print(df['연월일'].dtype)
print()
dates = df['연월일'].str.split('-')   # 리스트로 데이터를 분리함
dates

In [None]:
# 시리즈.str.split() 으로 분리한 리스트의 자료를 가져오는 방법 : get(인덱스) -> 0부터
print(dates.str.get(0), dates.str.get(1))

In [None]:
# df['연'] = df['연월일'].str.split('-').str.get(0)
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
df.head()

In [None]:
# 3. 필터링 -> df[불린 시리즈]
# titanic 에서 나이가 10살 이상이고 20살 미만인 자료를 추출
# mask = (titanic['age'] >=10) & (titanic['age'] < 20)
# df_teenage =titanic.loc[mask, : ]
df_teenage =titanic.loc[ (titanic['age'] >=10) & (titanic['age'] < 20) , : ]
df_teenage.head()

In [None]:
#  연령이 10살 미만인 여자 아이만 추출
df_female_under10 = titanic.loc[ (titanic['age'] < 10) & (titanic['sex'] == 'female'), : ]
df_female_under10.head()

In [None]:
# 10살 미만이거나 60살 이상인 승객의 나이(age), 성별(sex), 요금(fare), 생존여부(alive)
df_under10_modethan60 = titanic.loc[(titanic['age'] < 10) | (titanic['age'] >= 60), 
                                    ['age', 'sex', 'fare', 'alive']]
df_under10_modethan60.head()

In [None]:
# 3-2 isin() 메소드 활용
# sibsp -> 형제 또는 배우자의 수가 3, 4, 5인 승객의 정보만 추출
df_1 = titanic.loc[ (titanic['sibsp'] == 3) | (titanic['sibsp'] == 4) |(titanic['sibsp'] == 5), 
                   ['age', 'sex', 'fare', 'alive', 'sibsp']]
df_1.head()

# 시리즈.isin([값, .. ])  -> 시리즈 원소의 값이 [값, .. ] 에 존재하면 True
df_1 = titanic.loc[ titanic['sibsp'].isin([3,4,5]),  ['age', 'sex', 'fare', 'alive', 'sibsp']]
df_1

In [25]:
# 4. 데이터프레임 합치기
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                    'b': ['b2', 'b3', 'b4', 'b5'],
                    'c': ['c2', 'c3', 'c4', 'c5'],
                    'd': ['d2', 'd3', 'd4', 'd5']},
                    index=[2, 3, 4, 5])
print(df1)
print()
print(df2)

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3

    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5


In [None]:
df3 = pd.concat([df1, df2])   # 행으로 결합, 기존의 인덱스 유지
df3

In [None]:
df4 = pd.concat([df1, df2], axis=1)   # 컬럼으로 결합 
df4

In [30]:
pd.concat([df1, df2], ignore_index=True)   # 행으로 결합, 기존의 인덱스 무시-> 새로운 인덱스 부여

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


In [None]:
pd.concat([df1, df2],join='inner', axis=1)  # 인덱스 값이 같은 행만 결합
pd.concat([df1, df2],join='inner', axis=0)  # 컬럼며이 같은 컬럼만 결합

In [34]:
# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')
print(sr1, '\n', sr2, '\n',sr3)

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object 
 3    f0
4    f1
5    f2
Name: f, dtype: object 
 0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object


In [None]:
#데이터프레임과 시리즈 결합
print(pd.concat([df1, sr1], axis=1))
print()
print(pd.concat([df2,sr2], axis=1))

# 시리즈와 시리즈 결합
print(pd.concat([sr1, sr2], axis=0))  # 시리즈 반환
print(pd.concat([sr1, sr3], axis=1))  # 데이터프레임 반환

In [46]:
df1 = pd.read_excel('./data/stock price.xlsx')
df2 = pd.read_excel('./data/stock valuation.xlsx')
print(df1)
print()
print(df2)

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475

       id       name           eps     bps        per       pbr
0  130960     CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480         하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480        이마트  18268.166667  295780  13.931338  0.860437
4  145990        삼양사   5741.000000  108090  14.283226  0.758627
5  161390      한국타이어   5648.500000   51341   7.453306  0.820007
6  181710  NHN엔터테인먼트   2110.166667   78434  30.755864  0.827447
7  

In [50]:
merge_outer = pd.merge(df1, df2, on='id', how='outer')
merge_outer

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [55]:
df1_copy = df1.copy()
df2_copy = df2.copy()
df1_copy.set_index('id', inplace=True)
df2_copy.set_index('id', inplace=True)

In [57]:
print(pd.concat([df1_copy,df2_copy], axis=1).iloc[:, :5])  # 인덱스 기준
print()
print(pd.concat([df2_copy,df1_copy], axis=1).iloc[:, :5])

       stock_name          value     price       name           eps
id                                                                 
128940       한미약품   59385.666667  421000.0        NaN           NaN
130960     CJ E&M   58540.666667   98900.0     CJ E&M   6301.333333
138250      엔에스쇼핑   14558.666667   13200.0        NaN           NaN
139480        이마트  239230.833333  254500.0        이마트  18268.166667
142280     녹십자엠에스     468.833333   10200.0        NaN           NaN
145990        삼양사   82750.000000   82000.0        삼양사   5741.000000
185750        종근당   40293.666667  100500.0        종근당   3990.333333
192400      쿠쿠홀딩스  179204.666667  177500.0        NaN           NaN
199800         툴젠   -2514.333333  115400.0        NaN           NaN
204210     모두투어리츠    3093.333333    3475.0     모두투어리츠     85.166667
136480        NaN            NaN       NaN         하림    274.166667
138040        NaN            NaN       NaN    메리츠금융지주   2122.333333
161390        NaN            NaN       NaN      

In [None]:
pd.merge(df1, df2, on='id', how='outer')  # 양변 outer

In [None]:
pd.merge(df1, df2, on='id', how='left')   # 왼쪽 데이터프레임 (df1) 기준

In [None]:
pd.merge(df1, df2, on='id', how='right')   # 오른쪽 데이터프레임 (df2) 기준

In [None]:
pd.merge(df1, df2, on='id', how='inner')   # df1.id == df2.id

In [None]:
pd.merge(df1, df2, left_on='stock_name',right_on='name' )   # df1.id == df2.id

In [67]:
# df2에 df1을 결합  -> df1의 price가 50000 미만인 종목만 결합 
# 새로운 df3
df3 = pd.merge(df1[df1['price'] < 50000], df2)
df3

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [None]:
df1[(df1['price'] < 50000)]

In [None]:
df1
df2

In [None]:
# 행 인덱스 기준으로 결합 -> df.join(other dataframe, how='left') how의 기본값은 'left'
# join -> 두 개의 데이터프레임에 인덱스가 설정되어 있어야 함
df1_copy.join(df2_copy, how='left')  # df1_copy 는 모두 추출 , df2_copy가 존재하지 않으면 NaN

In [None]:
df1_copy.join(df2_copy, how='right')  # df2_copy 기준

In [None]:
df1_copy.join(df2_copy, how='inner')  # df1_copy.index == df2_copy.index

In [None]:
df1_copy.join(df2_copy, how='outer')  # df1_copy + df2_copy

In [87]:
price = df1.loc[df1['price'] < 50000, ['id','price']]
price

Unnamed: 0,id,price
2,138250,13200
4,142280,10200
9,204210,3475


In [86]:
pd.merge(price, df2,on='id', how='right')

Unnamed: 0,id,price,name,eps,bps,per,pbr
0,130960,,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,,하림,274.166667,3551,11.489362,0.887074
2,138040,,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,,이마트,18268.166667,295780,13.931338,0.860437
4,145990,,삼양사,5741.0,108090,14.283226,0.758627
5,161390,,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,,종근당,3990.333333,40684,25.185866,2.470259
8,204210,3475.0,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [None]:
df1.loc[df1['price'] < 50000, 'price']

In [None]:
# stock price 와 stock valuation의 데이터프레임을 결합
# stock price에서는 id, stock_name, value, price
# stock valuation에서는 id, eps, bps 컬럼만 추출하여 새로운 stock_df을 생성
# 조건 stock price 기준으로 price가 200000만 미만인 종목만 
stock_price = pd.read_excel('./data/stock price.xlsx')
stock_value = pd.read_excel('./data/stock valuation.xlsx')

In [95]:
df1 = stock_price.loc[stock_price['price'] < 200000, ['id', 'stock_name','value','price']]
df2 = stock_value.loc[ : , ['id', 'eps','bps']]
df3 = pd.merge(df1, df2, on='id', how='left')
df3

Unnamed: 0,id,stock_name,value,price,eps,bps
0,130960,CJ E&M,58540.666667,98900,6301.333333,54068.0
1,138250,엔에스쇼핑,14558.666667,13200,,
2,142280,녹십자엠에스,468.833333,10200,,
3,145990,삼양사,82750.0,82000,5741.0,108090.0
4,185750,종근당,40293.666667,100500,3990.333333,40684.0
5,192400,쿠쿠홀딩스,179204.666667,177500,,
6,199800,툴젠,-2514.333333,115400,,
7,204210,모두투어리츠,3093.333333,3475,85.166667,5335.0


In [None]:
stock_df = pd.merge(stock_price.loc[stock_price['price'] < 200000, 
                                    ['id', 'stock_name','value','price']],
                   stock_value.loc[ : , ['id', 'eps','bps']], 
                    how='left', on='id')

In [92]:
stock_df

Unnamed: 0,id,stock_name,value,price,eps,bps
0,130960,CJ E&M,58540.666667,98900,6301.333333,54068.0
1,138250,엔에스쇼핑,14558.666667,13200,,
2,142280,녹십자엠에스,468.833333,10200,,
3,145990,삼양사,82750.0,82000,5741.0,108090.0
4,185750,종근당,40293.666667,100500,3990.333333,40684.0
5,192400,쿠쿠홀딩스,179204.666667,177500,,
6,199800,툴젠,-2514.333333,115400,,
7,204210,모두투어리츠,3093.333333,3475,85.166667,5335.0


In [93]:
last_df = stock_df.set_index('id')
last_df

Unnamed: 0_level_0,stock_name,value,price,eps,bps
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
130960,CJ E&M,58540.666667,98900,6301.333333,54068.0
138250,엔에스쇼핑,14558.666667,13200,,
142280,녹십자엠에스,468.833333,10200,,
145990,삼양사,82750.0,82000,5741.0,108090.0
185750,종근당,40293.666667,100500,3990.333333,40684.0
192400,쿠쿠홀딩스,179204.666667,177500,,
199800,툴젠,-2514.333333,115400,,
204210,모두투어리츠,3093.333333,3475,85.166667,5335.0
