# Practice

In [109]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

df = sns.load_dataset('titanic')

# titanic 데이터를 로드해 age, sex, class, alive 만 가져와서
# 1. 10대 미만 여성인 승객 정보 추출
df.ffill(inplace=True)
df_copy = df.copy()
df = df.loc[:, ['age', 'sex', 'class', 'alive']]
print(df[df['age'] < 10])

# 2. bins = [1, 15, 25, 35, 60, 99]
#    labels = ["미성년자", "청년", "중년", "장년", "노년"]
#    각 라벨별 승객수 추출
df['age'] = pd.cut(df['age'], bins = [1, 15, 25, 35, 60, 99], labels = ["미성년자", "청년", "중년", "장년", "노년"])
print(df.value_counts(subset='age'))

# 3. 나이의 평균, 성별 승객수, class 별 승객수, 생존자, 사망별 승객수 추출
avg_age = df_copy.age.mean()
sex_num = df.value_counts(subset='sex')
class_num = df.value_counts(subset='class')
alive_num = df.value_counts(subset='alive').yes
dead_num = df.value_counts(subset='alive').no
print("\n 나이 평균 : {}, 성별 승객수 : {}, class 별 승객수 : {}, 생존자 수: {}, 사망자 수 : {}".format(avg_age, sex_num,
                                                                                  class_num, alive_num, dead_num))


      age     sex   class alive
7    2.00    male   Third    no
10   4.00  female   Third   yes
16   2.00    male   Third    no
17   2.00    male  Second   yes
24   8.00  female   Third    no
..    ...     ...     ...   ...
831  0.83    male  Second   yes
832  0.83    male   Third    no
850  4.00    male   Third    no
852  9.00  female   Third    no
869  4.00    male   Third   yes

[82 rows x 4 columns]
age
청년      272
장년      252
중년      237
미성년자     88
노년       24
dtype: int64

 나이 평균 : 29.581560044893376, 성별 승객수 : sex
male      577
female    314
dtype: int64, class 별 승객수 : class
Third     491
First     216
Second    184
dtype: int64, 생존자 수: 342, 사망자 수 : 549


In [110]:
# 승객의 나이에 10을 더한 값을 데이터프레임에 age_10 컬럼으로 추가
df['age_10']= df_copy['age'].apply(lambda x : x + 10)
df['age_10']

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888    29.0
889    36.0
890    42.0
Name: age_10, Length: 891, dtype: float64

In [111]:
# stock pice와 stock valuation 두개의 파일을 로드해
# 데이터프레임에 저장 후 두개의 데이터프레임을 행으로 결합

df_price = pd.read_excel('./dataset/stock_price.xlsx')
df_valuation = pd.read_excel('./dataset/stock_valuation.xlsx')

# 행단위 결합
pd.concat([df_price, df_valuation], ignore_index=True)

# 컬럼단위로 결합
pd.concat([df_price, df_valuation], ignore_index=True, axis=1)

# 양쪽의 자료 모두 출력 : 없는 내용은 Nan
pd.merge(df_price, df_valuation, how='outer', on='id')

# 왼쪽 기준 자료는 모두 출력 : 없는 내용은 Nan
pd.merge(df_price, df_valuation, how='left', on='id')

# 오른쪽 기준 자료는 모두 출력 : 없는 내용은 Nan
pd.merge(df_price, df_valuation, how='right', on='id')

# 왼쪽의 키와 오른쪽의 키의 컬럼명이 다를 경우
pd.merge(df_price, df_valuation, how='inner', left_on='stock_name', right_on= 'name')

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,139480,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,145990,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,185750,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,204210,모두투어리츠,85.166667,5335,40.802348,0.651359


In [112]:
df_merge = pd.merge(df_price, df_valuation, how='right', left_on='stock_name', right_on= 'name')

# df_merge와 df_price를 merge on= None 으로 
# df_merge의 id_y -> id로 변경하고 
df_merge.rename(columns={'id_y' : 'id'}, inplace=True)

df_merge

Unnamed: 0,id_x,stock_name,value,price,id,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,,,,,136480,하림,274.166667,3551,11.489362,0.887074
2,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
5,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [113]:
# on = None 두 개의 데이터프레임에 같은 컬렴며의 값이 같으면 추출
print(pd.merge(df_merge.loc[:,['id', 'stock_name']],
              df_price.loc[:, ['id', 'stock_name']], on=None))

print()
print(df_price)

       id stock_name
0  130960     CJ E&M
1  139480        이마트
2  145990        삼양사
3  185750        종근당
4  204210     모두투어리츠

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475


In [114]:
price =df_price[df_price['price'] < 50000]
price

value = pd.merge(price, df_valuation)
value

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [115]:
# df_price, df_valuation -> index를 id 컬럼으로 설정

df_price.set_index('id', inplace=True)
df_valuation.set_index('id', inplace=True)

#### join을 활용하여 두 개의 데이터프레임을 결합 : df.join(df) how의 default가 left 기준, 인덱스로 결합

In [120]:
# join을 활용하여 두 개의 데이터프레임을 결합 : df.join(df) how의 default가 left 기준
df_price.join(df_valuation)
df_price

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200
145990,삼양사,82750.0,82000
185750,종근당,40293.666667,100500
192400,쿠쿠홀딩스,179204.666667,177500
199800,툴젠,-2514.333333,115400
204210,모두투어리츠,3093.333333,3475


In [122]:
df_valuation.join(df_price, how = 'inner')

Unnamed: 0_level_0,name,eps,bps,per,pbr,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,6301.333333,54068,15.695091,1.829178,CJ E&M,58540.666667,98900
139480,이마트,18268.166667,295780,13.931338,0.860437,이마트,239230.833333,254500
145990,삼양사,5741.0,108090,14.283226,0.758627,삼양사,82750.0,82000
185750,종근당,3990.333333,40684,25.185866,2.470259,종근당,40293.666667,100500
204210,모두투어리츠,85.166667,5335,40.802348,0.651359,모두투어리츠,3093.333333,3475


In [129]:
# df1과 df2를 join을 이용하여 결합, df1 기준으로 join
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'a1': ['a2', 'a3', 'a4', 'a5'],
                    'b1': ['b2', 'b3', 'b4', 'b5'],
                    'c1': ['c2', 'c3', 'c4', 'c5'],
                    'd1': ['d2', 'd3', 'd4', 'd5']},
                    index=[2, 3, 4, 5])

In [135]:
df1.join(df2)
df2.join(df1, how='right', lsuffix='df1_')

Unnamed: 0,a1,b1,c1,d1,a,b,c
0,,,,,a0,b0,c0
1,,,,,a1,b1,c1
2,a2,b2,c2,d2,a2,b2,c2
3,a3,b3,c3,d3,a3,b3,c3
