# 폴더 생성

In [1]:
from pandas import DataFrame

data = {
    "종목명": ["3R", "3SOFT", "ACTS"],
    "현재가": [1510, 1790, 1185],
    "등락률": [7.36, 1.65, 1.28],
}

df = DataFrame(data, index=["037730", "036360", "005760"])
df.head()

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


## os 라이브러리

In [3]:
import os 

if not os.path.isdir("abcd"):
    os.mkdir("abcd") # 폴더 생성

In [6]:
df.to_csv("abc/data.csv")

In [7]:
df.to_excel("abc/data.xlsx")

# Concat

In [10]:
from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data, index=index)
df1

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163


In [18]:
# 두번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946], 
    'temp' : [1, 2]
}
index = ["2019-06-19", "2019-06-18"]

df2 = DataFrame(data, index=index)
df2

Unnamed: 0,종가,거래량,temp
0,110000,109000,1
1,483689,791946,2


In [19]:
import pandas as pd 

result = pd.concat([df2, df1])
result

Unnamed: 0,종가,거래량,temp
0,110000,109000,1.0
1,483689,791946,2.0
2019-06-21,113000,555850,
2019-06-20,111500,282163,


## Merge

In [20]:
from pandas import DataFrame
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [22]:
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,전기전자,660,SK하이닉스,101500


In [21]:
pd.merge(left = df1, right = df2, on = '업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,전기전자,660,SK하이닉스,101500,-2.43


In [24]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,서비스업,35720,카카오,101500


In [25]:
# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


- merge() 사용 시, inner or left 

In [33]:
df = pd.merge(left = df1, right = df2, how='outer', on = '업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,보험,,,,0.37
1,서비스업,35720.0,카카오,101500.0,
2,은행,,,,2.92
3,전기전자,5930.0,삼성전자,74400.0,-2.43
4,화학,51910.0,LG화학,896000.0,0.06


In [38]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df = pd.merge(left = df1, right = df2, how='left', left_on = '업종', right_on = '항목')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06
2,서비스업,35720,카카오,101500,,


## join

In [40]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")
print(df1)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")
print(df2)

        종목코드   종목명     현재가
업종                        
전기전자  005930  삼성전자   74400
화학    051910  LG화학  896000
서비스업  035720   카카오  101500
       등락률
항목        
은행    2.92
보험    0.37
화학    0.06
전기전자 -2.43


In [43]:
# merge = 기본값 : inner join
# join = 기본값 : left join 
df1.join(other=df2, how = "inner") # left/right/outer/join

Unnamed: 0,종목코드,종목명,현재가,등락률
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06


In [58]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],    
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],    
]

columns = ["연도", "회사", "시가총액"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,연도,회사,시가총액
0,2017,삼성,500
1,2017,LG,300
2,2017,SK하이닉스,200
3,2018,삼성,600
4,2018,LG,400
5,2018,SK하이닉스,300


# 연도별로 그룹바이 연산, 시가총액 평균

In [59]:
result = df.groupby('연도')['시가총액'].mean().to_frame()
result.columns = ['시가총액평균']
result

Unnamed: 0_level_0,시가총액평균
연도,Unnamed: 1_level_1
2017,333.333333
2018,433.333333


In [52]:
result.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 2017 to 2018
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   시가총액평균  2 non-null      float64
dtypes: float64(1)
memory usage: 140.0+ bytes


In [63]:
df = df.join(result, on = '연도')
df

Unnamed: 0,연도,회사,시가총액,시가총액평균
0,2017,삼성,500,333.333333
1,2017,LG,300,333.333333
2,2017,SK하이닉스,200,333.333333
3,2018,삼성,600,433.333333
4,2018,LG,400,433.333333
5,2018,SK하이닉스,300,433.333333


In [64]:
df.head()

Unnamed: 0,연도,회사,시가총액,시가총액평균
0,2017,삼성,500,333.333333
1,2017,LG,300,333.333333
2,2017,SK하이닉스,200,333.333333
3,2018,삼성,600,433.333333
4,2018,LG,400,433.333333


In [65]:
# 시가총액평균을 기준값으로 
# 새로운 컬럼 : 규모
# 대형주, 중소형주
import numpy as np 

# numpy.where 활용해서 series 연산
df['규모'] = np.where(df['시가총액'] >= df['시가총액평균'], "대형주", "중소형주")

Unnamed: 0,연도,회사,시가총액,시가총액평균,규모
0,2017,삼성,500,333.333333,대형주
1,2017,LG,300,333.333333,중소형주
2,2017,SK하이닉스,200,333.333333,중소형주
3,2018,삼성,600,433.333333,대형주
4,2018,LG,400,433.333333,중소형주
5,2018,SK하이닉스,300,433.333333,중소형주


In [66]:
df.drop('시가총액평균', axis = 1)

Unnamed: 0,연도,회사,시가총액,규모
0,2017,삼성,500,대형주
1,2017,LG,300,중소형주
2,2017,SK하이닉스,200,중소형주
3,2018,삼성,600,대형주
4,2018,LG,400,중소형주
5,2018,SK하이닉스,300,중소형주


## 멀티인덱스

In [70]:
from pandas import DataFrame
import pandas as pd

data = [
    ["영업이익", "컨센서스", 1000, 1200],
    ["영업이익", "잠정치", 900, 1400],
    ["당기순이익", "컨센서스", 800, 900],
    ["당기순이익", "잠정치", 700, 800]
]

df = DataFrame(data=data)
df = df.set_index([0, 1])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [72]:
df.loc[('영업이익', '컨센서스'), :]

2    1000
3    1200
Name: (영업이익, 컨센서스), dtype: int64

In [73]:
df2 = df.reset_index()
df2

Unnamed: 0,0,1,2,3
0,영업이익,컨센서스,1000,1200
1,영업이익,잠정치,900,1400
2,당기순이익,컨센서스,800,900
3,당기순이익,잠정치,700,800


In [83]:
import seaborn as sns

tips = sns.load_dataset("tips")
result = tips.groupby(['sex', 'smoker', 'day'])[['total_bill', 'tip']].mean()
result.loc[('Male', 'Yes', 'Fri'), :][1] # 복잡

  result = tips.groupby(['sex', 'smoker', 'day'])[['total_bill', 'tip']].mean()
  result.loc[('Male', 'Yes', 'Fri'), :][1]


np.float64(2.74125)

In [93]:
tips = sns.load_dataset("tips")
result = tips.groupby(['sex', 'smoker', 'day'])[['total_bill', 'tip']].mean().reset_index()
result.loc[result['day'] == 'Fri', :]

  result = tips.groupby(['sex', 'smoker', 'day'])[['total_bill', 'tip']].mean().reset_index()


Unnamed: 0,sex,smoker,day,total_bill,tip
1,Male,Yes,Fri,20.4525,2.74125
5,Male,No,Fri,17.475,2.5
9,Female,Yes,Fri,12.654286,2.682857
13,Female,No,Fri,19.365,3.125


In [94]:
from pandas import DataFrame

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [100]:
import pandas as pd 

level_0 = ["영업이익", "당기순이익"]
level_1 = ["컨센서스", "잠정치"]

idx = pd.MultiIndex.from_product([level_0, level_1])

# 데이터프레임을 다시 만들어야 해요
idx

df = pd.DataFrame(data = data, index = ["2020/06", "2020/09"], columns = idx)
df['영업이익']['컨센서스']

2020/06     100
2020/09    1200
Name: 컨센서스, dtype: int64