[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/5.2%20%EC%97%85%EC%A2%85%20%ED%85%8C%EB%A7%88%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

## 업종/테마 전처리 미션확인

* 팀장님이 우리 회사와 유사한 업종과 테마로 사업을 하고 있는 종목을 수집해서 분석해 달라는 미션을 주셨습니다.
* 코스피에서 해당 업종 혹은 테마의 시가총액이 가장 많은 종목을 찾아주세요.
* 해당 업종/테마의 거래량이 가장 많은 종목을 찾아주세요.
* 최근 52주 최고가에서 현재가 기준으로 가장 손실이 크게 난 종목은 어떤 종목일까요?
* 거래대금이 20위 안에 있는 코스피 종목 중에 "PER"가 가장 낮은 종목은 무엇일까요?


### 주요 업종/테마

* 실습에 참고해 보세요.
* 제약 업종 : https://finance.naver.com/sise/sise_group_detail.nhn?type=upjong&no=35
* 의료기기 : https://finance.naver.com/sise/sise_group_detail.nhn?type=theme&no=175
* 코로나19(덱사메타손) : https://finance.naver.com/sise/sise_group_detail.nhn?type=theme&no=442
* 제약업체 : https://finance.naver.com/sise/sise_group_detail.nhn?type=theme&no=172
* 바이오시밀러(복제 바이오의약품) : https://finance.naver.com/sise/sise_group_detail.nhn?type=theme&no=241

In [1]:
# 라이브러리 로드하기 : 데이터 분석을 위한 pandas, 수치계산을 위한 numpy
import pandas as pd
import numpy as np

In [2]:
# 4.업종/테마주 수집시에 저장해 두었던 csv 파일을 다시 읽어옵니다.
# 'upjong_no_35_연-월-일.csv'
# 종목코드는 꼭 문자형태로 불러옵니다. dtype={"종목코드":np.object}
file_name = "upjong_no_261_20211023.csv"
raw = pd.read_csv(file_name, dtype={"종목코드":np.object})
print(raw.shape)

(152, 52)


In [3]:
# 미리보기 합니다.
raw.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,...,동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,...,89.92배,+0.60%,,,,,,,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,...,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,...,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,...,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,...,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,


In [4]:
raw["종목코드"]

0      900120
1      261780
2      308080
3      365270
4      950220
        ...  
147    047920
148    115450
149    307750
150    183490
151    009300
Name: 종목코드, Length: 152, dtype: object

## 전체 컬럼 출력하기

In [5]:
# 전체 컬럼이 출력되도록 display 설정을 변경합니다.
pd.options.display.max_columns = None

In [6]:
# 전체 컬럼이 보이는지 확인합니다.
raw.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,ROE(지배주주),부채비율,당좌비율,유보율,EPS(원),PER(배),BPS(원),PBR(배),주당배당금(원),시가배당률(%),배당성향(%),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),배당수익률,동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,,,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",,89.92배,+0.60%,,,,,,,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,,,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,,,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,,,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,,,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,


In [7]:
# DataFrame의 column만 따로 봅니다.
raw.columns

Index(['종목명', '현재가', '전일비', '등락률', '매수호가', '매도호가', '거래량', '거래대금', '전일거래량',
       '조회일자', '종목명_전처리', '종목코드', 'level_0', '매출액', '영업이익', '당기순이익', '영업이익률',
       '순이익률', 'ROE(지배주주)', '부채비율', '당좌비율', '유보율', 'EPS(원)', 'PER(배)',
       'BPS(원)', 'PBR(배)', '주당배당금(원)', '시가배당률(%)', '배당성향(%)', '시가총액', '시가총액순위',
       '상장주식수', '액면가l매매단위', '외국인한도주식수(A)', '외국인보유주식수(B)', '외국인소진율(B/A)',
       '투자의견l목표주가', '52주최고l최저', 'PERlEPS(2021.03)', '추정PERlEPS',
       'PBRlBPS (2021.03)', '배당수익률', '동일업종 PER', '동일업종 등락률',
       'PERlEPS(2020.12)', 'PBRlBPS (2020.12)', 'PERlEPS(2021.06)',
       'PBRlBPS (2021.06)', '배당수익률l2020.12', 'PERlEPS(2021.08)',
       'PBRlBPS (2021.08)', '배당수익률l2020.11'],
      dtype='object')

PER, BPS 관련 데이터의 전처리가 필요해보인다.

## 결측치

In [8]:
# 결측치의 합계를 구합니다.
raw.isnull().sum()

종목명                    0
현재가                    0
전일비                    0
등락률                    0
매수호가                   0
매도호가                   0
거래량                    0
거래대금                   0
전일거래량                  0
조회일자                   0
종목명_전처리                0
종목코드                   0
level_0                0
매출액                  126
영업이익                 126
당기순이익                136
영업이익률                126
순이익률                 136
ROE(지배주주)            152
부채비율                 152
당좌비율                 152
유보율                  152
EPS(원)               133
PER(배)               133
BPS(원)               152
PBR(배)               152
주당배당금(원)             152
시가배당률(%)             152
배당성향(%)              152
시가총액                   0
시가총액순위                 0
상장주식수                  0
액면가l매매단위               2
외국인한도주식수(A)            0
외국인보유주식수(B)            0
외국인소진율(B/A)            0
투자의견l목표주가              0
52주최고l최저               0
PERlEPS(2021.03)     151
추정PERlEPS              0


결측치를 전처리하는 방법은 매우 다양하다. 여기서는 결측치를 모두 없애주거나, 매출액/영업이익 등의 결측치들은 가장 최근값이 아닌 결측치가 없는 가장 최신의 데이터를 수집하는 방식으로 데이터를 재수집하는 것을 고려해볼 수 있을 것이다.

In [9]:
# 결측치의 비율을 구합니다.
raw.isnull().mean() * 100

종목명                    0.000000
현재가                    0.000000
전일비                    0.000000
등락률                    0.000000
매수호가                   0.000000
매도호가                   0.000000
거래량                    0.000000
거래대금                   0.000000
전일거래량                  0.000000
조회일자                   0.000000
종목명_전처리                0.000000
종목코드                   0.000000
level_0                0.000000
매출액                   82.894737
영업이익                  82.894737
당기순이익                 89.473684
영업이익률                 82.894737
순이익률                  89.473684
ROE(지배주주)            100.000000
부채비율                 100.000000
당좌비율                 100.000000
유보율                  100.000000
EPS(원)                87.500000
PER(배)                87.500000
BPS(원)               100.000000
PBR(배)               100.000000
주당배당금(원)             100.000000
시가배당률(%)             100.000000
배당성향(%)              100.000000
시가총액                   0.000000
시가총액순위                 0.000000
상장주식수   

In [10]:
# 결측치 제거 전에 행과 열의 수를 봅니다.
raw.shape

(152, 52)

In [11]:
# 전체가 결측치인 컬럼은 삭제 합니다.
df = raw.dropna(axis=1, how="all").copy()
df

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,에이치엘비제약 *,17750.0,750.0,-4.05%,17750.0,17900.0,215859.0,3890.0,271024.0,20211023,에이치엘비제약,047920,147,,,,,,,,"3,969 억원",코스닥 241위,22357821,500원 l 1주,22357821,336645,1.51%,N/A l N/A,"30,200 l 12,000",,N/A l N/A,,89.92배,+0.60%,,,"N/A l -4,212원","6.80배 l 2,611원",,,,
148,지트리비앤티 *,13900.0,700.0,-4.79%,13900.0,13950.0,557251.0,7840.0,1081209.0,20211023,지트리비앤티,115450,148,,,,,,,,"3,765 억원",코스닥 255위,27088019,500원 l 1주,27088019,569054,2.10%,N/A l N/A,"33,550 l 9,520",,N/A l N/A,,89.92배,+0.60%,,,N/A l -667원,"4.52배 l 3,074원",,,,
149,국전약품 *,14200.0,800.0,-5.33%,14150.0,14200.0,2792954.0,40219.0,3529798.0,20211023,국전약품,307750,149,,,,,,,,"6,968 억원",코스닥 105위,49069269,100원 l 1주,49069269,68946,0.14%,N/A l N/A,"24,900 l 2,959",,N/A l N/A,,89.92배,+0.60%,N/A l -80원,"8.55배 l 1,660원",,,,,,
150,엔지켐생명과학 *,71300.0,7600.0,-9.63%,71200.0,71300.0,348979.0,25606.0,229921.0,20211023,엔지켐생명과학,183490,150,,,,,,,,"5,940 억원",코스닥 128위,8331345,500원 l 1주,8331345,535730,6.43%,N/A l N/A,"159,000 l 66,400",,N/A l N/A,,89.92배,+0.60%,,,"N/A l -2,754원","6.97배 l 10,224원",,,,


In [12]:
# 삭제된 컬럼의 수를 계산해 봅니다.
df.shape

(152, 42)

In [13]:
# info를 통해 결측치 데이터 타입을 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152 entries, 0 to 151
Data columns (total 42 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   종목명                152 non-null    object 
 1   현재가                152 non-null    float64
 2   전일비                152 non-null    float64
 3   등락률                152 non-null    object 
 4   매수호가               152 non-null    float64
 5   매도호가               152 non-null    float64
 6   거래량                152 non-null    float64
 7   거래대금               152 non-null    float64
 8   전일거래량              152 non-null    float64
 9   조회일자               152 non-null    int64  
 10  종목명_전처리            152 non-null    object 
 11  종목코드               152 non-null    object 
 12  level_0            152 non-null    int64  
 13  매출액                26 non-null     float64
 14  영업이익               26 non-null     float64
 15  당기순이익              16 non-null     float64
 16  영업이익률              26 non-

## 파생변수 만들기와 텍스트 데이터 다루기
<img src="https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg">

* 코스피/코스닥 구분 만들기
* 시가총액 순위 분리하기
* 액면가l매매단위
* 52주최고l최저

In [14]:
df

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,에이치엘비제약 *,17750.0,750.0,-4.05%,17750.0,17900.0,215859.0,3890.0,271024.0,20211023,에이치엘비제약,047920,147,,,,,,,,"3,969 억원",코스닥 241위,22357821,500원 l 1주,22357821,336645,1.51%,N/A l N/A,"30,200 l 12,000",,N/A l N/A,,89.92배,+0.60%,,,"N/A l -4,212원","6.80배 l 2,611원",,,,
148,지트리비앤티 *,13900.0,700.0,-4.79%,13900.0,13950.0,557251.0,7840.0,1081209.0,20211023,지트리비앤티,115450,148,,,,,,,,"3,765 억원",코스닥 255위,27088019,500원 l 1주,27088019,569054,2.10%,N/A l N/A,"33,550 l 9,520",,N/A l N/A,,89.92배,+0.60%,,,N/A l -667원,"4.52배 l 3,074원",,,,
149,국전약품 *,14200.0,800.0,-5.33%,14150.0,14200.0,2792954.0,40219.0,3529798.0,20211023,국전약품,307750,149,,,,,,,,"6,968 억원",코스닥 105위,49069269,100원 l 1주,49069269,68946,0.14%,N/A l N/A,"24,900 l 2,959",,N/A l N/A,,89.92배,+0.60%,N/A l -80원,"8.55배 l 1,660원",,,,,,
150,엔지켐생명과학 *,71300.0,7600.0,-9.63%,71200.0,71300.0,348979.0,25606.0,229921.0,20211023,엔지켐생명과학,183490,150,,,,,,,,"5,940 억원",코스닥 128위,8331345,500원 l 1주,8331345,535730,6.43%,N/A l N/A,"159,000 l 66,400",,N/A l N/A,,89.92배,+0.60%,,,"N/A l -2,754원","6.97배 l 10,224원",,,,


### 코스피/코스닥 컬럼 만들기

In [15]:
# "코스피/코스닥" 컬럼을 만듭니다.
#  * 는 코스닥 종목입니다. str.endswith 를 사용합니다.
df.loc[df["종목명"].str.endswith("*"), "코스피/코스닥"] = "코스닥"

In [16]:
df["코스피/코스닥"].head(20)

0     코스닥
1     코스닥
2     코스닥
3     코스닥
4     코스닥
5     코스닥
6     코스닥
7     NaN
8     코스닥
9     NaN
10    코스닥
11    NaN
12    코스닥
13    NaN
14    코스닥
15    NaN
16    NaN
17    NaN
18    NaN
19    NaN
Name: 코스피/코스닥, dtype: object

NaN은 코스닥이 아닌 코스피를 의미하기 때문에 이를 코스피로 바꿔줄 필요가 있다.

In [17]:
df.loc[~df["종목명"].str.endswith("*"), "코스피/코스닥"] = "코스피"

In [18]:
df["코스피/코스닥"].head(20)
# 코스피/코스닥 컬럼을 if문을 이용해 바꿔줄 수도 있지 않을까?

0     코스닥
1     코스닥
2     코스닥
3     코스닥
4     코스닥
5     코스닥
6     코스닥
7     코스피
8     코스닥
9     코스피
10    코스닥
11    코스피
12    코스닥
13    코스피
14    코스닥
15    코스피
16    코스피
17    코스피
18    코스피
19    코스피
Name: 코스피/코스닥, dtype: object

NaN가 코스피로 변경된 것을 확인할 수 있다.

In [19]:
# "코스피/코스닥" 빈도수를 확인합니다.
df["코스피/코스닥"].value_counts()

코스닥    93
코스피    59
Name: 코스피/코스닥, dtype: int64

종목별로 코스피/코스닥 여부를 구분할 수 있기 때문에 코스피에서 해당 업종 혹은 테마의 시가총액이 가장 많은 종목을 찾아볼 수 있다.

###  시가총액 수치형태로 만들기

In [20]:
# or를 의미하는 | 는 엔터키 위에 있는 키를 shift키를 누르면 나옵니다.
# df['시가총액(억원)']
df['시가총액'].head(20)

0            355  억원
1          3,436  억원
2          3,520  억원
3          5,678  억원
4        1조  641  억원
5          3,472  억원
6            917  억원
7          1,920  억원
8            642  억원
9            135  억원
10         3,526  억원
11       1조  840  억원
12         3,687  억원
13         4,651  억원
14           647  억원
15         3,670  억원
16           230  억원
17         9,594  억원
18            52  억원
19    58조  2,252  억원
Name: 시가총액, dtype: object

조, 억원 등의 텍스트나, 공백 등의 전처리가 필요해 보인다

In [21]:
df['시가총액(억원)'] = df['시가총액'].str.replace("억원", "")
df['시가총액(억원)'] = df['시가총액(억원)'].str.replace("조|,", "")  # 조/(,)를 지우기
df['시가총액(억원)'] = df['시가총액(억원)'].str.replace(" ", "")  # 공백제거
df['시가총액(억원)'] = df['시가총액(억원)'].str.strip()  # 눈에 보이지 않는 공백도 제거
df['시가총액(억원)'] = df['시가총액(억원)'].astype(int)
df['시가총액(억원)']

  df['시가총액(억원)'] = df['시가총액(억원)'].str.replace("조|,", "")  # 조/(,)를 지우기


0       355
1      3436
2      3520
3      5678
4      1641
       ... 
147    3969
148    3765
149    6968
150    5940
151    1465
Name: 시가총액(억원), Length: 152, dtype: int32

* [정규 표현식 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D)

In [22]:
# 정규표현식을 사용한 숫자 추출
df['시가총액'].str.replace("[^0-9]", "").astype(int)

  df['시가총액'].str.replace("[^0-9]", "").astype(int)


0       355
1      3436
2      3520
3      5678
4      1641
       ... 
147    3969
148    3765
149    6968
150    5940
151    1465
Name: 시가총액, Length: 152, dtype: int32

### 시가총액 순위 수치데이터로 만들기

In [23]:
# split을 사용하는 방법
# '시가총액순위(전처리)' column에서도 '위'를 빼고 수치데이터로 변경합니다.
df["시가총액순위(전처리)"] = df['시가총액순위'].str.split(" ", expand=True)[1]  # expand : 컬럼을 나눠줌
df["시가총액순위(전처리)"] = df["시가총액순위(전처리)"].str.replace("위", "").astype(int)

In [24]:
# 정규표현식을 사용하는 방법도 있습니다. 
# 숫자를 제외한 문자는 빈문자""로 변경하도록 합니다.
df["시가총액순위(전처리)"] = df['시가총액순위'].str.replace("[^0-9]", "").astype(int)

  df["시가총액순위(전처리)"] = df['시가총액순위'].str.replace("[^0-9]", "").astype(int)


### 52주최고l최저 

In [25]:
df['52주최고l최저']

0             579  l  210
1                 0  l  0
2       78,000  l  32,850
3       62,400  l  28,500
4        17,450  l  9,350
              ...        
147     30,200  l  12,000
148      33,550  l  9,520
149      24,900  l  2,959
150    159,000  l  66,400
151     27,100  l  14,300
Name: 52주최고l최저, Length: 152, dtype: object

In [26]:
# '52주최고l최저' => 52주최고, 52주최저 두 개의  컬럼으로 나누어 전처리 합니다.

df["52주최고"] = df['52주최고l최저'].str.split("  l  ", expand=True)[0]
df["52주최저"] = df['52주최고l최저'].str.split("  l  ", expand=True)[1]
df.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350


In [27]:
# 일부 column들을 수치형 데이터로 바꿀수 있도록 ','와 같은 문자들을 없애고
# 새로운 column에 수치형 데이터로 입력합니다.
# 이런 수치형 데이터의 column들로 새로운 데이터 column들을 생성합니다.
df["52주최고"] = df["52주최고"].str.replace(",", "").astype(int)
df["52주최저"] = df["52주최저"].str.replace(",", "").astype(int)
df.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350


In [28]:
# 52주차액: 52주최고 - 52주최저 
# 52주차액비율 : 52주최고 / 52주최저 
df["52주차액"] = df['52주최고'] - df['52주최저']
df["52주차액비율"] = df['52주최고'] / df['52주최저']
df.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0,0,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850,45150,2.374429
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500,33900,2.189474
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350,8100,1.86631


In [29]:
# 현재-최고가 : 현재가 - 52주최고
# 현재/최고가비율 : 현재가 / 52주최고
df["현재-최고가"] = df['현재가'] - df['52주최고']
df["현재/최고가비율"] = df['현재가'] / df['52주최고']
df.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0,0,,13000.0,inf
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350,8100,1.86631,-6650.0,0.618911


In [30]:
df[["종목명", "52주차액", "52주차액비율", "52주최고", "52주최저", "현재-최고가", "현재/최고가비율"]].head()

Unnamed: 0,종목명,52주차액,52주차액비율,52주최고,52주최저,현재-최고가,현재/최고가비율
0,씨케이에이치 *,369,2.757143,579,210,-284.0,0.509499
1,차백신연구소 *,0,,0,0,13000.0,inf
2,바이젠셀 *,45150,2.374429,78000,32850,-40700.0,0.478205
3,큐라클 *,33900,2.189474,62400,28500,-20600.0,0.669872
4,네오이뮨텍(Reg.S) *,8100,1.86631,17450,9350,-6650.0,0.618911


최근 52주 최고가에서 현재가 기준으로 가장 손실이 크게 난 종목을 확인할 수 있게 된다.

### 투자의견l목표주가 astype과 to_numeric

In [31]:
df['투자의견l목표주가'].head(20)

0              N/A  l  N/A
1              N/A  l  N/A
2              N/A  l  N/A
3              N/A  l  N/A
4              N/A  l  N/A
5              N/A  l  N/A
6              N/A  l  N/A
7              N/A  l  N/A
8              N/A  l  N/A
9              N/A  l  N/A
10             N/A  l  N/A
11       4.33매수  l  38,667
12       4.00매수  l  56,000
13             N/A  l  N/A
14             N/A  l  N/A
15             N/A  l  N/A
16             N/A  l  N/A
17             N/A  l  N/A
18             N/A  l  N/A
19    4.00매수  l  1,078,333
Name: 투자의견l목표주가, dtype: object

In [32]:
df['투자의견'] = df['투자의견l목표주가'].str.split("  l  ", expand=True)[0]
df['목표주가'] = df['투자의견l목표주가'].str.split("  l  ", expand=True)[1]
df['목표주가'] = df['목표주가'].replace("N/A", np.nan).str.replace(",", "") .astype(float) # str.replace, replace 차이 
# np.nan은 float 타입이기 때문에 int 타입으로 변경할 수 없음

In [33]:
# '투자의견l목표주가' => 투자의견, 매수매도, 목표주가 컬럼으로 나누어 전처리 합니다.
# df["목표주가"]

In [34]:
df["투자의견"].head(20)

0        N/A
1        N/A
2        N/A
3        N/A
4        N/A
5        N/A
6        N/A
7        N/A
8        N/A
9        N/A
10       N/A
11    4.33매수
12    4.00매수
13       N/A
14       N/A
15       N/A
16       N/A
17       N/A
18       N/A
19    4.00매수
Name: 투자의견, dtype: object

In [35]:
df["투자의견"] = df['투자의견'].replace("N/A", np.nan)
df["매수매도"] = df['투자의견'].str.replace("[0-9.]", "")
df["투자의견"] = df['투자의견'].str.replace("[^0-9.]", "")
df["투자의견"].head(20)

  df["매수매도"] = df['투자의견'].str.replace("[0-9.]", "")
  df["투자의견"] = df['투자의견'].str.replace("[^0-9.]", "")


0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
8      NaN
9      NaN
10     NaN
11    4.33
12    4.00
13     NaN
14     NaN
15     NaN
16     NaN
17     NaN
18     NaN
19    4.00
Name: 투자의견, dtype: object

In [36]:
df["투자의견"] = df["투자의견"].astype(float)

In [37]:
# 투자의견의 수치만 pd.to_numeric 으로 숫자로 만들기
df["투자의견"] = pd.to_numeric(df["투자의견"])  # astype에서 오류가 나는 부분을 강제로 바꿔줄 수 있는 강력함을 가지고 있음

In [38]:
# 투자의견 컬럼만 가져와서 describe로 기술통계 값을 봅니다.
df["투자의견"].describe()

count    34.000000
mean      3.942353
std       0.251059
min       3.000000
25%       4.000000
50%       4.000000
75%       4.000000
max       4.330000
Name: 투자의견, dtype: float64

### 데이터 타입 변경하기
* "동일업종 PER 컬럼"에서 "배" 문자를 제거하고 수치 변수로 변환해 주세요.
* 전처리 결괏값은 df["동일업종 PER(배)"]라는 컬럼에 담아주세요

In [39]:
# "동일업종 PER"
df['동일업종 PER']

0      89.92배
1      89.92배
2      89.92배
3      89.92배
4      89.92배
        ...  
147    89.92배
148    89.92배
149    89.92배
150    89.92배
151    89.92배
Name: 동일업종 PER, Length: 152, dtype: object

In [40]:
# "동일업종 PER 컬럼"에서 "배" 문자를 제거하고 수치 변수로 변환해 주세요.
df['동일업종 PER(배)'] = df['동일업종 PER'].str.replace("배", "").astype(float)

In [41]:
# str.replace, astype를 이용하면 쉽게 해결할 수 있습니다.

## filter와 melt로 여러 컬럼 전처리하기

### PER와 EPS 

#### PER 주가수익비율

* "이 주식은 비싼가, 주식시장이 거품인가" 판단하는 시금석
* PER = 주식가격 / 주당순이익(EPS)

물건을 살 때 값을 얼마나 줘야 좋은 건지 판단할 기준은 수없이 많다. 내게 얼마나 절실한가. 이 물건이 얼마나 유용하고 값어치가 있나. 혹은 어느 정도나 오래 사용할 수 있나. 물건에 대한 다른 사람들의 평판은 어떤가. 물건이 내게 주는 수익은 어느 정도인가…. 생각해보면 쉽게 떠오르는 이런저런 이유들은 어려운 주식투자나, 투자결정에도 그대로 적용된다.

이런 점에서 흔히 투자자들 사이에서 `퍼(PER)`로 불리는 **주가수익비율(Price earning ratio, 이하 PER)**은 어떤 회사의 주식가치, 더 나아가 전체 주식시장의 가치가 고평가 됐는지 가늠할 수 있는 유용한 잣대다. **PER은 현재 시장에서 매매되는 특정회사의 주식가격을 주당순이익으로 나눈 값을 말한다.** 한 주에 만 원하는 회사주식이 1년에 주당 1000원의 순이익을 낸다면? PER은 10이 된다. 이 수치가 회사의 가치를 어떻게 반영한다는 얘기일까?

* 출처 [네이버 지식백과]주가수익비율(PER) - "이 주식은 비싼가, 주식시장이 거품인가" 판단하는 시금석 (금융사전, 김태근)
* https://terms.naver.com/entry.nhn?docId=3571127&cid=58781&categoryId=58781

#### EPS 주당순이익

* EPS =  순이익(당기순이익) / 그 기업이 발행한 총 주식수

주당순이익(EPS)은 기업이 벌어들인 순이익(당기순이익)을 그 기업이 발행한 총 주식수로 나눈 값으로, 1주당 이익을 얼마나 창출하였느냐를 나타내는 지표이다. 즉 해당 회사가 1년간 올린 수익에 대한 주주의 몫을 나타내는 지표라 할 수 있다. 또한 주당순이익은 주가수익비율(PER)계산의 기초가 되기도 한다.

EPS가 높을수록 주식의 투자 가치는 높다고 볼 수 있으며, 그만큼 해당 회사의 경영실적이 양호하다는 뜻이다. 따라서 배당 여력도 많으므로 주가에 긍정적인 영향을 미친다.

EPS는 당기순이익 규모가 늘면 높아지게 되고, 전환사채의 주식전환이나 증자로 주식수가 많아지면 낮아지게 된다. 특히 최근 주식시장의 패턴이 기업의 수익성을 중시하는 쪽으로 바뀌면서 EPS의 크기가 중요시되고 있다.

* 출처 : [네이버 지식백과] 주당순이익(EPS) (시사상식사전, pmg 지식엔진연구소)
* https://terms.naver.com/entry.nhn?docId=74510&cid=43667&categoryId=43667

### filter 를 사용해 특정 텍스트가 들어가는 컬럼 찾기
* [정규 표현식 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D)

In [42]:
df.head(1)

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원),PER(배),시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배)
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92


In [43]:
# filter는 특정 조건 값을 지정해 행/열의 값을 가져올 수 있다.
# df.filter(regex=)를 통해 "PERlEPS" 가 들어가는 컬럼만 가져옵니다.
# 특정 컬럼을 가져오고 종목코드를 추가해 줍니다.
df_per_eps = df.filter(regex="^PERlEPS").copy()
df_per_eps["종목코드"] = df["종목코드"]
df_per_eps

Unnamed: 0,PERlEPS(2021.03),PERlEPS(2020.12),PERlEPS(2021.06),PERlEPS(2021.08),종목코드
0,N/A l -506원,,,,900120
1,,N/A l N/A,,,261780
2,,"N/A l -1,385원",,,308080
3,,"N/A l -2,624원",,,365270
4,,,N/A l -488원,,950220
...,...,...,...,...,...
147,,,"N/A l -4,212원",,047920
148,,,N/A l -667원,,115450
149,,N/A l -80원,,,307750
150,,,"N/A l -2,754원",,183490


### melt로 tidy data 만들기

<img src="https://pandas.pydata.org/docs/_images/reshaping_melt.png" width="600">

* https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-by-melt
* [Tidy Data 란?](https://vita.had.co.nz/papers/tidy-data.pdf)


In [44]:
# melt를 통해 종목코드를 녹여냅니다.
df_per_eps_melt = df_per_eps.melt(id_vars="종목코드")
df_per_eps_melt 

Unnamed: 0,종목코드,variable,value
0,900120,PERlEPS(2021.03),N/A l -506원
1,261780,PERlEPS(2021.03),
2,308080,PERlEPS(2021.03),
3,365270,PERlEPS(2021.03),
4,950220,PERlEPS(2021.03),
...,...,...,...
603,047920,PERlEPS(2021.08),
604,115450,PERlEPS(2021.08),
605,307750,PERlEPS(2021.08),
606,183490,PERlEPS(2021.08),


In [45]:
# 종목코드별로 value_counts를 통해  PERlEPS 행이 몇 개인지 봅니다.
df_per_eps_melt["종목코드"].value_counts()

334970    4
260660    4
060590    4
053030    4
000105    4
         ..
234080    4
084110    4
168330    4
950220    4
007575    4
Name: 종목코드, Length: 152, dtype: int64

### 결측치 데이터 제거
<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg">

In [46]:
# PERlEPS 데이터프레임에서 결측치 데이터 제거
# 여기에서 기간별로 생긴 행은 이전 실습에서 concat으로 데이터를 합칠 때 
# 컬럼의 이름이 다르면 새로운 컬럼으로 생성하기 때문입니다.
df_pe = df_per_eps_melt.dropna()
df_pe

Unnamed: 0,종목코드,variable,value
0,900120,PERlEPS(2021.03),N/A l -506원
153,261780,PERlEPS(2020.12),N/A l N/A
154,308080,PERlEPS(2020.12),"N/A l -1,385원"
155,365270,PERlEPS(2020.12),"N/A l -2,624원"
204,299170,PERlEPS(2020.12),N/A l -58원
...,...,...,...
451,047920,PERlEPS(2021.06),"N/A l -4,212원"
452,115450,PERlEPS(2021.06),N/A l -667원
454,183490,PERlEPS(2021.06),"N/A l -2,754원"
455,009300,PERlEPS(2021.06),N/A l -175원


In [47]:
# variable 컬럼명을 rename을 통해 "PERlEPS"로 변경합니다.
df_pe = df_pe.rename(columns={"variable": "PERlEPS"})
df_pe

Unnamed: 0,종목코드,PERlEPS,value
0,900120,PERlEPS(2021.03),N/A l -506원
153,261780,PERlEPS(2020.12),N/A l N/A
154,308080,PERlEPS(2020.12),"N/A l -1,385원"
155,365270,PERlEPS(2020.12),"N/A l -2,624원"
204,299170,PERlEPS(2020.12),N/A l -58원
...,...,...,...
451,047920,PERlEPS(2021.06),"N/A l -4,212원"
452,115450,PERlEPS(2021.06),N/A l -667원
454,183490,PERlEPS(2021.06),"N/A l -2,754원"
455,009300,PERlEPS(2021.06),N/A l -175원


In [48]:
# df_pe에서 PER, EPS 컬럼을 따로 생성합니다.
df_pe["PER"] = df_pe["value"].str.split("  l  ", expand=True)[0]
df_pe["EPS"] = df_pe["value"].str.split("  l  ", expand=True)[1]

In [50]:
# PER, EPS 컬럼의 N/A 값을 결측치로 만듭니다.
df_pe["PER"] = df_pe["PER"].replace("N/A", np.nan)
df_pe["EPS"] = df_pe["EPS"].replace("N/A", np.nan)

In [52]:
#  PER, EPS 값 중 둘 다 결측치는 notnull 혹은 isnull을 사용해 제거합니다.
df_pe[df_pe["PER"].isnull() & df_pe["EPS"].isnull()]

Unnamed: 0,종목코드,PERlEPS,value,PER,EPS
153,261780,PERlEPS(2020.12),N/A l N/A,,


In [57]:
df_pe = df_pe[df_pe["PER"].isnull() | df_pe["EPS"].isnull()].copy()

In [58]:
# PER(배) 컬럼을 만들고 수치데이터 형태로 변환합니다.
# df_pe["PER(배)"]
df_pe["PER(배)"] = df_pe["PER"].str.replace("[^0-9.]","").astype(float)

  df_pe["PER(배)"] = df_pe["PER"].str.replace("[^0-9.]","").astype(float)


In [61]:
# EPS(원) 컬럼을 만들고 수치데이터 형태로 변환합니다.
df_pe["EPS(원)"] = df_pe["EPS"].str.replace("원|,","").astype(float)

  df_pe["EPS(원)"] = df_pe["EPS"].str.replace("원|,","").astype(float)


In [63]:
# 필요한 컬럼만 따로 가져옵니다.
df_pe = df_pe[["종목코드", "PERlEPS", "PER(배)", "EPS(원)"]].copy()
df_pe

Unnamed: 0,종목코드,PERlEPS,PER(배),EPS(원)
0,900120,PERlEPS(2021.03),,-506.0
153,261780,PERlEPS(2020.12),,
154,308080,PERlEPS(2020.12),,-1385.0
155,365270,PERlEPS(2020.12),,-2624.0
204,299170,PERlEPS(2020.12),,-58.0
...,...,...,...,...
451,047920,PERlEPS(2021.06),,-4212.0
452,115450,PERlEPS(2021.06),,-667.0
454,183490,PERlEPS(2021.06),,-2754.0
455,009300,PERlEPS(2021.06),,-175.0


### 중복 데이터 확인

In [64]:
# "종목코드"기준으로 중복된 데이터가 있는지 찾습니다.
df_pe[df_pe.duplicated("종목코드")]

Unnamed: 0,종목코드,PERlEPS,PER(배),EPS(원)


In [65]:
# 만약 중복데이터가 있다면 다음과 같은 방법으로 제거합니다.
# 추출했던 원래 데이터프레임 df와 다시 merge 로 합치기 위해 
# drop_duplicates 를 사용해 종목코드가 중복되는 행은 제거합니다.
# "종목코드", "PERlEPS" 로 정렬을 하고 
# drop_duplicates 로 제거시 keep="first" 로 위에 있는 데이터를 남깁니다.
df_pe = df_pe.sort_values(["종목코드", "PERlEPS"])
df_pe = df_pe.drop_duplicates(["종목코드", "PERlEPS"])
df_pe

Unnamed: 0,종목코드,PERlEPS,PER(배),EPS(원)
441,000230,PERlEPS(2021.06),,-2768.0
404,000250,PERlEPS(2021.06),,-477.0
367,000520,PERlEPS(2021.06),,-100.0
410,001060,PERlEPS(2021.06),,-146.0
368,001065,PERlEPS(2021.06),,-146.0
...,...,...,...,...
155,365270,PERlEPS(2020.12),,-2624.0
206,377220,PERlEPS(2020.12),,-857.0
0,900120,PERlEPS(2021.03),,-506.0
440,950210,PERlEPS(2021.06),,-142.0


In [67]:
# 종목코드값 기준으로 중복데이터를 확인합니다.
df_pe["종목코드"].value_counts().unique()

array([1], dtype=int64)

### PBRlBPS 전처리


#### PBR(주가순자산비율, price-to-book ratio, P/B ratio)

* PBR = 주가/BPS(주당순자산가치)
* 주가는 그 회사의 종합적인 평가이므로 주주 소유분을 초과한 부분은 모두 그 회사의 잠재적인 프리미엄이 되기 때문에 **경영의 종합력이 뛰어나면 뛰어날수록 배율이 높아진다**고 할 수 있다. 일반적으로 이 지표는 PER과 함께 사용되는데, 이는 주가순자산배율이 그 회사를 정적인 상태 즉 스토크(stock)면에서 보고 있는데 반하여 주가수익률은 동적인 상태 즉 플로(flow)면에서 보고 있으므로 두 가지 지표가 서로 보완관계에 있다.

* 다만 이 주가 순자산배율에도 **주주소유분이 장부가격에 의해 계산되고 있어 반드시 정확하다고 할 수 없고 또 그 계산기준이 전기의 결산기가 된다는 등의 난점이 있다.**
* 출처 : [주가순자산비율 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A3%BC%EA%B0%80%EC%88%9C%EC%9E%90%EC%82%B0%EB%B9%84%EC%9C%A8)

#### BPS(주당순자산가치, Book-value Per Share)

* 주당순자산가치 = 기업의 순자산/ 발행 주식수
* 주당순자산가치는, '청산가치' 라고도 불린다. 그 이유는 현재 시점에서 기업의 활동을 중단시키고 그 부를 모든 주주들에게 나눠줄 경우 한주당 얼마씩이 돌아가는가를 나타내는 수치이기 때문이다. 보통 주당순자산가치라는 말은 잘 쓰지 않고 BPS라고 하므로 이하 BPS로 쓴다.

* BPS가 높다는 것은 자기자본의 비중이 크거나 회사 가치가 높다는 것을 나타낸다. BPS에는 주가 정보가 고려되어 있지 않으므로, 이 회사의 주가가 자산 가치에 비해 얼마나 저평가 혹은 고평가되어 있는지 판단하기 위해 PBR이라는 값을 사용한다.

* PBR 값은 BPS 값으로 현재 주가를 나눈 것이다. BPS가 1만원인 위 사례에서 주가가 5,000원이라면 PBR은 0.5가 되고, 주가가 20,000원이라면 PBR은 2가 된다. 즉 전자의 경우 주가는 실제의 자산에 비해 저평가되어 되어 있는 것이고, 후자의 경우 주가는 실제 자산에 비해 고평가 되어 있는 것이다.

* 출처 : [주당순자산가치 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A3%BC%EB%8B%B9%EC%88%9C%EC%9E%90%EC%82%B0%EA%B0%80%EC%B9%98)


In [69]:
# filter를 사용해 PBRlBPS 컬럼 가져옵니다.
# 종목코드 추가합니다.
# df_pbr_bps
df_pbr_bps = df.filter(regex="^PBRlBPS").copy()
df_pbr_bps["종목코드"] = df["종목코드"]
df_pbr_bps

Unnamed: 0,PBRlBPS (2021.03),PBRlBPS (2020.12),PBRlBPS (2021.06),PBRlBPS (2021.08),종목코드
0,"0.09배 l 3,239원",,,,900120
1,,N/A l N/A,,,261780
2,,"16.01배 l 2,330원",,,308080
3,,49.64배 l 842원,,,365270
4,,,"6.03배 l 1,792원",,950220
...,...,...,...,...,...
147,,,"6.80배 l 2,611원",,047920
148,,,"4.52배 l 3,074원",,115450
149,,"8.55배 l 1,660원",,,307750
150,,,"6.97배 l 10,224원",,183490


In [70]:
# melt로 tidy data 만듭니다.
df_pbr_bps_melt = df_pbr_bps.melt(id_vars="종목코드")
df_pbr_bps_melt 

Unnamed: 0,종목코드,variable,value
0,900120,PBRlBPS (2021.03),"0.09배 l 3,239원"
1,261780,PBRlBPS (2021.03),
2,308080,PBRlBPS (2021.03),
3,365270,PBRlBPS (2021.03),
4,950220,PBRlBPS (2021.03),
...,...,...,...
603,047920,PBRlBPS (2021.08),
604,115450,PBRlBPS (2021.08),
605,307750,PBRlBPS (2021.08),
606,183490,PBRlBPS (2021.08),


In [71]:
df_pbr_bps_melt["종목코드"].value_counts()

334970    4
260660    4
060590    4
053030    4
000105    4
         ..
234080    4
084110    4
168330    4
950220    4
007575    4
Name: 종목코드, Length: 152, dtype: int64

In [72]:
# 결측치를 제거합니다.
df_pb = df_pbr_bps_melt.dropna()
df_pb

Unnamed: 0,종목코드,variable,value
0,900120,PBRlBPS (2021.03),"0.09배 l 3,239원"
153,261780,PBRlBPS (2020.12),N/A l N/A
154,308080,PBRlBPS (2020.12),"16.01배 l 2,330원"
155,365270,PBRlBPS (2020.12),49.64배 l 842원
204,299170,PBRlBPS (2020.12),2.96배 l 927원
...,...,...,...
451,047920,PBRlBPS (2021.06),"6.80배 l 2,611원"
452,115450,PBRlBPS (2021.06),"4.52배 l 3,074원"
454,183490,PBRlBPS (2021.06),"6.97배 l 10,224원"
455,009300,PBRlBPS (2021.06),"0.84배 l 27,352원"


In [74]:
# variable 컬럼명을 "PBRlBPS"로 변경합니다.
df_pb = df_pb.rename(columns={"variable": "PBRlBPS"})
df_pb

Unnamed: 0,종목코드,PBRlBPS,value
0,900120,PBRlBPS (2021.03),"0.09배 l 3,239원"
153,261780,PBRlBPS (2020.12),N/A l N/A
154,308080,PBRlBPS (2020.12),"16.01배 l 2,330원"
155,365270,PBRlBPS (2020.12),49.64배 l 842원
204,299170,PBRlBPS (2020.12),2.96배 l 927원
...,...,...,...
451,047920,PBRlBPS (2021.06),"6.80배 l 2,611원"
452,115450,PBRlBPS (2021.06),"4.52배 l 3,074원"
454,183490,PBRlBPS (2021.06),"6.97배 l 10,224원"
455,009300,PBRlBPS (2021.06),"0.84배 l 27,352원"


In [78]:
# PBR, BPS 컬럼을 만듭니다.
df_pb["PBR"] = df_pb["value"].str.split("  l  ", expand=True)[0]
df_pb["BPS"] = df_pb["value"].str.split("  l  ", expand=True)[1]

In [80]:
# N/A 값(문자) np.nan(결측치)로 변환합니다.
df_pb["PBR"] = df_pb["PBR"].replace("N/A", np.nan)
df_pb["BPS"] = df_pb["BPS"].replace("N/A", np.nan)

In [81]:
df_pb = df_pb[df_pb["PBR"].notnull() | df_pb["BPS"].notnull()].copy()

In [82]:
# PBR(배), BPS(원) 컬럼을 만듭니다.
df_pb["PBR(배)"] = df_pb["PBR"].str.replace("[^0-9.]", "").astype(float)
df_pb["BPS(원)"] = df_pb["BPS"].str.replace("원|,", "").astype(int)

  df_pb["PBR(배)"] = df_pb["PBR"].str.replace("[^0-9.]", "").astype(float)
  df_pb["BPS(원)"] = df_pb["BPS"].str.replace("원|,", "").astype(int)


In [84]:
# 종목코드 기준 value_counts 를 구해 중복값이 있는지 확인합니다.
df_pb["종목코드"].value_counts().unique()

array([1], dtype=int64)

In [85]:
# "종목코드","PBRlBPS" 로 중복값이 있는지 확인합니다.
# 만약 중복값이 있다면 drop_duplicates 로 삭제합니다.
df_pb = df_pb.drop_duplicates(["종목코드", "PBRlBPS"])
df_pb

Unnamed: 0,종목코드,PBRlBPS,value,PBR,BPS,PBR(배),BPS(원)
0,900120,PBRlBPS (2021.03),"0.09배 l 3,239원",0.09배,"3,239원",0.09,3239
154,308080,PBRlBPS (2020.12),"16.01배 l 2,330원",16.01배,"2,330원",16.01,2330
155,365270,PBRlBPS (2020.12),49.64배 l 842원,49.64배,842원,49.64,842
204,299170,PBRlBPS (2020.12),2.96배 l 927원,2.96배,927원,2.96,927
206,377220,PBRlBPS (2020.12),"3.21배 l 4,477원",3.21배,"4,477원",3.21,4477
...,...,...,...,...,...,...,...
451,047920,PBRlBPS (2021.06),"6.80배 l 2,611원",6.80배,"2,611원",6.80,2611
452,115450,PBRlBPS (2021.06),"4.52배 l 3,074원",4.52배,"3,074원",4.52,3074
454,183490,PBRlBPS (2021.06),"6.97배 l 10,224원",6.97배,"10,224원",6.97,10224
455,009300,PBRlBPS (2021.06),"0.84배 l 27,352원",0.84배,"27,352원",0.84,27352


In [86]:
# 사용할 컬럼만 따로 지정해줍니다.
# "종목코드", "PBRlBPS", "PBR(배)", "BPS(원)"
df_pb = df_pb[["종목코드", "PBRlBPS", "PBR(배)", "BPS(원)"]].copy()
df_pb

Unnamed: 0,종목코드,PBRlBPS,PBR(배),BPS(원)
0,900120,PBRlBPS (2021.03),0.09,3239
154,308080,PBRlBPS (2020.12),16.01,2330
155,365270,PBRlBPS (2020.12),49.64,842
204,299170,PBRlBPS (2020.12),2.96,927
206,377220,PBRlBPS (2020.12),3.21,4477
...,...,...,...,...
451,047920,PBRlBPS (2021.06),6.80,2611
452,115450,PBRlBPS (2021.06),4.52,3074
454,183490,PBRlBPS (2021.06),6.97,10224
455,009300,PBRlBPS (2021.06),0.84,27352


### 배당 수익률 전처리

In [88]:
# PER|EPS 전처리와 마찬가리로 배당수익률 데이터를 전처리 합니다.
# df.filter(regex=) 로 배당수익률이 들어가는 컬럼만 찾고 종목코드를 추가 합니다.
df_income = df.filter(regex="^배당수익률").copy()

In [89]:
# 추후 병합을 위해 데이터프레임에 종목코드를 추가합니다.
df_income["종목코드"] = df["종목코드"]
df_income

Unnamed: 0,배당수익률l2020.12,배당수익률l2020.11,종목코드
0,,,900120
1,,,261780
2,,,308080
3,,,365270
4,,,950220
...,...,...,...
147,,,047920
148,,,115450
149,,,307750
150,,,183490


In [90]:
# melt 로 여러 컬럼의 종목코드를 행으로 녹이고 결측치를 dropna 로 제거합니다.
df_income_melt = df_income.melt(id_vars="종목코드").copy()
df_in = df_income_melt.dropna()
df_in

Unnamed: 0,종목코드,variable,value
6,007370,배당수익률l2020.12,1.31%
9,007575,배당수익률l2020.12,0.48%
12,194700,배당수익률l2020.12,0.73%
13,000020,배당수익률l2020.12,1.08%
15,005500,배당수익률l2020.12,3.03%
...,...,...,...
135,002620,배당수익률l2020.12,0.39%
137,000230,배당수익률l2020.12,0.73%
139,011040,배당수익률l2020.12,3.16%
151,009300,배당수익률l2020.12,1.30%


In [93]:
# 컬럼명을 "종목코드", "배당수익률기간", "배당수익률" 로 변경합니다.
df_in = df_in.rename(columns={"variable": "배당수익률기간", "value": "배당수익률"})
df_in

Unnamed: 0,종목코드,배당수익률기간,배당수익률
6,007370,배당수익률l2020.12,1.31%
9,007575,배당수익률l2020.12,0.48%
12,194700,배당수익률l2020.12,0.73%
13,000020,배당수익률l2020.12,1.08%
15,005500,배당수익률l2020.12,3.03%
...,...,...,...
135,002620,배당수익률l2020.12,0.39%
137,000230,배당수익률l2020.12,0.73%
139,011040,배당수익률l2020.12,3.16%
151,009300,배당수익률l2020.12,1.30%


In [97]:
# 배당수익률% 컬럼을 만들어 전처리 합니다.

df_in["배당수익률%"] = df_in["배당수익률"].str.replace("%","").astype(float)
df_in

Unnamed: 0,종목코드,배당수익률기간,배당수익률,배당수익률%
6,007370,배당수익률l2020.12,1.31%,1.31
9,007575,배당수익률l2020.12,0.48%,0.48
12,194700,배당수익률l2020.12,0.73%,0.73
13,000020,배당수익률l2020.12,1.08%,1.08
15,005500,배당수익률l2020.12,3.03%,3.03
...,...,...,...,...
135,002620,배당수익률l2020.12,0.39%,0.39
137,000230,배당수익률l2020.12,0.73%,0.73
139,011040,배당수익률l2020.12,3.16%,3.16
151,009300,배당수익률l2020.12,1.30%,1.30


In [98]:
# 종목코드가 종목당 2개 이상 있는 값이 있는지 확인합니다.
# 2개 이상 있다면 merge 에서 어떤 값을 사용할지 고려해야 합니다.
df_in["종목코드"].value_counts().unique()

array([1], dtype=int64)

In [99]:
# 전처리가 끝난 배당수익률 컬럼은 제거합니다.
del df_in["배당수익률"]  ## DataFrame.drop으로 제거하는 법도 알아두기

In [100]:
df_in

Unnamed: 0,종목코드,배당수익률기간,배당수익률%
6,007370,배당수익률l2020.12,1.31
9,007575,배당수익률l2020.12,0.48
12,194700,배당수익률l2020.12,0.73
13,000020,배당수익률l2020.12,1.08
15,005500,배당수익률l2020.12,3.03
...,...,...,...
135,002620,배당수익률l2020.12,0.39
137,000230,배당수익률l2020.12,0.73
139,011040,배당수익률l2020.12,3.16
151,009300,배당수익률l2020.12,1.30


## merge 로 기존 데이터와 병합하기

<img src="https://pandas.pydata.org/docs/_images/08_merge_left.svg">

* concat과 merge의 차이
    * concat :  
        * axis=0 행을 기준으로 위아래로 **같은 컬럼끼리** 값을 이어 붙여 **새로운 행을 만듦**
        * axis=1 컬럼을 기준으로 **인덱스가 같은 값**을 옆으로 붙여 **새로운 컬럼을 만듦**
    * merge :
        * index 혹은 특정 컬럼 값을 기준으로 두 개의 데이터프레임을 연결
        
<img src="https://www.dofactory.com/img/sql/sql-joins.png">

* 이미지 출처 : https://www.dofactory.com/sql/join

In [108]:
df.shape

(152, 55)

In [109]:
# merge로 병합합니다.
# df와 df_pe를 병합니다. merge 전후 행과 열의 수를 확인해서 제대로 병합이 되었는지 확인합니다.
# df_merge_pe 에 할당합니다.
df_merge_pe = df.merge(df_pe, on="종목코드", how="left")
df_merge_pe.shape
# 양쪽의 컬럼명이 다르다면 left_on, right_on 형식으로 적어줄 수 있다.

(152, 58)

In [110]:
df_merge_pe.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원)_x,PER(배)_x,시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배),PERlEPS,PER(배)_y,EPS(원)_y
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92,PERlEPS(2021.03),,-506.0
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0,0,,13000.0,inf,,,,89.92,PERlEPS(2020.12),,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205,,,,89.92,PERlEPS(2020.12),,-1385.0
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872,,,,89.92,PERlEPS(2020.12),,-2624.0
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350,8100,1.86631,-6650.0,0.618911,,,,89.92,PERlEPS(2021.06),,-488.0


In [112]:
# 위에서 병합한 데이터(df_merge_pe)에 PBRlBPS(df_pb) 데이터도 병합해 줍니다.
df_merge_pb = df_merge_pe.merge(df_pb, on="종목코드", how="left")
df_merge_pb.shape

(152, 61)

In [113]:
df_merge_pb.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원)_x,PER(배)_x,시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배),PERlEPS,PER(배)_y,EPS(원)_y,PBRlBPS,PBR(배),BPS(원)
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92,PERlEPS(2021.03),,-506.0,PBRlBPS (2021.03),0.09,3239.0
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0,0,,13000.0,inf,,,,89.92,PERlEPS(2020.12),,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205,,,,89.92,PERlEPS(2020.12),,-1385.0,PBRlBPS (2020.12),16.01,2330.0
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872,,,,89.92,PERlEPS(2020.12),,-2624.0,PBRlBPS (2020.12),49.64,842.0
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350,8100,1.86631,-6650.0,0.618911,,,,89.92,PERlEPS(2021.06),,-488.0,PBRlBPS (2021.06),6.03,1792.0


In [114]:
# 위에서 병합한 데이터(df_merge_pb)에 배당수익률(df_in) 데이터도 병합해 줍니다.
# df_final 이라는 변수에 담습니다.
df_final = df_merge_pb.merge(df_in, on="종목코드", how="left")
df_final.shape

(152, 63)

In [115]:
df_final.head()

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,level_0,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원)_x,PER(배)_x,시가총액,시가총액순위,상장주식수,액면가l매매단위,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),동일업종 PER,동일업종 등락률,PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배),PERlEPS,PER(배)_y,EPS(원)_y,PBRlBPS,PBR(배),BPS(원),배당수익률기간,배당수익률%
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,0,,,,,,,,355 억원,코스닥 1413위,120449666,0.05 USD l 1주,120449666,33576494,27.88%,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",89.92배,+0.60%,,,,,,,,,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92,PERlEPS(2021.03),,-506.0,PBRlBPS (2021.03),0.09,3239.0,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,1,,,,,,,,"3,436 억원",코스닥 285위,26429162,500원 l 1주,26429162,290000,1.10%,N/A l N/A,0 l 0,,N/A l N/A,,89.92배,+0.60%,N/A l N/A,N/A l N/A,,,,,,,코스닥,3436,285,0,0,0,,13000.0,inf,,,,89.92,PERlEPS(2020.12),,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,2,,,,,,,,"3,520 억원",코스닥 279위,9435680,500원 l 1주,9435680,20750,0.22%,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,89.92배,+0.60%,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205,,,,89.92,PERlEPS(2020.12),,-1385.0,PBRlBPS (2020.12),16.01,2330.0,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,3,,,,,,,,"5,678 억원",코스닥 137위,13582968,500원 l 1주,13582968,69189,0.51%,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,89.92배,+0.60%,"N/A l -2,624원",49.64배 l 842원,,,,,,,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872,,,,89.92,PERlEPS(2020.12),,-2624.0,PBRlBPS (2020.12),49.64,842.0,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,4,,,,,,,,1조 641 억원,코스닥 58위,98532010,,98532010,8338359,8.46%,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,89.92배,+0.60%,,,N/A l -488원,"6.03배 l 1,792원",,,,,코스닥,1641,58,17450,9350,8100,1.86631,-6650.0,0.618911,,,,89.92,PERlEPS(2021.06),,-488.0,PBRlBPS (2021.06),6.03,1792.0,,


In [118]:
df_final.filter(regex="l")

Unnamed: 0,level_0,액면가l매매단위,투자의견l목표주가,52주최고l최저,PERlEPS(2021.03),추정PERlEPS,PBRlBPS (2021.03),PERlEPS(2020.12),PBRlBPS (2020.12),PERlEPS(2021.06),PBRlBPS (2021.06),배당수익률l2020.12,PERlEPS(2021.08),PBRlBPS (2021.08),배당수익률l2020.11,PERlEPS,PBRlBPS
0,0,0.05 USD l 1주,N/A l N/A,579 l 210,N/A l -506원,N/A l N/A,"0.09배 l 3,239원",,,,,,,,,PERlEPS(2021.03),PBRlBPS (2021.03)
1,1,500원 l 1주,N/A l N/A,0 l 0,,N/A l N/A,,N/A l N/A,N/A l N/A,,,,,,,PERlEPS(2020.12),
2,2,500원 l 1주,N/A l N/A,"78,000 l 32,850",,N/A l N/A,,"N/A l -1,385원","16.01배 l 2,330원",,,,,,,PERlEPS(2020.12),PBRlBPS (2020.12)
3,3,500원 l 1주,N/A l N/A,"62,400 l 28,500",,N/A l N/A,,"N/A l -2,624원",49.64배 l 842원,,,,,,,PERlEPS(2020.12),PBRlBPS (2020.12)
4,4,,N/A l N/A,"17,450 l 9,350",,N/A l N/A,,,,N/A l -488원,"6.03배 l 1,792원",,,,,PERlEPS(2021.06),PBRlBPS (2021.06)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,147,500원 l 1주,N/A l N/A,"30,200 l 12,000",,N/A l N/A,,,,"N/A l -4,212원","6.80배 l 2,611원",,,,,PERlEPS(2021.06),PBRlBPS (2021.06)
148,148,500원 l 1주,N/A l N/A,"33,550 l 9,520",,N/A l N/A,,,,N/A l -667원,"4.52배 l 3,074원",,,,,PERlEPS(2021.06),PBRlBPS (2021.06)
149,149,100원 l 1주,N/A l N/A,"24,900 l 2,959",,N/A l N/A,,N/A l -80원,"8.55배 l 1,660원",,,,,,,PERlEPS(2020.12),PBRlBPS (2020.12)
150,150,500원 l 1주,N/A l N/A,"159,000 l 66,400",,N/A l N/A,,,,"N/A l -2,754원","6.97배 l 10,224원",,,,,PERlEPS(2021.06),PBRlBPS (2021.06)


## 사용하지 않는 컬럼 제거하기 drop

In [120]:
# l 구분자가 들어가는 컬럼명만 찾습니다.
del_cols = df_final.filter(regex="l").columns
del_cols

Index(['level_0', '액면가l매매단위', '투자의견l목표주가', '52주최고l최저', 'PERlEPS(2021.03)',
       '추정PERlEPS', 'PBRlBPS (2021.03)', 'PERlEPS(2020.12)',
       'PBRlBPS (2020.12)', 'PERlEPS(2021.06)', 'PBRlBPS (2021.06)',
       '배당수익률l2020.12', 'PERlEPS(2021.08)', 'PBRlBPS (2021.08)',
       '배당수익률l2020.11', 'PERlEPS', 'PBRlBPS'],
      dtype='object')

In [121]:
# 위에서 찾은 컬럼명을 drop으로 삭제합니다.
df_final = df_final.drop(del_cols, axis=1).copy()
df_final

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목명_전처리,종목코드,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원)_x,PER(배)_x,시가총액,시가총액순위,상장주식수,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),동일업종 PER,동일업종 등락률,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배),PER(배)_y,EPS(원)_y,PBR(배),BPS(원),배당수익률기간,배당수익률%
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,씨케이에이치,900120,,,,,,,,355 억원,코스닥 1413위,120449666,120449666,33576494,27.88%,89.92배,+0.60%,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92,,-506.0,0.09,3239.0,,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,차백신연구소,261780,,,,,,,,"3,436 억원",코스닥 285위,26429162,26429162,290000,1.10%,89.92배,+0.60%,코스닥,3436,285,0,0,0,,13000.0,inf,,,,89.92,,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,바이젠셀,308080,,,,,,,,"3,520 억원",코스닥 279위,9435680,9435680,20750,0.22%,89.92배,+0.60%,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205,,,,89.92,,-1385.0,16.01,2330.0,,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,큐라클,365270,,,,,,,,"5,678 억원",코스닥 137위,13582968,13582968,69189,0.51%,89.92배,+0.60%,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872,,,,89.92,,-2624.0,49.64,842.0,,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,네오이뮨텍(Reg.S),950220,,,,,,,,1조 641 억원,코스닥 58위,98532010,98532010,8338359,8.46%,89.92배,+0.60%,코스닥,1641,58,17450,9350,8100,1.866310,-6650.0,0.618911,,,,89.92,,-488.0,6.03,1792.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,에이치엘비제약 *,17750.0,750.0,-4.05%,17750.0,17900.0,215859.0,3890.0,271024.0,20211023,에이치엘비제약,047920,,,,,,,,"3,969 억원",코스닥 241위,22357821,22357821,336645,1.51%,89.92배,+0.60%,코스닥,3969,241,30200,12000,18200,2.516667,-12450.0,0.587748,,,,89.92,,-4212.0,6.80,2611.0,,
148,지트리비앤티 *,13900.0,700.0,-4.79%,13900.0,13950.0,557251.0,7840.0,1081209.0,20211023,지트리비앤티,115450,,,,,,,,"3,765 억원",코스닥 255위,27088019,27088019,569054,2.10%,89.92배,+0.60%,코스닥,3765,255,33550,9520,24030,3.524160,-19650.0,0.414307,,,,89.92,,-667.0,4.52,3074.0,,
149,국전약품 *,14200.0,800.0,-5.33%,14150.0,14200.0,2792954.0,40219.0,3529798.0,20211023,국전약품,307750,,,,,,,,"6,968 억원",코스닥 105위,49069269,49069269,68946,0.14%,89.92배,+0.60%,코스닥,6968,105,24900,2959,21941,8.415005,-10700.0,0.570281,,,,89.92,,-80.0,8.55,1660.0,,
150,엔지켐생명과학 *,71300.0,7600.0,-9.63%,71200.0,71300.0,348979.0,25606.0,229921.0,20211023,엔지켐생명과학,183490,,,,,,,,"5,940 억원",코스닥 128위,8331345,8331345,535730,6.43%,89.92배,+0.60%,코스닥,5940,128,159000,66400,92600,2.394578,-87700.0,0.448428,,,,89.92,,-2754.0,6.97,10224.0,,


In [122]:
df_final.shape

(152, 46)

In [123]:
# 결측치수가 많거나 중복된 컬럼이 있는지 확인합니다.
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 152 entries, 0 to 151
Data columns (total 46 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   종목명          152 non-null    object 
 1   현재가          152 non-null    float64
 2   전일비          152 non-null    float64
 3   등락률          152 non-null    object 
 4   매수호가         152 non-null    float64
 5   매도호가         152 non-null    float64
 6   거래량          152 non-null    float64
 7   거래대금         152 non-null    float64
 8   전일거래량        152 non-null    float64
 9   조회일자         152 non-null    int64  
 10  종목명_전처리      152 non-null    object 
 11  종목코드         152 non-null    object 
 12  매출액          26 non-null     float64
 13  영업이익         26 non-null     float64
 14  당기순이익        16 non-null     float64
 15  영업이익률        26 non-null     float64
 16  순이익률         16 non-null     float64
 17  EPS(원)_x     19 non-null     float64
 18  PER(배)_x     19 non-null     float64
 19  시가총액    

In [124]:
# 전처리한 컬럼은 원본 컬럼을 제거합니다.
del_cols2 = ['종목명_전처리', '시가총액', '시가총액순위', '배당수익률기간']

In [125]:
# del_cols2 를 제거합니다.
df_final = df_final.drop(del_cols2, axis=1)
df_final.shape

(152, 42)

In [126]:
# 컬럼명 중 필요없는 컬럼이 없는지 확인합니다.
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 152 entries, 0 to 151
Data columns (total 42 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   종목명          152 non-null    object 
 1   현재가          152 non-null    float64
 2   전일비          152 non-null    float64
 3   등락률          152 non-null    object 
 4   매수호가         152 non-null    float64
 5   매도호가         152 non-null    float64
 6   거래량          152 non-null    float64
 7   거래대금         152 non-null    float64
 8   전일거래량        152 non-null    float64
 9   조회일자         152 non-null    int64  
 10  종목코드         152 non-null    object 
 11  매출액          26 non-null     float64
 12  영업이익         26 non-null     float64
 13  당기순이익        16 non-null     float64
 14  영업이익률        26 non-null     float64
 15  순이익률         16 non-null     float64
 16  EPS(원)_x     19 non-null     float64
 17  PER(배)_x     19 non-null     float64
 18  상장주식수        152 non-null    int64  
 19  외국인한도주식수

## CSV 파일로 저장하기

In [127]:
# 기존 파일명을 변경해서 새로 저장할 파일명을 만듭니다.
file_name 

'upjong_no_261_20211023.csv'

In [129]:
# 저장할 파일명을 만들어 줍니다.
# 기존 파일명에 _ver2 를 붙여줍니다.
final_file_name = file_name.replace(".csv", "_ver2.csv")
final_file_name

'upjong_no_261_20211023_ver2.csv'

In [130]:
# final_file_name 변수에 있는 파일명으로 저장합니다.
df_final.to_csv(final_file_name, index=False)

In [132]:
# final_file_name 변수에 있는 값을 읽어옵니다.
# 이 때, 종목코드는 dtype={"종목코드":np.object} 로 불러옵니다.
pd.read_csv(final_file_name, dtype={"종목코드":np.object})

Unnamed: 0,종목명,현재가,전일비,등락률,매수호가,매도호가,거래량,거래대금,전일거래량,조회일자,종목코드,매출액,영업이익,당기순이익,영업이익률,순이익률,EPS(원)_x,PER(배)_x,상장주식수,외국인한도주식수(A),외국인보유주식수(B),외국인소진율(B/A),동일업종 PER,동일업종 등락률,코스피/코스닥,시가총액(억원),시가총액순위(전처리),52주최고,52주최저,52주차액,52주차액비율,현재-최고가,현재/최고가비율,투자의견,목표주가,매수매도,동일업종 PER(배),PER(배)_y,EPS(원)_y,PBR(배),BPS(원),배당수익률%
0,씨케이에이치 *,295.0,48.0,+19.43%,295.0,298.0,46102101.0,13799.0,3693091.0,20211023,900120,,,,,,,,120449666,120449666,33576494,27.88%,89.92배,+0.60%,코스닥,355,1413,579,210,369,2.757143,-284.0,0.509499,,,,89.92,,-506.0,0.09,3239.0,
1,차백신연구소 *,13000.0,1300.0,+11.11%,12950.0,13000.0,46613595.0,631339.0,0.0,20211023,261780,,,,,,,,26429162,26429162,290000,1.10%,89.92배,+0.60%,코스닥,3436,285,0,0,0,,13000.0,inf,,,,89.92,,,,,
2,바이젠셀 *,37300.0,3150.0,+9.22%,37200.0,37300.0,802803.0,30160.0,65332.0,20211023,308080,,,,,,,,9435680,9435680,20750,0.22%,89.92배,+0.60%,코스닥,3520,279,78000,32850,45150,2.374429,-40700.0,0.478205,,,,89.92,,-1385.0,16.01,2330.0,
3,큐라클 *,41800.0,2800.0,+7.18%,41800.0,41850.0,825924.0,34217.0,292677.0,20211023,365270,,,,,,,,13582968,13582968,69189,0.51%,89.92배,+0.60%,코스닥,5678,137,62400,28500,33900,2.189474,-20600.0,0.669872,,,,89.92,,-2624.0,49.64,842.0,
4,네오이뮨텍(Reg.S) *,10800.0,550.0,+5.37%,10750.0,10800.0,2575633.0,27345.0,3052123.0,20211023,950220,,,,,,,,98532010,98532010,8338359,8.46%,89.92배,+0.60%,코스닥,1641,58,17450,9350,8100,1.866310,-6650.0,0.618911,,,,89.92,,-488.0,6.03,1792.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,에이치엘비제약 *,17750.0,750.0,-4.05%,17750.0,17900.0,215859.0,3890.0,271024.0,20211023,047920,,,,,,,,22357821,22357821,336645,1.51%,89.92배,+0.60%,코스닥,3969,241,30200,12000,18200,2.516667,-12450.0,0.587748,,,,89.92,,-4212.0,6.80,2611.0,
148,지트리비앤티 *,13900.0,700.0,-4.79%,13900.0,13950.0,557251.0,7840.0,1081209.0,20211023,115450,,,,,,,,27088019,27088019,569054,2.10%,89.92배,+0.60%,코스닥,3765,255,33550,9520,24030,3.524160,-19650.0,0.414307,,,,89.92,,-667.0,4.52,3074.0,
149,국전약품 *,14200.0,800.0,-5.33%,14150.0,14200.0,2792954.0,40219.0,3529798.0,20211023,307750,,,,,,,,49069269,49069269,68946,0.14%,89.92배,+0.60%,코스닥,6968,105,24900,2959,21941,8.415005,-10700.0,0.570281,,,,89.92,,-80.0,8.55,1660.0,
150,엔지켐생명과학 *,71300.0,7600.0,-9.63%,71200.0,71300.0,348979.0,25606.0,229921.0,20211023,183490,,,,,,,,8331345,8331345,535730,6.43%,89.92배,+0.60%,코스닥,5940,128,159000,66400,92600,2.394578,-87700.0,0.448428,,,,89.92,,-2754.0,6.97,10224.0,
