# ※ ESG 등급 데이터에서 KOSPI200 에 해당하는 기업 데이터만 추리는 과정

In [1]:
# 라이브러리 가져오기
import pandas as pd
import numpy as np

# https://tmdhhey.tistory.com/10
import warnings
warnings.filterwarnings('ignore')

# 경고메시지 다시 활성화
# import warnings
# warnings.filterwarnings(action='default')

## 1. ESG 등급 csv 파일 불러오기

In [2]:
esg_rt = pd.read_csv("../../data/ESG_Rating.csv")
esg_rt.shape

(6659, 7)

In [3]:
esg_rt.head()

Unnamed: 0,기업명,기업코드,ESG등급,환경,사회,지배구조,평가년도
0,AJ네트웍스,95570.0,B,D,B,B,2021
1,AK홀딩스,6840.0,B+,B,B+,B+,2021
2,AP시스템,265520.0,D,D,D,C,2021
3,BGF,27410.0,A,A,A+,A,2021
4,BGF리테일,282330.0,A,A,A+,A,2021


In [4]:
esg_rt.tail()

Unnamed: 0,기업명,기업코드,ESG등급,환경,사회,지배구조,평가년도
6654,성신양회,4980.0,B이하,B+,B이하,B이하,2011
6655,성보화학,3080.0,,B,,,2011
6656,성문전자,14910.0,B이하,C,B이하,B이하,2011
6657,선창산업,,B이하,B,B이하,B이하,2011
6658,AK홀딩스,6840.0,B이하,B,B이하,B이하,2011


### 1.1. 기업코드 6자리로 반환하기

In [5]:
# 기업코드 가 없는 기업들이 많다.
# esg_rt[esg_rt["기업코드"].isnull()]

In [6]:
def six_digit(x):
    if pd.isna(x) == True:
        pass
    else:
        return '%06d' % x
esg_rt['기업코드'] = esg_rt['기업코드'].apply(six_digit)

In [7]:
esg_rt.sample(5)

Unnamed: 0,기업명,기업코드,ESG등급,환경,사회,지배구조,평가년도
76,LG전자,66570.0,A,A,A+,A,2021
2104,대성산업,128820.0,B이하,B,B이하,B이하,2017
5899,태평양제약,,B이하,B,B이하,B+,2012
2482,아이마켓코리아,122900.0,B이하,B+,B이하,B이하,2017
6454,진양화학,51630.0,,B,,B이하,2011


## 2. KOSPI200 기업 csv 파일 불러오기

In [8]:
kospi200 = pd.read_csv("company_copy.csv")
kospi200

Unnamed: 0,stock_code,corp_code,jurir_no,corp_name
0,3640,140380,1101110041501,유니온스틸
1,64420,399773,2301110082112,케이피케미칼
2,53000,375302,1101112202797,우리금융지주
3,68870,423609,1101112581183,LG생명과학
4,37620,311030,1101111821423,미래에셋증권
...,...,...,...,...
324,69260,426086,1101112611906,티케이지휴켐스
325,204320,1042775,1313110140776,HL만도
326,35720,258801,1101111129497,카카오
327,1740,131780,1301110005199,SK네트웍스


### 2.1. 종목코드 6자리로 반환하기

In [9]:
def six_digit(x):
    if pd.isna(x) == True:
        pass
    else:
        return '%06d' % x
kospi200['stock_code'] = kospi200['stock_code'].apply(six_digit)

In [10]:
kospi200

Unnamed: 0,stock_code,corp_code,jurir_no,corp_name
0,003640,140380,1101110041501,유니온스틸
1,064420,399773,2301110082112,케이피케미칼
2,053000,375302,1101112202797,우리금융지주
3,068870,423609,1101112581183,LG생명과학
4,037620,311030,1101111821423,미래에셋증권
...,...,...,...,...
324,069260,426086,1101112611906,티케이지휴켐스
325,204320,1042775,1313110140776,HL만도
326,035720,258801,1101111129497,카카오
327,001740,131780,1301110005199,SK네트웍스


In [11]:
kospi = kospi200[["stock_code", "corp_name"]]
kospi

Unnamed: 0,stock_code,corp_name
0,003640,유니온스틸
1,064420,케이피케미칼
2,053000,우리금융지주
3,068870,LG생명과학
4,037620,미래에셋증권
...,...,...
324,069260,티케이지휴켐스
325,204320,HL만도
326,035720,카카오
327,001740,SK네트웍스


## 3. merge 를 통한 ESG 데이터와 KOSPI 데이터 합치기

### 3.1. on = "corp", how = "left"
#### → 1:N 으로 원하는 대로 출력됨

In [12]:
temp_corp = kospi.merge(esg_rt, left_on="corp_name", right_on="기업명", how="left")
temp_corp

Unnamed: 0,stock_code,corp_name,기업명,기업코드,ESG등급,환경,사회,지배구조,평가년도
0,003640,유니온스틸,유니온스틸,,B이하,B,B이하,B+,2014.0
1,003640,유니온스틸,유니온스틸,,B이하,B,B이하,B이하,2013.0
2,003640,유니온스틸,유니온스틸,,B이하,B,B이하,B+,2012.0
3,003640,유니온스틸,유니온스틸,,,C,,B이하,2011.0
4,064420,케이피케미칼,케이피케미칼,,A,B+,A,A,2012.0
...,...,...,...,...,...,...,...,...,...
2219,069960,현대백화점,현대백화점,069960,B+,B+,B+,B이하,2015.0
2220,069960,현대백화점,현대백화점,069960,B이하,B+,B+,B이하,2014.0
2221,069960,현대백화점,현대백화점,069960,B이하,B,B+,B이하,2013.0
2222,069960,현대백화점,현대백화점,069960,B이하,B+,B+,B이하,2012.0


In [13]:
corp_esg = temp_corp[["stock_code", "corp_name", "ESG등급", "환경", "사회", "지배구조", "평가년도"]]
corp_esg.columns = ["종목코드", "종목명", "ESG등급", "환경", "사회", "지배구조", "평가년도"]

In [14]:
corp_esg

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도
0,003640,유니온스틸,B이하,B,B이하,B+,2014.0
1,003640,유니온스틸,B이하,B,B이하,B이하,2013.0
2,003640,유니온스틸,B이하,B,B이하,B+,2012.0
3,003640,유니온스틸,,C,,B이하,2011.0
4,064420,케이피케미칼,A,B+,A,A,2012.0
...,...,...,...,...,...,...,...
2219,069960,현대백화점,B+,B+,B+,B이하,2015.0
2220,069960,현대백화점,B이하,B+,B+,B이하,2014.0
2221,069960,현대백화점,B이하,B,B+,B이하,2013.0
2222,069960,현대백화점,B이하,B+,B+,B이하,2012.0


In [15]:
corp_esg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2224 entries, 0 to 2223
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목코드    2224 non-null   object 
 1   종목명     2224 non-null   object 
 2   ESG등급   2162 non-null   object 
 3   환경      2194 non-null   object 
 4   사회      2164 non-null   object 
 5   지배구조    2119 non-null   object 
 6   평가년도    2197 non-null   float64
dtypes: float64(1), object(6)
memory usage: 139.0+ KB


In [16]:
corp_esg.isnull().sum()

종목코드       0
종목명        0
ESG등급     62
환경        30
사회        60
지배구조     105
평가년도      27
dtype: int64

### 3.2.  "평가년도" 컬럼을 float 에서 int 로 변경하기
- 에러 발생
> IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer
- 에러 원인
> "평가년도" 컬럼에 NaN 값 존재함
- 에러 해결
>```
>NaN에 해당하는 값들을 -1로 임시로 변경해준 뒤 -1인 값들을 다시 None으로 변경
>
>df[col] = df[col].fillna(-1).astype('int8').replace({-1: None})
>바꾸려는 컬럼은 0~9 범위의 int 값과 null 값을 가지는 컬럼이며 NaN 대신 None을 사용하고 싶어서 위와같이 코드를 작성함
>
>NaN으로 다시 채우고 싶다면 replace({-1: np.nan}) 으로 변경
>```

In [22]:
# corp_esg.loc[:, "평가년도"] = corp_esg.loc[:, "평가년도"].fillna(-1).astype(int).replace({-1:None})

In [17]:
corp_esg["평가년도"].unique()

array([2014., 2013., 2012., 2011., 2021., 2016., 2015., 2018., 2017.,
         nan])

In [18]:
corp_esg["평가년도"] = corp_esg["평가년도"].fillna(-1)

In [19]:
corp_esg["평가년도"] = corp_esg["평가년도"].astype(int)

In [20]:
corp_esg["평가년도"] = corp_esg["평가년도"].replace({-1:None})

In [21]:
corp_esg["평가년도"].value_counts()

2021    289
2018    251
2017    244
2016    242
2012    240
2013    238
2014    237
2015    237
2011    219
Name: 평가년도, dtype: int64

In [22]:
corp_esg["평가년도"].unique()

array([2014, 2013, 2012, 2011, 2021, 2016, 2015, 2018, 2017, None],
      dtype=object)

In [23]:
corp_esg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2224 entries, 0 to 2223
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   종목코드    2224 non-null   object
 1   종목명     2224 non-null   object
 2   ESG등급   2162 non-null   object
 3   환경      2194 non-null   object
 4   사회      2164 non-null   object
 5   지배구조    2119 non-null   object
 6   평가년도    2197 non-null   object
dtypes: object(7)
memory usage: 139.0+ KB


In [24]:
corp_esg.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도
868,71050,한국금융지주,B이하,A,B이하,B이하,2013
40,10520,현대하이스코,B+,B+,B+,B+,2013
576,30000,제일기획,B이하,B,B이하,B이하,2017
609,69620,대웅제약,B이하,B,B이하,B이하,2013
421,34730,SK,B+,B+,B+,B이하,2012


### 3.4. csv 파일로 저장

In [25]:
# corp_esg.to_csv("../../data/ESG_KOSPI200.csv", index=False)

In [32]:
# pd.read_csv("../../data/ESG_KOSPI200.csv")

# ※ ESG 등급을 카테고리 타입으로 바꾸기

## 1. 조은님 찬스
- ESG 등급을 → 카테고리 타입으로 바꾸고, → 그 값을 인코딩을 해주면 → 숫자로 알아서 바꿔준다. 
- https://stackoverflow.com/questions/48593157/pandas-dataframe-encode-categorical-variable-with-thousands-of-unique-values
> sklearn에서 category dtype을 사용 : [labelencoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)
> - 레이블을 정규화하는 데 사용, 숫자가 아닌 레이블(해시 가능하고 비교할 수 있는 한)을 숫자 레이블로 변환하는 데에도 사용
>
>```
>df.city=df.city.astype('category').cat.codes
>df
>
>Out[385]: 
>   school  city  category  capacity
>0       1     0        45        23
>1       2     1        12       236
>2       3     2         8        63
>3       4     0         7       234
>```

In [26]:
esg_category = corp_esg.copy()
esg_category

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도
0,003640,유니온스틸,B이하,B,B이하,B+,2014
1,003640,유니온스틸,B이하,B,B이하,B이하,2013
2,003640,유니온스틸,B이하,B,B이하,B+,2012
3,003640,유니온스틸,,C,,B이하,2011
4,064420,케이피케미칼,A,B+,A,A,2012
...,...,...,...,...,...,...,...
2219,069960,현대백화점,B+,B+,B+,B이하,2015
2220,069960,현대백화점,B이하,B+,B+,B이하,2014
2221,069960,현대백화점,B이하,B,B+,B이하,2013
2222,069960,현대백화점,B이하,B+,B+,B이하,2012


### 1.1. "ESG등급" 컬럼 category화

In [27]:
esg_category["ESG등급_ca"] = esg_category["ESG등급"].astype('category').cat.codes
esg_category.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca
184,79430,현대리바트,B+,B+,B+,B이하,2018,3
2131,4170,신세계,A,A,A+,A,2021,0
1975,11210,현대위아,B이하,B,B이하,B+,2017,4
1092,103140,풍산,B+,B+,B이하,B+,2017,3
1606,8350,남선알미늄,B이하,C,B이하,B이하,2014,4


### 1.2. "환경" 컬럼을 category화

In [28]:
esg_category["환경_ca"] = esg_category["환경"].astype('category').cat.codes
esg_category.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca,환경_ca
396,100,유한양행,B+,B,B+,B+,2018,3,2
1915,14680,한솔케미칼,B이하,C,B이하,B+,2013,4,5
1758,4150,한솔홀딩스,A,B+,A,A,2021,0,3
591,300720,한일시멘트,B이하,B,B이하,B이하,2011,4,2
34,25850,한화화인케미칼,B이하,B,B이하,B+,2015,4,2


### 1.3. "사회" 컬럼을 category화

In [29]:
esg_category["사회_ca"] = esg_category["사회"].astype('category').cat.codes
esg_category.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca,환경_ca,사회_ca
73,4130,대덕GDS,B이하,B,B이하,B+,2012,4,2,4
393,10950,S-Oil,A,A,A,A+,2012,0,0,0
1272,11170,롯데케미칼,A,B,A+,A,2021,0,2,1
1332,23530,롯데쇼핑,B+,C,A,A,2016,3,5,0
1149,17900,광전자,B이하,B+,B이하,B이하,2016,4,3,4


### 1.4. "지배구조" 컬럼을 category화

In [30]:
esg_category["지배구조_ca"] = esg_category["지배구조"].astype('category').cat.codes
esg_category.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca,환경_ca,사회_ca,지배구조_ca
1432,5610,SPC삼립,B이하,B,B이하,,2011,4,2,4,-1
96,103130,웅진에너지,B이하,B,B이하,B+,2018,4,2,4,3
1524,77970,STX엔진,B+,B,A,A,2012,3,2,0,0
1057,97950,CJ제일제당,A,B+,A+,A,2018,0,3,1,0
939,1130,대한제분,B이하,C,B이하,B이하,2017,4,5,4,4


## 2. ESG 등급 category 수정 (성용님 코드bb)
- 이지홍 멘토님 코멘트!
> apply, map method에 lambda함수 말고 dictionary를 그대로 넣어도 작동합니다.

| S | A+ | A | B+ | B+이하 | B | B이하 | C | D | NaN  |
|---|----|---|----|--------|---|-------|---|---|------|
| 8 | 7  | 6 | 5  | 4      | 3 | 2     | 1 | 0 | None |

In [33]:
rateDict = {"S": 8, "A+":7, "A":6, "B+":5, "B+ 이하":4, "B":3, "B이하":2, "C":1, "D":0, "":None, "NaN":None}
rateDict["A+"]

7

In [34]:
esg_category["ESG등급"]

0       B이하
1       B이하
2       B이하
3       NaN
4         A
       ... 
2219     B+
2220    B이하
2221    B이하
2222    B이하
2223     B+
Name: ESG등급, Length: 2224, dtype: object

In [35]:
def tmp(x):
    rateDict = {"S": 8, "A+":7, "A":6, "B+":5, "B+ 이하":4, "B":3, "B이하":2, "C":1, "D":0, "":None, "NaN":None, "nan":None}
    return rateDict[x]

In [36]:
# esg_category["ESG등급_ca"] = esg_category["ESG등급"].fillna("").apply(lambda x: tmp(x))
esg_category["ESG등급_ca"] = esg_category["ESG등급"].fillna("").apply(tmp)
esg_category["환경_ca"] = esg_category["환경"].fillna("").apply(tmp)
esg_category["사회_ca"] = esg_category["사회"].fillna("").apply(tmp)
esg_category["지배구조_ca"] = esg_category["지배구조"].fillna("").apply(tmp)
esg_category.sample(5)

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca,환경_ca,사회_ca,지배구조_ca
448,1450,현대해상,B+,A,A,B이하,2015,5.0,6.0,6.0,2.0
1575,20560,아시아나항공,B+,B,A+,B+,2016,5.0,3.0,7.0,5.0
729,3490,대한항공,B+,C,B+,A,2016,5.0,1.0,5.0,6.0
1382,4000,롯데정밀화학,B+,B,A,A,2016,5.0,3.0,6.0,6.0
1117,4700,조광피혁,B이하,B,B이하,B이하,2015,2.0,3.0,2.0,2.0


In [37]:
esg_category.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2224 entries, 0 to 2223
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   종목코드      2224 non-null   object 
 1   종목명       2224 non-null   object 
 2   ESG등급     2162 non-null   object 
 3   환경        2194 non-null   object 
 4   사회        2164 non-null   object 
 5   지배구조      2119 non-null   object 
 6   평가년도      2197 non-null   object 
 7   ESG등급_ca  2162 non-null   float64
 8   환경_ca     2194 non-null   float64
 9   사회_ca     2164 non-null   float64
 10  지배구조_ca   2119 non-null   float64
dtypes: float64(4), object(7)
memory usage: 208.5+ KB


## 3. csv 파일로 저장

In [63]:
esg_category.to_csv("../../data/ESG_KOSPI200_ca.csv", index=False)

In [66]:
pd.read_csv("../../data/ESG_KOSPI200_ca.csv")

Unnamed: 0,종목코드,종목명,ESG등급,환경,사회,지배구조,평가년도,ESG등급_ca,환경_ca,사회_ca,지배구조_ca
0,3640,유니온스틸,B이하,B,B이하,B+,2014.0,2.0,3.0,2.0,5.0
1,3640,유니온스틸,B이하,B,B이하,B이하,2013.0,2.0,3.0,2.0,2.0
2,3640,유니온스틸,B이하,B,B이하,B+,2012.0,2.0,3.0,2.0,5.0
3,3640,유니온스틸,,C,,B이하,2011.0,,1.0,,2.0
4,64420,케이피케미칼,A,B+,A,A,2012.0,6.0,5.0,6.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...
2219,69960,현대백화점,B+,B+,B+,B이하,2015.0,5.0,5.0,5.0,2.0
2220,69960,현대백화점,B이하,B+,B+,B이하,2014.0,2.0,5.0,5.0,2.0
2221,69960,현대백화점,B이하,B,B+,B이하,2013.0,2.0,3.0,5.0,2.0
2222,69960,현대백화점,B이하,B+,B+,B이하,2012.0,2.0,5.0,5.0,2.0
