# ESG Practice

목차
1. 모듈 불러오기
2. 파일 읽기 및 확인
3. 로드된 데이터 확인
4. 결측치 확인 및 처리
5. 이상치 확인 및 처리

In [1]:
# 모듈 불러오기
import pandas as pd
import numpy as np
import matplotlib as plt 
import seaborn as sns

In [4]:
# 파일 읽기 및 확인

# 파일 경로를 현재 디렉토리로 변경
import os
os.chdir("/config/workspace/Basic/data_analysis")

# 파일 경로 설정
file_path = "ESG_CO2_2021.csv"


# 데이터 로드 (UTF-8 인토딩 시도 후 실패 시 다른 인코딩 시도
try:
    df = pd.read_csv(file_path, encoding='utf-8')
except UnicodeDecodeError: 
    try:
        df = pd.read_csv(file_path, encoding="cp949")
    except UnicodeDecodeError:
        df = pd.read_csv(file_path, encoding="euc-kr")

In [5]:
# 로드된 데이터 기본 정보 확인
print("-"*50)
print('데이터 타입 및 결측치 확인')
print("-"*50)
df.info()

print("-"*50)
print('상위 5개행 출력') # print(df.head(3)) 3개만 출력
print("-"*50)
print(df.head())

print("-"*50)
print('요약 통계량 출력 (수치형 컬럼만)')
print("-"*50)
print(df.describe())

print("-"*50)
print('데이터 행,열 갯수 출력')
print("-"*50)
print(df.shape)

--------------------------------------------------
데이터 타입 및 결측치 확인
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    32 non-null     int64  
 1   Net     32 non-null     float64
dtypes: float64(1), int64(1)
memory usage: 640.0 bytes
--------------------------------------------------
상위 5개행 출력
--------------------------------------------------
   year          Net
0  1990  254159.2211
1  1991  281385.5253
2  1992  310216.9541
3  1993  346994.1520
4  1994  369637.1600
--------------------------------------------------
요약 통계량 출력 (수치형 컬럼만)
--------------------------------------------------
              year            Net
count    32.000000      32.000000
mean   2005.500000  511113.240587
std       9.380832  124286.844277
min    1990.000000  254159.221100
25%    1997.750000  428908.157325
50%    2005.5

In [9]:
# 결측치 확인
# print(df.isnull()) # 각 값이 NaN이면 True 반환
print("결측치 유무 확인")
print(df.isnull().sum())

# 결측치 처리 
# 다음의 두 방법 중 하나를 할 수 있음
df = df.dropna()  # 결측치가 있는 행 삭제
df['year'] = df['year'].fillna(df['year'].mean()) # 결측치 대체

# 결측치 처리되었는지 확인
print("\n결측치 처리여부 확인")
print(df.shape)
print(df.isnull().sum())

결측치 유무 확인
year    0
Net     0
dtype: int64

결측치 처리여부 확인
(32, 2)
year    0
Net     0
dtype: int64


In [None]:
# 데이터 타입 변환
# df['year'] = df['year'].astype(float)

In [18]:
# 이상치 확인

Q1 = df['Net'].quantile(0.25) # 1사분위수 
Q3 = df['Net'].quantile(0.75) # 3사분위수
IQR = Q3 - Q1 # IQR 계산

lower_bound = Q1 - 1.5*IQR # 하한선
upper_bound = Q1 - 1.5*IQR # 상한선


outliers = df[(df['Net'] < lower_bound) | (df['Net'] > upper_bound)]
print(outliers)

    year          Net
0   1990  254159.2211
1   1991  281385.5253
2   1992  310216.9541
3   1993  346994.1520
4   1994  369637.1600
5   1995  401626.6678
6   1996  434432.7187
7   1997  461298.0841
8   1998  382505.5031
9   1999  412334.4732
10  2000  442635.7351
11  2001  456469.1168
12  2002  481101.1682
13  2003  491936.6703
14  2004  498765.4611
15  2005  505161.0965
16  2006  509455.9762
17  2007  522071.0537
18  2008  534495.4289
19  2009  538470.5269
20  2010  599016.3944
21  2011  628553.1186
22  2012  637740.4591
23  2013  650683.8509
24  2014  644902.0978
25  2015  644769.2334
26  2016  645467.1697
27  2017  667721.0017
28  2018  684683.6421
29  2019  661493.5530
30  2020  616558.8974
31  2021  638881.5876


In [None]:
# 시각화 
X = df['year']
y = df['Net']

plt.scatter(X,y)
plt.title("ESG Co2")
plt.xlabel("Year")
plt.ylabel("Net")

image_file_path = "/config/workspace/Basic/python_code/esg_data.png"
plt.savefig(image_file_path)

plt.show()