In [1]:
import pandas as pd
import chardet

# CSV 파일 경로
file_path = '/Users/baejuyeon/Downloads/행정안전부_연도별 폭염발생 현황.csv'

# 파일의 인코딩 감지
with open(file_path, 'rb') as f:
    result = chardet.detect(f.read())

encoding = result['encoding']

# 감지된 인코딩으로 CSV 파일 불러오기
df = pd.read_csv(file_path, encoding=encoding)

# 소수점 두 자리로 출력 옵션 설정
pd.options.display.float_format = '{:.1f}'.format

# 데이터 확인
df.head()

Unnamed: 0,연도별,서울(일),강릉(일),대전(일),대구(일),광주(일),부산(일),전국일평균(일)
0,2007,4,13,5.0,23,12,,9.8
1,2008,3,13,3.0,36,18,,12.5
2,2009,4,4,,18,6,,4.2
3,2010,2,19,10.0,41,20,3.0,13.9
4,2011,3,8,1.0,29,13,1.0,7.5


In [2]:
# 데이터 구조 확인
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   연도별       16 non-null     int64  
 1   서울(일)     16 non-null     int64  
 2   강릉(일)     16 non-null     int64  
 3   대전(일)     15 non-null     float64
 4   대구(일)     16 non-null     int64  
 5   광주(일)     16 non-null     int64  
 6   부산(일)     12 non-null     float64
 7   전국일평균(일)  16 non-null     float64
dtypes: float64(3), int64(5)
memory usage: 1.1 KB
None


In [3]:
# 데이터 기초통계 확인
df.describe()

Unnamed: 0,연도별,서울(일),강릉(일),대전(일),대구(일),광주(일),부산(일),전국일평균(일)
count,16.0,16.0,16.0,15.0,16.0,16.0,12.0,16.0
mean,2014.5,10.6,13.8,14.9,31.7,18.7,5.8,13.1
std,4.8,9.2,5.9,9.8,9.7,9.6,5.3,6.5
min,2007.0,2.0,4.0,1.0,18.0,6.0,1.0,4.2
25%,2010.8,3.8,9.8,7.5,23.0,12.8,2.5,9.3
50%,2014.5,9.0,12.5,14.0,30.5,16.0,3.5,12.2
75%,2018.2,14.2,16.8,19.5,37.0,22.8,7.5,14.2
max,2022.0,35.0,26.0,37.0,54.0,43.0,18.0,31.0


In [4]:
# 결측값 확인
missing_values = df.isnull().sum()
print("Missing values in each column:\n", missing_values)

Missing values in each column:
 연도별         0
서울(일)       0
강릉(일)       0
대전(일)       1
대구(일)       0
광주(일)       0
부산(일)       4
전국일평균(일)    0
dtype: int64


In [5]:
import numpy as np

# 결측값 변환 함수
def add_missing_values(df, col_name, missing_frac):
    '''
    특정 열에 지정된 비율의 결측값을 추가
    :param df: 데이터프레임
    :param col_name: 결측값을 추가할 열 이름
    :param missing_frac: 결측값 비율 (0.0 ~ 1.0)
    '''
    np.random.seed(42) # 재현성을 위해 랜덤 시드 설정
    n_rows = df.shape[0] # 데이터프레임의 행 수
    n_missing = int(n_rows * missing_frac) # 결측값을 추가할 행의 수를 계산 

    missing_indices = np.random.choice(n_rows, n_missing, replace=False) # 결측값을 추가할 행의 인덱스를 무작위로 선택
    df.loc[missing_indices, col_name] = np.nan # 선택된 인덱스의 열 값을 NaN으로 설정

In [6]:
# 숫자 데이터 전처리 - 결측값 처리 (평균값으로 대체)
# 열 별 평균값
column_means = df.mean()
print("each column means:\n", column_means)

each column means:
 연도별        2014.5
서울(일)        10.6
강릉(일)        13.8
대전(일)        14.9
대구(일)        31.7
광주(일)        18.7
부산(일)         5.8
전국일평균(일)     13.1
dtype: float64


In [7]:
# 특정 열의 평균값 계산 - 결측치가 있는 열만
daejeon_mean = round(df['대전(일)'].mean(),2)
busan_mean = round(df['부산(일)'].mean(),2)

print('대전 열의 평균값:',daejeon_mean)
print('부산 열의 평균값:',busan_mean)

대전 열의 평균값: 14.87
부산 열의 평균값: 5.75


In [8]:
# 결측치를 평균값으로 대체
df['대전(일)'].fillna(daejeon_mean,inplace=True)
df['부산(일)'].fillna(busan_mean,inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['대전(일)'].fillna(daejeon_mean,inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['부산(일)'].fillna(busan_mean,inplace=True)


In [9]:
# 결측치 대체 후 결측값 개수 확인 및 데이터프레임 출력
# 결측값 확인
missing_values = df.isnull().sum()
print("Missing values in each column:\n", missing_values)

df.head()

Missing values in each column:
 연도별         0
서울(일)       0
강릉(일)       0
대전(일)       0
대구(일)       0
광주(일)       0
부산(일)       0
전국일평균(일)    0
dtype: int64


Unnamed: 0,연도별,서울(일),강릉(일),대전(일),대구(일),광주(일),부산(일),전국일평균(일)
0,2007,4,13,5.0,23,12,5.8,9.8
1,2008,3,13,3.0,36,18,5.8,12.5
2,2009,4,4,14.9,18,6,5.8,4.2
3,2010,2,19,10.0,41,20,3.0,13.9
4,2011,3,8,1.0,29,13,1.0,7.5


In [10]:
# 라벨 확인
print('dataframe columns name:\n',df.columns)

dataframe columns name:
 Index(['연도별', '서울(일)', '강릉(일)', '대전(일)', '대구(일)', '광주(일)', '부산(일)',
       '전국일평균(일)'],
      dtype='object')


In [11]:
# 모든 열에 대해 이상치 탐지 및 처리
for column_name in df.columns:
    # 이상치 탐지
    Q1 = df[column_name].quantile(0.25)
    Q3 = df[column_name].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # 이상치 필터링
    outliers = df[(df[column_name] < lower_bound) | (df[column_name] > upper_bound)]
    print(f"{column_name} 열의 이상치:\n", outliers)

    # 이상치 제거 또는 대체
    df = df[~((df[column_name] < lower_bound) | (df[column_name] > upper_bound))]  # 이상치 제거
    # 또는 이상치를 대체하는 경우:
    # df.loc[(df[column_name] < lower_bound) | (df[column_name] > upper_bound), column_name] = df[column_name].median()

# 결과 출력
print("이상치 제거 후 데이터프레임:\n", df)


연도별 열의 이상치:
 Empty DataFrame
Columns: [연도별, 서울(일), 강릉(일), 대전(일), 대구(일), 광주(일), 부산(일), 전국일평균(일)]
Index: []
서울(일) 열의 이상치:
      연도별  서울(일)  강릉(일)  대전(일)  대구(일)  광주(일)  부산(일)  전국일평균(일)
11  2018     35     23   37.0     40     43   18.0      31.0
강릉(일) 열의 이상치:
     연도별  서울(일)  강릉(일)  대전(일)  대구(일)  광주(일)  부산(일)  전국일평균(일)
6  2013      2     26   16.0     54     22   13.0      18.5
대전(일) 열의 이상치:
 Empty DataFrame
Columns: [연도별, 서울(일), 강릉(일), 대전(일), 대구(일), 광주(일), 부산(일), 전국일평균(일)]
Index: []
대구(일) 열의 이상치:
 Empty DataFrame
Columns: [연도별, 서울(일), 강릉(일), 대전(일), 대구(일), 광주(일), 부산(일), 전국일평균(일)]
Index: []
광주(일) 열의 이상치:
 Empty DataFrame
Columns: [연도별, 서울(일), 강릉(일), 대전(일), 대구(일), 광주(일), 부산(일), 전국일평균(일)]
Index: []
부산(일) 열의 이상치:
 Empty DataFrame
Columns: [연도별, 서울(일), 강릉(일), 대전(일), 대구(일), 광주(일), 부산(일), 전국일평균(일)]
Index: []
전국일평균(일) 열의 이상치:
     연도별  서울(일)  강릉(일)  대전(일)  대구(일)  광주(일)  부산(일)  전국일평균(일)
9  2016     24     12   29.0     32     31    9.0      22.4
이상치 제거 후 데이터프레임:
      연도별  서울(일)  강릉(일)  대전(일)  대구(