In [6]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

s = pd.read_csv('../data/nyc-temps.txt').squeeze()
# #뉴욕시 온도 데이터를 시리즈로 불러오기
df = DataFrame({'temp': s, 
                'hour': [0,3,6,9,12,15,18,21] * 91})
# #온도 = s, 시간 = 0,3,6,9,12,15,18,21을 91회 반복
s #728개의 데이터, 0행부터 각 0시, 1행은 3시, 2행은 6시, ... 7행은 21시, 8행은 다음날 0시 총 91일치의 온도 데이터

df

Unnamed: 0,temp,hour
0,-1,0
1,-1,3
2,-1,6
3,-1,9
4,-1,12
...,...,...
723,2,9
724,2,12
725,2,15
726,2,18


In [7]:
# Get the mean + median for baseline data
df['temp'].describe()
# 평균 + 중앙값을 기준 데이터로 가져오기
# describe()를 통해 기본 통계정보에 포함된 평균과 중앙값을 확인 가능하다.

count    728.000000
mean      -1.050824
std        5.026357
min      -14.000000
25%       -4.000000
50%        0.000000
75%        2.000000
max       12.000000
Name: temp, dtype: float64

In [8]:
# Set temp at 3 and 6 a.m. to NaN


df.loc[
    df['hour'].isin([3, 6]),
    'temp'
] = np.nan #None을 사용해서도 결측치를 부여할 수 있음. 
# 3시와 6시의 온도를 NaN으로 설정
# isin() 메서드는 특정 값이 시리즈에 포함되어 있는지 여부를 확인하는 데 사용된다.
#df.loc[]를 사용하여, df['hour']가 3 또는 6을 가진 행의 'temp' 값을 NaN으로 설정
#np.nan을 사용해야만 NaN 값을 할당할 수 있다.
df



#선형보간법 적용 이후에 원본 데이터와 비교하였을 때 describe()값이 일치해, 선형보간법을 적용했을 때와 원본 데이터가 동일한지
#확인하기 위해 gpt에게 아래의 코드를 추가로 작성해달라고 요청함.
# ...existing code...
# 1) 원본 temp 복사(보관)
orig = df['temp'].copy()

# 2) 3시, 6시를 NaN으로 만들고 보간
df.loc[df['hour'].isin([3,6]), 'temp'] = np.nan
df = df.interpolate()

# 3) 원본과 보간 후 비교
print("describe (orig):")
print(orig.describe())
print("\ndescribe (after interp):")
print(df['temp'].describe())

# 4) 완전 일치 여부 및 차이 체크
print("\n완전 일치:", np.allclose(orig,df['temp']))         # 정확한 일치 검사
diff = orig - df['temp']
print("일치하지 않는 항목 수:", (diff.abs() > 1e-12).sum())  # 작은 수치 오차 허용
if (diff.abs() > 1e-12).any():
    print("몇 가지 차이가 있는 인덱스와 값 차이(최대 10개):")
    print(diff[diff.abs() > 1e-12].head(10))
# ...existing code...

describe (orig):
count    728.000000
mean      -1.050824
std        5.026357
min      -14.000000
25%       -4.000000
50%        0.000000
75%        2.000000
max       12.000000
Name: temp, dtype: float64

describe (after interp):
count    728.000000
mean      -1.050824
std        5.026357
min      -14.000000
25%       -4.000000
50%        0.000000
75%        2.000000
max       12.000000
Name: temp, dtype: float64

완전 일치: True
일치하지 않는 항목 수: 0


Unnamed: 0,temp,hour
0,-1.0,0
1,-1.0,3
2,-1.0,6
3,-1.0,9
4,-1.0,12
...,...,...
723,2.0,9
724,2.0,12
725,2.0,15
726,2.0,18


In [9]:
# Interpolate!
df = df.interpolate()
#interpolate() 메서드를 사용하여 결측치를 보간, 즉 결측치를 적절한 값으로 채움
#interpolate() 메서드는 기본적으로 선형 보간법을 사용하여 결측치를 채운다.
#선형보간법은 결측치 앞뒤의 값들을 직선으로 연결하여 그 직선 위의 값을 결측치에 할당하는 방법
#결측치가 여러 개 연속으로 있을 때도 작동


In [10]:
# Get the mean + median for when we're missing 3 and 6 a.m.
df['temp'].describe()
#보간법을 사용한 후의 평균과 중앙값을 확인


# count    728.000000
# mean      -1.050824
# std        5.026357
# min      -14.000000
# 25%       -4.000000
# 50%        0.000000
# 75%        2.000000
# max       12.000000

#결과값이 동일하다.

count    728.000000
mean      -1.050824
std        5.026357
min      -14.000000
25%       -4.000000
50%        0.000000
75%        2.000000
max       12.000000
Name: temp, dtype: float64