In [1]:
import pandas as pd
import numpy as np

In [2]:
dates = pd.date_range('2024-03-01', periods=7, freq='D')
temperatures = [22.5, None, 25.1, 23.8, None, 26.2, 24.0]  # None = 결측치
humidity = [65, 70, None, 68, 72, None, 69]

# 데이터프레임 만들기
df = pd.DataFrame({
    '날짜': dates,
    '온도': temperatures,
    '습도': humidity
})

print(" 원본 데이터:")
print(df)
df

 원본 데이터:
          날짜    온도    습도
0 2024-03-01  22.5  65.0
1 2024-03-02   NaN  70.0
2 2024-03-03  25.1   NaN
3 2024-03-04  23.8  68.0
4 2024-03-05   NaN  72.0
5 2024-03-06  26.2   NaN
6 2024-03-07  24.0  69.0


Unnamed: 0,날짜,온도,습도
0,2024-03-01,22.5,65.0
1,2024-03-02,,70.0
2,2024-03-03,25.1,
3,2024-03-04,23.8,68.0
4,2024-03-05,,72.0
5,2024-03-06,26.2,
6,2024-03-07,24.0,69.0


In [3]:
# 결측치 확인하기
print(" 결측치 확인:")
print("결측치 개수:")
print(df.isnull().sum())
print()

print("결측치가 있는 행:")
print(df[df.isnull().any(axis=1)])
df


 결측치 확인:
결측치 개수:
날짜    0
온도    2
습도    2
dtype: int64

결측치가 있는 행:
          날짜    온도    습도
1 2024-03-02   NaN  70.0
2 2024-03-03  25.1   NaN
4 2024-03-05   NaN  72.0
5 2024-03-06  26.2   NaN


Unnamed: 0,날짜,온도,습도
0,2024-03-01,22.5,65.0
1,2024-03-02,,70.0
2,2024-03-03,25.1,
3,2024-03-04,23.8,68.0
4,2024-03-05,,72.0
5,2024-03-06,26.2,
6,2024-03-07,24.0,69.0


In [4]:
# 방법 : 평균값으로 채우기
df_mean = df.copy()
df_mean['온도'] = df_mean['온도'].fillna(df_mean['온도'].mean())
df_mean['습도'] = df_mean['습도'].fillna(df_mean['습도'].mean())

print("방법 : 평균값으로 채우기")
print(f"온도 평균: {df['온도'].mean():.1f}도")
print(f"습도 평균: {df['습도'].mean():.1f}%")
print(df_mean)
print()

# ...existing code...
df_interp = df.copy()
df_interp['온도'] = df_interp['온도'].interpolate(method='linear')
df_interp['습도'] = df_interp['습도'].interpolate(method='linear')

print("방법 : 앞뒤 값의 평균(선형 보간)으로 채우기")
print(df_interp)
# ...existing code...

방법 : 평균값으로 채우기
온도 평균: 24.3도
습도 평균: 68.8%
          날짜     온도    습도
0 2024-03-01  22.50  65.0
1 2024-03-02  24.32  70.0
2 2024-03-03  25.10  68.8
3 2024-03-04  23.80  68.0
4 2024-03-05  24.32  72.0
5 2024-03-06  26.20  68.8
6 2024-03-07  24.00  69.0

방법 : 앞뒤 값의 평균(선형 보간)으로 채우기
          날짜    온도    습도
0 2024-03-01  22.5  65.0
1 2024-03-02  23.8  70.0
2 2024-03-03  25.1  69.0
3 2024-03-04  23.8  68.0
4 2024-03-05  25.0  72.0
5 2024-03-06  26.2  70.5
6 2024-03-07  24.0  69.0


데이터 병합하기

In [5]:
# 서울 온도 데이터
seoul_data = pd.DataFrame({
    '날짜': ['2024-03-01', '2024-03-02', '2024-03-03'],
    '서울_온도': [20, 22, 21],
    '서울_습도': [65, 70, 68]
})


In [6]:
# 부산 온도 데이터
busan_data = pd.DataFrame({
    '날짜': ['2024-03-01', '2024-03-02', '2024-03-04'],  # 3일은 없고 4일은 있음
    '부산_온도': [25, 27, 26],
    '부산_습도': [75, 80, 78]
})

In [7]:
print("서울 데이터:")
print(seoul_data)
print()

print(" 부산 데이터:")
print(busan_data)
print()

서울 데이터:
           날짜  서울_온도  서울_습도
0  2024-03-01     20     65
1  2024-03-02     22     70
2  2024-03-03     21     68

 부산 데이터:
           날짜  부산_온도  부산_습도
0  2024-03-01     25     75
1  2024-03-02     27     80
2  2024-03-04     26     78



In [8]:
# 병합 방법 : inner join (둘 다 있는 날짜만)
merged_inner = pd.merge(seoul_data, busan_data, on='날짜', how='inner')
print("방법 : Inner Join (둘 다 있는 날짜만)")
print(merged_inner)
print()

방법 : Inner Join (둘 다 있는 날짜만)
           날짜  서울_온도  서울_습도  부산_온도  부산_습도
0  2024-03-01     20     65     25     75
1  2024-03-02     22     70     27     80



In [9]:
# 병합 방법 : outer join (모든 날짜 포함)
merged_outer = pd.merge(seoul_data, busan_data, on='날짜', how='outer')
print("방법 : Outer Join (모든 날짜 포함)")
print(merged_outer)
print()

방법 : Outer Join (모든 날짜 포함)
           날짜  서울_온도  서울_습도  부산_온도  부산_습도
0  2024-03-01   20.0   65.0   25.0   75.0
1  2024-03-02   22.0   70.0   27.0   80.0
2  2024-03-03   21.0   68.0    NaN    NaN
3  2024-03-04    NaN    NaN   26.0   78.0



In [10]:
# 병합 후 결측치 처리
merged_filled = merged_outer.fillna(0)  # 결측치를 0으로 채우기
print("병합 후 결측치를 0으로 채우기:")
print(merged_filled)

병합 후 결측치를 0으로 채우기:
           날짜  서울_온도  서울_습도  부산_온도  부산_습도
0  2024-03-01   20.0   65.0   25.0   75.0
1  2024-03-02   22.0   70.0   27.0   80.0
2  2024-03-03   21.0   68.0    0.0    0.0
3  2024-03-04    0.0    0.0   26.0   78.0
