In [1]:
import pandas as pd
import numpy as np

In [2]:
# 지역과 날짜 설정
regions = ['서울', '부산', '대구', '인천', '광주', '대전', '울산', '강릉']
dates = pd.date_range('2024-03-01', periods=5, freq='D')

# 랜덤 시드 설정
np.random.seed(42)

# 빈 데이터프레임 생성 후 데이터 추가
weather_df = pd.DataFrame()

# 각 날짜별로 모든 지역 데이터 생성
data_list = []
for date in dates:
    for region in regions:
        # 온도 (지역별 특성 반영)
        base_temp = {'서울': 20, '부산': 22, '대구': 21, '인천': 19,
                    '광주': 21, '대전': 20, '울산': 23, '강릉': 18}
        temperature = base_temp[region] + np.random.normal(0, 3)

        # 강수량
        rainfall = max(0, np.random.normal(2, 8))
        if np.random.random() > 0.7:  # 30% 확률로 비
            rainfall = max(rainfall, np.random.uniform(5, 30))
        else:
            rainfall = 0

        # 날씨 상태
        if rainfall > 10:
            weather_status = '비'
        elif rainfall > 0:
            weather_status = '흐림'
        else:
            weather_status = np.random.choice(['맑음', '흐림'], p=[0.8, 0.2])

        data_list.append({
            '날짜': date,
            '지역': region,
            '온도': round(temperature, 1),
            '강수량': round(rainfall, 1),
            '날씨': weather_status
        })

# 데이터프레임 생성
weather_df = pd.DataFrame(data_list)

print(" 데이터프레임 생성 완료!")
print(f" 데이터프레임 크기: {weather_df.shape} (행: {weather_df.shape[0]}, 열: {weather_df.shape[1]})")
print()

# 데이터프레임 기본 정보 확인
print(" 데이터프레임 기본 정보:")
print(weather_df.info())
print()

print(" 데이터 타입 확인:")
print(weather_df.dtypes)
print()

print(" 처음 5행 확인:")
print(weather_df.head())
print()

print(" 마지막 3행 확인:")
print(weather_df.tail(3))
print()

 데이터프레임 생성 완료!
 데이터프레임 크기: (40, 5) (행: 40, 열: 5)

 데이터프레임 기본 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      40 non-null     datetime64[ns]
 1   지역      40 non-null     object        
 2   온도      40 non-null     float64       
 3   강수량     40 non-null     float64       
 4   날씨      40 non-null     object        
dtypes: datetime64[ns](1), float64(2), object(2)
memory usage: 1.7+ KB
None

 데이터 타입 확인:
날짜     datetime64[ns]
지역             object
온도            float64
강수량           float64
날씨             object
dtype: object

 처음 5행 확인:
          날짜  지역    온도   강수량  날씨
0 2024-03-01  서울  21.5  20.0   비
1 2024-03-01  부산  21.3   0.0  흐림
2 2024-03-01  대구  25.7   0.0  흐림
3 2024-03-01  인천  17.6   0.0  맑음
4 2024-03-01  광주  21.7   0.0  맑음

 마지막 3행 확인:
           날짜  지역    온도  강수량  날씨
37 2024-03-05  대전  24.2  0.0  맑음
38 2024-03-05  울산  20.0

In [3]:
# 특정 컬럼 선택
print("🔍 특정 컬럼 선택:")
print("온도 컬럼만:")
print(weather_df['온도'].head())
print()

print("여러 컬럼 선택:")
print(weather_df[['지역', '온도', '날씨']].head())
print()

# 행 선택 (.loc 사용)
print(" .loc를 이용한 행 선택:")
print("서울 데이터만:")
seoul_data = weather_df.loc[weather_df['지역'] == '서울']
print(seoul_data)
print()

# 조건부 선택
print(" 조건부 데이터 선택:")
hot_days = weather_df.loc[weather_df['온도'] >= 23]
print(f"23도 이상인 날: {len(hot_days)}개")
print(hot_days[['날짜', '지역', '온도', '날씨']].head())
print()

# 복합 조건
print(" 복합 조건 선택:")
rainy_hot = weather_df.loc[(weather_df['온도'] >= 20) & (weather_df['날씨'] == '비')]
print(f"20도 이상이면서 비 온 경우: {len(rainy_hot)}개")
print(rainy_hot[['날짜', '지역', '온도', '강수량']])
print()

🔍 특정 컬럼 선택:
온도 컬럼만:
0    21.5
1    21.3
2    25.7
3    17.6
4    21.7
Name: 온도, dtype: float64

여러 컬럼 선택:
   지역    온도  날씨
0  서울  21.5   비
1  부산  21.3  흐림
2  대구  25.7  흐림
3  인천  17.6  맑음
4  광주  21.7  맑음

 .loc를 이용한 행 선택:
서울 데이터만:
           날짜  지역    온도   강수량  날씨
0  2024-03-01  서울  21.5  20.0   비
8  2024-03-02  서울  18.2   0.0  맑음
16 2024-03-03  서울  18.0   0.0  흐림
24 2024-03-04  서울  19.3   0.0  맑음
32 2024-03-05  서울  20.8  11.3   비

 조건부 데이터 선택:
23도 이상인 날: 9개
           날짜  지역    온도  날씨
2  2024-03-01  대구  25.7  흐림
6  2024-03-01  울산  27.4  맑음
10 2024-03-02  대구  23.5  맑음
12 2024-03-02  광주  23.2  맑음
17 2024-03-03  부산  25.1  흐림

 복합 조건 선택:
20도 이상이면서 비 온 경우: 4개
           날짜  지역    온도   강수량
0  2024-03-01  서울  21.5  20.0
20 2024-03-03  광주  23.4  16.8
21 2024-03-03  대전  21.1  19.0
32 2024-03-05  서울  20.8  11.3



In [4]:
# 결측치 추가 (데이터프레임 복사)
df_missing = weather_df.copy()

# 무작위로 결측치 추가
np.random.seed(123)
missing_indices = np.random.choice(len(df_missing), 8, replace=False)

# 온도 결측치
df_missing.loc[missing_indices[:4], '온도'] = np.nan
# 강수량 결측치
df_missing.loc[missing_indices[4:], '강수량'] = np.nan

print(" 결측치 현황:")
print(df_missing.isnull().sum())
print()

print(" 결측치가 있는 행들:")
missing_rows = df_missing.loc[df_missing.isnull().any(axis=1)]
print(missing_rows[['날짜', '지역', '온도', '강수량', '날씨']])
print()

# 결측치 처리 방법들
print(" 결측치 처리 방법들:")

# 방법 1: 평균값으로 채우기
df_method1 = df_missing.copy()
temp_mean = df_method1['온도'].mean()
rain_mean = df_method1['강수량'].mean()
df_method1['온도'].fillna(temp_mean, inplace=True)
df_method1['강수량'].fillna(rain_mean, inplace=True)
print(f"방법1) 평균값 채우기 - 온도: {temp_mean:.1f}도, 강수량: {rain_mean:.1f}mm")

# 방법 2: 지역별 평균으로 채우기
df_method2 = df_missing.copy()
df_method2['온도'] = df_method2.groupby('지역')['온도'].transform(lambda x: x.fillna(x.mean()))
df_method2['강수량'] = df_method2.groupby('지역')['강수량'].transform(lambda x: x.fillna(x.mean()))
print("방법2) 지역별 평균으로 채우기")



# 최종 데이터는 방법2 사용
final_df = df_method2.copy()


 결측치 현황:
날짜     0
지역     0
온도     4
강수량    4
날씨     0
dtype: int64

 결측치가 있는 행들:
           날짜  지역    온도  강수량  날씨
1  2024-03-01  부산  21.3  NaN  흐림
5  2024-03-01  대전  17.0  NaN  맑음
6  2024-03-01  울산   NaN  0.0  맑음
10 2024-03-02  대구   NaN  0.0  맑음
11 2024-03-02  인천  15.0  NaN   비
12 2024-03-02  광주   NaN  0.0  맑음
23 2024-03-03  강릉  18.3  NaN  맑음
38 2024-03-05  울산   NaN  0.0  맑음

 결측치 처리 방법들:
방법1) 평균값 채우기 - 온도: 19.9도, 강수량: 4.4mm
방법2) 지역별 평균으로 채우기


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_method1['온도'].fillna(temp_mean, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_method1['강수량'].fillna(rain_mean, inplace=True)


In [12]:
# 지역별 집계
print(" 지역별 강수량 통계2:")
region_stats = final_df.groupby('지역').agg({
    '강수량': ['sum', 'mean'],
}).round(1)

# 컬럼명 정리
# region_stats.columns = ['총강수량', '평균강수량']
print(region_stats)
print()

 지역별 강수량 통계2:
     강수량     
     sum mean
지역           
강릉   0.0  0.0
광주  16.8  3.4
대구  30.3  6.1
대전  23.8  4.8
부산  43.4  8.7
서울  31.3  6.3
울산   0.0  0.0
인천  34.2  6.8



In [5]:
# 지역별 집계
print(" 지역별 통계:")
region_stats = final_df.groupby('지역').agg({
    '온도': ['mean', 'max', 'min'],
    '강수량': ['sum', 'mean'],
    '날씨': 'count'
}).round(1)

# 컬럼명 정리
region_stats.columns = ['평균온도', '최고온도', '최저온도', '총강수량', '평균강수량', '데이터수']
print(region_stats)
print()

# 날씨별 집계
print(" 날씨별 통계:")
weather_stats = final_df.groupby('날씨').agg({
    '온도': 'mean',
    '강수량': 'mean',
    '지역': 'count'
}).round(1)
weather_stats.columns = ['평균온도', '평균강수량', '발생횟수']
print(weather_stats)
print()

# 날짜별 집계
print("날짜별 전국 평균:")
daily_stats = final_df.groupby('날짜').agg({
    '온도': 'mean',
    '강수량': 'sum'
}).round(1)
daily_stats.columns = ['전국평균온도', '전국총강수량']
print(daily_stats)
print()


 지역별 통계:
    평균온도  최고온도  최저온도  총강수량  평균강수량  데이터수
지역                                     
강릉  16.9  19.0  13.3   0.0    0.0     5
광주  22.1  24.4  18.9  16.8    3.4     5
대구  22.3  25.7  18.5  30.3    6.1     5
대전  20.6  24.2  17.0  23.8    4.8     5
부산  20.8  25.1  16.2  43.4    8.7     5
서울  19.6  21.5  18.0  31.3    6.3     5
울산  21.1  22.9  18.8   0.0    0.0     5
인천  17.6  19.3  15.0  34.2    6.8     5

 날씨별 통계:
    평균온도  평균강수량  발생횟수
날씨                   
맑음  19.6    0.2    25
비   19.9   18.4     8
흐림  22.1    4.0     7

날짜별 전국 평균:
            전국평균온도  전국총강수량
날짜                        
2024-03-01    20.3    33.4
2024-03-02    20.0     6.8
2024-03-03    20.6    65.9
2024-03-04    19.8    62.3
2024-03-05    20.0    11.3

