# 대구 날씨 분석 (판다스)

In [50]:
import pandas as pd

## 컬럼명에서 특수기호 제거

In [51]:
weather_df = pd.read_csv('../Data/daegu.csv', encoding='euc_kr')
print(weather_df.columns)
print(weather_df['날짜'].dtype)

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')
object


In [52]:
weather_df.columns = ['날짜', '지점', '평균기온', '최저기온', '최고기온']
print(weather_df.columns)
print(weather_df['날짜'].dtype)

Index(['날짜', '지점', '평균기온', '최저기온', '최고기온'], dtype='object')
object


In [53]:
weather_df['날짜'] = pd.to_datetime(weather_df['날짜'], format='%Y-%m-%d')

In [54]:
print(weather_df['날짜'].dtype)

datetime64[ns]


## 누락값 확인

In [55]:
print(weather_df.head(), '\n')
num_rows = weather_df.shape[0]
num_missing = num_rows - weather_df.count()
print(num_missing)

          날짜   지점  평균기온  최저기온  최고기온
0 1907-01-31  143   NaN  -7.0   0.8
1 1907-02-01  143   NaN   NaN   NaN
2 1907-02-02  143   NaN   NaN   NaN
3 1907-02-03  143   NaN   NaN   NaN
4 1907-02-04  143   NaN   NaN   NaN 

날짜        0
지점        0
평균기온    703
최저기온    629
최고기온    630
dtype: int64


## 누락값 처리

In [56]:
weather_df = weather_df.dropna(axis=0)
print(weather_df.count())
print(weather_df.head(5))

날짜      41450
지점      41450
평균기온    41450
최저기온    41450
최고기온    41450
dtype: int64
            날짜   지점  평균기온  최저기온  최고기온
701 1909-01-01  143  -4.1  -8.0   0.1
702 1909-01-02  143  -0.8  -6.7   6.1
703 1909-01-03  143   1.0  -2.4   3.6
704 1909-01-04  143   4.2   0.0   9.2
705 1909-01-05  143   3.4  -0.4   9.0


## 누락값을 제서한 최종 데이터를 csv로 저장

In [57]:
weather_df.to_csv('../Data/daegu_utf8.csv', index=False, mode='w', encoding='utf-8')

## 2021년 7월값 추출

In [64]:
newweather_df = pd.read_csv('../Data/daegu_utf8.csv')
newweather_df['날짜'] = pd.to_datetime(newweather_df['날짜'])
year_df = newweather_df[newweather_df['날짜'].dt.year == 2021]
month_df = year_df[year_df['날짜'].dt.month == 7]
print(month_df.head())

              날짜   지점  평균기온  최저기온  최고기온
41085 2021-07-01  143  25.1  19.6  32.4
41086 2021-07-02  143  24.0  20.3  28.8
41087 2021-07-03  143  22.7  21.4  24.8
41088 2021-07-04  143  27.8  21.8  32.4
41089 2021-07-05  143  23.8  20.6  27.2


In [68]:
max_temp_mean = round(month_df['최고기온'].mean(),1)
min_temp_mean = round(month_df['최저기온'].mean(),1)

print(max_temp_mean, min_temp_mean)

32.1 22.9
