# Pandas를 활용한 기온데이터

In [2]:
import pandas as pd

weather_df=pd.read_csv('../Data/daegu.csv',encoding='euc_kr')
print(weather_df.columns)
print(weather_df['날짜'].dtype)

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')
object


In [3]:
# DataFrame의 column 이름 변경: 특수 문자 제거
weather_df.columns = ['날짜', '지점', '평균기온', '최저기온', '최고기온']
print(weather_df.columns)

Index(['날짜', '지점', '평균기온', '최저기온', '최고기온'], dtype='object')


In [4]:
#'날짜' 컬럼의 데이터 타입을 datetime 타입으로 변경
# to_datetime(df[‘컬럼명’], format=‘%Y-%m-%d)

weather_df['날짜'] = pd.to_datetime(weather_df['날짜'], format='%Y-%m-%d')
print(weather_df['날짜'].dtype)

datetime64[ns]


In [5]:
# 누락값
print(weather_df.head(5))
num_rows = weather_df.shape[0]              # shape(row, col), shape[0]: row의 개수
num_missing = num_rows - weather_df.count() # count(): 정상값의 개수
print(num_missing)

          날짜   지점  평균기온  최저기온  최고기온
0 1907-01-31  143   NaN  -7.0   0.8
1 1907-02-01  143   NaN   NaN   NaN
2 1907-02-02  143   NaN   NaN   NaN
3 1907-02-03  143   NaN   NaN   NaN
4 1907-02-04  143   NaN   NaN   NaN
날짜        0
지점        0
평균기온    703
최저기온    629
최고기온    630
dtype: int64


## 누락값(NaN) 처리
 - dropna(axis): 누락값 제거
 - axis=0: Nan이 포함된 행 제거, axis=1: Nan이 포함된 열 제거
 - fillna(0): 누락값을 0으로 변경
 - fillna(method=‘ffill’): 이전 값으로 변경(forward fill)
 - fillna(method=‘bfill’): 이후 값으로 변경(backward fill)
 - interpolate(): 누락값 양쪽의 값으로 중간값 계산

In [6]:
weather_df = weather_df.dropna(axis=0)
print(weather_df.count())
print(weather_df.head(5))

날짜      41450
지점      41450
평균기온    41450
최저기온    41450
최고기온    41450
dtype: int64
            날짜   지점  평균기온  최저기온  최고기온
701 1909-01-01  143  -4.1  -8.0   0.1
702 1909-01-02  143  -0.8  -6.7   6.1
703 1909-01-03  143   1.0  -2.4   3.6
704 1909-01-04  143   4.2   0.0   9.2
705 1909-01-05  143   3.4  -0.4   9.0


### 누락값을 제거한 최종 데이터를 csv파일로 저장
 - index = False: 인덱스 항목 저장 안함
 - encoding=‘utf-8’ (euc_kr이 아닌 utf-8로 저장)

In [7]:
weather_df.to_csv('../Data/daegu_utf8.csv', index=False, mode='w', encoding='utf-8')

In [9]:
# 2021년 7월의 데이터 
year_df=weather_df[weather_df['날짜'].dt.year==2021]
month_df=year_df[year_df['날짜'].dt.month==7]
print(month_df)

              날짜   지점  평균기온  최저기온  최고기온
41790 2021-07-01  143  25.1  19.6  32.4
41791 2021-07-02  143  24.0  20.3  28.8
41792 2021-07-03  143  22.7  21.4  24.8
41793 2021-07-04  143  27.8  21.8  32.4
41794 2021-07-05  143  23.8  20.6  27.2
41795 2021-07-06  143  22.6  20.6  25.8
41796 2021-07-07  143  24.2  22.6  26.2
41797 2021-07-08  143  24.9  22.5  29.6
41798 2021-07-09  143  24.7  22.1  29.1
41799 2021-07-10  143  25.6  21.6  32.6
41800 2021-07-11  143  25.7  21.1  33.8
41801 2021-07-12  143  27.3  22.2  34.1
41802 2021-07-13  143  28.7  22.8  34.3
41803 2021-07-14  143  29.9  24.7  35.3
41804 2021-07-15  143  27.5  23.6  33.9
41805 2021-07-16  143  27.1  23.3  31.9
41806 2021-07-17  143  26.7  23.4  30.4
41807 2021-07-18  143  26.7  22.9  31.9
41808 2021-07-19  143  27.2  23.8  31.6
41809 2021-07-20  143  28.8  24.8  33.9
41810 2021-07-21  143  27.5  23.4  32.5
41811 2021-07-22  143  28.0  24.3  32.3
41812 2021-07-23  143  27.8  23.7  32.8
41813 2021-07-24  143  28.1  24.3  33.2


In [15]:
# 2021년 7월의 최고,최저 기온의 평균 계산
max_temp_mean=round(month_df['최고기온'].mean(),1)
min_temp_mean=round(month_df['최저기온'].mean(),1)
print('2021년 7월 최저기온 평균 : {}\n2021년 7월 최고기온 평균 : {}'.format(min_temp_mean, max_temp_mean))


2021년 7월 최저기온 평균 : 22.9
2021년 7월 최고기온 평균 : 32.1
