# 서울 100년 날씨데이터 분석

## 데이터 분석 순서

1. 파일 가져오기
2. 결측치 다루기
3. 문제에 따른 용어 정의 및 Rule 정의

# 파일 가져오기

## 폰트설정

In [2]:
# 한글폰트 설치
!sudo apt-get install -y fonts-nanum
!sudo fc-cache - fv
!rm ~/.cache/matplotlib -rf

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  fonts-nanum
0 upgraded, 1 newly installed, 0 to remove and 45 not upgraded.
Need to get 10.3 MB of archives.
After this operation, 34.1 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 fonts-nanum all 20200506-1 [10.3 MB]
Fetched 10.3 MB in 0s (22.8 MB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 78, <> line 1.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Selecting previously unselected package fonts-nanum.
(Reading database ... 123594 files and direc

In [3]:
# matplotlib 나눔바른고딕으로 폰트 변경
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')

## 파일 가져오기

In [4]:
# 데이터 파일을 가져오기 위해 구글 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
# csv파일 불러오기 : 경로가 중복될 때
import os

# 기본이 되는 경로명 확인
dataPath = '/content/drive/MyDrive/Colab Notebooks/Data Science/4_데이터분석예제/data/'


# 경로문자열을 더해준다 : os.path.join()
csvPath1 = os.path.join(dataPath, 'seoul1.csv')
csvPath2 = os.path.join(dataPath, 'seoul2.csv')
csvPath3 = os.path.join(dataPath, 'seoul3.csv')


In [6]:
import numpy as np
import pandas as pd

df1 = pd.read_csv(csvPath1, encoding='cp949')
df2 = pd.read_csv(csvPath2, encoding='cp949')
df3 = pd.read_csv(csvPath3, encoding='cp949')

## 파일 합치기 : format 맞춰주기

In [7]:
df1.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [8]:
df2.head()

Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C)
0,108,서울,2018-03-29,15.4,11.8,21.1
1,108,서울,2018-03-30,14.8,9.8,21.9
2,108,서울,2018-03-31,14.0,9.3,20.1
3,108,서울,2018-04-01,15.6,11.7,18.5
4,108,서울,2018-04-02,18.4,14.9,23.7


In [9]:
df1.columns

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')

In [10]:
# 컬럼명 변경 == df2랑 동일하게 맞춰주

df1.columns = ['일시', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']
df1['지점명'] = '서울'
df1.head()

Unnamed: 0,일시,지점,평균기온(℃),최저기온(℃),최고기온(℃),지점명
0,1907-10-01,108,13.5,7.9,20.7,서울
1,1907-10-02,108,16.2,7.9,22.0,서울
2,1907-10-03,108,16.2,13.1,21.3,서울
3,1907-10-04,108,16.5,11.2,22.0,서울
4,1907-10-05,108,17.6,10.9,25.4,서울


In [11]:
# 컬럼 순서 바꾸는 법

df1 = df1[['지점', '지점명', '일시', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']]
df1.head()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
0,108,서울,1907-10-01,13.5,7.9,20.7
1,108,서울,1907-10-02,16.2,7.9,22.0
2,108,서울,1907-10-03,16.2,13.1,21.3
3,108,서울,1907-10-04,16.5,11.2,22.0
4,108,서울,1907-10-05,17.6,10.9,25.4


**컬럼명이 다를 수 있으므로 합칠 컬럼명을 다 통일시켜준다**

In [12]:
df1.columns = ['지점', '지점명', '일시', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']
df2.columns = ['지점', '지점명', '일시','평균기온(℃)', '최저기온(℃)', '최고기온(℃)']
df3.columns = ['지점', '지점명', '일시','평균기온(℃)', '최저기온(℃)', '최고기온(℃)']

In [13]:
df = pd.concat([df1, df2, df3])
df.head()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
0,108,서울,1907-10-01,13.5,7.9,20.7
1,108,서울,1907-10-02,16.2,7.9,22.0
2,108,서울,1907-10-03,16.2,13.1,21.3
3,108,서울,1907-10-04,16.5,11.2,22.0
4,108,서울,1907-10-05,17.6,10.9,25.4


In [14]:
df.tail()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
0,108,서울,2024-08-07,29.6,27.2,33.4
1,108,서울,2024-08-08,28.5,26.9,31.6
2,108,서울,2024-08-09,29.3,25.6,33.6
3,108,서울,2024-08-10,30.0,26.4,33.6
4,108,서울,2024-08-11,30.8,27.8,34.4


In [15]:
# index reset

df = df.reset_index(drop=True)
df.head()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
0,108,서울,1907-10-01,13.5,7.9,20.7
1,108,서울,1907-10-02,16.2,7.9,22.0
2,108,서울,1907-10-03,16.2,13.1,21.3
3,108,서울,1907-10-04,16.5,11.2,22.0
4,108,서울,1907-10-05,17.6,10.9,25.4


In [16]:
df.tail()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
42249,108,서울,2024-08-07,29.6,27.2,33.4
42250,108,서울,2024-08-08,28.5,26.9,31.6
42251,108,서울,2024-08-09,29.3,25.6,33.6
42252,108,서울,2024-08-10,30.0,26.4,33.6
42253,108,서울,2024-08-11,30.8,27.8,34.4


# 파일 분석하기

## [질문1] 결측치
결측치가 있는 기간이 있다. 기간이 어떻게 되는가?

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42254 entries, 0 to 42253
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   지점       42254 non-null  int64  
 1   지점명      42254 non-null  object 
 2   일시       42254 non-null  object 
 3   평균기온(℃)  41498 non-null  float64
 4   최저기온(℃)  41496 non-null  float64
 5   최고기온(℃)  41496 non-null  float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.9+ MB


In [18]:
df.describe()

Unnamed: 0,지점,평균기온(℃),최저기온(℃),최고기온(℃)
count,42254.0,41498.0,41496.0,41496.0
mean,108.0,11.808755,7.52198,16.808174
std,0.0,10.662136,10.890537,10.973841
min,108.0,-19.2,-23.1,-16.3
25%,108.0,2.8,-1.3,7.3
50%,108.0,13.0,8.1,18.6
75%,108.0,21.3,17.2,26.3
max,108.0,33.7,30.3,39.6


In [19]:
# df에서 결측치가 있는 행을 찾는 코드

df[df.isna( ).any(axis=1)]


####################################    How work this Code?     ####################################

# isna() : 데이터프레임 안에 모든 값들을 검사 True, False로 판단. 신규 데이터프레임 생성

# .any : 위의 불리언 값중에서 특정 조건을 만족하는 값을 확인

#  (axis=1) : 조건. 각 행에서 하나라도 True가 있는지 확인해서 반환

#  (axis=0) : 조건. 각 열에서 하나라도 True가 있는지 확인해서 반환

####################################    How work this Code?     ####################################



Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
15676,108,서울,1950-09-01,,,
15677,108,서울,1950-09-02,,,
15678,108,서울,1950-09-03,,,
15679,108,서울,1950-09-04,,,
15680,108,서울,1950-09-05,,,
...,...,...,...,...,...,...
16430,108,서울,1953-11-29,,,
16431,108,서울,1953-11-30,,,
21260,108,서울,1967-02-19,-1.7,,
39758,108,서울,2017-10-12,11.4,8.8,


### [답변1]

1. 6.25 전쟁 복구 기간 (1950.09.01 - 1953.11.30)
    - 6.25 전쟁은 1950.06.25 - 1953.07.27이다.

2. 1967.02.19
3. 2017.10.12
4. 2022.08.08

In [20]:
print(df.iloc[15676]['일시'])
print(df.iloc[16431]['일시'])
print(df.iloc[21260]['일시'])
print(df.iloc[39758]['일시'])
print(df.iloc[41519]['일시'])

1950-09-01
1953-11-30
1967-02-19
2017-10-12
2022-08-08


In [21]:
df.isna()

Unnamed: 0,지점,지점명,일시,평균기온(℃),최저기온(℃),최고기온(℃)
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
42249,False,False,False,False,False,False
42250,False,False,False,False,False,False
42251,False,False,False,False,False,False
42252,False,False,False,False,False,False


## [질문2]

1907 ~ 2024년간 평균 기온이 상승하는가? 상승한다면 얼마나 ?

### 결측치 처리 방법

In [22]:
# 결측치 처리:
# 1) 결측치 많이 있는 연도를 제외 (1950, 1951, 1952, 1953)
#       - Y, M 두개 df로 나눠서 copy
# 2) 결측치 1일 처리 (2, 3, 4)
# 1907년 평균 기온을 계산한다
# 각 연도별로 평균 기온을 계산한다
# 수치 비교
# 그래프로 시각화

In [23]:
# 사용 함수

# to_datetime() : 문자열 날짜 > datetime 변환
# resample('Y') : 데이터를 1년 단위로 그룹화
# mean() : 각 그룹(1년)의 평균을 계산

### ⓑ 수업시간 방법
datetime 함수 사용

#### 연평균기온이란!?

1년간의 기온의 평균값으로

1월부터 12월까지의 월평균기온의 평균값

In [24]:
# datetime 함수
# 연, 월, 일, 시간, 요일 등 따로 뽑아낼 수 있음
# 컬럼을 따로 만들어서 조건으로 뽑아내면 더 빨리가능

import datetime as dt
x = dt.datetime.now()
x.year, x.month, x.day, x.weekday()

(2024, 8, 20, 1)

In [25]:
# 방법
# 연 월 일 따로 컬럼을 만들어서
# 월평균 계산
# 월평균 더해서 연평균 계산

In [26]:
# 1> df에서 연 월 일 따로 컬럼을 만들기

df['연'] = df['일시'].dt.year
df['월'] = df['일시'].dt.month
df

AttributeError: Can only use .dt accessor with datetimelike values

In [None]:
## 컬럼 순서 변경 ['지점']['지점명']['일시']['연']['월']['일']['평균기온']['최저기온']['최고기온']

df = df[['지점', '지점명', '일시', '연', '월', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']]
df

#### 연평균 기온 df copy

1. 연평균 df.copy()
2.

### ⓐ 내 방법 :
일시 속성 변경 (문자 > 날짜)

In [None]:
df['일시'] = pd.to_datetime(df['일시'])
df.info()

In [None]:
# 확인

df.head()
df.tail()

#### df_y : 연단위 평균 구하는 df

In [None]:
# df_y 데이터프레임 생성

df_y = df.copy()
df_y.info()
df_y.head()

#### 결측치 처리할 컬럼 index 번호 찾기

In [None]:
# ['일시']가 '1967-02-19'인 컬럼의 index번호 찾기
day_index = df_y[df_y['일시'] == '2022-08-08'].index
day_index

In [None]:
df_y.loc[day_index]

In [None]:
# 1일짜리 결측치 처리대상
# 1967-02-19 최저기온 = (1967-02-18 최저기온 + 1967-02-20 최저기온)/2

# 찾을 인덱스 = [1967-02-19, 2017-10-12, 2022-08-08]
# df_y.loc[21260] = ['1967-02-19']
# df_y.loc[39758] = ['2017-10-12']
# df_y.loc[41519] = ['2022-08-08']


#### ['1967-02-19'] 결측치 처리

In [None]:
# 1-1. ['1967-02-19'] 최저기온 평균 채우기

filled_value = (df_y.loc[21259, '최저기온(℃)'] + df_y.loc[21261, '최저기온(℃)']) / 2
df_y.loc[21260, '최저기온(℃)'] = filled_value

# 확인
df_y.loc[21260]

In [None]:
# 1-2. ['1967-02-19'] 최고기온 평균 채우기

filled_value = (df_y.loc[21259, '최고기온(℃)'] + df_y.loc[21261, '최고기온(℃)']) / 2
df_y.loc[21260, '최고기온(℃)'] = filled_value

# 확인
df_y.loc[21260]

#### ['2017-10-12'] 결측치 처리

In [None]:
df_y.loc[39758]

# 2. ['2017-10-12'] 최고기온 평균 채우기

filled_value = (df_y.loc[39757, '최고기온(℃)'] + df_y.loc[39759, '최고기온(℃)']) / 2
df_y.loc[39758, '최고기온(℃)'] = filled_value

# 확인
df_y.loc[39758]


#### ['2022-08-08'] 결측치 처리

In [None]:
df_y.loc[41519]

In [None]:
# 3. ['2022-08-08'] 최저기온 평균 채우기

filled_value = (df_y.loc[41518, '최저기온(℃)'] + df_y.loc[41520, '최저기온(℃)']) / 2
df_y.loc[41519, '최저기온(℃)'] = filled_value

# 확인
df_y.loc[41519]

#### 결측치 유무 확인 : Day End

In [None]:
df_y[df_y.isna( ).any(axis=1)]

# DAY 단위 결측치 처리 완료

In [None]:
df_y.tail()

### 연평균 구하기

In [None]:
# 연도별 평균 구하기

year_mean = df_y.groupby(df_y['일시'].dt.year)['평균기온(℃)'].mean()
year_mean

In [None]:
# 삭제하고싶은 연도의 위치를 파악하기 위한 준비 (1907, 1950, 1951, 1952, 1953)

del_year = [1907, 1950, 1951, 1952, 1953]
find_index = []

# del_year에 들어있는 삭제할 년도를
# year_mean에서 인덱스를 찾아서 find_index에 넣어줘
for i in del_year :
    find_index.append(year_mean.index.get_loc(i))

find_index

In [None]:
# 확인
year_mean.index[43]

In [None]:
# year_mean에서 인덱스 [0, 43, 44, 45, 46]를 삭제한다

year_mean = year_mean.drop(year_mean.index[find_index])
year_mean

index_reset = year_mean.reset_index()
index_reset

In [None]:
# 2024년 추가 제외 (8월까지밖에 없음)

year_mean = year_mean.drop(year_mean.index[112])
year_mean
# year_mean.index[112]

In [None]:
14.109041 - 10.427322

In [None]:
# year_mean의 평균기온(℃) 증가율을 구한다음, 데이터프레임에 추가한다

year_mean['증가율'] = (year_mean['평균기온(℃)'] - year_mean['평균기온(℃)'].shift(1)) / year_mean['평균기온(℃)'].shift(1) * 100

year_mean



### [답변2]

약 3.68℃ 증가

## [질문3] 그래프
가능하다면 그래프로 표현 (cf) 1907,1927,1947

In [None]:
# year_mean 선형차트로 그리기

plt.plot(index_reset['일시'], index_reset['평균기온(℃)'])
plt.show()


In [None]:
# 선형차트가 부드럽고, 스케일이 지금보다 크게 되도록 조정

plt.plot(index_reset['일시'], index_reset['평균기온(℃)'], linestyle='-', marker='o')
plt.figure(figsize=(15, 10))
plt.show()

# 구성기간 : 1908 ~ 2023
# 제외연도 : 1907, 1950, 1951, 1952, 1953, 2024
# 제외사유 : 결측치 과다로인한 연평균 기온 측정 불가

## [질문4] 1907~2024년간 겨울의 최저기온, 여름의 최고 기온은 언제인가?

#### 여름과 겨울의 기준 !?

1년간의 기온의 평균값으로

1월부터 12월까지의 월평균기온의 평균값