## 서울 일별 날씨 데이터 수집
1. 기상청 날씨누리 사이트
2. 서울(유) 지점으로 육상 - 과거관측 활용
    - (유)는 유인지점
3. 2024년 4분기 데이터만 수집

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

#### 사이트 크롤링 : https://www.weather.go.kr
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)
- 지점/년도/월/요소 select 후 선택버튼 클릭하면 달력이 바뀜
- 해당 url
    - 기온/강수량 : https://www.weather.go.kr/w/observation/land/past-obs/obs-by-day.do?stn=108&yy=2024&mm=12&obs=1
    - 날씨 : https://www.weather.go.kr/w/observation/land/past-obs/obs-by-day.do?stn=108&yy=2024&mm=12&obs=9
    - 전달데이터 : stn=108&yy=2024&mm=12&obs=9
        - stn : 지점 / yy : 년도 / mm : 월 / obs : 요소(1or9)
    - 지점, 년도, 요소는 고정시키고 mm인 월만 변경해서 요청
        - 2024년 4분기 이므로 mm을 10~12까지 수정하면서 요청
- 정적페이지이므로 source 요청 후 bs4 활용 수집
- 수집결과 DF
   - ![image-2.png](attachment:image-2.png)

In [3]:
# data요청(12월)
url = 'https://www.weather.go.kr/w/observation/land/past-obs/obs-by-day.do?stn=108&yy=2024&mm=12&obs=1'
html = urlopen(url)
# 파서 객체 생성
bs_obj = BeautifulSoup(html, 'html.parser') 

In [4]:
bs_obj

<!DOCTYPE html>

<html lang="ko">
<head>
<title>과거관측 - 일별자료 - 기상청 날씨누리</title>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0, minimum-scale=1.0, user-scalable=yes" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<link href="/w/logo_mark.png" rel="shortcut icon"/>
<link href="/w/logo_mark.png" rel="apple-touch-icon-precomposed"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="https://www.weather.go.kr/w/iphone-shortcut.png" property="og:image"/>
<link href="/w/resources/css-2021/slick.css?ver=2024121701" rel="stylesheet" type="text/css"/>
<link href="/w/resources/css-2021/basic.css?ver=2024121701" rel="stylesheet" type="text/css"/>
<link href="/w/resources/css-2021/common-ui.css?ver=2024121701" rel="stylesheet" type="text/css"/>
<link href="/w/resources/css-2021/common-ui-mobile.css?ver=2024121701" rel="stylesheet" type="text/css"/>
<link href="/w/resources/css-2021/custom.css?ver=2024121701" rel="stylesheet"

- table tag 사용 날씨 달력을 구성하고 있음
    - table tag는 달력에만 적용됨
    - table > tr을 모두 추출
        - 날짜와 기온/강수량 데이터만 추출

In [5]:
# 특정 tr의 td를 찾으면, 날짜행 내용행이 구분되어 있는걸 확인할 수 있음(12월)
bs_obj.find_all("tr")[3].find_all("td")

[<td>
 <span>8일</span>
 </td>,
 <td>
 <span>9일</span>
 </td>,
 <td>
 <span>10일</span>
 </td>,
 <td>
 <span>11일</span>
 </td>,
 <td>
 <span>12일</span>
 </td>,
 <td>
 <span>13일</span>
 </td>,
 <td>
 <span>14일</span>
 </td>]

In [6]:
# data요청(10월)
url = 'https://www.weather.go.kr/w/observation/land/past-obs/obs-by-day.do?stn=108&yy=2024&mm=10&obs=1'
html = urlopen(url)
# 파서 객체 생성
bs_obj = BeautifulSoup(html, 'html.parser') 

In [7]:
# 10월인 경우 1일이 화요일부터기 때문에 빈칸이 추출됨 
# text 추출시 빈칸문자 확인해서 처리해야 함
bs_obj.find_all("tr")[1].find_all("td")

[<td>
 <span> </span>
 </td>,
 <td>
 <span> </span>
 </td>,
 <td>
 <span>1일</span>
 </td>,
 <td>
 <span>2일</span>
 </td>,
 <td>
 <span>3일</span>
 </td>,
 <td>
 <span>4일</span>
 </td>,
 <td>
 <span>5일</span>
 </td>]

### 2024년 10월을 예시로 수집하고 해당 코드를 함수로 구성 필요한 기간만큼 수집
- 구성한 함수는 service를 통해 월단위 수집이 가능하게 서비스 구현

In [8]:
# 달력은 총 11행, 0행은 요일, 이후 홀수행은 날짜, 짝수행은 기온/강수량 정보
trs = bs_obj.find_all("tr")
len(trs)

11

- 빈 td는 '\xa0'로 표현되어있음

In [9]:
tmp = []
for td in trs[1].find_all("td"):
    tmp.append(td.text)
tmp

['\n\xa0\n', '\n\xa0\n', '\n1일\n', '\n2일\n', '\n3일\n', '\n4일\n', '\n5일\n']

In [10]:
# 홀수행의 날짜를 불필요한 문자 제거 후, 리스트에 수집
date = []
for td in trs[1].find_all("td"):
    if td.text == '\n\xa0\n':
        pass
    else:
        date.append(td.text.replace("\n", "").replace("일", ""))
date

['1', '2', '3', '4', '5']

- 빈 td는 '\xa0'로 표현되어있음
- 실제 날씨 정보의 \n은 지워버리면 구분이 어려워짐

In [11]:
tmp = []
for td in trs[2].find_all("td"):
    tmp.append(td.text)
tmp

['\n\xa0\n',
 '\n\xa0\n',
 '\n평균기온:18.3℃\n\n\n최고기온:21.7℃\n\n\n최저기온:13.3℃\n\n\n평균운량:5.9\n\n\n일강수량:2.5mm\n\n\n',
 '\n평균기온:14.9℃\n\n\n최고기온:19.9℃\n\n\n최저기온:11.6℃\n\n\n평균운량:2.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:16.4℃\n\n\n최고기온:22.5℃\n\n\n최저기온:10.8℃\n\n\n평균운량:2.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:17.6℃\n\n\n최고기온:24.2℃\n\n\n최저기온:11.9℃\n\n\n평균운량:0.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:17.5℃\n\n\n최고기온:24.4℃\n\n\n최저기온:11.6℃\n\n\n평균운량:3.6\n\n\n일강수량: - \n\n\n']

In [12]:
# 짝수행의 기온/강수량의 불필요한 문자 제거 후, 리스트에 수집
tmp = []
for td in trs[2].find_all("td"):
    if td.text == '\n\xa0\n':
        pass
    else:
        tmp.append(td.text)
tmp

['\n평균기온:18.3℃\n\n\n최고기온:21.7℃\n\n\n최저기온:13.3℃\n\n\n평균운량:5.9\n\n\n일강수량:2.5mm\n\n\n',
 '\n평균기온:14.9℃\n\n\n최고기온:19.9℃\n\n\n최저기온:11.6℃\n\n\n평균운량:2.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:16.4℃\n\n\n최고기온:22.5℃\n\n\n최저기온:10.8℃\n\n\n평균운량:2.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:17.6℃\n\n\n최고기온:24.2℃\n\n\n최저기온:11.9℃\n\n\n평균운량:0.0\n\n\n일강수량: - \n\n\n',
 '\n평균기온:17.5℃\n\n\n최고기온:24.4℃\n\n\n최저기온:11.6℃\n\n\n평균운량:3.6\n\n\n일강수량: - \n\n\n']

In [13]:
sp_lst = tmp[0].split("\n")
while '' in sp_lst:
    sp_lst.remove("")
sp_lst

['평균기온:18.3℃', '최고기온:21.7℃', '최저기온:13.3℃', '평균운량:5.9', '일강수량:2.5mm']

In [14]:
tmp = []
for td in trs[2].find_all("td"):
    if td.text == '\n\xa0\n':
        pass
    else:
        t = td.text.split("\n")
        while "" in t:
            t.remove("")
        tmp.append(t)
tmp

[['평균기온:18.3℃', '최고기온:21.7℃', '최저기온:13.3℃', '평균운량:5.9', '일강수량:2.5mm'],
 ['평균기온:14.9℃', '최고기온:19.9℃', '최저기온:11.6℃', '평균운량:2.0', '일강수량: - '],
 ['평균기온:16.4℃', '최고기온:22.5℃', '최저기온:10.8℃', '평균운량:2.0', '일강수량: - '],
 ['평균기온:17.6℃', '최고기온:24.2℃', '최저기온:11.9℃', '평균운량:0.0', '일강수량: - '],
 ['평균기온:17.5℃', '최고기온:24.4℃', '최저기온:11.6℃', '평균운량:3.6', '일강수량: - ']]

- 각 열이 행으로 구성되어야 df 구성이 편함
- zip 함수 이용

In [15]:
# 각 요일별 기온/강수량 데이터를 세부 데이터 별로 집합 처리
# zip() : 인수로 전달된 list 객체의 동일 idx data 끼리 모아줌
b = list(zip(*tmp))
b

[('평균기온:18.3℃', '평균기온:14.9℃', '평균기온:16.4℃', '평균기온:17.6℃', '평균기온:17.5℃'),
 ('최고기온:21.7℃', '최고기온:19.9℃', '최고기온:22.5℃', '최고기온:24.2℃', '최고기온:24.4℃'),
 ('최저기온:13.3℃', '최저기온:11.6℃', '최저기온:10.8℃', '최저기온:11.9℃', '최저기온:11.6℃'),
 ('평균운량:5.9', '평균운량:2.0', '평균운량:2.0', '평균운량:0.0', '평균운량:3.6'),
 ('일강수량:2.5mm', '일강수량: - ', '일강수량: - ', '일강수량: - ', '일강수량: - ')]

In [16]:
w_temp = []
for temp in list(zip(*tmp)):
    t_list = []
    for t in temp:
        t_list.append(t.split(":")[1])
    w_temp.append(t_list)
w_temp

[['18.3℃', '14.9℃', '16.4℃', '17.6℃', '17.5℃'],
 ['21.7℃', '19.9℃', '22.5℃', '24.2℃', '24.4℃'],
 ['13.3℃', '11.6℃', '10.8℃', '11.9℃', '11.6℃'],
 ['5.9', '2.0', '2.0', '0.0', '3.6'],
 ['2.5mm', ' - ', ' - ', ' - ', ' - ']]

In [17]:
df = pd.DataFrame({"year":"2024", "month":"10", "day":date, 
              "avg_tmp":w_temp[0], "high_tmp":w_temp[1], 
              "low_tmp":w_temp[2], "cloud_cover":w_temp[3], 
              "day_rain":w_temp[4]})
df

Unnamed: 0,year,month,day,avg_tmp,high_tmp,low_tmp,cloud_cover,day_rain
0,2024,10,1,18.3℃,21.7℃,13.3℃,5.9,2.5mm
1,2024,10,2,14.9℃,19.9℃,11.6℃,2.0,-
2,2024,10,3,16.4℃,22.5℃,10.8℃,2.0,-
3,2024,10,4,17.6℃,24.2℃,11.9℃,0.0,-
4,2024,10,5,17.5℃,24.4℃,11.6℃,3.6,-


### 구성된 df의 기온/강수량 데이터에 기호가 포함되어 있어 수치활용불가(그래프 작업 불가)
### 컬럼 단위로 정규 표현식을 이용해서 제거

    - 패턴 생성 : r` --> 토큰 패턴
    - '\d' --> 모든 숫자 하나(0~9)
    - '+' --> 1회 이상 반복
    - '.' --> 패턴 문자 내에 있으면 문자 그대로를 의미
    - 실수(10.001) --> 패턴문자로 표현하면 r'(\d+.\d+)'

In [18]:
for col in df.columns[3:]:
    df[col] = df[col].str.extract(r'(\d+.\d+)')

In [19]:
df

Unnamed: 0,year,month,day,avg_tmp,high_tmp,low_tmp,cloud_cover,day_rain
0,2024,10,1,18.3,21.7,13.3,5.9,2.5
1,2024,10,2,14.9,19.9,11.6,2.0,
2,2024,10,3,16.4,22.5,10.8,2.0,
3,2024,10,4,17.6,24.2,11.9,0.0,
4,2024,10,5,17.5,24.4,11.6,3.6,


### 자동화를 위한 함수 구현
    - 위 내용을 함수로 구현해서 모든 연도와 월/일에 적용 가능하게 함
    - 관측 데이터는 1960년도부터 제공되고 있음

In [23]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [24]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

In [25]:
# source 요청 후, bs4 객체로 반환하는 함수
# get_html(year, month)를 인수로 받아서
def get_html(year, month):
    url = f"https://www.weather.go.kr/w/observation/land/past-obs/obs-by-day.do?stn=108&yy={year}&mm={month}&obs=1"
    html = urlopen(url)
    bs_obj=BeautifulSoup(html, "html.parser")
    return bs_obj

In [26]:
# get_html("2024", "11")

In [27]:
# bs4 객체 반환 받아서 날짜 및 날씨 데이터 추출하는 함수
def get_data(year, month):
    bs_obj = get_html(year, month)
    date = []
    weather = []
    trs = bs_obj.find_all("tr") # 날씨 달력 데이터 행별로 추출

    for i in range(0, len(trs)):
        tds = trs[i].find_all("td")
        # print(tds)
        for td in tds:
            if (i % 2 == 0):
                if (td.text == '\n\xa0\n'):
                    pass
                else :
                    tmp = td.text.split("\n")
                    while "" in tmp:
                        tmp.remove("")
                    weather.append(tmp)

            else : # 날짜 데이터
                if (td.text == '\n\xa0\n'):
                    pass
                else :
                    date.append(td.text.replace("\n", "").replace("일", ""))

    weather_fin=[]
    for temp in list(zip(*weather)) :
        t_list=[]
        for t in temp :
            t_list.append(t.split(':')[1])
        weather_fin.append(t_list)

    # 현 시점의 month면 달력에 날짜는 들어가 있고 날씨 정보는 없음
    if (len(date) != len(weather_fin[0])):
        date = date[0:len(weather_fin[0])]
    return date, weather_fin

In [28]:
date, weather_fin = get_data("2024", "11")

In [29]:
# 각 월별 df 구성 : 날씨데이터에서 수치만 남기고 기호는 제거
def createMonthDf(year, month) :
    date, w_temp = get_data(year, month)
    weather_df = pd.DataFrame({"year":year, "month":month, "day":date, 
              "avg_tmp":w_temp[0], "high_tmp":w_temp[1], 
              "low_tmp":w_temp[2], "cloud_cover":w_temp[3], 
              "day_rain":w_temp[4]})
    weather_df["date"] = pd.to_datetime(weather_df["year"]+"-"+weather_df["month"]+"-"+weather_df["day"])
    for col in ["avg_tmp", "high_tmp", "low_tmp", "cloud_cover", "day_rain"]:
        weather_df[col] = weather_df[col].str.extract(r'(\d+.\d+)').astype("float64")
    return weather_df

In [30]:
createMonthDf("2024", "11").head(3)

Unnamed: 0,year,month,day,avg_tmp,high_tmp,low_tmp,cloud_cover,day_rain,date
0,2024,11,1,15.3,18.7,12.9,9.8,,2024-11-01
1,2024,11,2,18.1,25.1,13.0,1.8,,2024-11-02
2,2024,11,3,17.6,23.5,13.0,2.5,0.0,2024-11-03


In [42]:
# 빈 df 구성 함수
def blank_df() :
    df = pd.DataFrame({'date':[],'year':[],'month':[],'day':[], 'avg_tmp':[],
                            'high_tmp':[],'low_tmp':[],
                            'cloud_cover':[],'day_rain':[] })
    return df

In [43]:
# 누적 df 함수 구성
def final_df(year, month_start, month_end, fin_df):
    for month in range(month_start, month_end+1) :
        fin_df = pd.concat([fin_df, createMonthDf(str(year), str(month))], 
                           axis = 0, ignore_index=True)
    return fin_df

In [44]:
total_weather_df = final_df(2023, 1, 12, blank_df())
# total_weather_df.to_csv("weather_df_2023.csv", index = 0, encoding="utf-8-sig")

  fin_df = pd.concat([fin_df, createMonthDf(str(year), str(month))],


In [50]:
total_weather_df = final_df(2024, 1, 12, blank_df())
total_weather_df.to_csv("weather_df_2024.csv", index = 0, encoding="utf-8-sig")

  fin_df = pd.concat([fin_df, createMonthDf(str(year), str(month))],


# DB에 저장
#### mysql 연결하고 저장
    - DB를 생성하고,
    - python에서 연결

In [51]:
# pymysql / sqlalchemy 라이브러리
from sqlalchemy import create_engine
import sqlalchemy
import pymysql
import pandas as pd
from urllib.parse import quote_plus


In [52]:
total_weather_df.dtypes

date           datetime64[ns]
year                   object
month                  object
day                    object
avg_tmp               float64
high_tmp              float64
low_tmp               float64
cloud_cover           float64
day_rain              float64
dtype: object

In [53]:
# db연결 변수 생성(db엔진 구성용)
# 'dbms 정보://계정명:비밀번호@ip주소/db명'

password = quote_plus("123qwe!@#")  # URL 인코딩
db_connection_str = f"mysql+pymysql://root:{password}@localhost/weatherDB"
db_connection = create_engine(db_connection_str) # 연결 객체 생성
conn = db_connection.connect() # 연결 객체를 활용해서 연결 시도 --> db와 연결 참조 객체가 conn에 저장됨

In [54]:
# 문자열 컬럼은 따로 지정하지 않으면 text타입으로 저장됨(django에서 에러 날 수 있음)
dtypesql = {
    "year":sqlalchemy.types.VARCHAR(10),
    "month":sqlalchemy.types.VARCHAR(10),
    "day":sqlalchemy.types.VARCHAR(10),

    
}

In [55]:
# to_sql은 con 파라미터에 연결 객체를 전달
# to_sql(name="테이블명", con="연결객체(db연결정보)", 
#        if_exit="기존 동일 이름의 테이블이 있는 경우 선택",
#        index = False, dtype="컬럼별 db 테이블 type")
total_weather_df.to_sql(name="weather_seoul", con = db_connection, 
                        if_exists="append",
                        index = False, dtype=dtypesql)

366