In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family']='Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus']=False

# 데이터 수집.
from bs4 import BeautifulSoup
import urllib.request as REQ

#### Pandas의 옵션(Option)을 설정하는 방법
- pd.set_option()


| 설정 | 기본값 | 정보 |
|-----|----|------|
| `display.max_rows` | 60 | Out으로 출력하는 최대 행의 개수 |
| `display.max_columns` | 0 or 20 |Out으로 출력하는 최대 열의 개수 |
| `display.max_colwidth` | 50 | 한 열의 너비 |
| `display.expand_frame_repr` | True | 데이터 프레임 열의 출력 방식.(단일행(False) vs 개행(True)) |
| `display.precision` | 6 | 소수점 이하 출력의 개수 |
| `display.colheader_justify` | right | 칼럼 정렬 위치 |


#### 중앙일보 전체기사 xml

In [2]:
jurl ='https://rss.joins.com/joins_news_list.xml'

# urllib.request : 모듈은 복잡한 세계에서 URL(대부분 HTTP)을 여는 데 도움이 되는 함수와 클래스를 정의.
response = REQ.urlopen(jurl)

# BeautifulSoup : html 코드를 Python이 이해하는 객체 구조로 변환하는 Parsing을 맡아줌.
soup = BeautifulSoup( response, 'html.parser') 

In [3]:
# soup.select('selector')
for item in soup.select('item'):
    print( "기사 제목 :", item.title.string)
    print( "기사 내용 :", item.description.string)
    print("-"*133)

기사 제목 : "여자는 軍 안가서···" 면접후기에 '생리대왕' 동아제약 발칵 
기사 내용 : 해당 영상 댓글에 한 네티즌이 "지난해 동아제약 채용 과정에서 차별을 당했다"는 취지의 글을 올렸고, 뒤이어 비슷한 후기가 이어지며 채용 성차별 논란이 일었다. 동아제약 측은 해당 영상에 최 사장 명의의 댓글을 통해 "지난해 신입사원 채용 1차 실무면접과정에서 면접관 중 한명이 지원자에게 면접 매뉴얼을 벗어난 
-------------------------------------------------------------------------------------------------------------------------------------
기사 제목 : '평창 쇼트트랙 金' 임효준, 중국 귀화..."운동할 방법만 고민"
기사 내용 : 평창 올림픽 남자 쇼트트랙 금메달리스트 임효준(25)이 중국에 귀화했다. 임효준의 에이전시 브리온컴퍼니는 6일 입장문을 통해 "임효준이 중국 귀화를 결정했다"며 "아직 한참 선수 생활을 이어갈 시기에 그러지 못하는 어려움과 아쉬움에 기인한 바가 크다"라고 밝혔다. 임효준은 소속사를 통해 "임효준은 한국 선수로서 
-------------------------------------------------------------------------------------------------------------------------------------
기사 제목 : '평창 금메달 리스트' 쇼트트랙 임효준, 중국 귀화
기사 내용 : 평창 올림픽 남자 쇼트트랙 금메달리스트 임효준(25)이 중국에 귀화했다. 임효준은 소속사를 통해 "임효준은 한국 선수로서 태극기를 달고 베이징 올림픽에 나가 올림픽 2연패의 영광을 누리고 싶었지만 한국 어느 곳에서도 훈련조차 할 수 없었고, 빙상 선수로서 다시 스케이트화를 신고 운동할 방법만 고민했다"고 전했다
------------------------------------------------------

#### 기상청 데이터

In [4]:
kurl = 'http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109'
kresponse = REQ.urlopen(kurl)
ksoup = BeautifulSoup( kresponse, 'html.parser')

In [5]:
# 도시명 파악.
for location in ksoup.select('location'):
    print( "도시 :", location.city.string)
    print("=============")

도시 : 서울
도시 : 인천
도시 : 수원
도시 : 파주
도시 : 이천
도시 : 평택
도시 : 백령도
도시 : 과천
도시 : 광명
도시 : 강화
도시 : 김포
도시 : 시흥
도시 : 안산
도시 : 부천
도시 : 의정부
도시 : 고양
도시 : 양주
도시 : 동두천
도시 : 연천
도시 : 포천
도시 : 가평
도시 : 구리
도시 : 남양주
도시 : 양평
도시 : 하남
도시 : 안양
도시 : 오산
도시 : 화성
도시 : 성남
도시 : 의왕
도시 : 군포
도시 : 안성
도시 : 용인
도시 : 광주
도시 : 여주


In [6]:
# 다른 세부 정보 파악.
for location in ksoup.select('location'):
    print(location.city.string )
    print( "="*25 )
    for data in location.select('data'):    
        print( "날짜 :", data.tmef.string)
        print( "날씨 :", data.wf.string  )
        print( "최저 :", data.tmn.string )
        print( "최고 :", data.tmx.string )
        print( "-"*25 )

서울
날짜 : 2021-03-09 00:00
날씨 : 구름많음
최저 : 3
최고 : 12
-------------------------
날짜 : 2021-03-09 12:00
날씨 : 맑음
최저 : 3
최고 : 12
-------------------------
날짜 : 2021-03-10 00:00
날씨 : 맑음
최저 : 3
최고 : 14
-------------------------
날짜 : 2021-03-10 12:00
날씨 : 맑음
최저 : 3
최고 : 14
-------------------------
날짜 : 2021-03-11 00:00
날씨 : 구름많음
최저 : 4
최고 : 12
-------------------------
날짜 : 2021-03-11 12:00
날씨 : 흐림
최저 : 4
최고 : 12
-------------------------
날짜 : 2021-03-12 00:00
날씨 : 흐림
최저 : 4
최고 : 14
-------------------------
날짜 : 2021-03-12 12:00
날씨 : 맑음
최저 : 4
최고 : 14
-------------------------
날짜 : 2021-03-13 00:00
날씨 : 맑음
최저 : 3
최고 : 13
-------------------------
날짜 : 2021-03-13 12:00
날씨 : 맑음
최저 : 3
최고 : 13
-------------------------
날짜 : 2021-03-14 00:00
날씨 : 맑음
최저 : 4
최고 : 14
-------------------------
날짜 : 2021-03-15 00:00
날씨 : 구름많음
최저 : 4
최고 : 15
-------------------------
날짜 : 2021-03-16 00:00
날씨 : 구름많음
최저 : 6
최고 : 15
-------------------------
인천
날짜 : 2021-03-09 00:00
날씨 : 구름많음
최저 : 3
최고 : 10
----------------

최고 : 13
-------------------------
날짜 : 2021-03-12 12:00
날씨 : 맑음
최저 : 2
최고 : 13
-------------------------
날짜 : 2021-03-13 00:00
날씨 : 맑음
최저 : -1
최고 : 14
-------------------------
날짜 : 2021-03-13 12:00
날씨 : 맑음
최저 : -1
최고 : 14
-------------------------
날짜 : 2021-03-14 00:00
날씨 : 맑음
최저 : 1
최고 : 14
-------------------------
날짜 : 2021-03-15 00:00
날씨 : 구름많음
최저 : 2
최고 : 14
-------------------------
날짜 : 2021-03-16 00:00
날씨 : 구름많음
최저 : 3
최고 : 13
-------------------------
포천
날짜 : 2021-03-09 00:00
날씨 : 구름많음
최저 : -2
최고 : 13
-------------------------
날짜 : 2021-03-09 12:00
날씨 : 맑음
최저 : -2
최고 : 13
-------------------------
날짜 : 2021-03-10 00:00
날씨 : 맑음
최저 : -2
최고 : 16
-------------------------
날짜 : 2021-03-10 12:00
날씨 : 맑음
최저 : -2
최고 : 16
-------------------------
날짜 : 2021-03-11 00:00
날씨 : 구름많음
최저 : 1
최고 : 13
-------------------------
날짜 : 2021-03-11 12:00
날씨 : 흐림
최저 : 1
최고 : 13
-------------------------
날짜 : 2021-03-12 00:00
날씨 : 흐림
최저 : 2
최고 : 14
-------------------------
날짜 : 2021-03-12 12:00
날씨 :

In [7]:
# 담을 리스트 만들기.
kList = []

for location in ksoup.select('location'):
#     print(location.city.string )
#     print( "="*25 )
    for data in location.select('data'):
        kList.append({'도시': location.city.string,
                      '날짜': data.tmef.string,
                      "날씨": data.wf.string,
                      "최저": int(data.tmn.string),
                      "최고": int(data.tmx.string) } )
#         print( "날짜:", data.tmef.string)
#         print( "날씨:", data.wf.string  )
#         print( "최저:", data.tmn.string )
#         print( "최고:", data.tmx.string )
#         print( "-"*25 )
kList

[{'도시': '서울', '날짜': '2021-03-09 00:00', '날씨': '구름많음', '최저': 3, '최고': 12},
 {'도시': '서울', '날짜': '2021-03-09 12:00', '날씨': '맑음', '최저': 3, '최고': 12},
 {'도시': '서울', '날짜': '2021-03-10 00:00', '날씨': '맑음', '최저': 3, '최고': 14},
 {'도시': '서울', '날짜': '2021-03-10 12:00', '날씨': '맑음', '최저': 3, '최고': 14},
 {'도시': '서울', '날짜': '2021-03-11 00:00', '날씨': '구름많음', '최저': 4, '최고': 12},
 {'도시': '서울', '날짜': '2021-03-11 12:00', '날씨': '흐림', '최저': 4, '최고': 12},
 {'도시': '서울', '날짜': '2021-03-12 00:00', '날씨': '흐림', '최저': 4, '최고': 14},
 {'도시': '서울', '날짜': '2021-03-12 12:00', '날씨': '맑음', '최저': 4, '최고': 14},
 {'도시': '서울', '날짜': '2021-03-13 00:00', '날씨': '맑음', '최저': 3, '최고': 13},
 {'도시': '서울', '날짜': '2021-03-13 12:00', '날씨': '맑음', '최저': 3, '최고': 13},
 {'도시': '서울', '날짜': '2021-03-14 00:00', '날씨': '맑음', '최저': 4, '최고': 14},
 {'도시': '서울', '날짜': '2021-03-15 00:00', '날씨': '구름많음', '최저': 4, '최고': 15},
 {'도시': '서울', '날짜': '2021-03-16 00:00', '날씨': '구름많음', '최저': 6, '최고': 15},
 {'도시': '인천', '날짜': '2021-03-09 00:00', '날씨': '구름많음', '최

In [8]:
# 담은 리스트를 데이터 프레임으로 변환.
kdf = pd.DataFrame( kList )

# 도시와 날짜를 인덱스로 설정.
# 파일을 불러온게 아니라 다른 방법의 인덱스 설정이 필요.
# set_index : 데이터 프레임을 먼저 불러온 후에, 특정 열을 인덱스로 설정할때 사용.
kdf.set_index( ['도시', '날짜'], inplace=True )

# Out으로 출력하는 최대 행의 개수를 None으로 설정.
pd.set_option("display.max_rows", None)
kdf.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,날씨,최저,최고
도시,날짜,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2021-03-09 00:00,구름많음,3,12
서울,2021-03-09 12:00,맑음,3,12
서울,2021-03-10 00:00,맑음,3,14
서울,2021-03-10 12:00,맑음,3,14
서울,2021-03-11 00:00,구름많음,4,12
