## 웹의 다양한 형식의 파일 다루기

## XML(Extensible Markup Language)
- 웹 표준을 제정하는 W3C에서 개발된, 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어
- XML은 주로 다른 종류의 시스템, 특히 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 하여
    - HTML의 한계를 극복할 목적으로 만들어졌다.
- 데이터를 계층구조로 표현할 수 있다는 것이 특징
- <요소 속성=“속성값“>내용</요소>

### 파이썬으로 XML 분석하기 – 날씨 분류하기

### 1) 기상청 날씨 가져오기 - XML 형식 파일 
- BeautifulSoup 사용시 주의사항
    - "html.parser"는 HTML을 분석하기 위한 목적으로 만들어져서
    - XML 데이타의 태그가 대문자라고 해도 소문자로 모두 변환되어짐
    - 그러므로, XML 요소로 접근할 때는 반드시 태그 이름을 소문자로 사용해야 함

In [1]:
from bs4 import BeautifulSoup 
import urllib.request as request
import os.path

# 기상청의 날씨 데이타 가져오기
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108"
savename = "forecast.xml"

# try except로 해도되긴 하는데.. 이게 더 편하
if not os.path.exists(savename):
    request.urlretrieve(url, savename)
    
# BeautifulSoup로 분석하기 
xml = open(savename, "r", encoding="utf-8").read()
soup = BeautifulSoup(xml, 'html.parser')
soup

</reliability>
<rnst>10</rnst>
</data>
<data>
<mode>A01</mode>
<tmef>2021-03-23 00:00</tmef>
<wf>맑음</wf>
<tmn>1</tmn>
<tmx>15</tmx>
<reliability></reliability>
<rnst>10</rnst>
</data>
</location>
<location wl_ver="3">
<province>부산ㆍ울산ㆍ경상남도</province>
<city>거창</city>
<data>
<mode>A02</mode>
<tmef>2021-03-16 00:00</tmef>
<wf>구름많음</wf>
<tmn>7</tmn>
<tmx>18</tmx>
<reliability></reliability>
<rnst>20</rnst>
</data>
<data>
<mode>A02</mode>
<tmef>2021-03-16 12:00</tmef>
<wf>맑음</wf>
<tmn>7</tmn>
<tmx>18</tmx>
<reliability></reliability>
<rnst>0</rnst>
</data>
<data>
<mode>A02</mode>
<tmef>2021-03-17 00:00</tmef>
<wf>맑음</wf>
<tmn>0</tmn>
<tmx>19</tmx>
<reliability></reliability>
<rnst>0</rnst>
</data>
<data>
<mode>A02</mode>
<tmef>2021-03-17 12:00</tmef>
<wf>구름많음</wf>
<tmn>0</tmn>
<tmx>19</tmx>
<reliability></reliability>
<rnst>30</rnst>
</data>
<data>
<mode>A02</mode>
<tmef>2021-03-18 00:00</tmef>
<wf>흐리고 비</wf>
<tmn>5</tmn>
<tmx>15</tmx>
<reliability></reliability>
<rnst>60</rnst>
</data>
<dat

### 2) find_all(), find() 메서드를 활용하여 원하는 요소로 접근

In [2]:
# 각 지역 확인하기 
info = {}

for location in soup.find_all("location"):
    city = location.find('city').string
    weather = location.find('wf').string
    if not (weather in info):
        info[weather] = []
    info[weather].append(city)

info

{'구름많고 비': ['서울',
  '인천',
  '수원',
  '파주',
  '이천',
  '평택',
  '춘천',
  '원주',
  '대전',
  '세종',
  '홍성',
  '청주',
  '충주',
  '영동',
  '광주',
  '목포',
  '여수',
  '순천',
  '광양',
  '나주',
  '전주',
  '군산',
  '정읍',
  '남원',
  '고창',
  '무주'],
 '맑음': ['강릉'],
 '구름많음': ['부산',
  '울산',
  '창원',
  '진주',
  '거창',
  '통영',
  '대구',
  '안동',
  '포항',
  '경주',
  '울진',
  '울릉도'],
 '흐리고 비': ['제주', '서귀포']}

### 3) 각 지역의 날씨를 구분해서 출력하기

In [3]:
# 각 지역의 날씨를 구분해서 출력하기
for weather in info.keys():
    print("+", weather)
    for city in info[weather]:
        print("| - ", city)

+ 구름많고 비
| -  서울
| -  인천
| -  수원
| -  파주
| -  이천
| -  평택
| -  춘천
| -  원주
| -  대전
| -  세종
| -  홍성
| -  청주
| -  충주
| -  영동
| -  광주
| -  목포
| -  여수
| -  순천
| -  광양
| -  나주
| -  전주
| -  군산
| -  정읍
| -  남원
| -  고창
| -  무주
+ 맑음
| -  강릉
+ 구름많음
| -  부산
| -  울산
| -  창원
| -  진주
| -  거창
| -  통영
| -  대구
| -  안동
| -  포항
| -  경주
| -  울진
| -  울릉도
+ 흐리고 비
| -  제주
| -  서귀포


## JSON((JavaScript Object Notation)
- 구조가 단순하다는 것이 장점
- 많은 프로그래밍 언어에서 인코딩/디코딩 표준으로 JSON을 제공
- 파이썬 모듈에도 json이 포함되어 있음
- 많은 웹 API들이 JSON 형식으로 데이터를 제공

### 1) JSON 데이타를 웹 API에서 내려받기
- json 모듈의 load() 함수를 사용해 JSON 문자열을 읽는다.

In [4]:
import urllib.request as request
import os.path, random
import json

# JSON 데이터 내려받기 
url = "https://api.github.com/repositories"
savename = "repo.json"

if not os.path.exists(savename):
    request.urlretrieve(url, savename)
    
# JSON 파일 분석하기 
items = json.load(open(savename, "r", encoding="utf-8"))
items

able/deployments'},
 {'id': 365,
  'node_id': 'MDEwOlJlcG9zaXRvcnkzNjU=',
  'name': 'acts_as_money',
  'full_name': 'collectiveidea/acts_as_money',
  'private': False,
  'owner': {'login': 'collectiveidea',
   'id': 128,
   'node_id': 'MDEyOk9yZ2FuaXphdGlvbjEyOA==',
   'avatar_url': 'https://avatars.githubusercontent.com/u/128?v=4',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/collectiveidea',
   'html_url': 'https://github.com/collectiveidea',
   'followers_url': 'https://api.github.com/users/collectiveidea/followers',
   'following_url': 'https://api.github.com/users/collectiveidea/following{/other_user}',
   'gists_url': 'https://api.github.com/users/collectiveidea/gists{/gist_id}',
   'starred_url': 'https://api.github.com/users/collectiveidea/starred{/owner}{/repo}',
   'subscriptions_url': 'https://api.github.com/users/collectiveidea/subscriptions',
   'organizations_url': 'https://api.github.com/users/collectiveidea/orgs',
   'repos_url': 'https://api.github.com

In [5]:
# 또는
# s = open(savename, "r", encoding="utf-8").read()
# items = json.loads(s)

### 2) JSON 문자열 출력하기

In [6]:
# item["owner"]["login"]

for item in items:
    print(item["name"] + " - " + item["owner"]["login"])

grit - mojombo
merb-core - wycats
rubinius - rubinius
god - mojombo
jsawesome - vanpelt
jspec - wycats
exception_logger - defunkt
ambition - defunkt
restful-authentication - technoweenie
attachment_fu - technoweenie
microsis - caged
s3 - anotherjesse
taboo - anotherjesse
foxtracs - anotherjesse
fotomatic - anotherjesse
glowstick - mojombo
starling - defunkt
merb-more - wycats
thin - macournoyer
resource_controller - jamesgolick
markaby - jamesgolick
enum_field - jamesgolick
subtlety - defunkt
zippy - defunkt
cache_fu - defunkt
phosphor - KirinDave
sinatra - bmizerany
gsa-prototype - jnewland
duplikate - technoweenie
lazy_record - jnewland
gsa-feeds - jnewland
votigoto - jnewland
mofo - defunkt
xhtmlize - jnewland
ruby-git - ruby-git
bmhsearch - ezmobius
mofo - uggedal
simply_versioned - mmower
gchart - abhay
schemr - benburkert
calais - abhay
chronic - mojombo
git-wiki - sr
signal-wiki - queso
ruby-on-rails-tmbundle - drnic
low-pro-for-jquery - danwrong
merb-core - wayneeseguin
dst - s

## JSON 형식으로 출력하기
- 파이썬에서 생성한 데이타를 JSON 형식으로 출력하는 기능의 함수 : json.dumps()

In [7]:
import json
price = {
    "date": "2021-03-15",
    "price": {
        "Apple": 80,
        "Oranage": 55,
        "Banana": 40
    }}
s = json.dumps(price)
print(s)

{"date": "2021-03-15", "price": {"Apple": 80, "Oranage": 55, "Banana": 40}}


## CSV/TSV 파일 다루기

### CSV 파일을 분석해서 상품 이름과 가격을 출력하는 프로그램

In [14]:
import codecs

# EUC_KR로 저장된 CSV 파일 읽기
filename = "list-euckr.csv"
csv = codecs.open(filename, "r", "euc_kr").read()

# CSV을 파이썬 리스트로 변환하기
data = []
rows = csv.split("\r\n")
for row in rows:
    if row == "": continue
    cells = row.split(",")
    data.append(cells)
    
# 결과 출력하기
for c in data:
    print(c[1], c[2])

이름 가격
비누 300
장갑 150
마스크 230


### 파이썬 csv 모듈 사용하여 파일 읽기

In [15]:
import csv, codecs

# CSV 파일 열기
filename = "list-euckr.csv"
fp = codecs.open(filename, "r", "euc_kr")

# 한 줄씩 읽어 들이기
reader = csv.reader(fp, delimiter=",", quotechar='"')

for cells in reader:
    print(cells[1], cells[2])

이름 가격
비누 300
장갑 150
마스크 230


### 파이썬 csv 모듈 사용하여 파일 쓰기

In [16]:
import csv, codecs

with codecs.open("test.csv", "w", "euc_kr ") as fp:
    writer = csv.writer(fp, delimiter=",", quotechar='"')
    writer.writerow(["ID", "이름", "가격"])
    writer.writerow(["1000", "SD 카드 ", 30000])
    writer.writerow(["1001", "키보드", 21000])
    writer.writerow(["1002", "마우스", 15000])

## 파이썬으로 데이타베이스 연동하기 : MySQL
- MySQL 클라이언트 라이브러리 사용하거나 PyMySQL  모듈 사용
- PyMySQL  모듈
    - 고수준 API 제공
    - MySQL 5.5, Maria DB 5.5 이상 지원

### PyMySQL  모듈 불러오기

In [None]:
#!pip install pymysql

In [18]:
import pymysql

### 1) 데이타베이스 연결하기
- pymysql.connect() 함수 이용
- host - 데이타베이스 서버가 존재하는 호스트 주소
- user - 데이타베이스 로그인 유저
- passwd - 데이타베이스 로그인 패스워드
- db - 데이타베이스명
- charset - 데이타베이스에서 사용할 charset 인코딩

In [19]:
# 데이타베이스 연결
db = pymysql.connect(
    host='127.0.0.1',
    user='testuser',
    passwd='secret',
    db='testdb',
    charset='utf8'
)

OperationalError: (2003, "Can't connect to MySQL server on '127.0.0.1' ([WinError 10061] 대상 컴퓨터에서 연결을 거부했으므로 연결하지 못했습니다)")

### 2) 데이타베이스 종료

In [20]:
db.close()

NameError: name 'db' is not defined

### 3) DB 호스트 연결 및 닫기 

In [27]:
import pymysql

db = None
try:
    # DB 호스트 정보에 맞게 입력해주세요
    db = pymysql.connect(
        host='localhost:3306',
        user='testuser',
        passwd='secret',
        db='testdb',
        charset='utf8'
    )
    print("DB 연결 성공")


except Exception as e:
    print(e)

finally:
    if db is not None:
        db.close()
        print("DB 연결 닫기 성공")

(2003, "Can't connect to MySQL server on 'localhost:3306' ([Errno 11001] getaddrinfo failed)")
