In [2]:
"""
把網頁抓下來，存到檔案裡面
"""

import requests

url = 'https://right-pet.cc/hospital.php?city=74'

resp = requests.get(url)

with open('/tmp/taipei_hospitals.html', 'w') as f:
    f.write(resp.text)

In [3]:
"""
把檔案讀出來
"""

with open('/tmp/taipei_hospitals.html') as f:
    html = f.read()

In [28]:
from bs4 import BeautifulSoup

In [29]:
soup = BeautifulSoup(html, 'lxml')

In [171]:
import re

def parse_hospital(hospital):
    """
        args:
            hospital<Tag>: hospital的beautifulsoup Tag object
        return:
            hospotal_dict<dict>: 整理過後的dict
    """
    hospital_dict = {}
    
    """
    使用regex擷取出hospital id與data
    """
    data_list = re.findall('<a href="hospital_detail.php\?hospitalSN=(\d+?)">(.+?)</a>', str(hospital))
    
    """
    使用regex擷取出經緯度
    """
    lat_lng = re.findall('''<a onclick="setMapToHospital\(1001, \'(.+?)\', \' (.+?)\'\)" title="查看地圖">''', str(hospital))
    
    hospital_dict['id']   = int(data_list[0][0])
    
    if lat_lng:
        hospital_dict['lng']  = lat_lng[0][1]
        hospital_dict['lat']  = lat_lng[0][0]
    else:
        hospital_dict['lng']  = ''
        hospital_dict['lat']  = ''
    hospital_dict['name'] = data_list[0][1]
    hospital_dict['area'] = data_list[1][1]
    hospital_dict['address'] = data_list[2][1]
    hospital_dict['tel'] = data_list[3][1]
    
    """
    Regex取出日期
    """
    hospital_dict['last_updated_at'] = re.findall('''\d\d\d\d-\d\d-\d\d''', data_list[4][1])[0]
    return hospital_dict

In [172]:
parse_hospital(soup.select('div#hospital_list_block')[0])

{'address': '新生南路1段144-1號1樓',
 'area': '台北市中正區',
 'id': 1001,
 'last_updated_at': '2012-10-16',
 'lat': '25.03569',
 'lng': '121.53247399999998',
 'name': '瀚生動物醫院',
 'tel': '02-23581765'}

In [173]:
hospitals = soup.select('div#hospital_list_block')

hospital_list = []
for hospital in hospitals:
    hospital_list.append(parse_hospital(hospital))

In [174]:
hospital_list[:5]

[{'address': '新生南路1段144-1號1樓',
  'area': '台北市中正區',
  'id': 1001,
  'last_updated_at': '2012-10-16',
  'lat': '25.03569',
  'lng': '121.53247399999998',
  'name': '瀚生動物醫院',
  'tel': '02-23581765'},
 {'address': '杭州南路 2 段 92 號 1 樓',
  'area': '台北市中正區',
  'id': 1000,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '博愛動物醫院',
  'tel': '(02)3393-8850'},
 {'address': '羅斯福路 2 段 138 號 1 樓',
  'area': '台北市中正區',
  'id': 999,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '古亭動物醫院',
  'tel': '(02)2369-3373 '},
 {'address': '忠孝東路 2 段 74 號 1 樓',
  'area': '台北市中正區',
  'id': 998,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '台灣動物醫院',
  'tel': '(02)2341-2128 '},
 {'address': '重慶南路 3 段 60~4 號 2 樓',
  'area': '台北市中正區',
  'id': 997,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '中正犬貓醫院',
  'tel': '(02)2305-4880 '}]

In [175]:
import pandas as pd

In [176]:
df = pd.DataFrame(hospital_list)

In [177]:
def format_tel(tel_str):
    if not tel_str.startswith('('):
        raw_tel = tel_str.replace('-','')
        new_tel_str = "({}){}-{}".format(raw_tel[0:2], raw_tel[2:6], raw_tel[6:])
        return new_tel_str
    else:
        return tel_str

In [178]:
format_tel('02-23581765')

'(02)2358-1765'

In [179]:
df['tel'] = df['tel'].apply(format_tel)

In [180]:
df.head()

Unnamed: 0,address,area,id,last_updated_at,lat,lng,name,tel
0,新生南路1段144-1號1樓,台北市中正區,1001,2012-10-16,25.03569,121.53247399999998,瀚生動物醫院,(02)2358-1765
1,杭州南路 2 段 92 號 1 樓,台北市中正區,1000,2012-10-16,,,博愛動物醫院,(02)3393-8850
2,羅斯福路 2 段 138 號 1 樓,台北市中正區,999,2012-10-16,,,古亭動物醫院,(02)2369-3373
3,忠孝東路 2 段 74 號 1 樓,台北市中正區,998,2012-10-16,,,台灣動物醫院,(02)2341-2128
4,重慶南路 3 段 60~4 號 2 樓,台北市中正區,997,2012-10-16,,,中正犬貓醫院,(02)2305-4880


In [231]:
df.to_csv('rightpet.csv')

In [233]:
# Read large csv file line-by-line
# Saves memory!!!

with open('./rightpet.csv') as f:
    for line in f:
        print(line)

,address,area,id,last_updated_at,lat,lng,name,tel

0,新生南路1段144-1號1樓,台北市中正區,1001,2012-10-16,25.03569,121.53247399999998,瀚生動物醫院,(02)2358-1765

1,杭州南路 2 段 92 號 1 樓,台北市中正區,1000,2012-10-16,,,博愛動物醫院,(02)3393-8850

2,羅斯福路 2 段 138 號 1 樓,台北市中正區,999,2012-10-16,,,古亭動物醫院,(02)2369-3373 

3,忠孝東路 2 段 74 號 1 樓,台北市中正區,998,2012-10-16,,,台灣動物醫院,(02)2341-2128 

4,重慶南路 3 段 60~4 號 2 樓,台北市中正區,997,2012-10-16,,,中正犬貓醫院,(02)2305-4880 

5,羅斯福路三段38號1樓,台北市中正區,50,2012-10-16,,,佑昇動物醫院,(02)2365-6729

6,羅斯福路二段7-4號1樓,台北市中正區,49,2012-10-16,,,恩旺動物醫院,(02)2394-7349

7,金山南路一段92號1樓,台北市中正區,47,2012-10-16,,,恩孺動物診所,(02)2394-2821

8,和平西路一段156號1樓,台北市中正區,46,2012-10-16,,,漢民動物醫院,(02)2307-4801

9,汀州路二段125號1樓,台北市中正區,45,2012-10-16,,,寶寶新動物醫院,(02)2367-7624

10,羅斯福路3段316巷9弄1號1樓,台北市中正區,44,2012-10-16,,,全國動物醫院－公館分院,(02)2365-8196

11,寧波西街88號1樓,台北市中正區,43,2012-10-16,,,康廷動物醫院,(02)2392-8187

12,重慶南路三段50號1樓,台北市中正區,42,2012-10-16,,,來旺動物醫院,(02)2305-1120

13,青島東路33-2號1樓,台北市中正區,39,2012-10-16,,,金旺動物醫院,(02)2321-2580

14,民族西路228號,台北市大同區,1659,2012-10-16,,,皇家動物醫

# 儲存資料到MySQL

把裡面的兩個指令貼到terminal

https://get.docker.com


```
docker run --rm --name some-mysql -p 3306:3306 -v $(pwd)/docker_mysql:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=pythonetl mysql:5.7
```

In [181]:
!pip install sqlalchemy

[33mYou are using pip version 9.0.1, however version 10.0.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [182]:
import sqlalchemy

In [227]:
# connection string
# mysql+pymysql://<username>:<password>@<host>:<port>/<database>?charset=utf8mb4

conn = sqlalchemy.create_engine("mysql+pymysql://root:pythonetl@localhost:3306/rightpet?charset=utf8mb4")

In [228]:
df.to_sql('rightpet', conn, if_exists='replace')

# Python ORM

In [229]:
!pip install peewee

[33mYou are using pip version 9.0.1, however version 10.0.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


先用這個command自動產生ORM的Class

```
python -m pwiz -H localhost -u root -P pythonetl -e mysql rightpet > ./rightpet.py
```

In [234]:
# import剛才產生的檔案

import rightpet

In [235]:
# query一個Rightpet object回來
pet = rightpet.Rightpet.get()

In [211]:
# 用attributes存取object內的資料
pet.address

'新生南路1段144-1號1樓'

In [237]:
# query多筆資料時，peewee會return一個cursor，
# for loop這個cursor，來一行一行的處理資料，節省記憶體
for row in rightpet.Rightpet.select().execute():
    print(row)

<rightpet.Rightpet object at 0x10c79efd0>
<rightpet.Rightpet object at 0x108c0fb38>
<rightpet.Rightpet object at 0x108c0fd68>
<rightpet.Rightpet object at 0x10b95ab70>
<rightpet.Rightpet object at 0x10caa7978>
<rightpet.Rightpet object at 0x10ca9a1d0>
<rightpet.Rightpet object at 0x10d253438>
<rightpet.Rightpet object at 0x10d253358>
<rightpet.Rightpet object at 0x10d2531d0>
<rightpet.Rightpet object at 0x10c88dd68>
<rightpet.Rightpet object at 0x10c88dd30>
<rightpet.Rightpet object at 0x10c88d978>
<rightpet.Rightpet object at 0x10c88d828>
<rightpet.Rightpet object at 0x10c88dcc0>
<rightpet.Rightpet object at 0x10c88dbe0>
<rightpet.Rightpet object at 0x10c88dc18>
<rightpet.Rightpet object at 0x10c88d9b0>
<rightpet.Rightpet object at 0x10c88de10>
<rightpet.Rightpet object at 0x10c88d240>
<rightpet.Rightpet object at 0x10c88dda0>
<rightpet.Rightpet object at 0x10c88d748>
<rightpet.Rightpet object at 0x10c88d7b8>
<rightpet.Rightpet object at 0x10c88d630>
<rightpet.Rightpet object at 0x10c

In [239]:
# Insert資料到資料庫

row_data = {'address': '新生南路1段144-1號1樓',
  'area': '台北市中正區',
  'id': 99999,
  'last_updated_at': '2012-10-16',
  'lat': '25.03569',
  'lng': '121.53247399999998',
  'name': '瀚生動物醫院',
  'tel': '02-23581765'}

# create可以insert 單筆資料
rightpet.Rightpet.create(**row_data)

<rightpet.Rightpet at 0x10c7b1080>

In [213]:
def sub(x,y):
    return x - y

In [216]:
# * -> unpack list to positional args
x_and_y = [1,2]

sub(*x_and_y) # sub(1,2)

-1

In [240]:
# ** -> unpack dictionary to keyword args
x_and_y_dict = {
    'x': 1,
    'y': 2
}

sub(**x_and_y_dict) # sub(x=1, y=2)

-1

In [241]:
# 一次insert多筆資料
# 使用insert_many(<list>).execute()

bulk_data = [{'address': '新生南路1段144-1號1樓',
  'area': '台北市中正區',
  'id': 991001,
  'last_updated_at': '2012-10-16',
  'lat': '25.03569',
  'lng': '121.53247399999998',
  'name': '瀚生動物醫院',
  'tel': '02-23581765'},
 {'address': '杭州南路 2 段 92 號 1 樓',
  'area': '台北市中正區',
  'id': 991000,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '博愛動物醫院',
  'tel': '(02)3393-8850'}]

rightpet.Rightpet.insert_many(bulk_data).execute()

0

In [242]:
# Select query with a where clause
cur = rightpet.Rightpet.select().where(rightpet.Rightpet.area == '台北市中正區')

In [244]:
# 將peewee model轉換為dictioanry，
# model_to_dict(<peewee Model object>)
from playhouse.shortcuts import model_to_dict

[model_to_dict(row) for row in cur]

[{'address': '新生南路1段144-1號1樓',
  'area': '台北市中正區',
  'id': 1001,
  'index': 0,
  'last_updated_at': '2012-10-16',
  'lat': '25.03569',
  'lng': '121.53247399999998',
  'name': '瀚生動物醫院',
  'tel': '(02)2358-1765'},
 {'address': '杭州南路 2 段 92 號 1 樓',
  'area': '台北市中正區',
  'id': 1000,
  'index': 1,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '博愛動物醫院',
  'tel': '(02)3393-8850'},
 {'address': '羅斯福路 2 段 138 號 1 樓',
  'area': '台北市中正區',
  'id': 999,
  'index': 2,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '古亭動物醫院',
  'tel': '(02)2369-3373 '},
 {'address': '忠孝東路 2 段 74 號 1 樓',
  'area': '台北市中正區',
  'id': 998,
  'index': 3,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '台灣動物醫院',
  'tel': '(02)2341-2128 '},
 {'address': '重慶南路 3 段 60~4 號 2 樓',
  'area': '台北市中正區',
  'id': 997,
  'index': 4,
  'last_updated_at': '2012-10-16',
  'lat': '',
  'lng': '',
  'name': '中正犬貓醫院',
  'tel': '(02)2305-4880 '},
 {'address': '羅斯福路三段38號1