# HW:請自選網站，透過爬蟲城市，將91app資料，新增一項以上的外部欄位
寫一支591租屋網的爬蟲，以比較不同區域的租屋數量與91app資料的關係
* 租屋可能以年輕族群居多，租屋多的地方或許購買力較高!?
* 租屋族可能比較容易沒有管理室，或許送貨到便利商店的比例較高!?

In [1]:
import requests
import json
import pandas as pd

# 591租屋網爬蟲

## 觀察的結果：
* 591資料是json格式，存放的位置在"https://rent.591.com.tw/home/search/rsListis_new_list=1&type=1&kind=0&searchtype=1&firstRow=1"
* 若要更換查詢的地區(如：台北市、新北市、桃園市)並非由url控制，而是須更換cookie之中的"urlJumpIP"
* 591上的資料每一頁會有30筆租屋資訊，可以藉由遞增url中的"firstRow"來獲取資料
* 若要獲得每一地區的總共的租屋筆數，則可從網頁原始碼中的records獲得

## 實作的邏輯：
* 最外層先用地區的迴圈(台北市→基隆市→新北市.....)
* 內層在用某地區租屋資料筆數的迴圈
* 最後再寫入CSV存檔，就可以獲得當天591租屋網上全台灣的租屋資訊

In [None]:
headers = {"User-Agent": "Mozilla/52.0.2 Chrome/57.0.2987.133 Safari/11602.4.8.0.1"}
original_data =[]
count=0
for city in range(1,26):
    if city not in (9,16,18,20): #移除重複的"台北市"資料
        cookie = {'urlJumpIp':str(city)} #地區的選擇是由cookie控制
        records_req= requests.get("https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1", headers=headers,cookies=cookie)
        records = int(json.loads(records_req.text)['records'].replace(",",'')) #移除千分位逗號
        for n in range(0,records,30):
            url = "https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&firstRow="+str(n)
            res = requests.get(url, headers=headers,cookies=cookie)
            original_data += json.loads(res.text)['data']['data']
    data591 = pd.DataFrame(original_data)
    data591.to_csv("591_data.csv_1",encoding = "utf-8-sig")

# 591租屋資料
* 目前只爬了一天的資料可能還不夠具有代表性
* 爬下來的資訊很多，大部分目前還用不太到，或許未來能有其他的利用

In [3]:
#資料讀取
data591 = pd.read_csv("591_data.csv",encoding = "utf-8-sig")

In [4]:
#資料型態
data591.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49022 entries, 0 to 49021
Data columns (total 89 columns):
Unnamed: 0                49022 non-null int64
addInfo                   6952 non-null object
addition2                 49022 non-null int64
addition3                 49022 non-null int64
addition4                 49022 non-null int64
addr_number_name          13723 non-null object
address                   49022 non-null object
address_img               49022 non-null object
address_img_title         49022 non-null object
alley_name                16443 non-null object
allfloor                  49022 non-null int64
area                      49022 non-null float64
balcony_area              0 non-null float64
browsenum                 49022 non-null int64
browsenum_all             49022 non-null int64
browsenum_name            49022 non-null object
cartplace                 0 non-null float64
cases_id                  35478 non-null float64
cases_name                22255 non-nul

In [5]:
#資料概覽
data591.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
addInfo,,,
addition2,0,0,0
addition3,0,0,0
addition4,1,1,1
addr_number_name,,14號,306號
address,紹興北街31巷國際交..,德行東路74巷自租雅房房生..,忠孝東路四段僑安地下停車..
address_img,國際交流ShareHouse-善導寺1,自租雅房房生活機能佳環境安靜交通便利,僑安地下停車場近仁愛路、忠孝東路
address_img_title,國際交流ShareHouse-善導寺1,自租雅房房生活機能佳環境安靜交通便利,僑安地下停車場近仁愛路、忠孝東路
alley_name,31巷,74巷,


# 91APP資料

In [6]:
#資料讀取
Orders = pd.read_csv('datasets/Orders.csv', low_memory=False)

In [7]:
#資料清洗(去除City之中有無法識別的城市資料及地區為空值的資料)
Orders.City.unique()

array(['嘉義縣', '桃園市', '台南市', '新北市', '新竹市', '台北市', '苗栗縣', '台中市', '高雄市',
       '彰化縣', '屏東縣', '新竹縣', '宜蘭縣', '花蓮縣', '雲林縣', '台東縣', '基隆市', '南投縣',
       '嘉義市', '台東市', '澎湖縣', '屏東市', 'New', '<fo', 'Kao', 'Kot', 'Tao',
       'Hy ', nan, '25 ', 'Keb', '1st', 'Tai', 'Ins', '桃園縣', 'Đại', 'Cha',
       'Xin', 'Quậ', 'Nan', 'No.', 'Hsi', 'Daf', 'Aya', 'Jia'], dtype=object)

In [8]:
drop = ['New','<fo', 'Kao', 'Kot', 'Tao','Hy ', '25 ', 'Keb', '1st', 'Tai', 'Ins', 'New', '<fo', 'Kao', 'Kot', 'Tao','Hy ','25 ', 'Keb', '1st', 'Tai', 'Ins',]
Orders = Orders[(-Orders["City"].isin(drop)) & (Orders.City.notnull()) & (Orders.District.notnull())]

# 資料合併

In [10]:
dataByCity = {}
dataByCity["Rent"] = {}
dataByCity["91app"] = {}
dataByCity["91app_store"] = {}
for city in data591.regionname.unique():
    dict591 = dict(data591[data591.regionname == city].section_name.value_counts())
    dict91app =  dict(Orders[Orders.City == city].District.value_counts())
    dict91appStore = dict(Orders[(Orders.City == city)&(Orders.DeliverTypeDef !='Home')].District.value_counts())
    for d1 in dict591:
        dataByCity["Rent"][(city,d1)] = dict591[d1]
    for d2 in dict91app:
        dataByCity["91app"][(city,d2)] = dict91app[d2]
    for d3 in dict91appStore:
        dataByCity["91app_store"][(city,d3)] = dict91appStore[d3]

In [11]:
df = pd.DataFrame(dataByCity)
df

Unnamed: 0,Unnamed: 1,Rent,91app,91app_store
南投縣,中寮鄉,1.0,375.0,311.0
南投縣,仁愛鄉,1.0,1394.0,1193.0
南投縣,信義鄉,,766.0,725.0
南投縣,南投市,61.0,12781.0,11736.0
南投縣,名間鄉,4.0,2099.0,1865.0
南投縣,國姓鄉,2.0,783.0,724.0
南投縣,埔里鎮,35.0,12960.0,12191.0
南投縣,水里鄉,,1397.0,1257.0
南投縣,竹山鎮,7.0,5240.0,4739.0
南投縣,草屯鎮,62.0,12508.0,11337.0
