In [27]:
import os
import numpy as np
import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
from shapely.geometry import Point
import pickle
import time

# Load pickle files for apartaments DataFrame and offer_links

In [71]:
with open('apartaments_data.pkl', 'rb') as f:
    apartaments_data = pickle.load(f) 
with open('offer_links.pkl', 'rb') as f:
    offer_links = pickle.load(f)

In [72]:
df_list = []
photos_list = []
for apartament_data in apartaments_data:
    
    parsed_data, photos = collect_data_from_json(apartament_data)
    
    photos_list.append(photos)

    # Append features data to the list of DataFrames
    columns = list(parsed_data.keys())
    rows = list(parsed_data.values())
    df_list.append(pd.DataFrame([rows], columns=columns))

In [73]:
# Concatonate all DataFrames in desired way

df = pd.concat(df_list, sort=False).reset_index(drop=True)
df.head()

Unnamed: 0,Cena,Czynsz - dodatkowo,Kaucja,Powierzchnia,Liczba pokoi,Rodzaj zabudowy,Piętro,Liczba pięter,Materiał budynku,Okna,Ogrzewanie,Rok budowy,Stan wykończenia,Dostępne od,Data ogłoszenia,Adres,Lokalizacja
0,2200,1 zł,2 200 zł,45 m²,2,blok,1,6.0,cegła,drewniane,miejskie,2001.0,do zamieszkania,2018-12-01,2019-12-23 23:56:40,"Warszawa, Ursus, Skorosze, Chełmońskiego 2",POINT (52.1923861 20.8999832)
1,2600,,2 600 zł,42 m²,2,apartamentowiec,6,13.0,cegła,plastikowe,miejskie,2017.0,,,2019-12-23 23:46:01,"Warszawa, Wola, Mirów, Pereca",POINT (52.2336971 20.9940979)
2,2600,1 zł,2 600 zł,40 m²,2,blok,6,11.0,wielka płyta,plastikowe,miejskie,1970.0,do zamieszkania,2019-12-31,2019-12-23 23:31:01,"Warszawa, Wola, ul. Sienna 66",POINT (52.2308245 20.9964303)
3,2100,500 zł,2 100 zł,33 m²,2,blok,3,8.0,,,miejskie,2019.0,do zamieszkania,,2019-12-23 23:27:56,"Warszawa, Praga-Północ, ul. Markowska",POINT (52.25187321237169 21.04533585291748)
4,2400,1 zł,2 400 zł,38 m²,2,blok,2,,pustak,plastikowe,miejskie,,do zamieszkania,2019-12-31,2019-12-23 23:15:37,"Warszawa, Targówek, ul. Poborzańska 39",POINT (52.29063619316574 21.03143987940674)


In [74]:
photos_list[0][0]

'https://apollo-ireland.akamaized.net/v1/files/eyJmbiI6Ind5d3VhOHQ0ZGMwZTItQVBMIiwidyI6W3siZm4iOiJqMWozbzEzbTZiZ24xLUFQTCIsInMiOiIxNCIsInAiOiIxMCwtMTAiLCJhIjoiMCJ9XX0.AWatftNwFutPZlmSYXl5qhRcIlfQFwK9ZuqrdBPBnbU/image;s=184x138;q=80'

# Data collecting completed. Now start doing something smart

## First add `price` to `rental price` in order to get `real price`

In [75]:
# Check if value is Nan or not
def notNan(a):
    return a == a

In [76]:
def real_price(row):
    if notNan(row['Czynsz - dodatkowo']):
        return int(row['Cena']) + int(''.join(c for c in row['Czynsz - dodatkowo'] if c.isdigit()))
    else:
        return int(row['Cena'])

In [77]:
if 'Cena rzeczywista' in df:
    df = df.drop(columns = 'Cena rzeczywista')
df.insert(2, "Cena rzeczywista", df.apply(real_price, axis=1))
df.head()

Unnamed: 0,Cena,Czynsz - dodatkowo,Cena rzeczywista,Kaucja,Powierzchnia,Liczba pokoi,Rodzaj zabudowy,Piętro,Liczba pięter,Materiał budynku,Okna,Ogrzewanie,Rok budowy,Stan wykończenia,Dostępne od,Data ogłoszenia,Adres,Lokalizacja
0,2200,1 zł,2201,2 200 zł,45 m²,2,blok,1,6.0,cegła,drewniane,miejskie,2001.0,do zamieszkania,2018-12-01,2019-12-23 23:56:40,"Warszawa, Ursus, Skorosze, Chełmońskiego 2",POINT (52.1923861 20.8999832)
1,2600,,2600,2 600 zł,42 m²,2,apartamentowiec,6,13.0,cegła,plastikowe,miejskie,2017.0,,,2019-12-23 23:46:01,"Warszawa, Wola, Mirów, Pereca",POINT (52.2336971 20.9940979)
2,2600,1 zł,2601,2 600 zł,40 m²,2,blok,6,11.0,wielka płyta,plastikowe,miejskie,1970.0,do zamieszkania,2019-12-31,2019-12-23 23:31:01,"Warszawa, Wola, ul. Sienna 66",POINT (52.2308245 20.9964303)
3,2100,500 zł,2600,2 100 zł,33 m²,2,blok,3,8.0,,,miejskie,2019.0,do zamieszkania,,2019-12-23 23:27:56,"Warszawa, Praga-Północ, ul. Markowska",POINT (52.25187321237169 21.04533585291748)
4,2400,1 zł,2401,2 400 zł,38 m²,2,blok,2,,pustak,plastikowe,miejskie,,do zamieszkania,2019-12-31,2019-12-23 23:15:37,"Warszawa, Targówek, ul. Poborzańska 39",POINT (52.29063619316574 21.03143987940674)


# Import interactive maps module and geoencoding library

In [78]:
import geopandas as gpd
from geopandas.tools import geocode
import folium
from folium import Choropleth, Circle, Marker
from folium.plugins import HeatMap, MarkerCluster

In [79]:
# Function for displaying the map
def embed_map(m, file_name):
    from IPython.display import IFrame
    m.save(file_name)
    return IFrame(file_name, width='100%', height='500px')

# Load locations of metro stations from pickle

In [1]:
# Load from pickle if already encoded
if os.path.isfile("metro.pkl"):
    with open('metro.pkl', 'rb') as f:
        metro = pickle.load(f)
else:
    print("Please first run metro.ipynb file to calculate metro locations!")

NameError: name 'os' is not defined

# Plot locations of houses

In [84]:
# Create a map
m_2 = folium.Map(location=[52.2323,21.0000], tiles='cartodbpositron', zoom_start=11)

# Add points to the map
for idx, house in df.iterrows():
    if notNan(house['Lokalizacja']):
        Marker((house['Lokalizacja'].x, house['Lokalizacja'].y), popup=idx).add_to(m_2)

# Display the map
embed_map(m_2, 'm_2.html')

# Define functions for calculating distance on Earth

In [85]:
# Using geopy
import geopy.distance

def dist(a, b):
    return geopy.distance.geodesic((a.x, a.y), (b.x, b.y)).km

In [86]:
# Using geopandas
def dist_2(a, b):
    a = gpd.GeoSeries(Point(a.y, a.x), crs=({"init":"epsg:4326"})).to_crs(epsg=3310)
    b = gpd.GeoSeries(Point(b.y, b.x), crs=({"init":"epsg:4326"})).to_crs(epsg=3310)
    return a.distance(b) / 1000

# Find distance to nearest metro station for all valid houses

In [89]:
output = []

for idx, house in df.iterrows():
    if notNan(house['Lokalizacja']):
        list_ = [dist(house['Lokalizacja'], station['Lokalizacja']) for jdx, station in metro.iterrows()]
        output.append((offer_links[idx], house['Cena rzeczywista'], round(min(list_),2), metro.iloc[np.argmin(list_)]['Nazwa']))
                
# Display as an offer, sorted
for a,b,c,d in sorted(output, key=lambda tup: tup[1]):
    pass
    #print("Oferta: {}\n, cena: {} zł, {} km od stacji {}\n".format(a,b,c,d))