<h1>Model prognozujący ceny nieruchomości. Analiza rynku nieruchomości.</h1>

<h2>Problem:</h2>
<div>
    <p class="text">
Bardzo dynamicznie zmieniające się ceny nieruchomości powodują chęć zdobycia wiedzy odnośnie czynników wpływających na końcową cenę oraz trendów na rynku. Wartościowe będzie zdobycie informacji jakie cechy posiadają nieruchomości obecne na rynku i w jakich cenach ofertowych są wystawione. Określenie zbioru parametrów mieszkania do 350 000 PLN. Niezbędne będzie stworzenie modelu prognozującego cenę nieruchomości dla poszczególnych cech. Dopełnieniem modelu będzie stworzenie analizy, która może być wykorzystany przez firmy zajmujące się pośrednictwem nieruchomości a także przez osoby prywatne interesujące się zakupem mieszania na cele mieszkaniowe jak i inwestycyjne. 
    </p>
</div>


<h3>Rozwiązanie:</h3>
<p class="text">Projekt zostanie podzielony na kilka części. W kolejnych częściach przedstawiane zostaną algorytmy użyte do poszczególnych zadań wraz z opisem. Części projektu:</p> 

<ol class="text"><a name="SpisTresci"></a>
    <li><a href="#R0">Przygotowanie notebooka,</a></li>
    <li><a href="#R1">Zebranie danych,</a></li>
    <li>Obróbka danych, </li>
    <li>Zapisanie danych, </li>
    <li>Analiza zapisanych danych, </li> 
    <li>Stawianie hipotez i budowanie wniosków,</li> 
    <li>Stworzenie modelu prognozującego ceny nieruchomości,</li> 
    <li>Przenalizowanie parametrów modelu, </li>
    <li>Interaktywny raport nieruchomości. </li>
</ol>

<p class="text">W części pierwszej zawierającej kroki realizujące proces zebrania danych opisane zostaną używane narzędzia do tzw. Scrapowania strony WWW ze szczególnym uwzględnieniem biblioteki Beatiful Soap. W tym etapie uwzględniony zostanie proces pobierania danych z REST API zawierającego dane o nieruchomościach. </p>
<p class="text">W drugim etapie przeprowadzonego badania będzie obrobienie danych tak aby rekordy przechowywane w bazie były jednolite i pozbawione różnych nieścisłości powstałych na drodze tworzenia ogłoszeń. Transformacja danych będzie dotyczyć
cech, wyłuskanych z dostępnych ogłoszeń zgodnie z tym co oferują wybrane platformy sprzedażowe. Etap ten zostanie zaprojektowany tak aby powstałą później bazę można było na bieżąco uzupełniać nowymi ogłoszeniami. </p>
<p class="text">Po przerobieniu danych następnym krokiem będzie zapisanie ich do bazy danych. W tym celu niezbędne będzie stworzenie bazy np. SQLite utworzonej zgodnie z informacjami znajdującymi się w ogłoszeniach. Utworzenie bazy danych pozwoli na łatwe zażądanie danymi jednak w tym celu niezbędne będzie stworzenia funkcji komunikującej się z bazą danych. </p>
<p class="text">Kiedy dane będą łatwo dostępne następnym krokiem będzie stworzenie analizy opisującej zebrane dane w celu wyłonienia pierwszych zależności, wartości odstających 
a także cech charakterystycznych dla zbioru danych. Do stworzenia analizy wykorzystane zostaną biblioteki Pandas, Numpy, Plotly oraz Matplotlib. Etap ten pozwoli na głębsze zrozumienie prowadzonych analiz a także na wstępne nakreślenie zależności jak 
i wykluczenie informacji niepotrzebnych na późniejszych etapach.</p>
<p class="text">Analiza danych pozwoli na stworzenie dokładniejszych hipotez badawczych, które zostaną potwierdzone lub obalone na drodze procesu analizowania. Statystyczna interpretacja wyników pozwoli na odniesienie badania próbki zebranej z dostępnych ogłoszeń do populacji nieruchomości. Dzięki temu krokowi będzie możliwe dalsze wykorzystywanie danych mając świadomość ich relacji i połączeń. </p>
<p class="text">Dalej stworzony zostanie model prognozujący cenę  nieruchomości. Działanie tego algorytmu będzie polegało na otrzymaniu cech opisowych mieszkania, przetworzeniu ich a następnym wygenerowaniu odpowiedzi w postaci sugerowanej ceny.  Działanie modelu będzie porównane na zbiorze testowym w którym rzeczywiste ceny mieszkań będą znane. W tym kroku użyję biblioteki do Machine Learningu np.: Scikit-learn. Model będzie działał w sposób przyrostowy tak aby prognozowana cena uwzględniała bieżące trendy cen na rynku nieruchomości.</p>
<p class="text">Do etapu tworzenia modelu dołączona zostanie analiza jego ustawień wraz
z odniesieniem do wyników. 
Finalnym produktem ów pracy będzie stworzenie Notatnika JUPYTER zawierającego pełny algorytm opisany w powyższych punktach, stworzenie raportu podsumowującego zebrane dane w celach analizy biznesowej. </p>


<h3> <a href="#SpisTresci" name = "R0">1. Przygotowanie notebooka</a></h3>

<p class="text">Pierwszym krokiem podczas tworzenia nowego badania w Pythonie jest zaimportowanie niezbędnych bibliotek. W celu wdrożenia rozwiązania wyposażonego w najnowze pakiety należy wcześniej zaktualizować je przy użyciu instalatora pakietów PIP. W celu sprawdzenia aktualnie zainstalowanych pakietów oraz ich wersji zostało użyte polecenie:</p>

In [4]:
pip list

Package                            Version  
---------------------------------- ---------
-atplotlib                         3.1.0    
-umpy                              1.16.4   
alabaster                          0.7.12   
anaconda-client                    1.7.2    
anaconda-navigator                 1.9.7    
anaconda-project                   0.8.3    
asgiref                            3.2.3    
asn1crypto                         0.24.0   
astroid                            2.2.5    
astropy                            3.2.1    
atomicwrites                       1.3.0    
attrs                              19.1.0   
Babel                              2.7.0    
backcall                           0.1.0    
backports.functools-lru-cache      1.5      
backports.os                       0.1.1    
backports.shutil-get-terminal-size 1.0.0    
backports.tempfile                 1.0      
backports.weakref                  1.0.post1
beautifulsoup4                     4.7.1    
bitarray  

You should consider upgrading via the 'python -m pip install --upgrade pip' command.


<p class="text">Większość pakietów zainstalowanych na komputerze jest w nowych wersjach. Zaktualizowana zostanie biblioteka Pandas, która jest używana do manipulacji i analizy danych. W celu aktualizacji zastosowane zostało polecenie:</p>

In [5]:
pip install -U pandas

Collecting pandas
  Downloading https://files.pythonhosted.org/packages/51/99/b50cd5839e7a27d9b3ce8a29ac32eee3cf0b9581e6486e3906b71d2d461a/pandas-1.0.1-cp37-cp37m-win_amd64.whl (9.0MB)
Installing collected packages: pandas
  Found existing installation: pandas 0.24.2
    Uninstalling pandas-0.24.2:
      Successfully uninstalled pandas-0.24.2
Successfully installed pandas-1.0.1
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'python -m pip install --upgrade pip' command.


<p class="text">Zaktualizowane pakiety należy następnie zaimportować w celu późniejszej możliwości wykorzystania ich.</p>

<p class="text">Do wykonania analizy rynku nieruchomości oraz do stworzenia modelu prognozującego ceny mieszkań zostały użyte biblioteki:</p>

In [6]:
#Scrap
import requests
import urllib.request
from bs4 import BeautifulSoup

#Special for JUPYTER
from IPython.display import clear_output
from tqdm import tqdm_notebook

#Transformation and Data
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

#Data Visualization
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.express as px
import plotly.graph_objects as go

#System
import time
import os
import sys
import datetime

#For DataBase
import sqlite3
from sqlite3 import Error

<h3> <a href="#SpisTresci" name = "R1">2. Zebranie danych</a></h3>