<a href="https://colab.research.google.com/github/januep/PUM/blob/main/PUM_Projekt_NY_House.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*Podstawy Uczenia Maszynowego*
# **Projekt - Przewidywanie cen nieruchomości**
na podstawie danych pochodzących z
https://github.com/UEPP40/PUM/blob/c53e3d892647a9194c333075c41e7e7c51ce8586/NY-House-Dataset.csv



*Jan Mańczak, Mikołaj Paziewski, Andrii Yarosh*

Polecenie:
Celem jest predykcja ceny nieruchomości.

Zbiór danych zawiera 4802 instancje i kolumny określające:

BROKERTITLE: Title of the broker
TYPE: Type of the house
PRICE: Price of the house
BEDS: Number of bedrooms
BATH: Number of bathrooms
PROPERTYSQFT: Square footage of the property
ADDRESS: Full address of the house
STATE: State of the house
MAIN_ADDRESS: Main address information
ADMINISTRATIVE_AREA_LEVEL_2: Administrative area level 2 information
LOCALITY: Locality information
SUBLOCALITY: Sublocality information
STREET_NAME: Street name
LONG_NAME: Long name
FORMATTED_ADDRESS: Formatted address
LATITUDE: Latitude coordinate of the house
LONGITUDE: Longitude coordinate of the house

#1. Wczytanie pliku
należy zadbać o to, aby wpierw pobrać nasz plik i umieścić w środowisku wykonawczym.
Plik wczytamy za pomocą biblioteki pandas, dlatego też od razu ją zaimportujemy

In [1]:
import pandas as pd

# Wczytanie pliku CSV do DataFrame
df = pd.read_csv('NY-House-Dataset.csv')

ParserError: Error tokenizing data. C error: Expected 7 fields in line 161, saw 8


Dane są popsute i nawet nie jesteśmy w stanie ich wczytać.
Problem leży w liniach, które są źle zapisane i się wysypują.
Spróbujemy po prostu je ominąć, za pomocą poniższego kodu:

In [2]:
# Ponowne wczytanie pliku CSV z użyciem średnika jako separatora i odpowiednią obsługą błędnych linii
df = pd.read_csv('NY-House-Dataset.csv', sep=';', on_bad_lines='skip')

# Wyświetlenie pierwszych kilku wierszy DataFrame
df.head()

Unnamed: 0,BROKERTITLE,TYPE,PRICE,BEDS,BATH,PROPERTYSQFT,ADDRESS,STATE,MAIN_ADDRESS,ADMINISTRATIVE_AREA_LEVEL_2,LOCALITY,SUBLOCALITY,STREET_NAME,LONG_NAME,FORMATTED_ADDRESS,LATITUDE,LONGITUDE
0,Brokered by Douglas Elliman -111 Fifth Ave,Condo for sale,315000,2,2.0,1400.0,2 E 55th St Unit 803,"New York, NY 10022","2 E 55th St Unit 803New York, NY 10022",New York County,New York,Manhattan,East 55th Street,Regis Residence,"Regis Residence, 2 E 55th St #803, New York, N...",40.761255,-73.974483
1,Brokered by Serhant,Condo for sale,195000000,7,10.0,17545.0,Central Park Tower Penthouse-217 W 57th New Yo...,"New York, NY 10019",Central Park Tower Penthouse-217 W 57th New Yo...,United States,New York,New York County,New York,West 57th Street,"217 W 57th St, New York, NY 10019, USA",40.766393,-73.980991
2,Brokered by Sowae Corp,House for sale,260000,4,2.0,2015.0,620 Sinclair Ave,"Staten Island, NY 10312","620 Sinclair AveStaten Island, NY 10312",United States,New York,Richmond County,Staten Island,Sinclair Avenue,"620 Sinclair Ave, Staten Island, NY 10312, USA",40.541805,-74.196109
3,Brokered by COMPASS,Condo for sale,69000,3,1.0,445.0,2 E 55th St Unit 908W33,"Manhattan, NY 10022","2 E 55th St Unit 908W33Manhattan, NY 10022",United States,New York,New York County,New York,East 55th Street,"2 E 55th St, New York, NY 10022, USA",40.761398,-73.974613
4,Brokered by Sotheby's International Realty - E...,Townhouse for sale,55000000,7,2.373861,14175.0,5 E 64th St,"New York, NY 10065","5 E 64th StNew York, NY 10065",United States,New York,New York County,New York,East 64th Street,"5 E 64th St, New York, NY 10065, USA",40.767224,-73.969856


Teraz dane zostały poprawnie wczytane do DataFrame z właściwym rozdzieleniem kolumn. Oto kilka pierwszych wierszy z wczytanego zbioru danych:

* BROKERTITLE: Tytuł brokera, np. "Brokered by Douglas Elliman -111 Fifth Ave".
* TYPE: Typ nieruchomości, np. "Condo for sale".
* PRICE: Cena nieruchomości, np. 315000.
* BEDS: Liczba sypialni, np. 2.
* BATH: Liczba łazienek, np. 2.0.
* PROPERTYSQFT: Powierzchnia nieruchomości w stopach kwadratowych, np. 1400.0.
* ADDRESS: Pełny adres nieruchomości, np. "2 E 55th St Unit 803".
* STATE: Stan w jakim znajduje się nieruchomość, np. "New York, NY 10022".
* MAIN_ADDRESS, ADMINISTRATIVE_AREA_LEVEL_2, LOCALITY, SUBLOCALITY, STREET_NAME, LONG_NAME, FORMATTED_ADDRESS: Różne szczegóły adresowe i lokalizacyjne.
* LATITUDE i LONGITUDE: Współrzędne geograficzne nieruchomości.

# 2. Sprawdzenie typów danych kolumn

In [4]:
# Sprawdzenie typów danych dla każdej kolumny w DataFrame
df.dtypes

BROKERTITLE                     object
TYPE                            object
PRICE                            int64
BEDS                             int64
BATH                           float64
PROPERTYSQFT                   float64
ADDRESS                         object
STATE                           object
MAIN_ADDRESS                    object
ADMINISTRATIVE_AREA_LEVEL_2     object
LOCALITY                        object
SUBLOCALITY                     object
STREET_NAME                     object
LONG_NAME                       object
FORMATTED_ADDRESS               object
LATITUDE                       float64
LONGITUDE                      float64
dtype: object

Typy danych wydają się być odpowiednie dla większości kolumn. Kolumny tekstowe są oznaczone jako object, co jest typowe dla danych tekstowych w pandas. Kolumny z danymi numerycznymi (PRICE, BEDS, BATH, PROPERTYSQFT, LATITUDE, LONGITUDE) mają typy liczbowe, co jest oczekiwane.

#3. Sprawdzenie, czy zawartości kolumn faktycznie odpowiadają typom danych kolumn

najpierw sprawdzimy czy dane numeryczne wyglądają w porządku, a potem tekstowe.

In [8]:
# Opis statystyczny kolumn numerycznych
description_numeric = df.describe()

description_numeric

Unnamed: 0,PRICE,BEDS,BATH,PROPERTYSQFT,LATITUDE,LONGITUDE
count,4801.0,4801.0,4801.0,4801.0,4801.0,4801.0
mean,2356940.0,3.356801,2.373861,2184.207862,40.714227,-73.941601
std,31355250.0,2.602315,1.946962,2377.140894,0.087676,0.101082
min,2494.0,1.0,0.0,230.0,40.499546,-74.253033
25%,499000.0,2.0,1.0,1200.0,40.639375,-73.987143
50%,825000.0,3.0,2.0,2184.207862,40.726749,-73.949189
75%,1495000.0,4.0,3.0,2184.207862,40.771923,-73.870638
max,2147484000.0,50.0,50.0,65535.0,40.912729,-73.70245


Analiza Kolumn Numerycznych
Podstawowe statystyki dla kolumn numerycznych przedstawiają się następująco:

* PRICE: Średnia cena wynosi około 2.356.940 USD, ale standardowe odchylenie jest bardzo wysokie (około 31.355.250 USD), sugerując dużą rozpiętość cen. Minimalna cena to 2.494 USD, a maksymalna to aż 2.147.484.000 USD, co może wskazywać na obecność wartości odstających.
* BEDS: Średnia liczba sypialni to około 3.36, z minimalną wartością 1 i maksymalną 50. Rozkład wydaje się być w miarę spodziewany, choć wartość maksymalna może być wartością odstającą.
* BATH: Średnia liczba łazienek to około 2.37, co jest spójne z oczekiwaniami dla nieruchomości. Minimalna wartość to 0 (co może wskazywać na brak informacji o łazienkach w niektórych przypadkach), a maksymalna to 50, co znowu może być wartością odstającą.
* PROPERTYSQFT: Średnia powierzchnia to około 2.184 stóp kwadratowych. Minimalna powierzchnia to 230 stóp kwadratowych, a maksymalna to 65.535 stóp kwadratowych, co również sugeruje obecność wartości ekstremalnych.
* LATITUDE i LONGITUDE: Średnie współrzędne geograficzne wydają się być rozsądne dla obszaru Nowego Jorku, z minimalnymi i maksymalnymi wartościami w spodziewanych zakresach.