# Projekt - Analiza cen wynajmu z serwisu AirBnb w Nowym Jorku w 2019r.

Link do zbioru danych:

https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data?resource=down

Skład Grupy

- Paweł Wira 245725
- Krystian Gumuliński 250625
- Konrad Woźniak 232576

## Czym jest AirBnb?

AirBnb to serwis internetowy mający swoją siedzibę w San Francisco, w Kalifornii, który umożliwia wynajem lokali od osób prywatnych. Platforma powstała w 2008 roku przez Braiana Chesky'ego, Nathana Blecharczyka i Joe Gebbia. Portal Airbnb zrzesza miliony osób, chcące wynająć swoje domy. Aktualnie serwis obejmuje ponad 81000 miast z 191 różnych krajów na świecie. AirBnb jest skrótem od AirBedandBreakfast.com.

Polityka przedsiębiorstwa jest uważana przez niektóre grupy za dość kontrowersyjną. Firma była krytykowana przez osoby najmujące za umożliwienie wynajmującym użytkownikom podwyżek czynszów za domy. Konkuruje też bezpośrednio z branżą hotelarską, która zarzuca firmie brak regulacji prawnych. Część hoteli jednak uległa i wystawiła swoje ogłoszenia na platformie, która pobiera opłaty za wystawione oferty mieszkaniowe.

## Cel projektu

Celem projektu jest analiza zbioru danych, w którym znajdują się dane ofert z serwisu Airbnb dla miasta Nowy Jork z roku 2019. Analiza dotyczy zjawisk takich jak korelacja między cenami, standardem mieszkaniowym czy lokalizacją w odległości od najatrakcyjniejszych miejsc miasta. Dodatkowo dotyczy także zależności pomiędzy osobami wynajmującymi dużą liczbę mieszkań a osobami prywatnymi. Po wykonanej analizie zbioru związanego z AirBnb chcielibyśmy, dokonać pobrania danych związanych z przestępczością w Nowym Jorku i dokonać sprawdzenia czy ów problem koreluje z parametrami ogłoszeń.

## Zbiór danych użyty w projekcie

Zbiór danych potrzebny do realizacji projektu został pobrany z serwisu kaggle.com i został zaczerpnięty ze strony insideairbnb.com. 

Dane zawierają informację między innymi o lokalizacji i dzielnicach ogłoszeń, o cenach, rodzajach mieszkań czy też liczby dostępnych dni w roku. Zbiór danych może pomóc wskazać cechy osób wynajmujących i obszarów wynajmu oraz jest stworzony z myślą o przyszłych prognozach obrazujących preferencje wynajmu klientów w stosunku do poszczególnych okręgów.

## Podział Administacyjny Nowy Jork

Nowy Jork dzieli się na pięć okręgów, określanych mianem boroughs. Każdy z nich pokrywa się z odpowiednim hrabstwem stanu Nowy Jork. Na terenie pięciu okręgów wyróżnić można setki mniejszych dzielnic, z których wiele posiada własną historię i specyfikę. Jeśli każde z boroughs byłoby niezależnym miastem, cztery z nich (Brooklyn, Queens, Manhattan i Bronx) należałyby do najludniejszych miast w Stanach Zjednoczonych.

- Manhattan (hrabstwo Nowy Jork; populacja w 2019 roku: 1 628 706) – najgęściej zaludniona dzielnica; na jej terenie znajduje się Central Park, World Trade Center i większość nowojorskich wieżowców, stanowi finansowe centrum miasta i siedzibę wielu korporacji, kwatery głównej ONZ, kilku uniwersytetów i licznych kulturowych atrakcji.

- Bronx (hrabstwo Bronx; populacja w 2019 roku: 1 418 207) – najdalej na północ wysunięty okręg Nowego Jorku, siedziba Yankee Stadium (domowego stadionu drużyny New York Yankees) i największej spółdzielni mieszkaniowej w Stanach Zjednoczonych – Co-op City.

- Brooklyn (hrabstwo Kings; populacja w 2019 roku: 2 559 903) – położony w zachodniej części Long Island, najbardziej zaludniony ze wszystkich boroughs; niezależne miasto do 1898 roku. Brooklyn znany jest ze swojej kulturowej, społecznej i etnicznej różnorodności, niezależnej sceny artystycznej, specyfiki poszczególnych dzielnic oraz wyjątkowego zróżnicowania architektonicznego.

- Queens (hrabstwo Queens; populacja w 2019 roku: 2 253 858) – terytorialnie największy borough i najbardziej zróżnicowane etnicznie hrabstwo w Stanach Zjednoczonych. W odróżnieniu jednak od Nowego Jorku, Brooklynu i Bronxu, Queens nie ma statusu odrębnego City. Powstałe z kilkunastu małych miasteczek i wiosek założonych przez Holendrów, obecnie Queens stanowi przede wszystkim obszar mieszkalny dla przedstawicieli klasy średniej.

- Staten Island (hrabstwo Richmond; populacja w 2019 roku: 476 143) – ma najbardziej podmiejski charakter spośród wszystkich pięciu dzielnic Nowego Jorku. Staten Island połączona jest z Brooklynem przez Verrazano-Narrows Bridge, zaś z Manhattanem przez darmowy prom Staten Island Ferry. Staten Island Ferry jest jedną z najpopularniejszych atrakcji turystycznych w Nowym Jorku, jako że zapewnia widok na Statuę Wolności, Wyspę Ellis i dolny Manhattan.

![](img/picture.jpg)

# Implementacja

## Import niezbędnych bilbiotek

Podczas implementacji należy zaimportować odpowiednie biblioteki umożliwiające dalszą pracę przy analizy danych. Zaimportowane zostały podstawowe biblioteki języka Python takie jak np. biblioteka umożliwiająca obliczenia na macierzach, biblioteka pomagająca analizie danych czy biblioteka wizualizująca wyniki na wykresach.

In [None]:
#Import niezbędnych bibliotek
import numpy as np
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import folium
import folium.plugins
import warnings
from sklearn import preprocessing, model_selection
from sklearn.neighbors import KNeighborsClassifier

warnings.filterwarnings('ignore')

## Wczytywanie danych

Pierwszym krokiem realizacji projektu analizy wynajmu mieszkań na podstawie serwisu AirBnb jest zrozumienie danych i wartości występujących w poszczególnych komórkach. Poniżej można zaobserwować rodzaj informacji i jej poszczególny typ.

In [None]:
df = pd.read_csv("data/AB_NYC_2019.csv")
df.dtypes

Opis kolumn:
- name - Nazwa obiektu 
- host_id - Numer identyfikacyjny wystawiającego ogłoszenie 
- neighbourhood_group - Nazwa okręgu w Nowym Jorku 
- neighbourhood - Nazwa dzielnic w danym okręgu w Nowym Jorku 
- latitude - Szerokość geograficzna longitude - Długość geograficzna
- room_type - Typ wynajmowanego obiektu 
- price - Cena 
- minimum_nights - Minimalna liczba nocy dla danego obiektu, które są określone przez wynajmującego 
- number_of_reviews - Liczba recenzji danego obiektu 
- reviews_per_month - Liczba recenzji danego obiektu przez miesiąc
- calculated_host_listing_count - Liczba wystawionych obiektów na wynajem przez tego użytkownika serwisu 
- availability_365 - Liczba dni w których dany obiekt jest dostępny do wynajęcia

In [None]:
# Liczba wierszy
len(df)

Zbiór danych składa się z 16 kolumn i 48895 wierszy, który zostanie wykorzystany do dalszej eksploracji.

In [None]:
# Wyświetlenie pierwszych 5 wierszy
df["price_per_night"] = df.apply(lambda row: int(row.price/row.minimum_nights), axis=1)
df.head(5)

In [None]:
n_df = df[['neighbourhood_group', 'price_per_night', 'room_type']]
n_df_Brooklyn = n_df[n_df['neighbourhood_group'] == 'Brooklyn'].reset_index(drop=True)
n_df_Manhattan = n_df[n_df['neighbourhood_group'] == 'Manhattan'].reset_index(drop=True) 
n_df_Queens = n_df[n_df['neighbourhood_group'] == 'Queens'].reset_index(drop=True) 
n_df_Staten_Island = n_df[n_df['neighbourhood_group'] == 'Staten Island'].reset_index(drop=True) 
n_df_Bronx = n_df[n_df['neighbourhood_group'] == 'Bronx'].reset_index(drop=True) 

In [None]:
#wszystkie ofarty dzielnic w danym okręgu
d_df = df[['neighbourhood_group' ,'neighbourhood', 'price_per_night' , 'room_type']]
d_df_Brooklyn = d_df[d_df['neighbourhood_group'] == 'Brooklyn'].reset_index(drop=True) 
d_df_Manhattan = d_df[d_df['neighbourhood_group'] == 'Manhattan'].reset_index(drop=True)
d_df_Queens = d_df[d_df['neighbourhood_group'] == 'Queens'].reset_index(drop=True)
d_df_Staten_Island = d_df[d_df['neighbourhood_group'] == 'Staten Island'].reset_index(drop=True)
d_df_Bronx = d_df[d_df['neighbourhood_group'] == 'Bronx'].reset_index(drop=True)

#nazwy wszystkich dzielnic w okręgu
dd_df_Brooklyn = d_df_Brooklyn['neighbourhood'].drop_duplicates()
dd_df_Manhattan = d_df_Manhattan['neighbourhood'].drop_duplicates()
dd_df_Queens = d_df_Queens['neighbourhood'].drop_duplicates()
dd_df_Staten_Island = d_df_Staten_Island['neighbourhood'].drop_duplicates()
dd_df_Bronx = d_df_Bronx['neighbourhood'].drop_duplicates()


# Transformacja i czyszczenie danych

Proces transformacji i czyszczenia danych składa się z wszelkich operacji, które dostosują treść i format danych do naszych potrzeb. Dla naszego zbioru danych na samym wstępie dokonamy sprawdzenia, czy w zbiorze występują puste rubryki.

In [None]:
df.isnull().sum()

Następnym krokiem jest sprawdzenie czy dany wiersz jest powielany w zbiorze

In [None]:
df.duplicated().sum()

Dokonujemy zastąpienia wartości null w kolumnie reviews_per_month liczbą 0, gdyż wartość null została zapisana w wyniku braku wyświetleń

In [None]:
df.fillna({'reviews_per_month':0}, inplace=True)

Dla wierszy gdzie kolumna name nie ma wartości dajemu NONE

In [None]:
df.fillna({'name':'NONE'}, inplace=True)

In [None]:
df['last_review'] = pd.to_datetime(df['last_review'])
df.fillna({'last_review':np.datetime64('1990-01-01')}, inplace=True)

W zbiorze danych występują kolumny, które są nam zbędne w procesie analizy danych:

Kolumny do usunięcia:

- id - czyli unikalny numer dla danego ogłoszenia,
- host_name - imię osoby wystawiającej, które jest równoważne z tabelą host_id
- last_review - informacja, która nie będzie przydatna w procesie analizy

In [None]:
df.drop(['id','host_name'], axis=1, inplace=True)

Ostatnim krokiem jest ponowne sprawdzenie czy w zbiorze występują jeszcze puste rubryki, które mogą negatywnie wpływać na proces analizowania poszczególnych danych

In [None]:
df.isnull().sum()

In [None]:
df.dtypes

# Eksploracja i Wizualizacja danych

Najpierw zamieniamy typy danych ze String na int poprzez wykorzystanie LabelEncoder

In [None]:
le = preprocessing.LabelEncoder()
hrabstwo = le.fit_transform(df["neighbourhood_group"])
hrabstwo_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
hrabstwo_mapping_reversed = {v: k for k, v in hrabstwo_mapping.items()}
print(hrabstwo_mapping)

In [None]:
dzielnica = le.fit_transform(list(df["neighbourhood"]))
dzielnica_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
dzielnica_mapping_reversed = {v: k for k, v in dzielnica_mapping.items()}

df = df[df["price"] >= 30]
#print(dzielnica_mapping)

In [None]:
#typ_pokoju = le.fit_transform(list(df["room_type"]))
#typ_pokoju_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
#typ_pokoju_mapping_reversed = {v: k for k, v in typ_pokoju_mapping.items()}
#print(typ_pokoju_mapping)

Pierwszym krokiem badania naszego zbioru danych jest wyświetlenie macierzy korelacji, która umożliwia nam określenie w jakim stopniu poszczególne cechy są ze sobą powiązane

In [None]:
df["neighbourhood"] = df["neighbourhood"].map(dzielnica_mapping)
df["neighbourhood_group"] = df["neighbourhood_group"].map(hrabstwo_mapping)
#df["room_type"] = df["room_type"].map(typ_pokoju_mapping)

plt.figure(figsize=(10,10))
ax = sns.heatmap(df.corr(),annot=True)

Z powyższe mapy cieplnej wnioskujemy, że poszczególne dane nie są ze sobą powiązane w dużym stopniu oprócz, możemy wyróżnić następującą korelacje:

- reviews_per_month/number_of_reviews - wysoki współczynnik jest wynikiem skalowania drugiej wartości przez liczbę miesięcy w których ogłoszenie było aktywne

In [None]:

FILTER_PRICE_VALUE = 400
sub_airbnb = df[df.price < FILTER_PRICE_VALUE]
fig, ax = plt.subplots(figsize=(10, 10))
cmap = plt.get_cmap('jet')
c = sub_airbnb.price 
alpha = 0.5 
label = "airbnb"
price_heatmap = ax.scatter(sub_airbnb.longitude, sub_airbnb.latitude, label=label, c=c,
 cmap=cmap, alpha=0.4)
plt.title("Mapa cieplna według ceny w USD")
plt.colorbar(price_heatmap)
plt.grid(True)
plt.show()


Powyższa mapa cieplna obrazuje nam, że w okręgu Manhattan znajdują się najdroższe ogłoszenia, a w okręgu Staten Island jest ich najmniej

In [None]:
FILTER_PRICE_VALUE = 250
sub_airbnb = df[df.price_per_night < FILTER_PRICE_VALUE]
fig, ax = plt.subplots(figsize=(10, 10))
cmap = plt.get_cmap('jet')
c = sub_airbnb.price_per_night 
alpha = 0.5 
label = "airbnb"
price_heatmap = ax.scatter(sub_airbnb.longitude, sub_airbnb.latitude, label=label, c=c,
 cmap=cmap, alpha=0.4)
plt.title("Mapa cieplna według ceny w USD")
plt.colorbar(price_heatmap)
plt.grid(True)
plt.show()

## Top 5 wynajmujących pod względem liczby ofert

Zastosowanie rankingu dotyczącego liczby wystawionych ogłoszeń przez jednego wynajmującego pomaga dostrzec skalę oraz charakter korzystania z portalu przez użytkownika. Pozwala też na wyodrębnienie najwyższych wyników portalu pod tym względem w porównaniu do reszty wyników.

In [None]:
top_hosts = (pd.DataFrame(df.host_id.value_counts())).head(5)
top_hosts.columns=['Liczba ofert']
top_hosts['host_id'] = top_hosts.index
top_hosts.reset_index(drop=True, inplace=True)
top_hosts

In [None]:
new_dataframe = df[['host_id', 'number_of_reviews', 'latitude', 'longitude', 'price_per_night', 'room_type']]
top_hosts_count_reviews = new_dataframe[(new_dataframe['host_id'] == 37312959) | (new_dataframe['host_id'] == 107434423) | (new_dataframe['host_id'] == 30283594) | (new_dataframe['host_id'] == 137358866) | (new_dataframe['host_id'] == 16098958)].reset_index(drop=True) 
rev_top_group = top_hosts_count_reviews.groupby('host_id', as_index = False)['number_of_reviews'].sum()
rev_top_group


Użytkownik na najwyższym poziomie rankingu ofert wystawił dokładnie 327 mieszkań, jednak jest to odosobniony przypadek, ponieważ już drugi użytkownik w rankingu miał tych ofert o prawie 100 mniej. Jedynie 4 użytkowników z serwisu wystawiało ponad 100 ofert, więc zdecydowana większość wynajmujących osób nie przekroczy tej bariery.

In [None]:
FILTER_PRICE_VALUE = 250
sub_airbnb = top_hosts_count_reviews[top_hosts_count_reviews.price_per_night < FILTER_PRICE_VALUE]
fig, ax = plt.subplots(figsize=(10, 10))
cmap = plt.get_cmap('jet')
c = sub_airbnb.price_per_night 
alpha = 0.5 
label = "airbnb"
price_heatmap = ax.scatter(sub_airbnb.longitude, sub_airbnb.latitude, label=label, c=c,
 cmap=cmap, alpha=0.4)
plt.title("Mapa cieplna według ceny w USD")
plt.colorbar(price_heatmap)
plt.grid(True)
plt.show()

In [None]:
map = folium.Map([40.7128,-74.0060],zoom_start=11)
folium.plugins.HeatMap(top_hosts_count_reviews[['latitude','longitude']].dropna(),
                       radius=8).add_to(map)
display(map)


In [None]:
plt.figure(figsize=(13,6))
sns.countplot(data=top_hosts_count_reviews, x='host_id', hue='room_type')
plt.title('Liczba ofert z podziałem na rodzaj pokoju dla wynajmujących z największymi liczbami ofert', fontsize=15)
plt.xlabel('Wynajmujący')
plt.ylabel("Liczba ofert")
plt.legend(frameon=False, fontsize=12) 
()

## Top 5 wynajmujących pod względem liczby recenzji

In [None]:
reviews_top = pd.DataFrame(df.groupby('host_id').sum()['number_of_reviews'])
reviews_top_top = (reviews_top.sort_values('number_of_reviews',ascending=False)).head(5)
reviews_top_top.columns = ['Liczba recenzji']
reviews_top_top['Host_id'] = reviews_top_top.index
reviews_top_top.reset_index(drop=True, inplace=True)
reviews_top_top

## Top 5 Okręgi pod względem liczby ofert

Wyodrębnienie liczby ogłoszeń ze względu na dzielnice pomaga zaobserwować "popularność" okręgów Nowego Jorku. Podział liczby ogłoszeń na okręgi pozwala stwierdzić, które z nich są najbardziej przyjazne potencjalnym najemcom. Oznacza to także atrakcyjność danego obszaru, ponieważ większa sieć mieszkań do wynajęcia może współgrać z większym skupiskiem ludności danej przestrzeni, co także może przełożyć się na bogatsze i bezpieczniejsze warunki życiowe ludności.

In [None]:
df["neighbourhood_group"] = df["neighbourhood_group"].map(hrabstwo_mapping_reversed)
df["neighbourhood"] = df["neighbourhood"].map(dzielnica_mapping_reversed)

In [None]:
top_neigh = pd.DataFrame(df['neighbourhood_group'].value_counts().head(5))
top_neigh.columns=['Liczba ofert']
top_neigh['Okręg'] = top_neigh.index
top_neigh.reset_index(drop=True, inplace=True)
top_neigh

In [None]:
f,ax = plt.subplots(figsize=(13,6))
ax = sns.countplot(x=df.neighbourhood_group)
ax.bar_label(ax.containers[0])
plt.xlabel("Okręg")
plt.ylabel("Liczba ofert")
plt.title("Liczba ofert dla poszczególnych okręgów")
plt.show()

W aspekcie liczby ofert podzielonej na okręgi przoduje Manhattan, jednak zaraz za nim jest Brooklyn z minimalną różnicą ofert. Między tymi dwoma okręgami jest zauważalna mała różnica, natomiast spora różnica pomiędzy względem pozostałych okręgów. Queens plasujące się na trzecim miejscu posiada prawie czterokrotnie mniejszą liczbę ofert od przodujących okręgach. Ostatnie dwa okręgi mają w porównaniu do innych przestrzeni Nowego Jorku niewielką liczbę ofert na portalu AirBnb.

In [None]:
labels = df.neighbourhood_group.value_counts().index
sizes = df.neighbourhood_group.value_counts().values
explode = (0.1, 0.2, 0.3, 0.4, 0.6)

fig, ax = plt.subplots()
wedges, texts, autotexts = ax.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
                                   shadow=False, startangle=90)
ax.axis('equal')
ax.set(title="Okręgi z największą liczbą ofert")
ax.legend(wedges, labels,
          title="Okręgi",
          loc="center left",
          bbox_to_anchor=(1, 0, 0.5, 1))
plt.setp(autotexts, size=8, weight="bold")
plt.show()

Wykres kołowy pozwala na zobrazowanie wielkości zajmowanego "kawałka tortu" przez dwa największe okręgi pod względem liczby ofert mieszkaniowych na serwisie AirBnb. Razem zajmują ponad 85% wszystkich ofert portalu. Swoją niszę ma także Queens, które zajmuje 11,6% i plasuje się na pozycji trzeciej. Bronx i Staten Island praktycznie nie liczą się w tym aspekcie, a liczba ogłoszeń może świadczyć o ich ekskluzywności. Jeśli dana osoba szukałaby oferty w tych okolicach musiałaby liczyć się z trudnością w odnalezieniu pasującego ogłoszenia.

## Top 5 dzielnic w każdym okręgu pod względem liczby ofert

### Brooklyn

In [None]:
top_dzielnice_Brooklyn = (pd.DataFrame(d_df_Brooklyn['neighbourhood'].value_counts())).head(5)
top_dzielnice_Brooklyn.columns=['Liczba ofert']
top_dzielnice_Brooklyn['Dzielnica'] = top_dzielnice_Brooklyn.index
top_dzielnice_Brooklyn.reset_index(drop=True, inplace=True)
top_dzielnice_Brooklyn

In [None]:
#Dzielnice Brooklyn
cena = df[df['neighbourhood_group'] == 'Brooklyn']
#Williamsburg
cena_Williamsburg = cena.loc[cena['neighbourhood'] == 'Williamsburg']
średnia_cena_Williamsburg = cena_Williamsburg['price_per_night'].mean()
#Bedford-Stuyvesant
cena_Bedford_Stuyvesant = cena.loc[cena['neighbourhood'] == 'Bedford-Stuyvesant']
średnia_cena_Bedford_Stuyvesant = cena_Bedford_Stuyvesant['price_per_night'].mean()
#Bushwick
cena_Bushwick = cena.loc[cena['neighbourhood'] == 'Bushwick']
średnia_cena_Bushwick = cena_Bushwick['price_per_night'].mean()
#Crown Heights
cena_Crown_Heights = cena.loc[cena['neighbourhood'] == 'Crown Heights']
średnia_cena_Crown_Heights = cena_Crown_Heights['price_per_night'].mean()
#Greenpoint
cena_Greenpoint = cena.loc[cena['neighbourhood'] == 'Greenpoint']
średnia_cena_Greenpoint = cena_Greenpoint['price_per_night'].mean()

#Tabela
tabela_brooklyn = [['Williamsburg', średnia_cena_Williamsburg],['Bedford-Stuyvesant', średnia_cena_Bedford_Stuyvesant],['Bushwick', średnia_cena_Bushwick],['Crown Heights', średnia_cena_Crown_Heights],['Greenpoint', średnia_cena_Greenpoint]]
df_tabela_brooklyn = pd.DataFrame(tabela_brooklyn)
df_tabela_brooklyn.columns = 'Dzielnica', 'Średnia cena za noc'
df_tabela_brooklyn

Liczba ofert dla okręgu Brooklyn jest największa dla dwóch dzielnic tj. Williamsburg i sąsiadującej jej dzielnicy Bedford-Stuyvesant, najprawdopodobniej jest to wynikiem popularności dzielnicy Williamsburg, która według portali przyciąga głównie młodych ludzi poprzez, stylowe butiki, modne kawiarnie i tętniące życiem restauracje. Ponadto w tej dzielnicy ludzie często spędzają czas w celu podziwiania panoramy Manhattanu. Powyższe powody świadczą o średniej cenie za noc, która jest najwyższa z najpopularniejszych.

### Manhattan

In [None]:
top_dzielnice_Manhattan = (pd.DataFrame(d_df_Manhattan['neighbourhood'].value_counts())).head(5)
top_dzielnice_Manhattan.columns=['Liczba ofert']
top_dzielnice_Manhattan['Dzielnica'] = top_dzielnice_Manhattan.index
top_dzielnice_Manhattan.reset_index(drop=True, inplace=True)
top_dzielnice_Manhattan

In [None]:
#Dzielnice Manhattan
cena = df[df['neighbourhood_group'] == 'Manhattan']
#Harlem
cena_Harlem = cena.loc[cena['neighbourhood'] == 'Harlem']
średnia_cena_Harlem = cena_Harlem['price_per_night'].mean()
#Upper West Side
cena_Upper_West_Side = cena.loc[cena['neighbourhood'] == 'Upper West Side']
średnia_cena_Upper_West_Side = cena_Upper_West_Side['price_per_night'].mean()
#Hell's Kitchen
cena_Hells_Kitchen = cena.loc[cena['neighbourhood'] == "Hell's Kitchen"]
średnia_cena_Hells_Kitchen = cena_Hells_Kitchen['price_per_night'].mean()
#East Village
cena_East_Village = cena.loc[cena['neighbourhood'] == 'East Village']
średnia_cena_East_Village = cena_East_Village['price_per_night'].mean()
#Upper East Side
cena_Upper_East_Side = cena.loc[cena['neighbourhood'] == 'Upper East Side']
średnia_cena_Upper_East_Side = cena_Upper_East_Side['price_per_night'].mean()

#Tabela
tabela_Manhattan = [['Harlem', średnia_cena_Harlem],['Upper West Side', średnia_cena_Upper_West_Side],["Hell's Kitchen", średnia_cena_Hells_Kitchen],['East Village', średnia_cena_East_Village],['Upper East Side', średnia_cena_Upper_East_Side]]
df_tabela_Manhattan = pd.DataFrame(tabela_Manhattan)
df_tabela_Manhattan.columns = 'Dzielnica', 'Średnia cena za noc'
df_tabela_Manhattan

Harlem to dzielnica od dawna znana z kameralnych klubów jazzowych, dziedzictwa kultury afroamerykańskiej oraz miejsc oferujących dania typu soul food, która przyciąga zróżnicowane kulturowo tłumy turystów i mieszkańców. Intensywne życie nocne toczy się w modnych restauracjach, stylowych klubach i popularnych barach.  Jeśli chodzi o najwyższą średnią cenę za noc dzielnicy Hell's Kitchen, prawdopodobnie jest to spowodowane przez położenie tuż obok Central Parku oraz Times Square

### Queens

In [None]:
top_dzielnice_Queens = (pd.DataFrame(d_df_Queens['neighbourhood'].value_counts())).head(5)
top_dzielnice_Queens.columns=['Liczba ofert']
top_dzielnice_Queens['Dzielnica'] = top_dzielnice_Queens.index
top_dzielnice_Queens.reset_index(drop=True, inplace=True)
top_dzielnice_Queens

In [None]:
#Dzielnice Queens
cena = df.loc[df['neighbourhood_group'] == 'Queens']
#Astoria
cena_Astoria = cena.loc[cena['neighbourhood'] == 'Astoria']
średnia_cena_Astoria = cena_Astoria['price_per_night'].mean()
#Long Island City
cena_Long_Island_City = cena.loc[cena['neighbourhood'] == 'Long Island City']
średnia_cena_Long_Island_City = cena_Long_Island_City['price_per_night'].mean()
#Flushing
cena_Flushing = cena.loc[cena['neighbourhood'] == "Flushing"]
średnia_cena_Flushing = cena_Flushing['price_per_night'].mean()
#Ridgewood
cena_Ridgewood = cena.loc[cena['neighbourhood'] == 'Ridgewood']
średnia_cena_Ridgewood = cena_Ridgewood['price_per_night'].mean()
#Sunnyside
cena_Sunnyside = cena.loc[cena['neighbourhood'] == 'Sunnyside']
średnia_cena_Sunnyside = cena_Sunnyside['price_per_night'].mean()

#Tabela
tabela_Queens = [['Astoria', średnia_cena_Astoria],['Long Island City', średnia_cena_Long_Island_City],["Flushing", średnia_cena_Flushing],['Ridgewood', średnia_cena_Ridgewood],['Sunnyside', średnia_cena_Sunnyside]]
df_tabela_Queens = pd.DataFrame(tabela_Queens)
df_tabela_Queens.columns = 'Dzielnica', 'Średnia cena za noc'
df_tabela_Queens

Jest to największy okręg w Nowym Jorku. Znajduje się na zachodzie i składa się z kilku małym wysp. Obecnie obszar stale się rozwija. Okręg charakteryzuje się niższą zabudową. Znajdują się tam aż dwa porty lotnicze. W Queens znajduje się jedyne w mieście kasyno. Okręg słynie z zielonych terenów. Jest to idealne miejsce dla amatorów opalania, pływania, jazdy na rowerze oraz gry w golfa. Najliczniejsze dzielnice pod względem ilość ofert znajdują się w sąsiedztwie okręgu Manhattan

### Staten Island

In [None]:
top_dzielnice_Staten_Island = (pd.DataFrame(d_df_Staten_Island['neighbourhood'].value_counts())).head(5)
top_dzielnice_Staten_Island.columns=['Liczba ofert']
top_dzielnice_Staten_Island['Dzielnica'] = top_dzielnice_Staten_Island.index
top_dzielnice_Staten_Island.reset_index(drop=True, inplace=True)
top_dzielnice_Staten_Island

In [None]:
#Dzielnice Staten Island
cena = df.loc[df['neighbourhood_group'] == 'Staten Island']
#St. George
cena_St_George = cena.loc[cena['neighbourhood'] == 'St. George']
średnia_cena_St_George = cena_St_George['price_per_night'].mean()
#Tompkinsville
cena_Tompkinsville = cena.loc[cena['neighbourhood'] == 'Tompkinsville']
średnia_cena_Tompkinsville = cena_Tompkinsville['price_per_night'].mean()
#Stapleton
cena_Stapleton = cena.loc[cena['neighbourhood'] == "Stapleton"]
średnia_cena_Stapleton = cena_Stapleton['price_per_night'].mean()
#Concord
cena_Concord = cena.loc[cena['neighbourhood'] == 'Concord']
średnia_cena_Concord = cena_Concord['price_per_night'].mean()
#Arrochar
cena_Arrochar = cena.loc[cena['neighbourhood'] == 'Arrochar']
średnia_cena_Arrochar = cena_Arrochar['price_per_night'].mean()

#Tabela
tabela_Staten_Island = [['St. George', średnia_cena_St_George],['Tompkinsville', średnia_cena_Tompkinsville],["Stapleton", średnia_cena_Stapleton],['Concord', średnia_cena_Concord],['Arrochar', średnia_cena_Arrochar]]
df_tabela_Staten_Island = pd.DataFrame(tabela_Staten_Island)
df_tabela_Staten_Island.columns = 'Dzielnica', 'Średnia cena za noc'
df_tabela_Staten_Island

Dzielnica z najmniejszą ilością ofert, co prawdopodobnie jest spowodowane jej małą popularnością, jeśli chodzi o turystykę (daleka odległość do największych atrakcji miejskich). Jest to okręg najbardziej jednorodny etnicznie i o najmniejszej liczbie populacji. Przez mieszkańców NY jest traktowany jako wiejska prowincja, mimo że jest gęsto zabudowany. Ceny w dzielnicy St.George mogą wynikać z niskiej konkurencyjności oraz położenia, które daje konsumentowi dobry dojazd na Manhattan oraz bliskość zatoki 

### Bronx

In [None]:
top_dzielnice_Bronx = (pd.DataFrame(d_df_Bronx['neighbourhood'].value_counts())).head(5)
top_dzielnice_Bronx.columns=['Liczba ofert']
top_dzielnice_Bronx['Dzielnica'] = top_dzielnice_Bronx.index
top_dzielnice_Bronx.reset_index(drop=True, inplace=True)
top_dzielnice_Bronx

In [None]:
#Dzielnice Bronx
cena = df.loc[df['neighbourhood_group'] == 'Bronx']
#Kingsbridge
cena_Kingsbridge = cena.loc[cena['neighbourhood'] == 'Kingsbridge']
średnia_cena_Kingsbridge = cena_Kingsbridge['price_per_night'].mean()
#Fordham
cena_Fordham = cena.loc[cena['neighbourhood'] == 'Fordham']
średnia_cena_Fordham = cena_Fordham['price_per_night'].mean()
#Longwood
cena_Longwood = cena.loc[cena['neighbourhood'] == "Longwood"]
średnia_cena_Longwood = cena_Longwood['price_per_night'].mean()
#Mott Haven
cena_Mott_Haven = cena.loc[cena['neighbourhood'] == 'Mott Haven']
średnia_cena_Mott_Haven = cena_Mott_Haven['price_per_night'].mean()
#Concourse
cena_Concourse = cena.loc[cena['neighbourhood'] == 'Concourse']
średnia_cena_Concourse = cena_Concourse['price_per_night'].mean()

#Tabela
tabela_Bronx = [['Kingsbridge', średnia_cena_Kingsbridge],['Fordham', średnia_cena_Fordham],["Longwood", średnia_cena_Longwood],['Mott Haven', średnia_cena_Mott_Haven],['Concourse', średnia_cena_Concourse]]
df_tabela_Bronx = pd.DataFrame(tabela_Bronx)
df_tabela_Bronx.columns = 'Dzielnica', 'Średnia cena za noc'
df_tabela_Bronx

Mała ilość ofert dla dzielnicy Bronx może wynikać, z tego iż jest ona owiana złą sławą w wyniku znaczącej przestępczości oraz biedoty.

## Top 3 ofert pod względem liczby recenzji

Podział na największą liczbą wyświetleń pozwala na sprawdzenie popularności serwisu oraz jego ofert. Oferta z największą liczbą wyświetleń badanego okresu wynosi dokładnie 629. W takim razie oferty w Nowym Jorku mogą przyciągać do siebie kilkuset użytkowników serwisu.

In [None]:
rev_group = pd.DataFrame(df.groupby('number_of_reviews').sum()['host_id'])
most_reviewed = (rev_group.sort_values('number_of_reviews',ascending=False)).head(3)
most_reviewed.columns = ['Host ID']
most_reviewed['Liczba recenzji'] = most_reviewed.index
most_reviewed.reset_index(drop=True, inplace=True)
most_reviewed


!!! Przejrzeć te hosty pod względem liczby ofert, zobaczyć te oferty(typy pokojów itd itp), wyświetlić na mapie lokalizacje dla danego hosta, przejrzeć opisy ofert, przejrzeć ceny, porównać do średniej ceny ogólnej, sprawdzić ostatnią datę recenzji / Konrad

## Top 5 wynajmujących pod względem liczby miesięcznych recenzji

Wyświetlenia ofert serwisu w skali miesięcznej pozwolą na wizualizację popytu użytkowników w mniejszym okresie.

In [None]:
rev_month = pd.DataFrame(df.groupby('host_id').sum()['reviews_per_month'])
rev_month = (rev_month.sort_values('reviews_per_month', ascending=False)).head(5)
rev_month.columns = ['Liczba recenzji na miesiąc']
rev_month['Host_id'] = rev_month.index
rev_month.reset_index(drop=True, inplace=True)
rev_month

Widzimy, że jeden z hostów przewyższa poprzedniego ponad 3-krotnie w liczbach recenzji na miesiąc. Może się to dziać z wielu powodów:
- badany host ma bardzo dużą ilość obiektów na wynajem,
- badany host ma bardzo małą ilość minimalnych nocy w swoich miejscach na wynajem.

Prawda najprawdopodobniej znajduje się gdzieś pomiędzy, dlatego sprawdzimy kilka mieszkań tego hosta oraz określimy ile ich ogólnie posiada i gdzie się znajdują.

In [None]:
top_host_objects = pd.DataFrame(df[["host_id", "name", "price", "price_per_night", "neighbourhood_group", "room_type", "latitude", "longitude", "reviews_per_month", "number_of_reviews", "minimum_nights"]])
top_host_objects = top_host_objects[top_host_objects["host_id"] == 219517861].reset_index(drop=True)
top_host_objects_count = top_host_objects["host_id"].count()
top_host_objects.sort_values("price_per_night", inplace=True, ascending=False)
top_host_objects.head(15)

In [None]:
print(f"Ilość obiektów na wynajem: {top_host_objects_count}")

In [None]:
top_host_objects["neighbourhood_group"].unique()

Przeglądając powyższe wyniki programu widzimy, że ceny tego hosta sięgają wysokich cen za pobyt. Spoglądając na wartości długości i szerokości geograficznej widzimy również, że znajdują się bardzo blisko siebie. Zostanie to zaprezentowane w sposób graficzny na mapie w późniejszym etapie analizy. Widzimy również, że nazwa każdego z obiektów podąża za określonym schematem określonej firmy, a prawdziwy opis ogranicza się tylko do ilości sypialni oraz jakiś element, który autor uważał że wyróżnia ten obiekt spośród innych.


Widzimy również, że pod tego określonego hosta przypisanych jest aż 327 obiektów. Co ciekawe, wszystkie z nich znajdują się na Manhattanie.


Sprawdzimy teraz, jak wygląda rozkład nieruchomości tego hosta.

In [None]:
fig, ax = plt.subplots(1 ,2, figsize=(20, 6))
ax[0].set_title("Rozkład cen dla obiektów tego hosta", fontsize=12)
ax[0].set_xlabel("Cena za pobyt")
ax[0].set_ylabel("Liczba ofert")
ax[1].set_title("Rozkład minimalnych ilości nocy obiektów tego hosta", fontsize=12)
ax[1].set_xlabel("Minimalna ilość nocy")
ax[1].set_ylabel("Liczba ofert")
sns.histplot(data=top_host_objects, x="price", kde=True, binwidth=20, ax=ax[0])
sns.histplot(data=top_host_objects, x="minimum_nights", kde=True, binwidth=1, ax=ax[1]);

In [None]:
room = top_host_objects[top_host_objects["room_type"] == "Private room"].room_type.count()
entire_apt = top_host_objects[top_host_objects["room_type"] == "Entire home/apt"].room_type.count()
print(f"Unikalne wartości minimum_nights: {top_host_objects.minimum_nights.unique()}\nIlość pokojów na wynajem: {room} \nIlość całych mieszkań na wynajem: {entire_apt}\n")


In [None]:
minimum_nights2_top_host = top_host_objects[top_host_objects["minimum_nights"] == 2].describe().price
minimum_nights29_top_host = top_host_objects[top_host_objects["minimum_nights"] == 29].describe().price
whole_average = df["price_per_night"].mean()
print(f"Wartości ceny dla minimum_nights == 2:\n\n{minimum_nights2_top_host}\n\nWartości ceny dla minimum_nights == 29:\n\n{minimum_nights29_top_host}\n\nŚrednia całego zbioru: ${whole_average:.2f}")

Największa ilość ofert oscyluje w okolicach wartości $200, ale przeglądając oferty tego hosta, znajdziemy też obiekty które kosztowały aż $700, natomiast minimalna wartość to $100. Porównując je do średniej z całego naszego zbioru możemy zauważyć, że te średnie ceny są znacznie wyższe, ale pomimo to wydają się być bardzo popularne. Co ciekawe, rozkład minimalnej ilości nocy wskazuje na to, że wszystkie te wystawione nieruchomości do wynajęcia są na co najmniej 2 lub 29 dni. Cena średnia jest wyższa o $70 dla pokojów wynajmowanych na minimum 2 noce. Może to być spowodowane ograniczeniami pewnych nieruchomości na wynajem na mniej niż okres miesiąca który obowiązywał w Nowym Jorku w roku 2019. Możliwe, że w tej cenie zawarte jest pewne ubezpieczenie wynajmującego na wypadek grzywny. Aktualnie, czas ten został wydłużony do 3 miesięcy.

Sprawdźmy, czy znajdziemy jakieś odstające wartości pod względem recenzji.

In [None]:
fig, ax = plt.subplots(1 ,2, figsize=(20, 6))
ax[0].set_title("Rozkład co miesięcznych recenzji tego hosta", fontsize=12)
ax[0].set_xlabel("Ilość recenzji na miesiąc o określonym obiekcie")
ax[0].set_ylabel("Liczba ofert")
ax[1].set_title("Rozkład całkowitych recenzji dla obiektów tego hosta", fontsize=12)
ax[1].set_xlabel("Ilość recenzji o określonym obiekcie")
ax[1].set_ylabel("Liczba ofert")
sns.histplot(data=top_host_objects, x="reviews_per_month", kde=True, binwidth=0.1, ax=ax[0]);
sns.histplot(data=top_host_objects, x="number_of_reviews", kde=True, binwidth=1, ax=ax[1]);

Powyższy wykres mówi nam, że około 1/3 wszystkich obiektów posiada blisko 0 recenzji. Ten sam wniosek tyczy się zarówno recenzji na miesiąc jak i ogólnej metryki.

Przejdźmy więc do przeglądu badanych mieszkań i domów na mapie.

In [None]:
top_host_rev_month = folium.Map([40.7128,-74.0060],zoom_start=11)
folium.plugins.HeatMap(top_host_objects[['latitude','longitude']].dropna(),
                       radius=8).add_to(top_host_rev_month)
display(top_host_rev_month)

Przedstawienie tych mieszkań na mapie odkrywa bardzo ciekawą zależność. Większość tych mieszkań znajduje się na Wall Street, a dokładniej dookoła Nowojorskiej giełdy papierów wartościowych. Oznacza to, że z dużą dozą pewności możemy założyć, że są one wynajmowane przez ludzi związanymi z giełdą, co oznacza że możliwe jest wynajęcie ich po tak wysokiej cenie w porównaniu do średniej.

## Oferty według typu pokoju/apartamentu

Podczas korzystania z serwisu AirBnB możliwe będzie wynajęcie nie tylko całego mieszkania, ale również i współdzielonego pokoju, pojedynczego prywatnego pokoju, a nawet i całego wolno stojącego domu! W przypadku Nowego Jorku ta ostatnia wersja jest ekstremalną rzadkością, dlatego też możemy założyć, że kategoria "Entire home/apt" odnosi się w większości do apartamentów oraz różnego rodzaju mieszkań aniżeli całych domów w dosłownym znaczeniu. Poniższy wykres przedstawia rozkład wszystkich badanych tu ogłoszeń podzielonych i zestawionych ze sobą właśnie na podstawie typu wynajmowanego obiektu.

In [None]:
plt.figure(figsize=(13,6))
sns.countplot(data=df, x='room_type')
plt.title('Liczba danego typu pokoju/apartamentu', fontsize=15)
plt.xlabel('Typ pokoju')
plt.ylabel("Liczba")
()

Powyższy podział na rodzaje wynajmowanego mieszkania pozwala na obserwację niewielkiej różnicy w liczbie ogłoszeń pomiędzy jednym pokojem, a całym apartamentem na korzyść apartamentów oraz niewielkim wkładem w rynek pokojów dzielonych z lokatorem "shared room". Może to być spowodowane wieloma czynnikami. Najbardziej prawdopodobnym z nich jest fakt, że współdzielony pokój zapewnia bardzo niewielką przestrzeń prywatną, co dla wielu może przekreślić nawet najbardziej atrakcyjną ofertę pod względem położenia czy też nawet ceny.

Wynajmowanie prywatnego pokoju natomiast cieszy się bardzo dużą popularnością. Pozwala ona często na pasywny dochód dla właściciela mieszkania, ale niesie za sobą kolejne koszta, zarówno w postaci materialnej jak i wcześniej wspomnianej prywatności.

Ogłoszenia całych mieszkań jest zarezerwowane dla osób zamożnych, które najprawdopodobniej posiadają kolejną nieruchomość, która mogą wykorzystać jako swój dom, a poprzez wynajęcie zapewniają sobie dochód oraz potencjalnie nowe znajomości.

In [None]:
plt.figure(figsize=(13,6))
sns.countplot(data=df, x='neighbourhood_group', hue='room_type')
plt.title('Liczba ofert z podziałem na rodzaj pokoju wraz i podziałem na okręgi', fontsize=15)
plt.xlabel('Okręg')
plt.ylabel("Liczba ofert")
plt.legend(frameon=False, fontsize=12) 
()

Jak widać na powyższym wykresie, liczba wynajmowanych mieszkań jest największa na Manhattan'ie. Pokrywa się z wcześniejszym wnioskiem dotyczącym zamożności właściciela oraz wynajmowaniem całego mieszkania wyłącznie w celach zarobkowych. 

Proporcja współdzielonego pokoju pozostała na bardzo podobnym poziomie dla wszystkich badanych okręgów.

Ciekawym wynikiem jest natomiast większa liczba wynajmowanych prywatnych pokojów w porównaniu do całych mieszkań. Jest to prawdopodobnie uwarunkowane niższymi cenami i jak będzie to przedstawione na kolejnych wykresach, ceny pomiędzy okręgami mogą się różnić nawet kilkukrotnie dla mieszkania czy też pokoju z podobnego poziomu. Kolejnym powodem może być ogromna przewaga wynajmowania całych mieszkań ponad pokojami na Manhattan'ie, natomiast w rozrachunku dla całego Nowego Jorku, nie widzimy aż takiej różnicy.

Ciekawa wizualizacja sporej przewagi liczby ofert apartamentów nad pokojami w Manhatanie i niewielkiej przewagi pokojów w pozostałych okręgach. 

### Rozkłady cen ogłoszeń dla każdego z okręgów

Uważamy, że warto spojrzeć na uszeregowane najdroższe obiekty dostępne do wynajęcia według naszej bazy danych. Pozwoli nam to określić gdzie znajdują się najbardziej kosztowne miejsca. Posortowane będą według ceny na noc.

In [None]:
expensive_apts = df[["host_id", "name", "price", "price_per_night", "neighbourhood_group", "latitude", "longitude", "number_of_reviews", "minimum_nights"]].copy()
# Jeżeli chcemy odwrócić znowu na wartości liczbowe to używamy map(hrabstwo_mapping) zamiast map(hrabstwo_mapping_reversed)
expensive_apts.sort_values("price_per_night", inplace=True, ascending=False)
expensive_apts.head(20)

Powyżej zostały przedstawione 20 najdroższych obiektów. Tak jak moglibyśmy zakładać na podstawie wcześniejszej analizy, największa ilość drogich obiektów znajduje się w obrębie Manhattanu, bo aż 15 z 20 tutaj wyświetlonych. Pierwsza pozycja to lokalizacja filmowa. Oznacza to, że nie jest ona przeznaczona do spędzenia tam nocy, ale tylko do wykorzystania obecnej tam scenerii do wykonania własnego filmu czy zdjęcia. Na powyższej liście możemy znaleźć więcej podobnych miejsc, ale to ta wymaga największego wkładu finansowego. Najdroższym z nich jest to przedstawione poniżej:

![Top_Priced_Filming_Location](img/top_price_filming_spot.png)

Nie udało nam się znaleźć wyjaśnienia dlaczego wynajęcie tego miejsca jest aż tak drogie. Aktualnie to miejsce jest zarejestrowane jako siedzibą adwokata "Carl J. Muraco Attorney at Law". 

Kolejne miejsca nie wybiegają poza normę, jakiej możnaby się spodziewać za tą cenę: wynajęcie kilkunastometrowego jachtu, wille, domy o metrażu przekraczającym kilkaset metrów kwadratowych w centrum Manhattanu czy też całą galerię na własny użytek. Możliwe jest również wynajęcie mieszkania w pobliżu stadionu podczas zawodów SUPER BOWL. Podczas badania tych danych możemy zauważyć, że jednak nie wszystkie obiekty zasługują na tą cenę. W tym przypadku, jesteśmy skłonni stwierdzić, że noc w mieszkaniu z jedną sypialnią w Soho, Manhattan nie jest warta zawrotnej ceny $5000, ale możliwym jest również jednorazowe wydarzenie w pobliżu, które wywindowało cenę do tego stopnia.

Nałożmy powyższe dane na mapę. Dla zwiększenia czytelności, dodamy również znaczniki odpowiadające każdemu z tych obiektów.

In [None]:
def add_Markers(dest_map, dataframe, amount = 30):
   # dest_map: mapa, na którą chcemy nałożyć markery
   # dataframe: dataframe, z którego pobierane będą dane w celu określenia pozycji markerów
   # amount: liczba markerów do utworzenia na mapie. Liczba jest brana z head'a danego dataframe'a, dlatego też może konieczne być sortowanie
    for i in range(0,amount):
       folium.Marker(
          location=[dataframe.head(amount).iloc[i]['latitude'], dataframe.head(amount).iloc[i]['longitude']],
          popup=dataframe.head(amount).iloc[i]['name'],
       ).add_to(dest_map)

In [None]:
expensive_map = folium.Map([40.7128,-74.0060],zoom_start=11)
folium.plugins.HeatMap(expensive_apts[['latitude','longitude']].head(20).dropna(),
                       radius=8, gradient={0.2:'blue',0.4:'purple',0.6:'orange',1.0:'red'}).add_to(expensive_map)

add_Markers(expensive_map, expensive_apts, 20)

expensive_map

Dzięki powyższej mapie, łatwo można zauważyć, że obiekty normalne (czyli przeznaczone do spędzenia tam nocy) w lwiej części znajdują się w okręgu Manhattan oraz zaskakująco - w Queens. Reszta, czyli placówki do filmowania znajdują się zarówno na Staten Island, Brooklyn.

Jako, że wykonaliśmy powyższą analizę dla najdroższych miejsc, wykonamy analogiczne zestawienie dla najtańszych miejsc.

In [None]:
expensive_apts.sort_values("price", inplace=True)
expensive_apts.head(20)

Powyższe obiekty rozsiane są głównie na Brooklynie oraz Queens, co zobaczyć będzie można znacznie lepiej na mapie z tymi wyznacznikami. Widzimy jednak, że parametr cena na noc nie jest idealnym wyznacznikiem ponieważ nasza baza danych jest obarczona niejednoznacznością oznaczenia parametru cena. Mianowicie, przy krótkich ilościach minimalnych noclegów, cena wydaje się oznaczać cenę na noc, natomiast przy ich większej ilości, jest ona sumaryczną kwotą za cały pobyt. Dlatego też tutaj posortowane zostały wartości na podstawie samej ceny.

W tabeli można wywnioskować, że większość z tych obiektów nie korzysta z tytułu w celu zamieszenia krótkiego opisu wynajmowanego pokoju. Widzimy natomiast, że jest tam umieszczone umiejscowienie geograficzne, a bardziej dokładnie odległość od pewnych orientacyjnych i często uczęszczanych punktów typu Central Park czy Downtown Manhattan. Sprawdzimy jak to wygląda na mapie.

In [None]:
cheap_map = folium.Map([40.6810,-74.0060],zoom_start=11)
folium.plugins.HeatMap(expensive_apts[['latitude','longitude']].head(20).dropna(),
                       radius=8, gradient={0.2:'blue',0.4:'purple',0.6:'orange',1.0:'red'}).add_to(cheap_map)

add_Markers(cheap_map, expensive_apts, 20)
display(cheap_map)

Widzimy, że umieszczone na mapie znaczniki znacznie częściej wskazują teren Brooklynu od innych okręgów. Jest to prawodopodobnie spowodowane znacznie przeważającą ilością zapisanych obiektów dla Manhattanu oraz Brooklynu (łącznie ~40000 rekordów) w porównaniu do całości bazy (~48000 rekordów), co może oznaczać że mimo podobnej średniej ceny mieszkań w porónwaniu do reszty Nowego Jorku (poza Manhattanem) pojawia się tam po prostu z większą częstością. Innym powodem może być również mniejsza średnia cena w porównaniu do mieszkań położonych na Manhattanie.

In [None]:
sub=df[df.price_per_night <= 1000]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla poszczególnych okręgów', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="neighbourhood_group", kde=True, binwidth=20);

W wyniku analizy wykresu rozkładu cen dla poszczególnych dzielnic, możemy wywnioskować iż ceny powyżej 400 dolarów za noc są to oferty, które są rzadkością min. Wynajem miejsca pod zdjęcia filmowe. W celu implementacji modeli predykcyjnych, wartości powyżej 500 nie będą brane pod uwagę. Ponadto możemy zauważyć, że najpopularniejszymi dzielnicami pod względem ofert w serwisie Airbnb w Nowym Jorku, są Brooklyn oraz Manhattan, gdzie w drugim okręgu w wyniku atrakcyjności okręgu ofert, gdzie cena jest stosunkowo wysoka jest więcej.

Ze względu na ogromną różnicę w liczbie ogłoszeń pomiędzy Manhattanem czy też Brooklynem, a pozostałymi dzielnicami, ciekawym punktem zaczepienia będzie zestawienie ich cen ze względu na położenie. W tym celu, skorzystamy z wykresu skrzypcowego z podziałem na główne badane okręgi. Pozwoli to określić w jaki sposób rozkładają się ceny mieszkań w każdym z nich. Ze względu z wcześniejszą analizą, ograniczymy badane wartości do $500.

In [None]:
sub=df[df.price <= 500]
viol=sns.violinplot(data=sub, x='neighbourhood_group', y='price').set(title="Rozkład ceny ogłoszeń dla każdego z okręgów")

Powyższy wykres pokazuje, jak bardzo różni się docelowy rynek pomiędzy Manhattan'em, a resztą Nowego Jorku. 

Dla każdego z pozostałych okręgów możemy zaobserwować widoczne "wybrzuszenie się" naszych skrzypiec w dolnych granicach, gdzieś około wartości $60 - $70 i potem mniej lub bardziej gwałtowny spadek liczby ogłoszeń, aż do osiągnięcia bardzo niewielkiej szerokości naszych wykresów. Średnia wartość plasuje się w okolicach $80 dla Brooklynu, Queens, Staten Island oraz Bronxu.

Sytuacja wygląda zgoła inaczej w przypadku Manhattanu. Sama średnia kwota, którą musimy zapłacić wynosi w przybliżeniu $150. Nie jesteśmy w stanie również zaobserwować tak dużej liczbie ogłoszeń w podobnej cenie, jako że liczba ogłoszeń maleje w znacznie wolniejszym tempie w porównaniu do pozostałych okręgów. Widzimy również zwężenie do minimalnej szerokości następuje gdzieś w okolicy $400, gdzie dla reszty dzieję się to przy około $300. Pokazuje to, że w tym miejscu możemy znaleźć znacznie bardziej różnorodne mieszkania o różnych standardach, co jest mnożone poprzez umiejscowienie geograficzne w okolicy ludzi sukcesu oraz bogaczy.

Ze względu na ciekawe wyniki powyższych odczytów, sprawdzmy jak statystycznie wyglądają ceny w poszczególnych dzielnicach.
Poniżej umieściliśmy dane z cen dla każdej z dzielnic w jednej liście.

In [None]:
#Brooklyn
sub_1=df.loc[df['neighbourhood_group'] == 'Brooklyn']
price_sub1=sub_1[['price']]
#Manhattan
sub_2=df.loc[df['neighbourhood_group'] == 'Manhattan']
price_sub2=sub_2[['price']]
#Queens
sub_3=df.loc[df['neighbourhood_group'] == 'Queens']
price_sub3=sub_3[['price']]
#Staten Island
sub_4=df.loc[df['neighbourhood_group'] == 'Staten Island']
price_sub4=sub_4[['price']]
#Bronx
sub_5=df.loc[df['neighbourhood_group'] == 'Bronx']
price_sub5=sub_5[['price']]

price_list_by_n=[price_sub1, price_sub2, price_sub3, price_sub4, price_sub5]

Teraz utworzymy tabelę, która pokaże nam, jak wyglądają poszczególne kwartyle dla każdego z okręgów. Pozwoli to nam określić, jak na przestrzeni całego zbioru plasują się określone mieszkania i jakich kategorii cenowych możemy oczekiwać.

In [None]:
data_table=[]
name_list=['Brooklyn', 'Manhattan', 'Queens', 'Staten Island', 'Bronx']

#Zbieranie statystyk dla cen określonych przez centyle

for x in price_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Stats'}, inplace=True)
    data_table.append(i)
    
#
#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(5):
    data_table[i].rename(columns={'price':name_list[i]}, inplace=True)  
data_table=[df.set_index('Stats') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
#Brooklyn
sub_1_price_per_night=df.loc[df['neighbourhood_group'] == 'Brooklyn']
price_per_night_sub1=sub_1[['price_per_night']]
#Manhattan
sub_2_price_per_night=df.loc[df['neighbourhood_group'] == 'Manhattan']
price_per_night_sub2=sub_2[['price_per_night']]
#Queens
sub_3_price_per_night=df.loc[df['neighbourhood_group'] == 'Queens']
price_per_night_sub3=sub_3[['price_per_night']]
#Staten Island
sub_4_price_per_night=df.loc[df['neighbourhood_group'] == 'Staten Island']
price_per_night_sub4=sub_4[['price_per_night']]
#Bronx
sub_5_price_per_night=df.loc[df['neighbourhood_group'] == 'Bronx']
price_per_night_sub5=sub_5[['price_per_night']]

price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3, price_per_night_sub4, price_per_night_sub5]

In [None]:
data_table=[]
name_list=['Brooklyn', 'Manhattan', 'Queens', 'Staten Island', 'Bronx']

#Zbieranie statystyk dla cen określonych przez centyle

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Stats'}, inplace=True)
    data_table.append(i)
    
#
#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(5):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Stats') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table


### Brooklyn

In [None]:
sub=n_df_Brooklyn[n_df_Brooklyn.price_per_night <= 300]
viol=sns.violinplot(data=sub, x='room_type', y='price_per_night').set(title="Rozkład ceny dla typu oferty dla okręgu Brooklyn")

In [None]:
#room Type
sub_1=n_df_Brooklyn.loc[n_df_Brooklyn['room_type'] == 'Private room']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Brooklyn.loc[n_df_Brooklyn['room_type'] == 'Entire home/apt']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Brooklyn.loc[n_df_Brooklyn['room_type'] == 'Shared room']
price_per_night_sub1=sub_1[['price_per_night']]


price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3]

In [None]:
data_table=[]
name_list=['Private room', 'Entire home/apt', 'Shared room']

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Brooklyn'}, inplace=True)
    data_table.append(i)
    

#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(3):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Brooklyn') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
sub=df[df.neighbourhood_group == "Brooklyn"]
sub=sub[sub.price_per_night <= 500]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla typów pokoi Brooklyn', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="room_type", kde=True, binwidth=20)

W okręgu Brooklyn, w typach ofert dominują takie gdzie wynajęty jest cały apartament lub też pojedynczy pokój. Zauważyć można, że cena, powyżej której ilość ofert wynajmu całego apartamentu jest większa to około 43 dolary za noc

### Manhattan

In [None]:
sub=n_df_Manhattan[n_df_Manhattan.price_per_night <= 500]
viol=sns.violinplot(data=sub, x='room_type', y='price_per_night').set(title="Rozkład ceny dla typu oferty dla okręgu Manhattan")

In [None]:
#room Type
sub_1=n_df_Manhattan.loc[n_df_Manhattan['room_type'] == 'Private room']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Manhattan.loc[n_df_Manhattan['room_type'] == 'Entire home/apt']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Manhattan.loc[n_df_Manhattan['room_type'] == 'Shared room']
price_per_night_sub1=sub_1[['price_per_night']]


price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3]

In [None]:
data_table=[]
name_list=['Private room', 'Entire home/apt', 'Shared room']

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Manhattan'}, inplace=True)
    data_table.append(i)
    

#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(3):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Manhattan') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
sub=df[df.neighbourhood_group == "Manhattan"]
sub=sub[sub.price_per_night <= 500]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla typów pokoi Manhattan', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="room_type", kde=True, binwidth=20)

W okręgu Manhattan  najwięcej ofert całym przedziale cenowym to całe apartamenty, może to wynikać z tego iż właściciele chcą lokować swoje oszczędności w nieruchomości w miejscu, które jest atrakcyjne dla zwiedzających przez cały rok, czego wynikiem są wysokie przychody bierne.

### Queens

In [None]:
sub=n_df_Queens[n_df_Queens.price_per_night <= 300]
viol=sns.violinplot(data=sub, x='room_type', y='price_per_night').set(title="Rozkład ceny dla typu oferty dla okręgu Queens")

In [None]:
#room Type
sub_1=n_df_Queens.loc[n_df_Queens['room_type'] == 'Private room']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Queens.loc[n_df_Queens['room_type'] == 'Entire home/apt']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Queens.loc[n_df_Queens['room_type'] == 'Shared room']
price_per_night_sub1=sub_1[['price_per_night']]


price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3]

In [None]:
data_table=[]
name_list=['Private room', 'Entire home/apt', 'Shared room']

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Queens'}, inplace=True)
    data_table.append(i)
    

#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(3):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Queens') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
sub=df[df.neighbourhood_group == "Queens"]
sub=sub[sub.price_per_night <= 500]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla typów pokoi Queens', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="room_type", kde=True, binwidth=20)

### Staten Island

In [None]:
sub=n_df_Staten_Island[n_df_Staten_Island.price_per_night <= 250]
viol=sns.violinplot(data=sub, x='room_type', y='price_per_night').set(title="Rozkład ceny dla typu oferty dla okręgu Staten Island")

In [None]:
#room Type
sub_1=n_df_Staten_Island.loc[n_df_Staten_Island['room_type'] == 'Private room']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Staten_Island.loc[n_df_Staten_Island['room_type'] == 'Entire home/apt']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Staten_Island.loc[n_df_Staten_Island['room_type'] == 'Shared room']
price_per_night_sub1=sub_1[['price_per_night']]


price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3]

In [None]:
data_table=[]
name_list=['Private room', 'Entire home/apt', 'Shared room']

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Staten Island'}, inplace=True)
    data_table.append(i)
    

#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(3):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Staten Island') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
sub=df[df.neighbourhood_group == "Staten Island"]
sub=sub[sub.price_per_night <= 500]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla typów pokoi Staten Island', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="room_type", kde=True, binwidth=20)

### Bronx

In [None]:
sub=n_df_Bronx[n_df_Bronx.price_per_night <= 500]
viol=sns.violinplot(data=sub, x='room_type', y='price_per_night').set(title="Rozkład ceny dla typu oferty dla okręgu Bronx")

In [None]:
#room Type
sub_1=n_df_Bronx.loc[n_df_Bronx['room_type'] == 'Private room']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Bronx.loc[n_df_Bronx['room_type'] == 'Entire home/apt']
price_per_night_sub1=sub_1[['price_per_night']]

sub_1=n_df_Bronx.loc[n_df_Bronx['room_type'] == 'Shared room']
price_per_night_sub1=sub_1[['price_per_night']]


price_per_night_list_by_n=[price_per_night_sub1, price_per_night_sub2, price_per_night_sub3]

In [None]:
data_table=[]
name_list=['Private room', 'Entire home/apt', 'Shared room']

for x in price_per_night_list_by_n:
    i=x.describe(percentiles=[.25, .50, .75])
    i=i.iloc[3:]
    i.reset_index(inplace=True)
    i.rename(columns={'index':'Bronx'}, inplace=True)
    data_table.append(i)
    

#Zmiana nazw w celu łatwiejszego odczytania nazw okręgów 
   
for i in range(3):
    data_table[i].rename(columns={'price_per_night':name_list[i]}, inplace=True)  
data_table=[df.set_index('Bronx') for df in data_table]
data_table=data_table[0].join(data_table[1:])
data_table

In [None]:
sub=df[df.neighbourhood_group == "Bronx"]
sub=sub[sub.price_per_night <= 500]
plt.figure(figsize=(15,8))
plt.margins(x=0)
plt.title('Rozkład cen dla typów pokoi Bronx', fontsize=15)
plt.xlabel('Cena za noc')
plt.ylabel("Liczba ofert")
sns.histplot(data=sub, x="price_per_night", hue="room_type", kde=True, binwidth=20)

### Opisy

!!! Znaleźć najbiedniejsze oraz najdroższe dzielnice w danym okręgu/ Konrad

!!! Średnie ceny danego typu pokoju dla poszczególnej dzielnicy, popatrzeć na odstające ceny i przebadać/ Konrad

Widzimy, że niektóre ogłoszenia nie wymagają inwestycji pieniężnej w celu znalezienia noclegu (przynajmniej jest to prawdą na Brooklynie, Manhattanie oraz Bronxie). 

Kolejne progi procentowe powoli pozwalają nam na określenie gdzie mieszkanie będzie bardziej lub mniej pożądane. Już przy 25% widzimy znaczną różnicę, gdzie na Manhattan'ie zapłacimy ponad dwukrotność mieszkania na Bronx'ie! Nie ma tutaj mowy o standardzie danego pokoju, dlatego też ciężko ocenić czy ta różnica wynika tylko i wyłącznie z umiejscowienia geograficznego. Na ten fakt z pewnością wpływa również to, że ogłoszeń na okręgach Queens, Staten Island oraz Bronx jest blisko 3-krotnie mniej sumarycznie niż na samym Manhattan'ie.

Kolejne progi tylko ugruntowują statystykę, że najdroższym miejscem do skorzystania z serwisu AirBnB jest Manhattan, następnie ze sporą różnicą uplasował się Brooklyn, później przy takich samych wynikach widzimy Queens oraz Staten Island, a Bronx pomimo swojego położenia stosunkowo blisko Manhattanu, okazał się najtańszy. 

Maksymalne ogłoszenie w każdym z okręgów uplasowało się znacznie wyżej niż pozostałe, ale ponownie widzimy tutaj znacznie niższą cenę na Bronx'ie, co tylko utwierdza wcześniej wysunięty wniosek.

## Mapa Nowego Jorku

Na mapie Nowego Jorku zostały narzucone koordynaty wszystkich obiektów dostępnych na wynajem z naszej bazy danych. Przedstawione zostały w formie mapy cieplnej, która charakteryzuje się co raz to intensywniejszym kolorem w zależności od liczby mieszkań w tej okolicy. 

Wnioski z tej mapy pokrywają się w wizualny sposób z poprzednimi badaniami. Widzimy tutaj, że na Staten Island liczba mieszkań jest bardzo mała, a większość z nich jest umiejscowiona niedaleko mostu łączącego ją z Brooklyn'em. Podobną charakterystyką można opisać Bronx oraz Queens, chociaż w tych przypadkach odległość dzieląca mieszkania jest większa, ponieważ nie są tak scentralizowane jak na Staten Island. 

Drugą pod względem liczby dostępnych na wynajem mieszkań jest Brooklyn. Widzimy tutaj znacznie większe zagęszczenie w porównaniu do poprzednich okręgów. Liczba mieszkań rośnie odwrotnie proporcjonalnie do odległości od Manhattanu, gdzie pomimo mniejszej powierzchni od pozostałych hrabstw, widzimy czerwone punkty na mapie oraz nieprzerwaną falę pomarańczowego koloru na około central parku. Zgadza się to z założeniem, że manhattan jest najsławniejszym oraz najbogatszym okręgiem z badanych, dlatego też ludzie z pewnością są bardziej skłonni właśnie tam pozostać na noc.

In [None]:
map = folium.Map([40.7128,-74.0060],zoom_start=11)
folium.plugins.HeatMap(df[['latitude','longitude']].dropna(),
                       radius=8, gradient={0.1:'blue',0.4:'purple',0.6:'orange',1.0:'red'}).add_to(map)
display(map)

In [None]:
room_type = le.fit_transform(df["room_type"])

df["neighbourhood"] = df["neighbourhood"].map(dzielnica_mapping)
df["neighbourhood_group"] = df["neighbourhood_group"].map(hrabstwo_mapping)

In [None]:
x = list(
    zip(
        df["longitude"],
        df["latitude"],
        df["neighbourhood"],
        df["neighbourhood_group"],
        df["minimum_nights"],
        room_type,
    )
)

y = list(df["price_per_night"])

x_train, x_test, y_train, y_test = model_selection.train_test_split(x, y, test_size=0.1)

model = KNeighborsClassifier(n_neighbors=31)
model.fit(x_train, y_train)
accuracy = model.score(x_test, y_test)
print(f"Dokładna predykcja ceny: {accuracy*100:.2f}%")
predicted = model.predict(x_test) # y testowy

kolumny = "longitude;latitude;neigbourhood;neighbourhood_group;minimum_nights;room_type".split(";")

dane_tren = pd.DataFrame(x_test,y_test, columns = kolumny)
dane_predicted = pd.DataFrame(x_test,predicted, columns = kolumny)
accurate = []
not_accurate = []
inaccuracy = 10
for x in range(len(predicted)):
    if predicted[x] in range(y_test[x] - inaccuracy, y_test[x] + inaccuracy + 1):
        accurate.append(x_test[x])
    else:
        not_accurate.append(x_test[x])
    # print("Data: ", x_test[x], "Predicted: ", predicted[x],  "Actual: ", y_test[x])
print(f"Precyzja wynosi około {len(accurate)*100/(len(accurate) + len(not_accurate)):.2f}% jeśli weźmiemy pod uwagę niepewność równą ${inaccuracy}.")