![title](imagens/01.jpg)

# Modelo de Regressão linear - Airbnb Nova York



**Contexto**


Desde 2008, os hóspedes e anfitriões têm usado o Airbnb para expandir as possibilidades de viagem e apresentar uma forma mais única e personalizada de experimentar o mundo. Este conjunto de dados descreve a atividade de listagem e as métricas em NYC, NY para 2019.



**Conteúdo**

Este arquivo de dados inclui todas as informações necessárias para descobrir mais sobre hosts, disponibilidade geográfica, métricas necessárias para fazer previsões e tirar conclusões.




**Reconhecimentos**

Este conjunto de dados públicos faz parte do Airbnb, e a fonte original pode ser encontrada neste site .

**Inspiração**

O que podemos aprender sobre diferentes hosts e áreas?

O que podemos aprender com as previsões? (ex: locais, preços, comentários, etc)

Quais hosts são os mais ocupados e por quê?

Existe alguma diferença perceptível de tráfego entre as diferentes áreas e qual poderia ser o motivo?

In [None]:
!pip install -q -U watermark

In [None]:
from platform import python_version

print('Versão python neste Jupyter Notebook:', python_version())

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objs as go

In [None]:
%reload_ext watermark
%watermark -a "Rafael Gallo" --iversions

In [None]:
sns.set_palette("Accent")
sns.set_style('darkgrid')

In [None]:
df = pd.read_csv("AB_NYC_2019.csv")
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.isnull().sum()

In [None]:
df.nunique()

In [None]:
df.duplicated().sum()

In [None]:
df.host_id.value_counts().iloc[:5]

In [None]:
df.columns = ["ID",
             "Nome",
             "hospede_id",
             "hospede_nome",
             "Bairro",
             "Vizinhança",
             "latitude",
             "longitude",
             "Tipo de sala",
             "Preço",
             "Noites mínimas",
             "Número de comentários",
             "Última revisão",
             "Avaliações por mês",
             "Contagem de listagens de host calculada",
             "Disponibilidade 365"]

df.head()

In [None]:
df.describe()

In [None]:
plt.figure(figsize = (10,8))

corr = df.corr()
sns.heatmap(corr,  cmap = 'plasma', annot= True);

In [None]:
plt.figure(figsize=(18, 8))

sns.countplot(df["Bairro"])

In [None]:
plt.figure(figsize = (18, 8))

ax = sns.barplot(x='Preço', y='Bairro', data= df,
                palette = 'plasma')

ax.set_title('Média Preço por Distrito')

In [None]:
plt.figure(figsize=(18, 8))

sns.boxplot(x = "Bairro", y = "Disponibilidade 365", data = df)

In [None]:
plt.figure(figsize=(10, 6))

sns.scatterplot(x = "latitude", y = "longitude", data = df, hue = "Bairro")

In [None]:
plt.figure(figsize=(10, 6))

sns.scatterplot(x = "latitude", y = "longitude", data = df, hue = "Tipo de sala")

In [None]:
apt = df[["latitude", "longitude", "Preço"]]

fig = px.scatter_mapbox(apt,
                       lat = "latitude",
                       lon = "longitude",
                       size = "Preço",
                       color_continuous_scale = px.colors.cyclical.IceFire, 
                       size_max = 15, 
                       zoom = 10)

fig.update_layout(
        title = 'Mapa região de apartamentos Nova York',
)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [None]:
apt = df[["latitude", "longitude", "Disponibilidade 365"]]

fig = px.scatter_mapbox(apt,
                       lat = "latitude",
                       lon = "longitude",
                       size = "Disponibilidade 365",
                       color_continuous_scale = px.colors.cyclical.IceFire, 
                       size_max = 15, 
                       zoom = 10)

fig.update_layout(
        title = 'Mapa região de apartamentos Nova York',
)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()