<a href="https://colab.research.google.com/github/Rodrigo-Lopes-de-Andrade/Artigos_e_Projetos/blob/main/An%C3%A1lise_dos_Dados_do_Airbnb__Rio__de__Janeiro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
    <a href="https://medium.com/rodrigo-lopesandrade" alt="Contributors">
        <img src="https://img.shields.io/badge/Medium-RLA Data Science-magenta" />
    </a>
<a href="https://linkedin.com/in/rodrigo-lopes-de-andrade-51753246" alt="Contributors">
        <img src="https://img.shields.io/badge/Linkedin-Rodrigo Lopes de Andrade-cyan" />
    </a>
<a href="https://github.com/Rodrigo-Lopes-de-Andrade" alt="Contributors">
        <img src="https://img.shields.io/badge/GitHub-Rodrigo Lopes de Andrade-purple" />
    </a>
<p align="center">
  <img src="https://raw.githubusercontent.com/Rodrigo-Lopes-de-Andrade/Portifolio_Rodrigo_Andrade/main/LOGORLA.JPG" >
</p>


---

# Análise dos Dados do Airbnb - Rio de Janeiro

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**.  o detalhe é que ele não possui nenhum hotel!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No Brasil, o Airbnb divulgou que a plataforma gerou **um impacto econômico direto de R$ 7,7 bilhões em 2018**. Ainda segundo os cálculos da plataforma, em 245 países e regiões no mundo, é possível realizar mais de 60 mil conexões. 

No ranking do Índice de Conexões, **o Brasil ocupa o 11º lugar**. Anfitriões brasileiros já receberam viajantes de 207 países; e, brasileiros já foram para 203 nações diferentes.

Em primeiro lugar está os Estados Unidos, que recebeu hóspedes de 242 países, e, no inverso, americanos estiveram em 235 nações.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

**Neste *notebook*, iremos analisar os dados referentes à cidade do Rio de Janeiro, e ver quais insights podem ser extraídos a partir de dados brutos e realizar previsão dos preços.**

## Obtenção dos Dados

Todos os dados usados aqui foram obtidos a partir do site [Inside Airbnb](http://insideairbnb.com/get-the-data.html).

Para esta análise exploratória inicial, será baixado apenas o seguinte arquivo:

* `listings.csv` - *Summary information and metrics for listings in Rio de Janeiro (good for visualisations).*


In [None]:
# importar os pacotes necessarios
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go
from plotly.subplots import make_subplots
%matplotlib inline

In [None]:
# Configurando o Background
colors = ['#F06E5C','#5CF0C5','#F1F689','#F0B35C','#6EDEDE',
          '#BB81D5','#D3D972','#EB83EE','#8B8CED','#F09674',
          '#BCE374','#72C3E7','#C3A0EB','#E6809D','#A9BFCB']

sns.palplot(sns.color_palette(colors))
plt.title('Notebook Colors', size = 12)
plt.axis('off')
plt.show()

In [None]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/Rodrigo-Lopes-de-Andrade/Datasets/main/airbnb_rj_br.csv")
df.head()

## Análise Exploratória dos Dados
Esta etapa tem por objetivo criar uma consciência situacional inicial e permitir um entendimento de como os dados estão estruturados.

### Dicionário das variáveis


* `id` - número de id gerado para identificar o imóvel
* `name` - nome da propriedade anunciada
* `host_id` - número de id do proprietário (anfitrião) da propriedade
* `host_name` - Nome do anfitrião
* `neighbourhood_group` - esta coluna não contém nenhum valor válido
* `neighbourhood` - nome do bairro
* `latitude` - coordenada da latitude da propriedade
* `longitude` - coordenada da longitude da propriedade
* `room_type` - informa o tipo de quarto que é oferecido
* `price` - preço para alugar o imóvel
* `minimum_nights` - quantidade mínima de noites para reservar
* `number_of_reviews` - número de reviews que a propriedade possui
* `last_review` - data do último review
* `reviews_per_month` - quantidade de reviews por mês
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião
* `availability_365` - número de dias de disponibilidade dentro de 365 dias

####Conhecendo a base de *dados*

In [None]:
# Crinado a função para resumir as principais estatisticas 
import scipy as sp
from scipy import stats
def resumetable(df):

    print('Rows: {}'.format(df.shape[0]))
    print('Columns: {}'.format(df.shape[1]))
    summary = pd.DataFrame(df.dtypes,columns=['dtypes'])
    summary = summary.reset_index()
    summary['Name'] = summary['index']
    summary = summary[['Name','dtypes']]
    summary['Missing'] = df.isnull().sum().values    
    summary['Uniques'] = df.nunique().values
    summary['First Value'] = df.loc[0].values
    summary['Second Value'] = df.loc[1].values
    summary['Third Value'] = df.loc[2].values
    summary['Duplicated Value'] = df.duplicated().sum()
    
    for name in summary['Name'].value_counts().index:
        summary.loc[summary['Name'] == name, 'Entropy'] = round(stats.entropy(df[name].value_counts(normalize=True), base=2),2) 

    return summary

In [None]:
# Overview dos dados
resumetable(df)

In [None]:
# Verificando as 20 primeiras linhas 
df.head(20)

In [None]:
# Principais Estatísticas das Variáveis Numericas
df.describe().T

In [None]:
# Valores Missing
total = df.isnull().sum().sort_values(ascending=False)
percent = (df.isnull().sum())/df.isnull().count().sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total','Percent'], sort=False).sort_values('Total', ascending=False)
missing_data.head(40)

In [None]:
# Plotando Gráfico dos Valores Missing
plt.figure(figsize=(8, 8))
plt.title('Missing Values Per Feature')
nans = df.isna().sum().sort_values(ascending=False).to_frame()
sns.heatmap(nans,annot=True,fmt='d',cmap='vlag')

In [None]:
# Trazendo Somente as colunas com valores missing 
def missing_values_table(dataframe, na_name=False):
    na_columns = [col for col in dataframe.columns if dataframe[col].isnull().sum() > 0]
    quantidade = dataframe[na_columns].isnull().sum().sort_values(ascending=False)
    percentual = (dataframe[na_columns].isnull().sum() / dataframe.shape[0] * 100).sort_values(ascending=False)
    missing_df = pd.concat([quantidade, np.round(percentual, 2)], axis=1, keys=['Total', 'Percent'])
    print(missing_df, end="\n")
    if na_name:
        return na_columns
missing_values_table(df)   

In [None]:
# Apagando as colunas 'host_name','name', 'neighbourhood_group'.
df.drop(['host_name','name', 'neighbourhood_group'], axis=1, inplace=True)

In [None]:
# Substituindo os valores missing pelo anterior 
df['last_review']= df['last_review'].fillna(method='ffill')

In [None]:
# Substituindo os valores missing pelo anterior 
df['reviews_per_month']= df['reviews_per_month'].fillna(method='ffill')

In [None]:
# Valores Missing
total = df.isnull().sum().sort_values(ascending=False)
percent = (df.isnull().sum())/df.isnull().count().sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total','Percent'], sort=False).sort_values('Total', ascending=False)
missing_data.head(40)

In [None]:
# Calcule a correlação  
correlacoes = df.corr()

In [None]:
# Usando o método heatmap do seaborn
plt.figure(figsize=(16, 6))
sns.heatmap(data=correlacoes, annot=True)

In [None]:
# Função Para Correlação 
def pearson_corr(dataframe):
    sns.set_style("white")
    matrix = np.triu(dataframe.corr(method="pearson"))
    f,ax=plt.subplots(figsize = (matrix.shape[0]*0.75,
                                 matrix.shape[1]*0.75))
    sns.heatmap(dataframe.corr(method="pearson"),
                annot= True,
                fmt = ".2f",
                ax=ax,
                vmin = -1,
                vmax = 1,
                mask = matrix,
                cmap = "coolwarm",
                linewidth = 0.4,
                linecolor = "white",
                annot_kws={"size": 12})
    plt.xticks(rotation=80,size=14)
    plt.yticks(rotation=0,size=14)
    plt.title('Pearson Correlation Map', size = 14)
    plt.show()
    
pearson_corr(df)

### Detecção de anomalias e valores extremos 

In [None]:
def CalcOutliers(df_num): 
    '''
    Defina um valor numérico e ele irá calcular o número superior, inferior e total de outliers
    Irá imprimir muitas estatísticas da característica numérica que você definiu na entrada
    
    '''
    # calculando a média e o desvio padrão da matriz
    data_mean, data_std = np.mean(df_num), np.std(df_num)

   # definir a linha de corte para valores mais altos e mais baixos
   # Você pode alterar este valor
    cut = data_std * 3

    #Calculando os valores de corte superior e inferior
    lower, upper = data_mean - cut, data_mean + cut

    # criando uma matriz de valores outlier inferior, superior e total
    outliers_lower = [x for x in df_num if x < lower]
    outliers_higher = [x for x in df_num if x > upper]
    outliers_total = [x for x in df_num if x < lower or x > upper]

    # array sem valores atípicos
    outliers_removed = [x for x in df_num if x > lower and x < upper]
    
    print('Identified lowest outliers: %d' % len(outliers_lower)) # imprimindo o número total de valores no corte inferior de outliers
    print('Identified upper outliers: %d' % len(outliers_higher)) # imprimindo o número total de valores no corte superior de outliers
    print('Identified outliers: %d' % len(outliers_total)) # imprimindo número total de valores atípicos de ambos os lados
    print('Non-outlier observations: %d' % len(outliers_removed)) # imprimindo o número total de valores não atípicos
    print("Total percentual of Outliers: ", round((len(outliers_total) / len(outliers_removed) )*100, 4)) # Percentual de outliers em pontos
    
    return


In [None]:
CalcOutliers(df['price'])

In [None]:
CalcOutliers(df['minimum_nights'])

In [None]:
# remover os *outliers* em um novo DataFrame
df.drop(df[df.price > 1000].index, axis=0, inplace=True)
df.drop(df[df.minimum_nights > 30].index, axis=0, inplace=True)

In [None]:
data = go.Box(y=df['price'],name = 'Price',marker_color="#5CF0C5")
layout = go.Layout(title={'text': "Price",'y':0.9,'x':0.5,'xanchor': 'center',
        'yanchor': 'top'}, width = 450, height=450)
fig = go.Figure(data = data, layout=layout)
fig.show()

In [None]:
data = go.Box(y=df['minimum_nights'],name = 'minimum_nights',marker_color="#5CF0C5")
layout = go.Layout(title={'text': "Minimum_nights",'y':0.9,'x':0.5,'xanchor': 'center',
        'yanchor': 'top'}, width = 450, height=450)
fig = go.Figure(data = data, layout=layout)
fig.show()

In [None]:
import plotly.express as px
fig = px.box(df, x="room_type", y="price", points="all",
             color="room_type", title="Box plot Room_Tip x Price",)
fig.show()

## insights

### **Qual o tipo de imóvel mais alugado no Airbnb?**

A coluna da variável `room_type` indica o tipo de locação que está anunciada no Airbnb. Se você já alugou no site, sabe que existem opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas.

Vamos contar a quantidade de ocorrências de cada tipo de aluguel, usando o método `value_counts()`.

In [None]:
# mostrar a quantidade de cada tipo de imóvel disponível
df.room_type.value_counts()

In [None]:
# mostrar a porcentagem de cada tipo de imóvel disponível
df.room_type.value_counts() / df.shape[0]

In [None]:
fig = make_subplots(rows=1,cols=2,
                    subplot_titles=('Quantidade',
                                    'Porcentagem'),
                    specs=[[{"type": "xy"},
                            {'type':'domain'}]])

fig.add_trace(go.Bar( y = df['room_type'].value_counts().values.tolist(), 
                      x = df['room_type'].value_counts().index, 
                      text=df['room_type'].value_counts().values.tolist(),
                      textfont=dict(size=15),
                      name = 'porcentagem de cada tipo de imóvel disponível',
                      textposition = 'auto',
                      showlegend=False,
                      marker=dict(color = colors,
                                  line=dict(color='white',
                                            width=1.5))),
              row = 1, col = 1)

fig.add_trace(go.Pie(labels=df['room_type'].value_counts().keys(),
                     values=df['room_type'].value_counts().values,
                     textfont = dict(size = 16),
                     textposition='auto',
                     showlegend = False,
                     name = 'porcentagem de cada tipo de imóvel disponível',
                     marker=dict(colors = colors)),
              row = 1, col = 2)

fig.update_layout(title={'text': 'Porcentagem de cada tipo de imóvel disponível',
                         'y':0.9,
                         'x':0.5,
                         'xanchor': 'center',
                         'yanchor': 'top'},
                  template='plotly_white')

fig.show()

### **Qual a localidade mais cara do Rio?**

Uma maneira de se verificar uma variável em função da outra é usando `groupby()`. No caso, queremos comparar os bairros (*neighbourhoods*) a partir do preço de locação.

In [None]:
df.groupby(['neighbourhood']).price.mean().sort_values(ascending=False)[:10]

In [None]:
top10_horsepower = df.groupby(['neighbourhood']).agg({'price': 'mean'}). \
sort_values('price', ascending = False)[0:10].reset_index()

data = go.Bar(x = top10_horsepower['neighbourhood'],
              y = top10_horsepower['price'],
              text =round(top10_horsepower['price'],2),
              textposition= 'auto',
              marker = dict(color = colors,
                            line_color = colors,
                            line_width = 1))

layout = go.Layout(title= dict(text = 'TOP 10 DE PREÇO POR LOCALIDADE',
                              x = 0.5,
                              y = 0.9,
                              xanchor = 'center',
                              yanchor = 'top'),
                   xaxis = dict(title='Localidade'),
                   yaxis =dict(title='Preço Médio'),
                   template='plotly_white')

fig=go.Figure(data=data, layout=layout)
fig.show()

In [None]:
fig = px.scatter_mapbox(df, lat="latitude", lon="longitude", color="room_type", size="price",
                 size_max=15, zoom=10, 
                  mapbox_style="carto-positron")
fig.show()

## Pré-Processamento

In [None]:
df.dtypes

In [None]:
# Variaveis Categoricas
categorical_features = df.select_dtypes(include=['object'])
print('Categorical features: {}'.format(categorical_features.shape))

In [None]:
# Criando as dumies para as variáveis categoricas
categorical_features_one_hot = pd.get_dummies(categorical_features)
categorical_features_one_hot.head()

In [None]:
df['reviews_per_month'] = df['reviews_per_month'].fillna(0)
df.drop(['id','host_id'], axis=1, inplace=True)
df.head()

In [None]:
numerical_features =  df.select_dtypes(exclude=['object'])
y = numerical_features.price
numerical_features = numerical_features.drop(['price'], axis=1)
print('Numerical features: {}'.format(numerical_features.shape))

In [None]:
X = np.concatenate((numerical_features, categorical_features_one_hot), axis=1)
X_df = pd.concat([numerical_features, categorical_features_one_hot], axis=1)
print('Dimensions of the design matrix: {}'.format(X.shape))
print('Dimension of the target vector: {}'.format(y.shape))

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error,r2_score
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_score

Y = df.price
X = X_df

RF_pipe = Pipeline(steps =[  ("RF",RandomForestRegressor(random_state=42)) ])
LR_pipe = Pipeline(steps =[  ("LR",LinearRegression()) ])
RIDGE_pipe = Pipeline(steps =[ ("R",Ridge()) ])


RF_f1_cross_val_scores = np.sqrt(-1*cross_val_score(RF_pipe,X,Y,cv=5,scoring='neg_mean_squared_error'))
LR_f1_cross_val_scores= np.sqrt(-1*cross_val_score(LR_pipe,X,Y,cv=5,scoring='neg_mean_squared_error'))
RIDGE_f1_cross_val_scores= np.sqrt(-1*cross_val_score(RIDGE_pipe,X,Y,cv=5,scoring='neg_mean_squared_error'))

In [None]:
fig = make_subplots(rows=3, cols=1,shared_xaxes=True,subplot_titles=('Random Forest Cross Val Scores',
                                                                     'Linear Regression Cross Val Scores',
                                                                    'Ridge Regression Cross Val Scores'))

fig.add_trace(
    go.Scatter(x=np.arange(0,len(RF_f1_cross_val_scores)),y=RF_f1_cross_val_scores,name='Random Forest'),
    row=1, col=1
)
fig.add_trace(
    go.Scatter(x=np.arange(0,len(LR_f1_cross_val_scores)),y=LR_f1_cross_val_scores,name='Linear Regression'),
    row=2, col=1
)
fig.add_trace(
    go.Scatter(x=np.arange(0,len(RIDGE_f1_cross_val_scores)),y=RIDGE_f1_cross_val_scores,name='Ridge Regression'),
    row=3, col=1
)

fig.update_layout(height=700, width=1000, title_text="Different Model 5 Fold Cross Validation")
fig.update_yaxes(title_text="RMSE")
fig.update_xaxes(title_text="Fold #")

fig.show()

In [None]:
def hyperparameter_estimators(X,Y,h_list):
    r_s = []
    for est in h_list:
        model = Pipeline(steps =[  ("RF",RandomForestRegressor(random_state=42,n_estimators=est)) ])
        model.fit(X,Y)
        pred = model.predict(X)
        r_s.append(r2_score(Y,pred))
    return r_s

In [None]:
estimators_under_test = [10,50,100,300,500,700,850]
rs = hyperparameter_estimators(X,Y,estimators_under_test)
plt.plot(estimators_under_test,rs,'go--')
plt.title(r'Choosing The Number of Estimators That Maximizes $R^2$ of Prediction',fontsize=17,fontweight='bold')
plt.xticks(estimators_under_test)
plt.ylabel(r'$R^2$ Value',fontsize=17,fontweight='bold')
plt.xlabel(r'Number Of Estimators',fontsize=17,fontweight='bold')
plt.show()

In [None]:
def hyperparameter_estimators(X,Y,h_list):
    r_s = []
    for est in h_list:
        model = Pipeline(steps =[  ("RF",RandomForestRegressor(random_state=42,n_estimators=500,max_leaf_nodes=est)) ])
        model.fit(X,Y)
        pred = model.predict(X)
        r_s.append(r2_score(Y,pred))
    return r_s

nodes_under_test = [2,3,5,7,10,30,50]
rs = hyperparameter_estimators(X,Y,nodes_under_test)
plt.plot(nodes_under_test,rs,'ro--')
plt.title(r'Choosing The Number of Leaf Nodes That Maximizes $R^2$ of Prediction',fontsize=17,fontweight='bold')
plt.xticks(nodes_under_test)
plt.ylabel(r'$R^2$ Value',fontsize=17,fontweight='bold')
plt.xlabel(r'Number Of Leaf Nodes',fontsize=17,fontweight='bold')
plt.show()

In [None]:
rf_pipe = Pipeline(steps =[  ("RF",RandomForestRegressor(random_state=42,n_estimators=500,max_leaf_nodes=50)) ])
rf_pipe.fit(X,Y)
predictions = rf_pipe.predict(X)

In [None]:
print('Total RMSE For Prediction On Entire Dataset : {}'.format(RMSE(Y,predictions)))

In [None]:
plt.title(r'Validating That There Is No Visable Heteroscedasticity',fontsize=17,fontweight='bold')
sns.residplot(predictions,Y)
plt.show()

In [None]:
output = pd.DataFrame({'Prediction':predictions,'Actual':Y})
output.to_csv('view_prediction.csv',index=False)