<a href="https://colab.research.google.com/github/Guilherme01Lacerda/Previsao_de_Precos/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Importar Bibliotecas e Bases de Dados

In [None]:
import pandas as pd
import pathlib
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from sklearn.model_selection import train_test_split

In [None]:
meses = {'jan': 1, 'fev': 2, 'mar': 3, 'abr': 4, 'mai': 5, 'jun': 6, 'jul': 7, 'ago': 8, 'set': 9, 'out':10, 'nov': 11, 'dez': 12}

caminho_bases = pathlib.Path('dataset')

bases = []

for arquivo in caminho_bases.iterdir():
    nome_mes = arquivo.name[:3]
    mes = meses[nome_mes]
    ano = arquivo.name[-8:]
    ano = int(ano.replace('.csv', ''))

    df = pd.read_csv(caminho_bases / arquivo.name)
    df['ano'] = ano
    df['mes'] = mes
    bases.append(df)

base_airbnb = pd.concat(bases)
display(base_airbnb)

Depois da análise qualitativa das colunas, levando em conta os critérios explicados acima, ficamos com as seguintes colunas:

In [None]:
colunas = ['host_is_superhost','host_listings_count','latitude','longitude','property_type','room_type','accommodates','bathrooms','bedrooms','beds','bed_type','price','security_deposit','cleaning_fee','guests_included','extra_people','minimum_nights','maximum_nights','number_of_reviews','review_scores_rating','review_scores_accuracy','review_scores_cleanliness','review_scores_checkin','review_scores_communication','review_scores_location','review_scores_value','instant_bookable','cancellation_policy','ano','mes']

base_airbnb = base_airbnb.loc[:, colunas]
display(base_airbnb)

Tratar Valores Faltando

In [None]:
for coluna in base_airbnb:
    if base_airbnb[coluna].isnull().sum() > 300000:
        base_airbnb = base_airbnb.drop(coluna, axis=1)
print(base_airbnb.isnull().sum())

In [None]:
base_airbnb = base_airbnb.dropna()

print(base_airbnb.shape)
print(base_airbnb.isnull().sum())

Verificar Tipos de Dados em cada coluna

In [None]:
print(base_airbnb.dtypes)
print('-'*70)
print(base_airbnb.iloc[0])

In [None]:
#price
base_airbnb['price'] = base_airbnb['price'].str.replace('$', '')
base_airbnb['price'] = base_airbnb['price'].str.replace(',', '')
base_airbnb['price'] = base_airbnb['price'].astype(np.float32, copy=False)
#extra people
base_airbnb['extra_people'] = base_airbnb['extra_people'].str.replace('$', '')
base_airbnb['extra_people'] = base_airbnb['extra_people'].str.replace(',', '')
base_airbnb['extra_people'] = base_airbnb['extra_people'].astype(np.float32, copy=False)
#verificando os tipos
print(base_airbnb.dtypes)

Análise Exploratória e Tratar Outliers

In [None]:
plt.figure(figsize=(15, 10))
sns.heatmap(base_airbnb.corr(numeric_only=True), annot=True, cmap='Greens')

Definição de Funções para Análise de Outliers

In [None]:
def limites(coluna):
    q1 = coluna.quantile(0.25)
    q3 = coluna.quantile(0.75)
    amplitude = q3 - q1
    return q1 - 1.5 * amplitude, q3 + 1.5 * amplitude
def excluir_outliers(df, nome_coluna):
    qtde_linhas = df.shape[0]
    lim_inf, lim_sup = limites(df[nome_coluna])
    df = df.loc[(df[nome_coluna] >= lim_inf) & (df[nome_coluna] <= lim_sup), :]
    linhas_removidas = qtde_linhas - df.shape[0]
    return df, linhas_removidas

In [None]:
def diagrama_caixa(coluna):
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(15, 5)
    sns.boxplot(x=coluna, ax=ax1)
    ax2.set_xlim(limites(coluna))
    sns.boxplot(x=coluna, ax=ax2)

def histograma(coluna):
    plt.figure(figsize=(15, 5))
    sns.histplot(coluna, element='bars')

def gráfico_barra(coluna):
    plt.figure(figsize=(15, 5))
    ax = sns.barplot(x=coluna.value_counts().index, y=coluna.value_counts())
    ax.set_xlim(limites(coluna))

price

In [None]:
diagrama_caixa(base_airbnb['price'])
histograma(base_airbnb['price'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'price')
print('{} linhas removidas'.format(linhas_removidas))

In [None]:
histograma(base_airbnb['price'])
print(base_airbnb.shape)

extra_people

In [None]:
histograma(base_airbnb['extra_people'])
print(base_airbnb.shape)

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'extra_people')
print('{} linhas removidas'.format(linhas_removidas))

host_listings_count

In [None]:
diagrama_caixa(base_airbnb['host_listings_count'])
gráfico_barra(base_airbnb['host_listings_count'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'host_listings_count')
print('{} linhas removidas'.format(linhas_removidas))

accommodates

In [None]:
diagrama_caixa(base_airbnb['accommodates'])
gráfico_barra(base_airbnb['accommodates'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'accommodates')
print('{} linhas removidas'.format(linhas_removidas))

bathrooms

In [None]:
diagrama_caixa(base_airbnb['bathrooms'])
gráfico_barra(base_airbnb['bathrooms'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'bathrooms')
print('{} linhas removidas'.format(linhas_removidas))

bedrooms

In [None]:
diagrama_caixa(base_airbnb['bedrooms'])
gráfico_barra(base_airbnb['bedrooms'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'bedrooms')
print('{} linhas removidas'.format(linhas_removidas))

beds

In [None]:
diagrama_caixa(base_airbnb['beds'])
gráfico_barra(base_airbnb['beds'])

In [None]:
ase_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'beds')
print('{} linhas removidas'.format(linhas_removidas))

guests_included

In [None]:
#gráfico_barra(base_airbnb['guests_included'])
print(limites(base_airbnb['guests_included']))
plt.figure(figsize=(15,5))
sns.barplot(x=base_airbnb['guests_included'].value_counts().index, y=base_airbnb['guests_included'].value_counts())

In [None]:
base_airbnb = base_airbnb.drop('guests_included', axis=1)
base_airbnb.shape

Minimum_nights

In [None]:
diagrama_caixa(base_airbnb['minimum_nights'])
gráfico_barra(base_airbnb['minimum_nights'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'minimum_nights')
print('{} linhas removidas'.format(linhas_removidas))

maximum_nights

In [None]:
diagrama_caixa(base_airbnb['maximum_nights'])
gráfico_barra(base_airbnb['maximum_nights'])

In [None]:
base_airbnb = base_airbnb.drop('maximum_nights', axis=1)
base_airbnb.shape

number_of_reviews

In [None]:
diagrama_caixa(base_airbnb['number_of_reviews'])
gráfico_barra(base_airbnb['number_of_reviews'])

In [None]:
base_airbnb = base_airbnb.drop('number_of_reviews', axis=1)
base_airbnb.shape

Tratamento de colunas de valores de texto

property_type

In [None]:
print(base_airbnb['property_type'].value_counts())

plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['property_type'])
gráfico.tick_params(axis='x', rotation=90)

In [None]:
tabela_tipos_casa = base_airbnb['property_type'].value_counts()
colunas_agrupar = []

for tipo in tabela_tipos_casa.index:
    if tabela_tipos_casa[tipo] < 2000:
        colunas_agrupar.append(tipo)
print(colunas_agrupar)

for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['property_type']==tipo, 'property_type'] = 'Outros'

print(base_airbnb['property_type'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['property_type'])
gráfico.tick_params(axis='x', rotation=90)

room_type

In [None]:
print(base_airbnb['room_type'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['room_type'])
gráfico.tick_params(axis='x', rotation=90)

bed_type

In [None]:
print(base_airbnb['bed_type'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['bed_type'])
gráfico.tick_params(axis='x', rotation=90)

# agrupando categorias de bed_type
tabela_bad = base_airbnb['bed_type'].value_counts()
colunas_agrupar = []

for tipo in tabela_bad.index:
    if tabela_bad[tipo] < 10000:
        colunas_agrupar.append(tipo)
print(colunas_agrupar)

for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['bed_type']==tipo, 'bed_type'] = 'Outros'

print(base_airbnb['bed_type'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['bed_type'])
gráfico.tick_params(axis='x', rotation=90)

cancellation_policy

In [None]:
print(base_airbnb['cancellation_policy'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['cancellation_policy'])
gráfico.tick_params(axis='x', rotation=90)

# agrupando categorias de cancellation_pollicy
tabela_cancellation = base_airbnb['cancellation_policy'].value_counts()
colunas_agrupar = []

for tipo in tabela_cancellation.index:
    if tabela_cancellation[tipo] < 17000:
        colunas_agrupar.append(tipo)
print(colunas_agrupar)

for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['cancellation_policy']==tipo, 'cancellation_policy'] = 'strict'

print(base_airbnb['cancellation_policy'].value_counts())
plt.figure(figsize=(15, 5))
sns.set_theme(style='whitegrid')
gráfico = sns.countplot(x=base_airbnb['cancellation_policy'])
gráfico.tick_params(axis='x', rotation=90)

Visualização do mapa das Propriedades

In [None]:
amostra = base_airbnb.sample(n=50000)
centro_mapa = {'lat':amostra.latitude.mean(), 'lon':amostra.longitude.mean()}
mapa = px.density_mapbox(amostra, lat='latitude', lon='longitude',z='price', radius=2.5,
                        center=centro_mapa, zoom=10,
                        mapbox_style='stamen-terrain')
mapa.show()

Encoding

In [None]:
colunas_tf = ['host_is_superhost', 'instant_bookable']
base_airbnb_codig = base_airbnb.copy()

for coluna in colunas_tf:
    base_airbnb_codig.loc[base_airbnb_codig[coluna]=='t', coluna] = 1
    base_airbnb_codig.loc[base_airbnb_codig[coluna]=='f', coluna] = 0
print(base_airbnb_codig.iloc[0])

In [None]:
colunas_categorias = ['property_type', 'room_type', 'bed_type', 'cancellation_policy']
base_airbnb_codig = pd.get_dummies(data=base_airbnb_codig, columns=colunas_categorias)
display(base_airbnb_codig.head())

Modelo de Previsão

In [None]:
def avaliar_modelo(nome_modelo, y_teste, previsao):
    r2 = r2_score(y_teste, previsao)
    RSME = np.sqrt(mean_squared_error(y_teste, previsao))
    return f'Modelo {nome_modelo}:\nR²:{r2:.2%}\nRSME:{RSME:.2f}'

In [None]:
modelo_rf = RandomForestRegressor()
modelo_lr = LinearRegression()


modelos = {'RandomForest': modelo_rf,
          'LinearRegression': modelo_rf,
          }

y = base_airbnb_codig['price']
X = base_airbnb_codig.drop('price', axis=1)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10)

for nome_modelo, modelo in modelos.items():
    #treinar
    modelo.fit(X_train, y_train)
    #testar
    previsao = modelo.predict(X_test)
    print(avaliar_modelo(nome_modelo, y_test, previsao))

Análise do Melhor Modelo

In [None]:
for nome_modelo, modelo in modelos.items():
    #testar
    previsao = modelo.predict(X_test)
    print(avaliar_modelo(nome_modelo, y_test, previsao))

Ajustes e Melhorias no Melhor Modelo

In [None]:
#print(modelo_rf.feature_importances_)
#print(X_train.columns)
importancia_features = pd.DataFrame(modelo_rf.feature_importances_, X_train.columns)
importancia_features = importancia_features.sort_values(by=0, ascending=False)
display(importancia_features)
plt.figure(figsize=(15, 5))
ax = sns.barplot(x=importancia_features.index, y=importancia_features[0])
ax.tick_params(axis='x', rotation=90)

In [None]:
print(base_airbnb_codig.columns)

In [None]:
X['price'] = y
X.to_csv('dados.csv')

In [None]:
import joblib
joblib.dump(modelo_rf, 'modelo.joblib')