Airbnb - Rio de Janeiro

Projeto de Data Science com base nos dados do Airbnb (Rio de Janeiro).

O objetivo deste estudo é desenvolver um modelo capaz de atuar em um dos tópicos abaixo:

Previsão do preço da estadia (feature ‘price’);
Classificação do room type (feature ‘room_type’);
Segmentação dos principais assuntos das reviews (feature review_scores_rating’).

Problema escolhido

Foi escolhido desenvolver um classificador capaz de predizer o room_type dos anúncios.

Estratégia de modelagem

Como foi a definição da sua estratégia de modelagem?

A estratégia escolhida foi converter as features categoricas em numéricas, isso devido a riqueza de informação que a feature amenities possui. Para cada feature, uma função interna foi criada, com o objetivo de tratar a peculiaridade de cada uma. Também criamos uma função processing que agrupa o tratamento de todas as features.

Todas as funções estão no arquivo: processing.script.py

Definição da função de custo

Como foi definida a função de custo utilizada?

No algoritmo Random Forest foi avaliado dois critérios de construção da árvore, são eles: "gini" e "entropy".

Na avaliação dos hyperparâmetros através do GridSearchCV foi identificado que o critério: gini entende melhor os dados e fornece uma acuracidade melhor.

Critério para seleção do modelo final

Qual foi o critério utilizado na seleção do modelo final?

A seleção dos modelos ficou em Logistic Regression e Random Forest, o modelo gerado pelo algoritmo Random Forest apresentou um resultado significamente melhor se comparado com o `Logistic Regression.

Critério utilizado para validação do modelo

Qual foi o critério utilizado para validação do modelo? Por que escolheu utilizar este método?

Para validar o modelo foi utilizado a técnica de validação cruzada em 5 partes. Segue abaixo os resultados obtidos:

Logistic Regression

Accuracy (cross-validation): 0.88 (+/- 0.08)

Random Forest

Accuracy (cross-validation): 0.97 (+/- 0.01)

Evidências de que o modelo é suficientemente bom

Quais evidências você possui de que seu modelo é suficientemente bom?

O modelo apresentou um bom resultado no conjunto de métricas, conforme é possível ver abaixo, porém, acredito que seria necessário obter um equilíbrio melhor das classes antes de colocá-lo em produção. As classes Shared room e Hotel room representam juntas, 3% do dataset. Um valor insignificante se comparado com a classe Private room que possui 71% do dataset.

Random Forest - Classification report

Tempo gasto no desenvolvimento deste projeto: 12h30

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
images		images
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
airbnb_data_report.html		airbnb_data_report.html
cat_features_encoding.json		cat_features_encoding.json
exploratory-analysis.ipynb		exploratory-analysis.ipynb
model.sav		model.sav
modeling.ipynb		modeling.ipynb
processing_script.py		processing_script.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Airbnb - Rio de Janeiro

Problema escolhido

Estratégia de modelagem

Definição da função de custo

Critério para seleção do modelo final

Critério utilizado para validação do modelo

Evidências de que o modelo é suficientemente bom

About

Languages

License

DougTrajano/ds-airbnb-rio

Folders and files

Latest commit

History

Repository files navigation

Airbnb - Rio de Janeiro

Problema escolhido

Estratégia de modelagem

Definição da função de custo

Critério para seleção do modelo final

Critério utilizado para validação do modelo

Evidências de que o modelo é suficientemente bom

About

Topics

Resources

License

Stars

Watchers

Forks

Languages