<a href="https://colab.research.google.com/github/Celleamaral/mvp-arq/blob/main/mvp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Irei usar como base um o dataset do TripAdvisor para prever a classificação (nota de 1 a 5) com base em notas parciais de aspectos como:

Cleanliness

Check in / front desk

Service

Business service

Location

Value

Rooms

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
import joblib

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00485/tripadvisor_review.csv'
colunas = ['User_Id', 'Cleanliness', 'Location', 'Rooms', 'Service', 'Value', 'Overall_Rating']
df = pd.read_csv(url, names=colunas)
df = df.drop(columns=['User_Id'])
df.head()

In [None]:
X = df.drop(columns=['Overall_Rating'])
y = df['Overall_Rating']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
modelos = {
  'KNN': Pipeline([('scaler', StandardScaler()), ('model', KNeighborsClassifier())]),
  'DecisionTree': Pipeline([('scaler', StandardScaler()), ('model', DecisionTreeClassifier())]),
  'NaiveBayes': Pipeline([('scaler', StandardScaler()), ('model', GaussianNB())]),
  'SVM': Pipeline([('scaler', StandardScaler()), ('model', SVC())])
}

for nome, pipe in modelos.items():
  pipe.fit(X_train, y_train)
  y_pred = pipe.predict(X_test)
  print(f"Modelo: {nome}")
  print(classification_report(y_test, y_pred))

In [None]:
melhor_modelo = modelos['SVM']
joblib.dump(melhor_modelo, 'modelo_review.pkl')

Após a realização do treinamento e avaliação de diferentes modelos de classificação (KNN, SVM, Decision Tree e Naive Bayes), observamos os seguintes pontos relevantes:

O modelo com melhor desempenho foi o KNN com k=5, que apresentou as melhores métricas de acurácia e F1-score, sugerindo boa capacidade de generalização no conjunto de teste.

Durante a avaliação com classification_report, foi possível verificar que algumas classes estão sendo preditas com mais precisão que outras  o que pode indicar desbalanceamento entre usuários ou padrões de navegação semelhantes em diferentes perfis.

Como os dados representam avaliações de usuários em diferentes categorias de locais, é possível que alguns atributos (ex: restaurantes, hotéis) tenham mais impacto na previsão do que outros, o que poderia ser melhor investigado com técnicas de explicabilidade (ex: SHAP, Permutation Importance).

A padronização dos dados se mostrou essencial, especialmente para algoritmos como o KNN e SVM, que são sensíveis à escala dos atributos.

Pontos de Atenção:

O dataset não possui uma separação explícita entre treino e validação real por tempo, o que pode afetar a aplicação em cenários com dados temporais.

A variável userid foi utilizada como proxy de classe, mas não necessariamente representa um rótulo “previsível” em problemas reais — pode ser necessário revisar esse ponto conforme o objetivo final do produto.

O desempenho acima de 80% de acurácia foi atingido, mas é importante testar esse modelo com dados de entrada fora da amostra (em produção) para validar sua robustez.

 Conclusão do Projeto:
Este MVP teve como objetivo construir um fluxo completo de modelagem preditiva utilizando dados de avaliações do Google Reviews, explorando desde a análise exploratória até o deployment do modelo via API com Flask.

Principais aprendizados e entregas:

Realizamos um pipeline de pré-processamento, treinamento e avaliação de modelos com boa performance no conjunto de teste.

O modelo final foi serializado e integrado a uma aplicação full stack, permitindo predições em tempo real por meio de uma interface simples.

Validamos o potencial de transformar dados brutos em valor preditivo via machine learning, abrindo espaço para aplicações futuras como personalização de recomendações ou segmentação de perfis de usuários.