In [2]:
import pandas as pd
from sqlalchemy import create_engine, text
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import random
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor, as_completed
import requests

In [3]:
# Conectar ao banco de dados PostgreSQL
conn_string = "postgresql://postgres:manager@localhost:5432/postgres"
db = create_engine(conn_string)

In [4]:
query = """
select 
  "name", "ranking_position", "rating", "num_reviews", "food_rating", "service_rating", "value_rating", 
  "price_level", "Pizza", "Entrega", "Italiana", "Para levar", "Serviço de mesa", "Acesso para cadeirantes", 
  "Mexicana", "Brasileira", "Sul-americana", "Bufê", "Familiar", "Reservas", "Lugares para sentar", "Churrasco", "Serve bebida alcoólica", "Bar", 
  "Bar completo", "Mesas ao ar livre", "Pub com cerveja artesanal", "Café", "Grega", "Americana", "Steakhouse", "Sushi", 
  "Japonesa", "Asiática", "Estacionamento disponível", "Pub", "Lanchonete", "Vinho e cerveja", "Estacionamento na rua", "Chinesa", 
  "Estacionamento com validação", "Discover", "Música ao vivo", "Frutos do mar", 
  "Fusão", "Indiana", "Saudável", "Contemporânea", "Estacionamento com manobrista", "Internacional", "Mediterrânea", "Fast food", 
  "Estacionamento privado grátis", "Libanesa", "Árabe", "Oriente Médio", "Grelhados", "Áreas de lazer", "Restaurantes que servem cerveja", 
  "Argentina", "Restaurante com bar", "Wine Bar", "Europeia", "Calábria", "Sul da Itália", 
  "Espanhola", "Delicatéssen", "Tailandesa", "Pub com restaurante", "Alemã", "Francesa", "Sopa", "Coreana", "Suíça", "Peruana", "Portuguesa", 
  "Balcão externo", "Latina", "Europeia central", "Australiana", "Polonesa", 
  "Centro-americana", "Do sudoeste", "Toscana", "Centro da Itália", "Lácio", "Romana", "Bares de esportes", "Asiática central", 
  "Nepalesa", "Ucraniana", "Leste europeia", "Monday_Open_Morning", "Monday_Open_Afternoon", "Monday_Open_Evening", "Monday_Open_Night", 
  "Tuesday_Open_Morning", "Tuesday_Open_Afternoon", "Tuesday_Open_Evening", "Tuesday_Open_Night", 
  "Wednesday_Open_Morning", "Wednesday_Open_Afternoon", "Wednesday_Open_Evening", "Wednesday_Open_Night", 
  "Thursday_Open_Morning", "Thursday_Open_Afternoon", "Thursday_Open_Evening", "Thursday_Open_Night", 
  "Friday_Open_Morning", "Friday_Open_Afternoon", "Friday_Open_Evening", "Friday_Open_Night", 
  "Saturday_Open_Morning", "Saturday_Open_Afternoon", "Saturday_Open_Evening", "Saturday_Open_Night", 
  "Sunday_Open_Morning", "Sunday_Open_Afternoon", "Sunday_Open_Evening", "Sunday_Open_Night" 
from 
  ta_features_expanded 
where 
  price_level <> ''

"""

df_orig = pd.read_sql(query, db)

In [5]:
df_orig.dropna()

Unnamed: 0,name,ranking_position,rating,num_reviews,food_rating,service_rating,value_rating,price_level,Pizza,Entrega,...,Friday_Open_Evening,Friday_Open_Night,Saturday_Open_Morning,Saturday_Open_Afternoon,Saturday_Open_Evening,Saturday_Open_Night,Sunday_Open_Morning,Sunday_Open_Afternoon,Sunday_Open_Evening,Sunday_Open_Night
0,Ile de France,255.0,4.0,178,4.5,4.0,4.5,3,0.0,0.0,...,1,1,0,1,1,1,0,1,0,0
1,Yu Cozinha Oriental,160.0,4.5,238,4.5,4.5,4.5,2,0.0,0.0,...,0,0,0,1,0,0,0,1,0,0
2,Mangiare Felice,65.0,4.5,531,4.5,4.5,4.5,2,0.0,1.0,...,1,1,1,1,1,1,1,1,1,1
3,Armazém Santo Antônio,85.0,4.5,299,4.5,4.5,4.5,2,0.0,0.0,...,1,1,1,1,1,1,1,1,0,0
4,Lellis Trattoria - Curitiba,74.0,4.5,826,4.5,4.5,4.5,2,0.0,1.0,...,1,1,1,1,1,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
625,Briele Gelato Italiano,946.0,4.5,14,4.5,4.0,4.0,2,0.0,1.0,...,1,0,0,1,1,0,0,1,1,0
626,The Coffee,547.0,4.5,32,4.0,4.0,4.0,1,0.0,0.0,...,0,1,0,0,0,1,0,0,0,1
627,Yalla Comer,692.0,4.5,16,4.5,4.5,4.5,1,0.0,1.0,...,1,0,0,1,1,0,0,1,1,0
628,Kanavial,2956.0,3.0,10,4.0,3.0,3.0,2,0.0,0.0,...,1,1,1,1,1,1,0,1,1,0


In [6]:
df_orig["price_level"] = pd.to_numeric(df_orig["price_level"])

In [7]:
# Criando a coluna de categoria de rating
def categorize_rating(rating):
    if rating < 4.0:
        return 'Baixo'
    elif rating < 4.5:
        return 'Médio'
    else:
        return 'Alto'

df_orig['rating_category'] = df_orig['rating'].apply(categorize_rating)

In [8]:
# Remove colunas com menos de 2 valores "1"
limiar = 2
colunas_binarias = [col for col in df_orig.columns if df_orig[col].nunique() <= 2 and df_orig[col].dtype in ['int64', 'float64']]
colunas_remover = [col for col in colunas_binarias if df_orig[col].sum() < limiar]

df = df_orig.drop(columns=colunas_remover)


In [9]:
# Remove colunas não numéricas
X = df.drop(columns=['name', 'rating', 'rating_category'], errors='ignore')
X = X.select_dtypes(include=['int64', 'float64'])
X = X.fillna(X.mean())


In [10]:
# Normaliza os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplica PCA mantendo componentes que explicam até 95% da variância
pca = PCA(n_components=0.95)
X_pca = pca.fit_transform(X_scaled)

# Verifica quantas componentes foram retidas
print(f"Componentes mantidas: {pca.n_components_}")

Componentes mantidas: 73


In [11]:
# Filtra os restaurantes com categoria 'Alto'
df_high = df[df['rating_category'] == 'Alto'].reset_index(drop=True)
X_pca_high = X_pca[df['rating_category'] == 'Alto']

# Calcula a similaridade
similarity_matrix = cosine_similarity(X_pca_high)

In [12]:
# Seleciona o índice do restaurante base (ex: 10)
idx = 15
similarities = list(enumerate(similarity_matrix[idx]))
similarities = sorted(similarities, key=lambda x: x[1], reverse=True)

# Exibe os 5 mais similares (exceto ele mesmo)
top_similar = [i for i, score in similarities[1:6]]

print("Recomendações similares ao restaurante:", df_high.iloc[idx]['name'])
print(df_high.iloc[top_similar][['name', 'rating']])

Recomendações similares ao restaurante: Ibérico Restaurante
                       name  rating
83               Poco Tapas     4.5
198  A Familiar Confeitaria     4.5
82       Lisboa Gastronomia     4.5
161  Mercearia do Português     4.5
28           Osteria da Paz     5.0


In [13]:
# Seleciona 10 restaurantes aleatórios dos com notas altas
amostra_idx = random.sample(range(1, len(df_high)+1), 10)

In [14]:
# Inicializa lista para armazenar as linhas da tabela
tabela_recomendacoes = []

for idx in amostra_idx:
    similarities = list(enumerate(similarity_matrix[idx]))
    similarities = sorted(similarities, key=lambda x: x[1], reverse=True)
    
    # Pega os índices das 5 recomendações mais similares (exceto ele mesmo)
    top_similar = [i for i, score in similarities[1:6]]
    
    linha = [df_high.iloc[idx]['name']]  # Nome do restaurante base
    linha.extend(df_high.iloc[top_similar]['name'].tolist())  # Nomes das recomendações
    tabela_recomendacoes.append(linha)

# Converte para DataFrame
df_recomendacoes = pd.DataFrame(tabela_recomendacoes, columns=[
    'Restaurante Base', 'Recomendação 1', 'Recomendação 2',
    'Recomendação 3', 'Recomendação 4', 'Recomendação 5'
])


In [15]:
df_recomendacoes

Unnamed: 0,Restaurante Base,Recomendação 1,Recomendação 2,Recomendação 3,Recomendação 4,Recomendação 5
0,Epoch coffee co,Casa Das Bolachas,Nougat - Complexo Gastronomico,Café Municipal,Red Velvet Coffe Shop,Cafe Champagnat
1,Boteco de Sampa,Carmel Bar,Boteco Brahma,Hop 'n Roll,Bep's Bar,Vallentina Cozinha Tradicional
2,La Linda,Las Tablas - Parrilla Porteña,Totopos Gastronomia Mexicana,Cabana Bar&Petiscaria,Badida Sete,Do Peruano Restaurante Ltda
3,Ravello Trattoria,Engenho de Minas,Di Paolo Curitiba,Costelão do Gaúcho,Pantucci Trattoria,Madero Steak House
4,Di Paolo Curitiba,Ravello Trattoria,Engenho de Minas,Recanto Gaúcho,Baviera,Lellis Trattoria - Curitiba
5,Master Grill,Mamma Carmella®,La Italiana,Churrascaria Jardins Grill,Suprema Grill,Restaurante Malindi
6,Totopos Gastronomia Mexicana,Zapata Mexican Bar - Centro Cívico,La Linda,Las Tablas - Parrilla Porteña,Do Peruano Restaurante Ltda,Bistrô San Gambrinus
7,Bistronomia1,Bazar Doce Pâtisserie,La Varenne,Cafe du Centre,Friends Gastroclub,Vindouro
8,Restaurante Tartine,Restaurante-Escola SENAC,Dona Helena,Quintal do Almirante,Friends Gastroclub,Miranda Restaurante
9,Restaurante Ohana,Restaurante Via Faivre,Fazenda De Minas,Restaurante Do Ruy,Restaurante Bellagio,Restaurante Imperial


In [16]:
# https://www.tripadvisor.com.br/Profile/drmiltonjose
# https://www.tripadvisor.com.br/Profile/NeudiFernandes
# https://www.tripadvisor.com.br/Profile/ap4554
# https://www.tripadvisor.com.br/Profile/MarcioZeppelini
# https://www.tripadvisor.com.br/Profile/Graciene_D_Souza
# https://www.tripadvisor.com.br/Profile/449cesarn
# https://www.tripadvisor.com.br/Profile/Megadea21
# https://www.tripadvisor.com.br/Profile/Mariadesigncwb
# https://www.tripadvisor.com.br/Profile/RWS79
# https://www.tripadvisor.com.br/Profile/WalterPinto
# https://www.tripadvisor.com.br/Profile/marcos_he_gr
# https://www.tripadvisor.com.br/Profile/888jaimec
# https://www.tripadvisor.com.br/Profile/tripbruta
# https://www.tripadvisor.com.br/Profile/sabrinaf210
# https://www.tripadvisor.com.br/Profile/Yuminozaki
# https://www.tripadvisor.com.br/Profile/CAMT-258
# https://www.tripadvisor.com.br/Profile/Ademar_13
# https://www.tripadvisor.com.br/Profile/MariaFernanda34
# https://www.tripadvisor.com.br/Profile/veronica_rodriguez
# https://www.tripadvisor.com.br/Profile/adaol919
# https://www.tripadvisor.com.br/Profile/fabif2016
# https://www.tripadvisor.com.br/Profile/hesotos

In [17]:
# Configuração do servidor Ollama
OLLAMA_URL = "http://localhost:11434/api/generate"
MODEL_NAME = "llama3"

In [18]:
# Função de classificação via Ollama
def classify_with_ollama(text):
    prompt = f"""Classifique o sentimento do seguinte texto (todo o texto a seguir) com apenas um sentimento 'positivo', 'negativo' ou 'neutro' (nenhum descritivo a mais é necessário):\n\n{text[:512]}"""
    data = {
        "model": MODEL_NAME,
        "prompt": prompt,
        "stream": False  # retorna a resposta completa
    }
    response = requests.post(OLLAMA_URL, json=data)
    response.raise_for_status()  # Lança exceção se der erro
    generated_text = response.json()['response']
    return generated_text.strip()


In [19]:
# Ler todos os reviews (ajuste se for muito grande)
query = """
SELECT review_id, review_text FROM ta_reviews r
inner join ta_features_expanded f on r.location_id = f.location_id
where f.price_level <> '' 
"""
reviews_df = pd.read_sql(query, db)

In [20]:
# Classificar e atualizar em lote 
with db.begin() as conn:
    for idx, row in tqdm(reviews_df.iterrows(), total=len(reviews_df)):
        sentiment_label = classify_with_ollama(row['review_text'])
        conn.execute(
            text("""
                UPDATE ta_reviews
                SET sentiment_label = :label
                WHERE review_id = :review_id
            """),
            {"label": sentiment_label, "review_id": row['review_id']}
        )

  7%|▋         | 925/14154 [34:26<8:12:31,  2.23s/it]


DataError: (psycopg2.errors.StringDataRightTruncation) ERRO:  valor é muito longo para tipo character varying(50)

[SQL: 
                UPDATE ta_reviews
                SET sentiment_label = %(label)s
                WHERE review_id = %(review_id)s
            ]
[parameters: {'label': '**Negativo**\n\nEste texto apresenta uma história de má experiência em um restaurante, com relatos de atendimento ruim, comida errada e desgaste geral. O tom é claramente negativo e expressivo da frustração do autor.', 'review_id': 894737345}]
(Background on this error at: https://sqlalche.me/e/20/9h9h)