# üéØ Monitor Inteligente de Opini√≥n: Trustpilot Unified
## üë• Proyecto End-to-End de Data Science - Herramienta de Inteligencia de Mercado

Este notebook unifica las mejores funcionalidades de los prototipos anteriores para ofrecer una herramienta robusta de an√°lisis de sentimiento comercial.

### ‚ú® Novedades y Autor√≠a:
1.  **B√∫squeda Din√°mica (Rub√©n)**: Introduce el nombre de una empresa y el scraper encontrar√° el enlace autom√°ticamente.
2.  **Modo Stealth Pro (Rub√©n)**: Integraci√≥n de rotaci√≥n de User-Agents y retardos aleatorios para evitar bloqueos.
3.  **An√°lisis Combinado (Rub√©n)**: NLP avanzado con diccionarios locales de espa√±ol y modelos de polaridad.
4.  **BI Dashboard (Juanes/Rub√©n)**: Visualizaciones interactivas y est√°ticas para reportes de negocio.

**Metodolog√≠a:**
1. üì• **FASE 1**: Adquisici√≥n de Datos (Web Scraping Inteligente)
2. üßπ **FASE 2**: Preprocesamiento NLP (Limpieza y Lematizaci√≥n)
3. üíé **FASE 3**: Extracci√≥n de Valor (Sentimiento y Frecuencia)
4. üìä **FASE 4**: Visualizaci√≥n de Impacto (BI)

In [None]:
# =============================================================================
# FASE 0: CONFIGURACI√ìN DEL ENTORNO
# [Original + Mejora de Compatibilidad Windows: Rub√©n]
# =============================================================================
import sys
import subprocess

print("üîß Configurando entorno de ejecuci√≥n...")

def install_packages():
    packages = [
        "requests", "beautifulsoup4", "lxml", "nltk", "textblob", 
        "googletrans==4.0.0-rc1", "wordcloud", "matplotlib", 
        "seaborn", "plotly", "fake-useragent", "pandas", 
        "numpy", "regex", "tqdm", "spacy"
    ]
    
    print("üì¶ Instalando librer√≠as necesarias (esto puede tardar unos minutos)...")
    for package in packages:
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package, "-q"])
        except Exception as e:
            print(f"‚ö†Ô∏è Error al instalar {package}: {e}")
    
    # Descargar modelo de Spacy para espa√±ol
    try:
        subprocess.check_call([sys.executable, "-m", "spacy", "download", "es_core_news_sm", "-q"])
    except:
        print("‚ö†Ô∏è No se pudo descargar el modelo de spacy autom√°ticamente.")

install_packages()

import nltk
import spacy

print("üì• Descargando recursos ling√º√≠sticos...")
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
nltk.download('punkt_tab', quiet=True)

print("‚úÖ Entorno listo.")

In [None]:
# [Original + Imports Rub√©n para funcionalidad Stealth]
import pandas as pd
import numpy as np
import requests
import re
import time
import random
import json
from datetime import datetime
from typing import List, Dict, Optional
from collections import Counter
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from textblob import TextBlob
from googletrans import Translator
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from tqdm import tqdm
import warnings

warnings.filterwarnings("ignore")
plt.style.use('seaborn-v0_8')
sns.set_palette("deep")
print("üìö Librer√≠as importadas correctamente.")

# üì• FASE 1: ADQUISICI√ìN DE DATOS (SCRAPER INTELIGENTE)

In [None]:
class TrustpilotScraper:
    """
    Scraper avanzado mejorado para robustez y anonimato.
    [Base: Correcci√≥n_TrustPilot | Mejoras: Rub√©n]
    """
    def __init__(self, business_query: str = None, max_pages: int = 5):
        self.query = business_query
        self.max_pages = max_pages
        self.ua = UserAgent() # [Rub√©n] Integraci√≥n de UA din√°mica
        self.session = requests.Session()
        self.base_url = "https://es.trustpilot.com"
        self.target_url = None
        self.reviews_data = []

    def _get_headers(self):
        """[Rub√©n] Genera headers aleatorios para cada petici√≥n (Modo Stealth)."""
        return {
            'User-Agent': self.ua.random,
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
            'Accept-Language': 'es-ES,es;q=0.9,en;q=0.8',
            'Referer': 'https://www.google.com/',
            'DNT': '1',
            'Connection': 'keep-alive'
        }

    def search_business(self) -> bool:
        """[Rub√©n] Busca la URL de la empresa autom√°ticamente."""
        if not self.query:
            return False
        
        if "trustpilot.com/review/" in self.query:
            self.target_url = self.query
            return True

        print(f"üîç Buscando empresa: '{self.query}' en Trustpilot...")
        search_url = f"{self.base_url}/search?query={self.query.replace(' ', '+')}"
        
        try:
            response = self.session.get(search_url, headers=self._get_headers(), timeout=15)
            soup = BeautifulSoup(response.content, 'html.parser')
            link_element = soup.select_one('a[data-business-unit-card-link="true"]')
            if link_element and link_element.has_attr('href'):
                path = link_element['href']
                self.target_url = self.base_url + path
                print(f"‚úÖ Enlace encontrado: {self.target_url}")
                return True
            else:
                print("‚ùå No se encontr√≥ la empresa. Intenta con la URL directa.")
                return False
        except Exception as e:
            print(f"‚ö†Ô∏è Error durante la b√∫squeda: {e}")
            return False

    def safe_extract(self, element, select_list: List[str], attr: str = None) -> str:
        """[Base: Correcci√≥n_TrustPilot] Prueba m√∫ltiples selectores para extraer un dato."""
        for selector in select_list:
            found = element.select_one(selector)
            if found:
                if attr:
                    return found.get(attr, "")
                return found.get_text(strip=True)
        return ""

    def extract_review_info(self, card) -> Optional[Dict]:
        """Extrae los campos de una tarjeta de rese√±a individual. [Base: Correcci√≥n | Mejoras Fecha: Rub√©n]"""
        txt_selectors = [
            'p[data-service-review-text-typography="true"]',
            'p[data-relevant-review-text-typography="true"]',
            'p[data-review-content-typography="true"]',
            '.styles_reviewContent__0_vST p'
        ]
        
        star_selectors = ['.styles_reviewHeader__iU9_n img', 'div[data-star-rating]']
        date_selectors = ['time', 'span[data-service-review-date-time-ago]']

        text = self.safe_extract(card, txt_selectors)
        rating_raw = self.safe_extract(card, star_selectors, 'alt')
        rating = re.search(r'\d', rating_raw).group() if re.search(r'\d', rating_raw) else "0"
        date_raw = self.safe_extract(card, date_selectors, 'datetime')
        
        # [Rub√©n] Manejo avanzado de fechas ISO
        try:
            if date_raw:
                date_obj = datetime.fromisoformat(date_raw.replace("Z", "+00:00"))
                date_str = date_obj.strftime('%Y-%m-%d')
            else:
                date_str = datetime.now().strftime('%Y-%m-%d')
        except:
            date_str = datetime.now().strftime('%Y-%m-%d')

        if not text or len(text) < 10:
            return None

        return {
            'texto': text,
            'puntuacion': int(rating),
            'fecha': date_str,
            'longitud': len(text.split())
        }

    def run(self) -> pd.DataFrame:
        """[Integraci√≥n Rub√©n: Flujo completo con delays aleatorios]"""
        if not self.target_url and not self.search_business():
            return pd.DataFrame()

        print(f"üöÄ Iniciando extracci√≥n desde: {self.target_url}")
        
        for page in range(1, self.max_pages + 1):
            url = f"{self.target_url}?page={page}"
            print(f"üìÑ Procesando p√°gina {page}/{self.max_pages}...")
            
            try:
                # [Rub√©n] Delay aleatorio antidetect
                time.sleep(random.uniform(2, 4))
                
                response = self.session.get(url, headers=self._get_headers(), timeout=20)
                if response.status_code != 200:
                    print(f"‚ö†Ô∏è Error {response.status_code} al acceder a la p√°gina {page}")
                    break

                soup = BeautifulSoup(response.content, 'html.parser')
                cards = soup.select('article[data-service-review-card-paper="true"]')
                
                if not cards:
                    print("üèÅ No se encontraron m√°s rese√±as.")
                    break
                
                for card in cards:
                    data = self.extract_review_info(card)
                    if data:
                        self.reviews_data.append(data)
                
                print(f"‚úÖ {len(cards)} elementos analizados. Total acumulado: {len(self.reviews_data)}")
                
            except Exception as e:
                print(f"‚ùå Error cr√≠tico en p√°gina {page}: {e}")
                break
        
        df = pd.DataFrame(self.reviews_data)
        if not df.empty:
            df = df.drop_duplicates(subset=['texto'])
            print(f"\nüìä Extracci√≥n finalizada: {len(df)} rese√±as √∫nicas obtenidas.")
        return df

In [None]:
# [Rub√©n: Interfaz de entrada din√°mica]
print("üîé CONFIGURACI√ìN DE B√öSQUEDA")
print("Escribe el nombre de la empresa (ej: 'Amazon Spain') o pega la URL de Trustpilot:")
target = input("> ").strip() 

if not target:
    target = "Amazon Spain" 
    print(f"Usando valor por defecto: {target}")

# [Juanes: L√≥gica de ejecuci√≥n del scraper]
scraper = TrustpilotScraper(business_query=target, max_pages=3)
df_raw = scraper.run()

if df_raw.empty:
    print("üîÑ Cargando dataset de respaldo para demostraci√≥n...")
    df_raw = pd.DataFrame({
        'texto': [
            "Excelente servicio, el paquete lleg√≥ antes de lo esperado. Muy contento.",
            "P√©sima atenci√≥n al cliente. Mi pedido nunca lleg√≥ y nadie responde.",
            "Producto de buena calidad, pero el env√≠o es algo lento.",
            "No recomiendo comprar aqu√≠. Me enviaron algo roto y no hay reembolso.",
            "Amazon sigue siendo el mejor, aunque a veces los repartidores fallan.",
            "Servicio t√©cnico inexistente, una odisea para devolver un producto."
        ] * 10,
        'puntuacion': [5, 1, 4, 1, 4, 2] * 10,
        'fecha': pd.date_range(end=datetime.now(), periods=60).strftime('%Y-%m-%d').tolist(),
        'longitud': [10, 15, 12, 14, 11, 13] * 10
    })

df_raw.to_csv('rese√±as_trustpilot_raw.csv', index=False, encoding='utf-8-sig')
display(df_raw.head())

# üßπ FASE 2: PREPROCESAMIENTO NLP

In [None]:
class SpanishTextPreprocessor:
    """
    [Base: MONITOR_INTELIGENCIA_OPINION_v14 | Adaptaci√≥n: Rub√©n]
    L√≥gica de limpieza profunda de texto para an√°lisis tem√°tico.
    """
    def __init__(self):
        # [Juanes: Carga inicial de stopwords locales y dominio]
        self.stopwords_es = set(stopwords.words('spanish'))
        self.extra_stopwords = {
            'amazon', 'bueno', 'malo', 'hacer', 'decir', 'ver', 'querer', 
            'cliente', 'pedido', 'producto', 'servicio', 'env√≠o', 'compra'
        }
        self.stopwords_es.update(self.extra_stopwords)
        try:
            self.nlp = spacy.load("es_core_news_sm")
        except:
            self.nlp = None

    def clean(self, text: str) -> str:
        """[Original: Limpieza b√°sica]"""
        if not isinstance(text, str): return ""
        text = text.lower()
        text = re.sub(r'[^a-z√°√©√≠√≥√∫√º√±\s]', ' ', text)
        text = ' '.join(text.split())
        return text

    def remove_stopwords(self, text: str) -> str:
        """[Juanes: Filtrado selectivo]"""
        tokens = word_tokenize(text)
        return ' '.join([w for w in tokens if w not in self.stopwords_es and len(w) > 2])

    def process_pipeline(self, text: str) -> str:
        cleaned = self.clean(text)
        no_stop = self.remove_stopwords(cleaned)
        return no_stop

print("üßº Procesando textos...")
preprocessor = SpanishTextPreprocessor()
df_processed = df_raw.copy()
df_processed['texto_limpio'] = [preprocessor.process_pipeline(t) for t in tqdm(df_processed['texto'])]
print("‚úÖ Preprocesamiento completado.")

# üíé FASE 3: AN√ÅLISIS DE SENTIMIENTO Y VALOR

In [None]:
class SentimentAnalyzerES:
    """
    IA de Sentimiento H√≠brida.
    [Base: MONITOR_INTELIGENCIA_OPINION_v14 | Novedad H√≠brida: Rub√©n]
    """
    def __init__(self):
        self.pos_words = {'excelente', 'perfecto', 'genial', 'r√°pido', 'bueno', 'feliz', 'contento', 'recomiendo', '√∫til', 'eficiente'}
        self.neg_words = {'p√©simo', 'horrible', 'terrible', 'error', 'malo', 'estafa', 'fraude', 'in√∫til', 'lento', 'decepci√≥n'}
        self.translator = Translator() # [Rub√©n] Traductor para modelo superior

    def analyze_simple(self, text: str) -> Dict:
        """[Juanes: M√©todo por diccionario local]"""
        words = text.split()
        pos = sum(1 for w in words if w in self.pos_words)
        neg = sum(1 for w in words if w in self.neg_words)
        total = pos + neg
        if total == 0: return {'score': 0, 'label': 'neutral', 'conf': 0}
        score = (pos - neg) / total
        label = 'positivo' if score > 0.1 else ('negativo' if score < -0.1 else 'neutral')
        return {'score': score, 'label': label, 'conf': abs(score)}

    def analyze_textblob(self, text: str) -> Dict:
        """[Rub√©n: An√°lisis profundo v√≠a traducci√≥n]"""
        try:
            translated = self.translator.translate(text, src='es', dest='en').text
            analysis = TextBlob(translated)
            score = analysis.sentiment.polarity
            label = 'positivo' if score > 0.1 else ('negativo' if score < -0.1 else 'neutral')
            return {'score': score, 'label': label, 'conf': abs(score)}
        except:
            return self.analyze_simple(text)

    def combined(self, text: str) -> Dict:
        """[Rub√©n: Orquestador H√≠brido]"""
        res = self.analyze_simple(text)
        # Si el texto es largo y el diccionario es d√©bil, usar IA profunda
        if res['label'] == 'neutral' and len(text) > 40:
            return self.analyze_textblob(text)
        return res

print("üòä Aplicando IA de sentimiento...")
analyzer = SentimentAnalyzerES()
sentiments = [analyzer.combined(t) for t in tqdm(df_processed['texto_limpio'])]

df_processed['sentimiento_score'] = [s['score'] for s in sentiments]
df_processed['sentimiento'] = [s['label'] for s in sentiments]
df_processed['confianza'] = [s['conf'] for s in sentiments]

print(f"\nüìä RESUMEN DE SENTIMIENTO:")
print(df_processed['sentimiento'].value_counts(normalize=True) * 100)
df_processed.to_csv('rese√±as_trustpilot_final.csv', index=False, encoding='utf-8-sig')

# üìä FASE 4: VISUALIZACI√ìN GR√ÅFICA (BI)

In [None]:
# [Dise√±o base de Dashboards: Juanes | Enriquecimiento Temporal: Rub√©n]

# 1. Configuraci√≥n de Gr√°ficos
fig, axes = plt.subplots(3, 2, figsize=(18, 18))
plt.subplots_adjust(hspace=0.4)

# ‚òÅÔ∏è Gr√°fico 1: Nube de Palabras [Juanes]
all_text = ' '.join(df_processed['texto_limpio'])
if all_text:
    wordcloud = WordCloud(width=800, height=400, background_color='white', colormap='coolwarm').generate(all_text)
    axes[0, 0].imshow(wordcloud, interpolation='bilinear')
    axes[0, 0].set_title('üå•Ô∏è Temas m√°s mencionados [Juanes]', fontsize=15)
    axes[0, 0].axis('off')

# üìä Gr√°fico 2: Distribuci√≥n de Sentimiento [Juanes]
colors = {'positivo': '#2ecc71', 'negativo': '#e74c3c', 'neutral': '#f1c40f'}
sns.countplot(data=df_processed, x='sentimiento', palette=colors, ax=axes[0, 1])
axes[0, 1].set_title('üìâ Salud de Marca (Distribuci√≥n) [Juanes]', fontsize=15)

# üìà Gr√°fico 3: Correlaci√≥n Longitud vs Sentimiento [Juanes]
sns.regplot(data=df_processed, x='longitud', y='sentimiento_score', ax=axes[1, 0], 
            scatter_kws={'alpha':0.5, 'color':'teal'}, line_kws={'color':'red'})
axes[1, 0].set_title('üìè Detalle de Rese√±a vs Score [Juanes]', fontsize=15)

# üè∑Ô∏è Gr√°fico 4: Top 10 Palabras [Juanes]
top_words = Counter(all_text.split()).most_common(10)
words_df = pd.DataFrame(top_words, columns=['palabra', 'frecuencia'])
sns.barplot(data=words_df, x='frecuencia', y='palabra', ax=axes[1, 1], palette='viridis')
axes[1, 1].set_title('üèÜ Top 10 Palabras Clave [Juanes]', fontsize=15)

# üïí Gr√°fico 5: Evoluci√≥n Temporal del Sentimiento [Rub√©n]
df_processed['fecha'] = pd.to_datetime(df_processed['fecha'])
temporal = df_processed.groupby('fecha')['sentimiento_score'].mean().reset_index()
sns.lineplot(data=temporal, x='fecha', y='sentimiento_score', ax=axes[2, 0], marker='o', color='purple')
axes[2, 0].axhline(0, color='black', linestyle='--', alpha=0.3)
axes[2, 0].set_title('üïí Evoluci√≥n de la Opini√≥n (Tendencias) [Rub√©n]', fontsize=15)
axes[2, 0].tick_params(axis='x', rotation=45)

# üåü Gr√°fico 6: Heatmap Estrellas vs Sentimiento [Rub√©n]
matrix = pd.crosstab(df_processed['puntuacion'], df_processed['sentimiento'])
sns.heatmap(matrix, annot=True, fmt='d', cmap='YlGnBu', ax=axes[2, 1])
axes[2, 1].set_title('üî• Consistencia Estrellas vs IA [Rub√©n]', fontsize=15)

plt.show()