In [None]:
!pip install gradio scikit-learn joblib pandas matplotlib seaborn wordcloud flask flask-cors pyngrok

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import joblib
import re
import gradio as gr
from datetime import datetime
from collections import Counter
from wordcloud import WordCloud

In [None]:
# Dataset
# Enfoque espec√≠fico en tiendas virtuales: Aliexpress, Amazon, Ebay, Temu

emails = [
    # SPAM (60% = 24 correos) - Enfoque en tiendas virtuales fraudulentas
    "¬°OFERTA EXCLUSIVA! Compra ahora en AliExpress con 90% de descuento. Solo hoy!",
    "Amazon te ha seleccionado para una oferta especial. Reclama tu premio de $1000",
    "eBay: Tu cuenta ser√° suspendida si no verificas tu informaci√≥n bancaria AHORA",
    "TEMU FLASH SALE: iPhone 15 por solo $50. Oferta limitada, compra ya!",
    "AliExpress Black Friday: Productos gratis, solo paga env√≠o. Haz clic aqu√≠",
    "Amazon Prime: Has ganado una membres√≠a gratuita de por vida. Confirma aqu√≠",
    "eBay URGENTE: Problema con tu cuenta. Verifica o ser√° cerrada permanentemente",
    "TEMU MEGA OFERTA: Laptop gaming por $99. Solo quedan 3 unidades!",
    "AliExpress te regala $500 en cupones. No pierdas esta oportunidad √∫nica",
    "Amazon: Reembolso pendiente de $350. Haz clic para reclamar inmediatamente",
    "eBay: Felicidades, has sido seleccionado para nuestro programa VIP exclusivo",
    "TEMU LIQUIDACI√ìN: Productos de marca a precios incre√≠bles. Compra antes que se agoten",
    "¬°GANASTE! AliExpress sorteo: iPhone, iPad y $1000 en efectivo. Reclama ya",
    "Amazon Security Alert: Actividad sospechosa detectada. Verifica tu cuenta",
    "eBay: Tu art√≠culo favorito tiene 95% de descuento. Oferta expira en 1 hora",
    "TEMU EXCLUSIVO: Productos premium gratis, solo paga $1 de env√≠o",
    "AliExpress VIP: Acceso exclusivo a productos con descuentos del 99%",
    "Amazon: Tu paquete est√° retenido. Paga $5 para liberarlo inmediatamente",
    "eBay FINAL SALE: Electr√≥nicos de marca a precios de liquidaci√≥n total",
    "TEMU ALERT: Tu carrito tiene productos reservados. Compra en 10 minutos",
    "¬°√öLTIMO D√çA! AliExpress cierra con descuentos hist√≥ricos del 95%",
    "Amazon Prime Day secreto: Ofertas exclusivas solo para ti. Accede ahora",
    "eBay: Problema de pago detectado. Actualiza tu m√©todo de pago urgentemente",
    "TEMU FINAL HOURS: Productos gratis, aprovecha antes del cierre definitivo",
    
    # NO SPAM (40% = 16 correos) - Comunicaciones leg√≠timas
    "Hola Mar√≠a, ¬øc√≥mo est√°s? Espero que tengas un buen d√≠a",
    "Recordatorio: Reuni√≥n de equipo ma√±ana a las 10:00 AM en la sala de conferencias",
    "Tu pedido de Amazon ha sido enviado. N√∫mero de seguimiento: 1Z999AA1234567890",
    "eBay: Confirmaci√≥n de compra. Gracias por tu pedido #EB123456789",
    "Informe mensual de ventas adjunto. Favor revisar antes de la reuni√≥n",
    "¬øTe gustar√≠a almorzar el viernes? Conozco un restaurante nuevo muy bueno",
    "AliExpress: Tu pedido ha llegado al centro de distribuci√≥n local",
    "Feliz cumplea√±os! Espero que tengas un d√≠a maravilloso con tu familia",
    "TEMU: Confirmaci√≥n de entrega. Tu paquete fue entregado exitosamente",
    "Propuesta de proyecto adjunta. Por favor revisa y env√≠a tus comentarios",
    "Amazon: Tu suscripci√≥n a Prime se renovar√° autom√°ticamente el pr√≥ximo mes",
    "Invitaci√≥n a la conferencia de tecnolog√≠a del pr√≥ximo trimestre",
    "eBay: Califica tu experiencia de compra reciente. Tu opini√≥n es importante",
    "Actualizaci√≥n del sistema programada para el fin de semana. Planifica en consecuencia",
    "TEMU: Tu rese√±a del producto ha sido publicada. Gracias por compartir",
    "Resumen semanal del proyecto. Todos los hitos se completaron a tiempo"
]

# Etiquetas correspondientes (1 = spam, 0 = no spam)
labels = [1]*24 + [0]*16  # 60% spam, 40% no spam

print(f"Total de emails: {len(emails)}")
print(f"Emails spam: {sum(labels)} ({sum(labels)/len(labels)*100:.1f}%)")
print(f"Emails no spam: {len(labels)-sum(labels)} ({(len(labels)-sum(labels))/len(labels)*100:.1f}%)")

In [None]:
print(labels)

In [None]:
df = pd.DataFrame({
    'email': emails,
    'label': labels,
    'category': ['Spam' if label == 1 else 'No Spam' for label in labels]
})

# Calcular longitudes
df['length'] = df['email'].str.len()

# 1. Gr√°fico de longitud de emails (alternativa al boxplot)
plt.figure(figsize=(15, 12))

# Subplot 1: Histograma comparativo de longitudes
plt.subplot(2, 3, 1)
spam_lengths = df[df['category'] == 'Spam']['length']
no_spam_lengths = df[df['category'] == 'No Spam']['length']

plt.hist(spam_lengths, alpha=0.7, label='Spam', bins=10, color='red')
plt.hist(no_spam_lengths, alpha=0.7, label='No Spam', bins=10, color='blue')
plt.xlabel('Longitud del Email')
plt.ylabel('Frecuencia')
plt.legend()
plt.title('Distribuci√≥n de Longitud por Categor√≠a')

# Subplot 2: An√°lisis de tiendas mencionadas
plt.subplot(2, 3, 2)
stores = ['Amazon', 'eBay', 'AliExpress', 'TEMU']
store_counts = {}

for store in stores:
    store_counts[store] = sum(1 for email in emails if store.lower() in email.lower())

plt.bar(store_counts.keys(), store_counts.values(), color=['orange', 'yellow', 'red', 'purple'])
plt.title('Frecuencia de Tiendas Mencionadas')
plt.ylabel('N√∫mero de Menciones')
plt.xticks(rotation=45)

# Subplot 3: Palabras clave de spam
plt.subplot(2, 3, 3)
spam_keywords = ['OFERTA', 'EXCLUSIVO', 'GRATIS', 'DESCUENTO', 'URGENTE', 'GANASTE', 'PREMIO', 'FLASH']
keyword_counts = {}

spam_emails = df[df['category'] == 'Spam']['email']
for keyword in spam_keywords:
    keyword_counts[keyword] = sum(1 for email in spam_emails if keyword.lower() in email.lower())

plt.barh(list(keyword_counts.keys()), list(keyword_counts.values()), color='lightcoral')
plt.title('Palabras Clave en Emails Spam')
plt.xlabel('Frecuencia')

# Subplot 4: An√°lisis de signos de exclamaci√≥n
plt.subplot(2, 3, 4)
df['exclamation_count'] = df['email'].str.count('!')
exclamation_by_category = df.groupby('category')['exclamation_count'].mean()

plt.bar(exclamation_by_category.index, exclamation_by_category.values, color=['lightblue', 'lightcoral'])
plt.title('Promedio de Signos de Exclamaci√≥n')
plt.ylabel('Promedio por Email')

# Subplot 5: An√°lisis de n√∫meros/precios
plt.subplot(2, 3, 5)
df['has_numbers'] = df['email'].str.contains(r'\d+', regex=True)
number_analysis = df.groupby('category')['has_numbers'].mean() * 100

plt.bar(number_analysis.index, number_analysis.values, color=['lightgreen', 'salmon'])
plt.title('Porcentaje de Emails con N√∫meros')
plt.ylabel('Porcentaje (%)')

# Subplot 6: An√°lisis de urgencia
plt.subplot(2, 3, 6)
urgency_words = ['URGENTE', 'AHORA', 'YA', 'INMEDIATAMENTE', '√öLTIMO', 'EXPIRA']
df['urgency_score'] = df['email'].apply(lambda x: sum(1 for word in urgency_words if word.lower() in x.lower()))
urgency_by_category = df.groupby('category')['urgency_score'].mean()

plt.bar(urgency_by_category.index, urgency_by_category.values, color=['lightcyan', 'orange'])
plt.title('Promedio de Palabras de Urgencia')
plt.ylabel('Promedio por Email')

plt.tight_layout()
plt.show()

#Plot 7 nube de palabras en emails de tipo Spam

# Unir todos los emails spam en un solo texto
spam_text = ' '.join(spam_emails)

# Crear la nube de palabras
wordcloud = WordCloud(
    width=800,
    height=400,
    background_color='white',
    colormap='Reds',
    max_words=50,
    relative_scaling=0.5,
    stopwords={'de', 'en', 'el', 'la', 'y', 'a', 'con', 'para', 'tu', 'ha', 'te', 'si', 'o'}
).generate(spam_text)

# Mostrar la nube de palabras
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nube de Palabras - Emails SPAM', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# Estad√≠sticas adicionales
print("An√°lisis Estad√≠stico Adicional")
print("---------------------------")
print(f"Longitud promedio - Spam: {spam_lengths.mean():.1f} caracteres")
print(f"Longitud promedio - No Spam: {no_spam_lengths.mean():.1f} caracteres")
print(f"Tienda m√°s mencionada: {max(store_counts, key=store_counts.get)} ({max(store_counts.values())} veces)")
print(f"Palabra clave m√°s com√∫n en spam: {max(keyword_counts, key=keyword_counts.get)} ({max(keyword_counts.values())} veces)")

In [None]:
# Sistema de reglas mejorado
class SpamRuleEngine:
    def __init__(self):
        # Palabras clave espec√≠ficas para tiendas virtuales fraudulentas
        self.spam_keywords = {
            'aliexpress': ['aliexpress', 'ali express', 'ali-express'],
            'amazon': ['amazon', 'amazon prime', 'prime day'],
            'ebay': ['ebay', 'e-bay', 'e bay'],
            'temu': ['temu'],
            'urgency': ['urgente', '√∫ltimo d√≠a', 'oferta limitada', 'solo hoy', 'expira'],
            'money': ['gratis', 'descuento', 'premio', '$', 'reembolso', 'ganaste'],
            'action': ['haz clic', 'reclama', 'verifica', 'confirma', 'compra ya']
        }

        self.legitimate_patterns = [
            'tu pedido', 'confirmaci√≥n', 'n√∫mero de seguimiento',
            'ha sido enviado', 'entregado exitosamente', 'reuni√≥n'
        ]

    def calculate_spam_score(self, text):
        text_lower = text.lower()
        score = 0

        # Puntuaci√≥n por tiendas virtuales en contexto sospechoso
        for store, keywords in self.spam_keywords.items():
            if store in ['aliexpress', 'amazon', 'ebay', 'temu']:
                for keyword in keywords:
                    if keyword in text_lower:
                        # Mayor puntuaci√≥n si aparece con palabras de urgencia o dinero
                        if any(urgent in text_lower for urgent in self.spam_keywords['urgency']):
                            score += 3
                        elif any(money in text_lower for money in self.spam_keywords['money']):
                            score += 2
                        else:
                            score += 1

        # Puntuaci√≥n por patrones de urgencia
        for urgent_word in self.spam_keywords['urgency']:
            if urgent_word in text_lower:
                score += 1

        # Puntuaci√≥n por ofertas monetarias
        for money_word in self.spam_keywords['money']:
            if money_word in text_lower:
                score += 1

        # Reducir puntuaci√≥n para patrones leg√≠timos
        for legit_pattern in self.legitimate_patterns:
            if legit_pattern in text_lower:
                score -= 2

        return max(0, score)  # No permitir puntuaciones negativas

# Crear instancia del motor de reglas
rule_engine = SpamRuleEngine()

In [None]:
# Procesamiento avanzado
def preprocess_text(text):
    # Convertir a min√∫sculas
    text = text.lower()
    # Remover caracteres especiales pero mantener espacios
    text = re.sub(r'[^a-z√°√©√≠√≥√∫√±\s]', ' ', text)
    # Remover espacios m√∫ltiples
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# Aplicar preprocesamiento
processed_emails = [preprocess_text(email) for email in emails]

# Vectorizaci√≥n mejorada
# Usar TF-IDF en lugar de CountVectorizer para mejor rendimiento
vectorizer = TfidfVectorizer(
    max_features=1000,
    stop_words=None,  # Mantener todas las palabras para detectar spam
    ngram_range=(1, 2),  # Usar unigramas y bigramas
    min_df=1,
    max_df=0.95
)

X = vectorizer.fit_transform(processed_emails)
y = np.array(labels)

print(f"Forma de la matriz de caracter√≠sticas: {X.shape}")
print(f"N√∫mero de caracter√≠sticas extra√≠das: {X.shape[1]}")

In [None]:
# divisi√≥n de datos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Datos de entrenamiento: {X_train.shape[0]} emails")
print(f"Datos de prueba: {X_test.shape[0]} emails")

# Entrenamiento
# Perceptr√≥n con par√°metros optimizados
model = Perceptron(
    max_iter=1000,
    random_state=42,
    eta0=0.1,  # Tasa de aprendizaje
    penalty='l2',  # Regularizaci√≥n
    alpha=0.0001
)

model.fit(X_train, y_train)
print("‚úÖ Modelo entrenado exitosamente!")

In [None]:
# Guardar Modelos
joblib.dump(model, 'spam_model_improved.pkl')
joblib.dump(vectorizer, 'vectorizer_improved.pkl')
joblib.dump(rule_engine, 'rule_engine.pkl')

print("‚úÖ Modelos guardados exitosamente!")

In [None]:
# Detecci√≥n de Spam
def advanced_spam_detector(email_text):
    # Cargar modelos
    model = joblib.load('spam_model_improved.pkl')
    vectorizer = joblib.load('vectorizer_improved.pkl')
    rule_engine = joblib.load('rule_engine.pkl')

    # Preprocesar texto
    processed_text = preprocess_text(email_text)

    # Vectorizar
    email_vector = vectorizer.transform([processed_text])

    # Predicci√≥n del perceptr√≥n
    ml_prediction = model.predict(email_vector)[0]
    ml_confidence = model.decision_function(email_vector)[0]

    # Puntuaci√≥n de reglas
    rule_score = rule_engine.calculate_spam_score(email_text)

    # Decisi√≥n final combinada
    if ml_prediction == 1 and rule_score >= 3:
        final_prediction = "SPAM (Alta confianza)"
        confidence = "Alta"
    elif ml_prediction == 1 or rule_score >= 5:
        final_prediction = "SPAM (Confianza media)"
        confidence = "Media"
    elif rule_score >= 2:
        final_prediction = "Posible SPAM (Baja confianza)"
        confidence = "Baja"
    else:
        final_prediction = "NO SPAM"
        confidence = "Alta"

    # An√°lisis detallado
    analysis = f"""
**AN√ÅLISIS DE SPAM**

**Resultado:** {final_prediction}
**Confianza:** {confidence}

**Detalles t√©cnicos:**
‚Ä¢ Predicci√≥n ML: {'SPAM' if ml_prediction == 1 else 'NO SPAM'}
‚Ä¢ Puntuaci√≥n de reglas: {rule_score}/10
‚Ä¢ Confianza ML: {ml_confidence:.3f}

**An√°lisis de contenido:**
‚Ä¢ Longitud del texto: {len(email_text)} caracteres
‚Ä¢ Palabras clave detectadas: {rule_score > 0}
‚Ä¢ Tiendas virtuales mencionadas: {any(store in email_text.lower() for store in ['aliexpress', 'amazon', 'ebay', 'temu'])}

**Recomendaci√≥n:** {'No abrir enlaces ni proporcionar informaci√≥n personal' if 'SPAM' in final_prediction else 'Email parece leg√≠timo'}
"""

    return analysis

In [None]:
# Test 
print("üß™ Ejecutando pruebas autom√°ticas...")

test_emails = [
    "¬°URGENTE! AliExpress cierra con 99% descuento. Compra ya!",
    "Amazon: problema con tu cuenta, verifica inmediatamente",
    "Hola, ¬øc√≥mo va el proyecto? Nos vemos en la reuni√≥n",
    "eBay: Tu art√≠culo favorito tiene 95% descuento. Solo hoy!",
    "TEMU: Confirmaci√≥n de entrega de tu pedido #12345"
]

print("\nResultados de pruebas:")
for i, email in enumerate(test_emails, 1):
    result = advanced_spam_detector(email)
    # Extraer solo el resultado principal
    newline = '\n'
    resultado_linea = result.split('**Resultado:**')[1].split(newline)[0].strip()
    print(f"\nPrueba {i}: {email[:50]}...")
    print(f"Resultado: {resultado_linea}")

In [None]:
from flask import Flask, request, jsonify
from flask_cors import CORS
import threading
import time
from pyngrok import ngrok
import re

app = Flask(__name__)
CORS(app) 

# https://dashboard.ngrok.com/get-started/your-authtoken
ngrok.set_auth_token("1uKgnupvgswLCNcPpobpadMACbE_7gw3hNMGf41eF8CjAndSt")

# Funci√≥n para convertir markdown a JSON
def markdown_to_json(markdown_result, email_text):
    """Convierte el resultado markdown de advanced_spam_detector a JSON"""
    try:
        lines = markdown_result.split('\n')

        # Extraer informaci√≥n principal
        resultado_line = [line for line in lines if '**Resultado:**' in line][0]
        confianza_line = [line for line in lines if '**Confianza:**' in line][0]

        prediction = resultado_line.split('**Resultado:**')[1].strip()
        confidence = confianza_line.split('**Confianza:**')[1].strip()

        # Determinar si es spam
        is_spam = 'SPAM' in prediction.upper()

        # Extraer detalles t√©cnicos
        ml_pred_line = [line for line in lines if '‚Ä¢ Predicci√≥n ML:' in line][0]
        rule_score_line = [line for line in lines if '‚Ä¢ Puntuaci√≥n de reglas:' in line][0]

        ml_prediction = ml_pred_line.split('‚Ä¢ Predicci√≥n ML:')[1].strip()
        rule_score = int(rule_score_line.split('‚Ä¢ Puntuaci√≥n de reglas:')[1].split('/')[0].strip())

        # An√°lisis de tiendas virtuales
        stores_mentioned = []
        for store in ['aliexpress', 'amazon', 'ebay', 'temu']:
            if store in email_text.lower():
                stores_mentioned.append(store.title())

        # Crear respuesta JSON estructurada
        response = {
            "status": "success",
            "result": {
                "is_spam": is_spam,
                "prediction": prediction,
                "confidence": confidence,
                "details": {
                    "ml_prediction": ml_prediction,
                    "rule_score": rule_score,
                    "rule_score_max": 10
                },
                "content_analysis": {
                    "text_length": len(email_text),
                    "virtual_stores_mentioned": stores_mentioned,
                    "stores_count": len(stores_mentioned)
                },
                "recommendation": "No abrir enlaces ni proporcionar informaci√≥n personal" if is_spam else "Email parece leg√≠timo",
                "timestamp": time.strftime("%Y-%m-%d %H:%M:%S")
            }
        }

        return response

    except Exception as e:
        return {
            "status": "error",
            "message": f"Error procesando resultado: {str(e)}",
            "raw_result": markdown_result
        }

@app.route('/detect', methods=['POST'])
def detect_spam():
    """Endpoint principal para detectar spam - USA advanced_spam_detector"""
    try:
        # Obtener datos del request
        data = request.get_json()

        # Validar que se envi√≥ el texto del email
        if not data or 'email_text' not in data:
            return jsonify({
                "status": "error",
                "message": "Se requiere el campo 'email_text' en el body del request",
                "example": {
                    "email_text": "¬°Oferta exclusiva! Compra ahora en Amazon..."
                }
            }), 400

        email_text = data['email_text']

        # Validar que el texto no est√© vac√≠o
        if not email_text or len(email_text.strip()) == 0:
            return jsonify({
                "status": "error",
                "message": "El texto del email no puede estar vac√≠o"
            }), 400

        # üéØ USAR LA FUNCI√ìN EXISTENTE advanced_spam_detector
        markdown_result = advanced_spam_detector(email_text)

        # Convertir resultado markdown a JSON
        json_result = markdown_to_json(markdown_result, email_text)

        return jsonify(json_result)

    except Exception as e:
        return jsonify({
            "status": "error",
            "message": f"Error interno del servidor: {str(e)}"
        }), 500

def run_flask_app():
    """Funci√≥n para ejecutar Flask en un hilo separado"""
    app.run(host='0.0.0.0', port=5000, debug=False, use_reloader=False)

# Iniciar Flask en un hilo separado
flask_thread = threading.Thread(target=run_flask_app)
flask_thread.daemon = True
flask_thread.start()

time.sleep(3)

# Configurar ngrok para acceso p√∫blico
try:
    public_url = ngrok.connect(5000)
    print(f"URL p√∫blica: {public_url}")

except Exception as e:
    print(f"‚ö†Ô∏è Error configurando ngrok: {e}")