In [None]:
# 游늷 Instalar dependencias (si no est치n instaladas)
!pip install nltk scikit-learn

In [None]:
import json
import re
import numpy as np
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler

# 游늷 Descargar datos de NLTK (solo la primera vez)
nltk.download('stopwords')
nltk.download('wordnet')

# 游늷 Configuraci칩n de NLP
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

# 游늷 Cargar el dataset limpio desde el JSON
with open('celulares_limpios.json', 'r') as file:
    celulares = json.load(file)

# 游늷 Mostrar los primeros 5 celulares para verificar los datos
celulares[:5]

# 游늷 Definir intenciones con palabras clave
intenciones = {
    "gaming": ["gaming", "juegos", "fps", "alto rendimiento", "potente"],
    "fotograf칤a": ["c치mara", "fotograf칤a", "selfie", "megap칤xeles", "foto"],
    "bater칤a": ["bater칤a", "duraci칩n", "mAh", "autonom칤a"],
    "econ칩mico": ["barato", "econ칩mico", "asequible", "accesible"],
    "alta_gama": ["gama alta", "flagship", "premium", "exclusivo"]
}

# 游늷 Funci칩n para detectar intenci칩n en la consulta del usuario
def detectar_intencion(texto):
    texto = texto.lower()
    for intencion, palabras in intenciones.items():
        for palabra in palabras:
            if re.search(rf"\b{palabra}\b", texto):
                return intencion
    return "desconocida"

# 游늷 Funci칩n para limpiar texto y eliminar palabras irrelevantes
def limpiar_texto(texto):
    tokens = texto.lower().split()
    tokens = [lemmatizer.lemmatize(word) for word in tokens if word.isalnum() and word not in stop_words]
    return ' '.join(tokens)

# 游늷 Aplicamos limpieza a los nombres de procesadores
for celular in celulares:
    celular["Processor"] = limpiar_texto(celular["Processor"])

# 游늷 Vectorizaci칩n de los procesadores con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([celular["Processor"] for celular in celulares])

# 游늷 Extraer valores num칠ricos para normalizar
ram_values = np.array([cel["RAM (GB)"] for cel in celulares]).reshape(-1, 1)
battery_values = np.array([cel["Battery Capacity (mAh)"] for cel in celulares]).reshape(-1, 1)
price_values = np.array([cel["Launched Price (USA)"] for cel in celulares]).reshape(-1, 1)

# 游늷 Normalizar los valores entre 0 y 1
scaler = MinMaxScaler()
ram_scaled = scaler.fit_transform(ram_values)
battery_scaled = scaler.fit_transform(battery_values)
price_scaled = scaler.fit_transform(price_values)

# 游늷 Agregar los valores normalizados al dataset
for i, cel in enumerate(celulares):
    cel["RAM_scaled"] = ram_scaled[i][0]
    cel["Battery_scaled"] = battery_scaled[i][0]
    cel["Price_scaled"] = price_scaled[i][0]

def recomendar_celular(criterio):
    # 游늷 Detectar la intenci칩n del usuario
    intencion = detectar_intencion(criterio)

    # 游늷 Filtrar celulares seg칰n la intenci칩n
    if intencion == "gaming":
        celulares_filtrados = [c for c in celulares if c["RAM (GB)"] >= 8]  # Gaming necesita m치s de 8GB RAM
    elif intencion == "fotograf칤a":
        celulares_filtrados = [c for c in celulares if c["Back Camera (MP)"] and c["Back Camera (MP)"] >= 50]  # C치mara potente
    elif intencion == "bater칤a":
        celulares_filtrados = [c for c in celulares if c["Battery Capacity (mAh)"] >= 5000]  # Bater칤a grande
    elif intencion == "econ칩mico":
        celulares_filtrados = sorted(celulares, key=lambda x: x["Launched Price (USA)"])[:10]  # Los 10 m치s baratos
    elif intencion == "alta_gama":
        celulares_filtrados = [c for c in celulares if c["Launched Price (USA)"] >= 900]  # Celulares premium
    else:
        celulares_filtrados = celulares  # Si la intenci칩n no se detecta, usar todos

    # 游늷 Calcular similitud de coseno basada en procesador
    criterio_vector = vectorizer.transform([limpiar_texto(criterio)])
    similitudes = cosine_similarity(criterio_vector, tfidf_matrix).flatten()

    # 游늷 Crear una puntuaci칩n combinada con caracter칤sticas num칠ricas
    mejores_puntajes = []
    
    for cel in celulares_filtrados:
        i = celulares.index(cel)  # Obtener 칤ndice original

        # 游늷 Calcular diferencias en atributos num칠ricos
        diff_ram = abs(cel["RAM_scaled"] - 1)  # Preferimos RAM alta
        diff_battery = abs(cel["Battery_scaled"] - 1)  # Preferimos bater칤a alta
        diff_price = abs(cel["Price_scaled"] - 0)  # Preferimos precio bajo
        
        # 游늷 Ponderar cada factor seg칰n la intenci칩n
        if intencion == "gaming":
            score = (similitudes[i] * 0.5) + ((1 - diff_ram) * 0.3) + ((1 - diff_battery) * 0.15) + ((1 - diff_price) * 0.05)
        elif intencion == "fotograf칤a":
            score = (similitudes[i] * 0.4) + ((1 - diff_battery) * 0.2) + ((cel["Back Camera (MP)"] / 108) * 0.4)  # Peso fuerte en la c치mara
        elif intencion == "bater칤a":
            score = (similitudes[i] * 0.3) + ((1 - diff_battery) * 0.6) + ((1 - diff_ram) * 0.1)
        elif intencion == "econ칩mico":
            score = (similitudes[i] * 0.2) + ((1 - diff_price) * 0.7) + ((1 - diff_battery) * 0.1)
        elif intencion == "alta_gama":
            score = (similitudes[i] * 0.5) + ((1 - diff_ram) * 0.2) + ((1 - diff_battery) * 0.2) + ((cel["Launched Price (USA)"] / 2000) * 0.1)
        else:
            score = (similitudes[i] * 0.6) + ((1 - diff_ram) * 0.2) + ((1 - diff_battery) * 0.15) + ((1 - diff_price) * 0.05)

        mejores_puntajes.append((score, cel))

    # 游늷 Elegir el mejor celular basado en la puntuaci칩n final
    mejor_celular = max(mejores_puntajes, key=lambda x: x[0])[1]

    return f"游님 Te recomiendo el {mejor_celular['Company Name']} {mejor_celular['Model Name']} con {mejor_celular['RAM (GB)']}GB RAM, {mejor_celular['Battery Capacity (mAh)']}mAh y procesador {mejor_celular['Processor']} por ${mejor_celular['Launched Price (USA)']}."

pregunta = input("游녻 Escribe tu consulta: ")
intencion = detectar_intencion(pregunta)
print(f"游댌 Intenci칩n detectada: {intencion}")
print(recomendar_celular(pregunta))