In [2]:
import numpy as np
from collections import Counter
import requests
import re


def calcular_frecuencias(documentos):
    vocabulario = set()
    frecuencias = []

    for doc in documentos:
        tokens = doc.lower().split()
        vocabulario.update(tokens)
        frecuencias.append(Counter(tokens))
    
    return list(vocabulario), frecuencias

In [3]:
def construir_matriz(documentos, vocabulario, frecuencias):
    matriz = np.zeros((len(documentos), len(vocabulario)))

    for i, freq in enumerate(frecuencias):
        for j, palabra in enumerate(vocabulario):
            matriz[i][j] = freq.get(palabra, 0)
    
    return matriz

In [4]:
def similitud_coseno(v1, v2):
    numerador = np.dot(v1, v2)
    denominador = np.linalg.norm(v1) * np.linalg.norm(v2)
    return numerador / denominador if denominador != 0 else 0

In [6]:
def modelo_vectorial(documentos, consulta):
    corpus = documentos + [consulta]
    vocabulario, frecuencias = calcular_frecuencias(corpus)
    matriz_terminos = construir_matriz(corpus, vocabulario, frecuencias)
    vector_consulta = matriz_terminos[-1]
    matriz_documentos = matriz_terminos[:-1]
    similitudes = [similitud_coseno(vector_consulta, doc) for doc in matriz_documentos]
    
    return similitudes

In [11]:
if __name__ == "__main__":
    documentos = [
        "La CocaCola es una bebida muy popular en todo el mundo.",
        "Pepsi y CocaCola son grandes competidores en la industria.",
        "Me encanta tomar CocaCola con hielo y limón.",
        "La CocaCola Zero tiene un sabor diferente al clásico."
    ]
    
    consulta = "CocaCola"
    resultado = modelo_vectorial(documentos, consulta)

    print("Similitud entre la consulta y cada documento:")
    for i, similitud in enumerate(resultado):
        print(f"Documento {i+1}: {similitud:.4f}")

Similitud entre la consulta y cada documento:
Documento 1: 0.3015
Documento 2: 0.3333
Documento 3: 0.3536
Documento 4: 0.3333


In [None]:
def obtener_texto_de_url(url):
    """
    Obtiene el texto de una página web a partir de la URL usando regex.
    """
    try:
        response = requests.get(url)
        response.raise_for_status()  # Verifica si la solicitud fue exitosa
        
        # Extraer el contenido de la página usando una expresión regular simple
        texto = re.sub('<[^>]*>', '', response.text)  # Elimina todas las etiquetas HTML
        texto = ' '.join(texto.split())  # Elimina múltiples espacios
        
        return texto
    except Exception as e:
        print(f"Error al obtener el texto de la URL {url}: {e}")
        return ""

# Ejemplo de uso
if __name__ == "__main__":
    # URLs de ejemplo
    urls = [
        "https://es.wikipedia.org/wiki/Coca-Cola",
        "https://www.pepsi.com",
        "https://www.coca-cola.com",
        "https://www.bbc.com"
    ]

    # Recuperar el texto de las URLs
    documentos = [obtener_texto_de_url(url) for url in urls]

    # Mostrar los primeros 500 caracteres de cada documento para verificar
    for i, doc in enumerate(documentos):
        print(f"Documento {i+1}: {doc[:500]}...")  # Muestra los primeros 500 caracteres
