# Importar Bibliotecas Necesarias
Importar las bibliotecas necesarias, incluyendo json, re, y collections.

In [1]:
# Importar las bibliotecas necesarias
import json
import re
from collections import defaultdict

# Leer y Procesar el Corpus de Texto
Leer el archivo pcovid2020.json y procesar cada línea para extraer el texto de los tweets.

In [2]:
# Leer y Procesar el Corpus de Texto

# Definir la función para leer y procesar el archivo JSON
def leer_corpus(archivo):
    with open(archivo, 'r', encoding='utf-8') as f:
        corpus = [json.loads(line)['text'] for line in f]
    return corpus

# Procesar el texto de los tweets
def procesar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Remover puntuaciones y acentos
    texto = re.sub(r'[^\w\s]', '', texto)
    # Tokenizar el texto
    palabras = texto.split()
    return palabras

# Leer el archivo y procesar cada línea
archivo = 'pcovid2020.json'
corpus = leer_corpus(archivo)
corpus_procesado = [procesar_texto(texto) for texto in corpus]

# Mostrar un ejemplo del corpus procesado
print(corpus_procesado[:1])

FileNotFoundError: [Errno 2] No such file or directory: 'pcovid2020.json'

# Construir el Índice Invertido
Construir un índice invertido simple con listas de posteo representadas por listas ordenadas de enteros, asociadas a palabras válidas.

In [None]:
# Construir el Índice Invertido

# Crear el índice invertido
indice_invertido = defaultdict(list)

# Asignar un número a cada palabra usando la función hash
for doc_id, texto in enumerate(corpus_procesado):
    for palabra in texto:
        palabra_hash = hash(palabra)
        if doc_id not in indice_invertido[palabra_hash]:
            indice_invertido[palabra_hash].append(doc_id)

# Ordenar las listas de posteo
for palabra_hash in indice_invertido:
    indice_invertido[palabra_hash].sort()

# Mostrar un ejemplo del índice invertido
print(dict(list(indice_invertido.items())[:5]))

# Definir Funciones para Consultas Conjuntivas
Definir funciones para resolver consultas conjuntivas utilizando algoritmos de intersección, como búsqueda binaria y búsqueda galloping.

In [None]:
# Definir Funciones para Consultas Conjuntivas

# Función para realizar búsqueda binaria
def busqueda_binaria(lista, elemento):
    izquierda, derecha = 0, len(lista) - 1
    while izquierda <= derecha:
        medio = (izquierda + derecha) // 2
        if lista[medio] == elemento:
            return medio
        elif lista[medio] < elemento:
            izquierda = medio + 1
        else:
            derecha = medio - 1
    return -1

# Función para realizar búsqueda galloping
def busqueda_galloping(lista, elemento):
    if not lista:
        return -1
    if lista[0] == elemento:
        return 0
    i = 1
    while i < len(lista) and lista[i] < elemento:
        i *= 2
    izquierda, derecha = i // 2, min(i, len(lista))
    return busqueda_binaria(lista[izquierda:derecha], elemento)

# Función para intersección de listas usando búsqueda binaria
def interseccion_binaria(lista1, lista2):
    resultado = []
    for elemento in lista1:
        if busqueda_binaria(lista2, elemento) != -1:
            resultado.append(elemento)
    return resultado

# Función para intersección de listas usando búsqueda galloping
def interseccion_galloping(lista1, lista2):
    resultado = []
    for elemento in lista1:
        if busqueda_galloping(lista2, elemento) != -1:
            resultado.append(elemento)
    return resultado

# Función para resolver consultas conjuntivas
def resolver_consulta(consulta, metodo='binaria'):
    palabras = procesar_texto(consulta)
    listas_posteo = [indice_invertido[hash(palabra)] for palabra in palabras if hash(palabra) in indice_invertido]
    
    if not listas_posteo:
        return []
    
    listas_posteo.sort(key=len)
    resultado = listas_posteo[0]
    
    for lista in listas_posteo[1:]:
        if metodo == 'binaria':
            resultado = interseccion_binaria(resultado, lista)
        elif metodo == 'galloping':
            resultado = interseccion_galloping(resultado, lista)
    
    return resultado

# Ejemplo de uso de la función resolver_consulta
consulta = "vacuna covid"
resultados = resolver_consulta(consulta, metodo='binaria')
print(resultados)

# Construir el Índice Invertido en una Celda
Crear una celda en el notebook donde se construya el índice invertido utilizando las funciones definidas.

In [None]:
# Construir el Índice Invertido en una Celda

# Crear el índice invertido
indice_invertido = defaultdict(list)

# Asignar un número a cada palabra usando la función hash
for doc_id, texto in enumerate(corpus_procesado):
    for palabra in texto:
        palabra_hash = hash(palabra)
        if doc_id not in indice_invertido[palabra_hash]:
            indice_invertido[palabra_hash].append(doc_id)

# Ordenar las listas de posteo
for palabra_hash in indice_invertido:
    indice_invertido[palabra_hash].sort()

# Mostrar un ejemplo del índice invertido
print(dict(list(indice_invertido.items())[:5]))

# Especificar Consultas
Crear una celda para especificar las consultas conjuntivas que se desean resolver.

In [None]:
# Especificar Consultas

# Crear una celda para especificar las consultas conjuntivas que se desean resolver
consultas = [
    "vacuna covid",
    "mascarilla prevención",
    "síntomas fiebre",
    "distanciamiento social",
    "tratamiento hospital"
]

# Resolver cada consulta y mostrar los resultados
for consulta in consultas:
    resultados = resolver_consulta(consulta, metodo='binaria')
    print(f"Consulta: '{consulta}' -> Resultados: {resultados}")

# Mostrar Resultados de las Consultas
Crear una celda para mostrar los resultados de las consultas conjuntivas resueltas.

In [None]:
# Mostrar Resultados de las Consultas

# Crear una celda para mostrar los resultados de las consultas conjuntivas resueltas
for consulta in consultas:
    resultados = resolver_consulta(consulta, metodo='binaria')
    print(f"Consulta: '{consulta}' -> Resultados: {resultados}")