# Key Word in Context

Las Key Word in Context (KWIC) o concoordancias recuperan un patrón dentro de un documento o una colección de documentos. Las KWIC son útiles para ubicar la información en su contexto, pero también nos pueden indicar en qué documentos se encuentran las palabras.

### Corpus

El corpus o colección con el que trabajaremos es el corpus CESS-ESP, un corpus de documentos parlamentales en español. 

In [1]:
from nltk.corpus import cess_esp

corpus = ' '.join(cess_esp.words())

print(corpus[:100])

El grupo estatal Electricité_de_France -Fpa- EDF -Fpt- anunció hoy , jueves , la compra del 51_por_c


### Recuperación de KWIC

Para obtener las KWIC necesitamos un método que escanee el texto y encuentre los patrones de búsqueda (keywords o palabras clave) dentro del documento. 

En este caso, se ubica la posición de la palabra y se recupera el contexto, en términos de caracteres.

In [2]:
def keywords_in_context(text, keyword, context_length=15):
    """ 
    Returns the relevant context around keywords in a larger text.
    
    Arguments
    ----------
    text : str
        Texto en donde deseamos encontrar las keywords
    keyword : list of str
        La keyword o palabra clave que deseamos encontrar.
    context_length : int
        Máximo número de caracteres que aparecerán a la derecha y la izquierda de la keyword.
        
    Returns
    -------
    Concoordancias en donde aparece la palabra clave en el texto.
    """
    #Pasa el texto a minúsculas
    text = text.lower()
    #Lista de índices posicionales
    indices_lst = []    
    #Encontrar posición de inicio de keyword en texto
    start = text.find(keyword)
    while not start == -1:
        #Añade el índice a la lista
        indices_lst.append(start)
        #Encontrar siguiente posición
        start = text.find(keyword, start+len(keyword))
    
    for idx in indices_lst:
        #Guarda el inicio de keyword
        start = idx
        #guarda el final de keyword
        end = idx+len(keyword)
        #Elemento previo 
        prev = text[0:start]
        #Elemento siguiente
        next = text[end:-1]
        
        #Revisa el contexto anterior
        if len(prev) < context_length:
            #Si no hay elementos antes
            #Recupera sólo la keyword
            prev_context = start-len(prev)
        else:
            #Si hay elementos antes
            #Recupera el contexto anterior
            prev_context = start-context_length
        #Revisa el contexto siguiente
        if len(next) < context_length:
            #Si no hay elementos después
            #Recupera sólo la keyword
            next_context = end+len(next)
        else:
            #Si hay elementos después
            #Recupera el contexto siguiente
            next_context = end+context_length
        
        #Regresa la kwyc
        yield text[prev_context:next_context]

Podemos aplicar a un caso específico.

In [3]:
#Keyword
keyword = 'democracia'

#Imprime las concoordancias
for kwic in keywords_in_context(corpus,keyword,context_length=50):
    print(kwic)

del partido en madrid desde la instauración de la democracia . insuficiente fue el crecimiento del psoe en la 
jor resultado del partido en madrid en 25 años de democracia " , dijo a efe el presidente del pp en la región 
n educativa , materia esencial para consolidar la democracia y lograr el desarrollo social . vicumbre -fpa- vi
iña_del_mar , dedicada a la " gobernabilidad y la democracia " , reafirmó el compromiso con el sistema democrá
ntales como " marco de la gobernabilidad para una democracia eficiente y participativa " . se puso como objeti
cipativa " . se puso como objetivo consolidar las democracias y fortalecer las instituciones y la cultura demo
ar las bases socioeconómicas para posibilitar una democracia integral , así_como asumir las oportunidades que 
 1997 -fpt- dedicado a " los valores éticos de la democracia " , el texto final condenó expresamente por prime
ad española " ha dado un importante respaldo a la democracia , al estado_de_derecho y al gobierno de josé_marí
a

### KWIC en colecciones

Cuando buscamos una palabra clave en una colección, además de recuperar la concoordancia es común recuperar el documento en el que ésta aparece. En este caso pocemos aprovechar el método que hemos definido anteriormente para hacer búsquedas de kwic en colecciones.

En primer lugar cargamos el directorio con la colección de documentos:

In [4]:
from glob import glob

#Directorio donde se encuentras los documentos
directory = 'wikipedia/'

#Guarda el nombre del documento
#y su texto
texts = {}
for filename in glob(directory+'*'):
    #Lee el texto y lo pasa a minúscula
    text = open(filename,'r').read().lower()
    texts[filename] = text

In [5]:
def kwic_in_collection(keyword, collection, context_length=15):
    """
    Función para recuperar kwic en una colección de documentos.
    
    Arguments
    ----------
    keyword : str
        Palabra clave que recuperaremos en la colección
    collection : dict
        Dictionario de {nombre del documento : texto} que contiene la colección.
    context_length : int
        Número máximo de caracteres en el contexto
        
    Returns
    -------
    Concoordancias en donde aparece la palabra clave y el nombre del texto en que aparece de la colección.
    """
    for fname, text in collection.items():
        for kwic in keywords_in_context(text, keyword, context_length=context_length):
            yield "{} : {}".format(kwic, fname[10:])

Podemos ahora aplicar el método a una colección.

In [6]:
#Keyword
keyword = 'bacteria'

for c in kwic_in_collection(keyword, texts):
    print(c)

a de una enterobacteria que se encuent : ech (1).txt
.
esta y otras bacterias son necesaria : ech (1).txt
s ++--.
es una bacteria utilizada frec : ech (1).txt
s decir, si la bacteria no adquiere el : ech (1).txt
virulentos, la bacteria actúa como un  : ech (1).txt
s acerca de la bacteria escherichia co : ech (3).txt
e trata de una bacteria con diversas v : ech (3).txt
otras cepas la bacteria que ha golpead : ech (3).txt
uién afecta la bacteria?
la bacteria p : ech (3).txt
a bacteria?
la bacteria puede afectar  : ech (3).txt
l caso de esta bacteria es muy baja, l : ech (3).txt
 ingeridos.
la bacteria no es resisten : ech (3).txt
que produce la bacteria», como dice la : ech (3).txt
lmonella es la bacteria que produce la : salmonella (3).txt
sionada por la bacteria de la salmonel : salmonella (3).txt
una enfermedad bacterial que afecta el : salmonella (3).txt
normalmente la bacteria de la salmonel : salmonella (3).txt
taminan con la bacteria al consumir ag : salmonella (3).txt
nfectan con