# Experiencia SEDICI 

## Detección automática de repeticiones parciales en repositorios digitales

El repositorio del proyecto es [Github](https://github.com/germanchaca/OAI-PMH-ABSTRACTS_PARTIAL_REPETITIONS-).


### Alcance
* Se extraerán los metadatos de un proveedor de datos OAI-PMH y cómo convertir los datos recuperados de Dublin Core en un pandas dataframe. Se podrá utilizar le código en cualquiera de los proveedores de metadatos listados en buscadores como [sherpa](https://v2.sherpa.ac.uk/view/repository_by_country/Argentina.html) o [roar](http://roar.eprints.org/).

* Se llevará a cabo un preprocesamiento de textos para su posterior explotación.
* Finalmente, se bucará detectar repeticiones parciales en el texto del abstract o resumen de los registros publicados en el repositorio SEDICI. EL código puede ser utilizado para detectar repeticiones parciales entre los distintos repositorios ditigales que soporten la interoperabilidad de metadatoscon OAI-PMH.


### Preparación del entorno de trabajo
El siguiente fragmento de código inicializa su entorno de tiempo de ejecución de Python para ejecutar todas las acciones posteriores.

Si ha instalado todo correctamente con la ayuda de [Anaconda](https://www.continuum.io/downloads), los siguientes paquetes deben instalarse correctamente y ser importados sin problemas.

In [None]:
!pip install jellyfish
!pip install geojson
!pip install geopy
!pip install sickle
!pip install googlemaps

### Sickle - Librería para el manejo de OAI-PMH

[Sickle](https://sickle.readthedocs.io/en/latest/) es una biblioteca de OAI-PMH escrita en Python. Ha sido diseñado para recuperar datos cómodamente de OAI interactúa a la manera Pythonic

In [1]:
%matplotlib inline
import numpy as np
import scipy as sp
import matplotlib as mpl
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import pandas as pd
import time

pd.set_option('display.notebook_repr_html', True)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', -1)

from collections import OrderedDict # provides the ordered dictionary
import re # for regular expressions used below
import urllib # to read from URLs
import json
import itertools
import os.path
from datetime import datetime # for time measurement
import sys
import os
import pickle
import subprocess as subp
import gzip
import math

import nltk
#nltk.download('stopwords')
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
import string
from IPython.display import display
import sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import stop_words

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import linear_kernel
# OAI
from sickle import Sickle

allowDownloads=True # should be True if you run this for the first time
downloadDir="./tmp/"
allowExactStringMatching=True

def printLog(text):
    now=str(datetime.now())
    print("["+now+"]\t"+text)
    # forces to output the result of the print command immediately, see: http://stackoverflow.com/questions/230751/how-to-flush-output-of-python-print
    sys.stdout.flush()
    
def pickleCompress(fileName,pickledObject):
    printLog("Pickling to '%s'" %fileName)
    f = gzip.open(fileName,'wb')
    pickle.dump(pickledObject,f)
    f.close()
    printLog("Pickling done.")
    
def pickleDecompress(fileName):
    #restore the object
    printLog("Depickling from '%s'" %fileName)
    f = gzip.open(fileName,'rb')
    pickledObject = pickle.load(f)
    f.close()
    printLog("Depickling done.")
    return pickledObject

if not os.path.exists(downloadDir):
        os.makedirs(downloadDir)
if not os.path.exists("./picklez/"):
        os.makedirs("./picklez/")     

## Recolección de metadatos de un repositorio digital

### Conexión al repositorio proveedor OAI y descarga de registros de metadatos

La siguiente celda se conecta al servidor OAI-PMH de Repositorio de la Universidad Nacional de La Plata - [SEDICI](http://sedici.unlp.edu.ar/).

los registros se guardan localmente para trabajar con ellos más tarde. Por simplicidad, el ahorro se basa en el mecanismo de pickling de Python, su método de serialización de objetos incorporado. En un caso de uso productivo, es posible que alcance los límites del paquete pickle debido al tamaño del archivo resultante. Una alternativa viable es [HDF5](https://www.h5py.org/).

In [2]:
repository_address = 'http://sedici.unlp.edu.ar/oai/snrd'
allowDownloads = True
#repository_address = 'http://repositorio.filo.uba.ar/oai/request'

Se listan los conjuntos o sets de datos proporcionados por el proveedor de datos

In [8]:
sickle = Sickle(repository_address)
sets = sickle.ListSets()
print ("Conjuntos proporcionados por el proveedor de datos\n* * * * * * * * * * * * * * * * * * * * * ") 
i = 0
for s in sets:
    print("'"+s.setName+"' accessible via: '"+s.setSpec+"'")
    i = i + 1
    if i > 20: break

Conjuntos proporcionados por el proveedor de datos
* * * * * * * * * * * * * * * * * * * * * 
'Conjunto de recursos para Sistema Nacional de Repositorios Digitales, Argentina SNRD' accessible via: 'snrd'
'Unidades académicas' accessible via: 'com_10915_1'
'Facultad de Ingeniería' accessible via: 'com_10915_2'
'Facultad de Ciencias Veterinarias' accessible via: 'com_10915_5'
'Facultad de Ciencias Jurídicas y Sociales' accessible via: 'com_10915_7'
'Facultad de Ciencias Agrarias y Forestales' accessible via: 'com_10915_10'
'Facultad de Periodismo y Comunicación Social' accessible via: 'com_10915_12'
'Facultad de Ciencias Astronómicas y Geofísicas' accessible via: 'com_10915_15'
'Facultad de Trabajo Social' accessible via: 'com_10915_18'
'Facultad de Odontología' accessible via: 'com_10915_20'
'Facultad de Ciencias Exactas' accessible via: 'com_10915_22'
'Facultad de Arquitectura y Urbanismo' accessible via: 'com_10915_25'
'Facultad de Psicología' accessible via: 'com_10915_28'
'Facultad 

### Análisis sobre la colección 'Facultad de Informática'

Si se quiere recuperar los registros de un conjunto/set específico se debe indicar el parámetro set, de lo contrario se listarán todos los registros disponibles.

In [9]:
maxDocs=100000
# Si vuelve a ejecutar esta celda, el contenido de la matriz SavedRecords se modificará.
# 2:15 h para 100k

savedRecords=[]
if allowDownloads:
    sickle = Sickle(repository_address)
    # using Dublin Core format 
    #records = sickle.ListRecords(metadataPrefix='oai_dc')
    records = sickle.ListRecords(metadataPrefix='oai_dc', set = 'com_10915_36')
    printLog("Inicio de la descarga de registros OAI-PMH...")
    savedDocs=0
    for record in records:
        # get the PPN of the digitized work as the DC identifier will reference different (analog) manifestations
        tokens=record.header.identifier.split(":")
        tokens
        
        if savedDocs<maxDocs:
            savedDocs=savedDocs+1
            savedRecords.append(record.metadata)
            if savedDocs%1000==0:
                printLog("Downloaded %d of %d records."%(savedDocs,maxDocs))
        else:
            break
    printLog("Descarga finalizada de OAI-PMH de "+str(len(savedRecords))+" registros.")
    pickle.dump( savedRecords, open( "sedici_dc_all.pickle", "wb" ) )
else:
    printLog("Cargando registros OAI-PMH desde el disco...")
    savedRecords=pickle.load( open( "sedici_dc_all.pickle", "rb" ) )
    printLog("Done.")

[2020-08-12 21:55:15.706000]	Inicio de la descarga de registros OAI-PMH...
[2020-08-12 21:55:21.762000]	Downloaded 1000 of 100000 records.
[2020-08-12 21:55:23.802000]	Descarga finalizada de OAI-PMH de 1255 registros.


In [10]:
record = savedRecords[34]
record["identifier"]

['http://sedici.unlp.edu.ar/handle/10915/3864']

In [11]:
record

{'contributor': ['Bertone, Rodolfo Alfredo', u'Pessacq, Ra\xfal Adolfo'],
 'creator': [u'Beneforti, Mar\xeda Fernanda', u'Ainchil, Mar\xeda Virginia'],
 'date': ['2000'],
 'description': [u'El presente trabajo de grado surgi\xf3 para canalizar inquietudes respecto del uso de la computadora en el aprendizaje. El objetivo inicial tuvo su origen en la idea de realizar un aporte para lograr mejorar el nivel de lectura y escritura de los estudiantes secundarios, en una forma amena, \xe1gil, con un medio atractivo o usual para ellos, como es la computadora; mediante algunos de los mejores textos literarios de ficci\xf3n de habla espa\xf1ola, su an\xe1lisis e interpretaci\xf3n. Las t\xe9cnicas que se han utilizado para llevar a cabo desarrollos inform\xe1ticos orientados al aprendizaje han sido diversas, siendo la hipermedia una de las que goza de mayor aceptaci\xf3n. Esta tecnolog\xeda proporciona caracter\xedsticas que resultan muy \xfatiles en el campo del aprendizaje por computadora, como

### Crear un pandas dataframe a partir de los registros de metadatos

In [12]:
# load the records
printLog("Cargando registros...")
# uncomment this line if you are continuing the execution of this notebook at a later point in time
savedRecords=pickle.load( open( "sedici_dc_all.pickle", "rb" ) )
printLog("Finalizada la carga de registros.")

availableKeys=dict()

# check for all keys present in the previously downloaded dataset
for i,r in enumerate(savedRecords):
    for k in r.keys():
        if not k in availableKeys:
            availableKeys[k]=1
        else:
            availableKeys[k]=availableKeys[k]+1
    
print(availableKeys)

# create a dictionary for the records
values=dict()
# take the keys as they have found within the downloaded OAI records
keys=availableKeys.keys()
# for every metadata field, create an empty array as the content of the dictionary filed under the key 'k'
for k in keys:
    values[k]=[]

# iterate over all saved records
for record in savedRecords:
    # we cannot iterate over the keys of record.metadata directly because not all records cotain the same fields,...
    for k in keys:
        # thus we check if the metadata field 'k' has been created above
        if k in values:
            # append the metadata fields to the dictionary created above
            # if the metadata field 'k' is not available input "None" instead
            #values[k].append(record.get(k,["None"])[0].encode('ISO-8859-1'))
            if k in record:
                value=record.get(k)[0]
                if value:
                    if value.isdigit():
                        value=int(value)
                    else:
                        #p27 value=value.encode('ISO-8859-1')
                            #value=value.encode('ISO-8859-1').decode("utf-8", "backslashreplace")
                        value=value
                    values[k].append(value)
                else:
                    values[k].append(np.nan)
            else:
                values[k].append(np.nan)
# create a data frame from the 
#p27 df=pd.DataFrame(pd.to_numeric(values,errors='coerce'))
df=pd.DataFrame(values)
df['date']=pd.to_numeric(df['date'],errors='ignore',downcast='integer')
#df=pd.DataFrame(values)
#df=df.convert_objects(convert_dates=False, convert_numeric=True, convert_timedeltas=False, copy=True)
df.shape

[2020-08-12 22:01:55.369000]	Cargando registros...
[2020-08-12 22:01:55.725000]	Finalizada la carga de registros.
{'publisher': 32, 'rights': 1255, 'description': 1255, 'language': 1255, 'format': 1253, 'creator': 1255, 'date': 1254, 'relation': 421, 'source': 1, 'contributor': 831, 'title': 1255, 'identifier': 1255, 'type': 1255, 'subject': 1255}


(1255, 14)

In [14]:
df.head(1)

Unnamed: 0,contributor,creator,date,description,format,identifier,language,publisher,relation,rights,source,subject,title,type
0,"Rossi, Gustavo Héctor","Garrido, Alejandra",1997,"Las tres primeras secciones de este trabajo plantean el objetivo que se ha perseguido, su motivación y principales contribuciones, las que luego serán fundamentadas en los siguientes capítulos.\r\nLa cuarta sección presenta el estado del arte con respecto a los conceptos básicos sobre los que se ha trabajado, y al mismo tiempo explica qué faceta de cada uno es la que ha incidido en esta tesis. Cabe destacar que se suponen conocimientos básicos sobre el paradigma de orientación a objetos.\r\nLa quinta sección caracteriza las aplicaciones que podrán hacer uso de este trabajo a distintos niveles.",application/pdf,http://sedici.unlp.edu.ar/handle/10915/2161,spa,,,info:eu-repo/semantics/openAccess,,Ciencias Informáticas,OO-Navigator: un framework para hipermedia : Extendiendo aplicaciones orientadas a objetos con funcionalidad de hipermedia,info:eu-repo/semantics/bachelorThesis


## TF-IDF Transform

###  tf-idf-cosine: para encontrar la similitud entre documentos

In [19]:
def processing(file):
    file = file.encode('ascii', 'ignore').decode('ascii')
    #Tokenizing the string object from the text file
    tokens = word_tokenize(file)
    
    #Removing punctuations and making all letters to lower case
    words = [w.lower() for w in tokens if w.isalpha()]
    
    #Removing the stopwords from the list of words
    stop_words = set(stopwords.words('spanish'))
    filtered_tokens = [w for w in words if w not in stop_words]
    
    #Stemming the list of words
    porter = nltk.PorterStemmer()
    stemmed = [porter.stem(t) for t in filtered_tokens]
    
    return ', '.join(str(v) for v in filtered_tokens)

df['abstract'] = df['description'].apply(processing)
doc = df['abstract'] 

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(doc)

#cosine_similarities = linear_kernel(tfidf[0:1], tfidf).flatten()
#related_docs_indices = cosine_similarities.argsort()[:topN:-1]

#print related_docs_indices
#print cosine_similarities[related_docs_indices]
result = pd.DataFrame(columns=["id", "abstract", "id similar", "abstract", "similaridad%"])

for i in range(len(doc)):
    cosine_similarities = linear_kernel(tfidf[i:i+1], tfidf).flatten()
    # make pairs of (index, similarity)
    cosine_similarities = list(enumerate(cosine_similarities))
    # delete the cosine similarity with itself
    cosine_similarities.pop(i)
    # get the tuple with max similarity
    most_similar, similarity = max(cosine_similarities, key=lambda t:t[1])
    result.loc[len(result)] = [df['identifier'].iloc[i], df['description'].iloc[i],df['identifier'].iloc[most_similar], df['description'].iloc[most_similar], similarity]

In [27]:
result[(result['similaridad%'] >= 0.9) & (result['similaridad%'] <= 1.0)].sort_values(by=['similaridad%'], ascending=False).head(5)

Unnamed: 0,id,abstract,id similar,abstract.1,similaridad%
725,http://sedici.unlp.edu.ar/handle/10915/57803,"En este trabajo se presenta un estudio preliminar de estrategias para el uso de dispositivos móviles, con recarga del acumulador basada en energía solar fotovoltaica. Su empleo está previsto en zonas aisladas que se encuentren fuera del alcance de los centros de distribución de energía. Como primer paso, se estableció la cantidad de energía que consume un dispositivo móvil para ejecutar aplicaciones de uso frecuente en zonas rurales. Luego, tomando como parámetro valores de radiación solar de referencia y sin utilizar baterías externas, se midió la potencia que entrega un panel fotovoltaico de treinta y seis celdas en serie y se verificó que el mismo sea capaz de satisfacer los requerimientos de energía del celular. Finalmente se probaron distintas configuraciones del panel, para lo que se procedió a levantar la capa de Tedlar posterior, soldando contactos en diferentes zonas del mismo. El mayor impacto positivo se consiguió, abriendo el módulo en su cara posterior lo que posibilita conectar dieciocho celdas en serie, en paralelo con otras dieciocho. Los resultados obtenidos en el trabajo experimental fueron comparados para establecer la mejora introducida por el uso de un módulo FV con esta última conexión. La optimización del sistema fotovoltaico incrementó la velocidad de carga de la batería del dispositivo y posibilitó la ejecución de un mayor número de aplicaciones móviles.",http://sedici.unlp.edu.ar/handle/10915/53259,"En este trabajo se presenta un estudio preliminar de estrategias para el uso de dispositivos móviles, con recarga del acumulador basada en energía solar fotovoltaica. Su empleo está previsto en zonas aisladas que se encuentren fuera del alcance de los centros de distribución de energía. Como primer paso, se estableció la cantidad de energía que consume un dispositivo móvil para ejecutar aplicaciones de uso frecuente en zonas rurales. Luego, tomando como parámetro valores de radiación solar de referencia y sin utilizar baterías externas, se midió la potencia que entrega un panel fotovoltaico de treinta y seis celdas en serie y se verificó que el mismo sea capaz de satisfacer los requerimientos de energía del celular. Finalmente se probaron distintas configuraciones del panel, para lo que se procedió a levantar la capa de Tedlar posterior, soldando contactos en diferentes zonas del mismo. El mayor impacto positivo se consiguió, abriendo el módulo en su cara posterior lo que posibilita conectar dieciocho celdas en serie, en paralelo con otras dieciocho. Los resultados obtenidos en el trabajo experimental fueron comparados para establecer la mejora introducida por el uso de un módulo FV con esta última conexión. La optimización del sistema fotovoltaico incrementó la velocidad de carga de la batería del dispositivo y posibilitó la ejecución de un mayor número de aplicaciones móviles.",1.0
740,http://sedici.unlp.edu.ar/handle/10915/53259,"En este trabajo se presenta un estudio preliminar de estrategias para el uso de dispositivos móviles, con recarga del acumulador basada en energía solar fotovoltaica. Su empleo está previsto en zonas aisladas que se encuentren fuera del alcance de los centros de distribución de energía. Como primer paso, se estableció la cantidad de energía que consume un dispositivo móvil para ejecutar aplicaciones de uso frecuente en zonas rurales. Luego, tomando como parámetro valores de radiación solar de referencia y sin utilizar baterías externas, se midió la potencia que entrega un panel fotovoltaico de treinta y seis celdas en serie y se verificó que el mismo sea capaz de satisfacer los requerimientos de energía del celular. Finalmente se probaron distintas configuraciones del panel, para lo que se procedió a levantar la capa de Tedlar posterior, soldando contactos en diferentes zonas del mismo. El mayor impacto positivo se consiguió, abriendo el módulo en su cara posterior lo que posibilita conectar dieciocho celdas en serie, en paralelo con otras dieciocho. Los resultados obtenidos en el trabajo experimental fueron comparados para establecer la mejora introducida por el uso de un módulo FV con esta última conexión. La optimización del sistema fotovoltaico incrementó la velocidad de carga de la batería del dispositivo y posibilitó la ejecución de un mayor número de aplicaciones móviles.",http://sedici.unlp.edu.ar/handle/10915/57803,"En este trabajo se presenta un estudio preliminar de estrategias para el uso de dispositivos móviles, con recarga del acumulador basada en energía solar fotovoltaica. Su empleo está previsto en zonas aisladas que se encuentren fuera del alcance de los centros de distribución de energía. Como primer paso, se estableció la cantidad de energía que consume un dispositivo móvil para ejecutar aplicaciones de uso frecuente en zonas rurales. Luego, tomando como parámetro valores de radiación solar de referencia y sin utilizar baterías externas, se midió la potencia que entrega un panel fotovoltaico de treinta y seis celdas en serie y se verificó que el mismo sea capaz de satisfacer los requerimientos de energía del celular. Finalmente se probaron distintas configuraciones del panel, para lo que se procedió a levantar la capa de Tedlar posterior, soldando contactos en diferentes zonas del mismo. El mayor impacto positivo se consiguió, abriendo el módulo en su cara posterior lo que posibilita conectar dieciocho celdas en serie, en paralelo con otras dieciocho. Los resultados obtenidos en el trabajo experimental fueron comparados para establecer la mejora introducida por el uso de un módulo FV con esta última conexión. La optimización del sistema fotovoltaico incrementó la velocidad de carga de la batería del dispositivo y posibilitó la ejecución de un mayor número de aplicaciones móviles.",1.0
646,http://sedici.unlp.edu.ar/handle/10915/47082,"Hoy en día existen diversas alternativas a la hora de elegir una metodología para desarrollar software. Años atrás imperaban las metodologías rígidas, también conocidas como las metodologías tradicionales, en las cuales abunda la documentación, los modelados, las actividades, actores y/o roles. A partir del 2001, surge un punto de inflexión, con el surgimiento de otro tipo de metodologías conocidas como las metodologías ágiles para el desarrollo de software. Estas fueron creadas para ser aplicadas en proyectos pequeños/medianos y que tienen requerimientos volátiles o que cambian con frecuencia. Mientras que las metodologías tradicionales, suelen ser más apropiadas para grandes proyectos y donde sus requerimientos son más resistentes a los cambios.\r\nA partir de estos conceptos, queremos explicar en esta tesis, que si bien no existen recetas magistrales para aplicar metodologías a un determinado proyecto, es posible detectar buenas prácticas y otros patrones que hacen posible decidir acerca de los métodos a utilizar. Es decir, que a partir de nuestra experiencia en un proyecto vamos a explicar cómo pueden convivir dos tipos de metodologías (Scrum y Rup). Esto es, tomando lo que se sea necesario de cada metodología y adaptándola al proyecto en cuestión.",http://sedici.unlp.edu.ar/handle/10915/59939,"Hoy en día existen diversas alternativas a la hora de elegir una metodología para desarrollar software. Años atrás imperaban las metodologías rígidas, también conocidas como las metodologías tradicionales, en las cuales abunda la documentación, los modelados, las actividades, actores y/o roles. A partir del 2001, surge un punto de inflexión, con el surgimiento de otro tipo de metodologías conocidas como las metodologías ágiles para el desarrollo de software. Estas fueron creadas para ser aplicadas en proyectos pequeños/ medianos y que tienen requerimientos volátiles o que cambian con frecuencia; mientras que las metodologías tradicionales, suelen ser más apropiadas para grandes proyectos y donde sus requerimientos son más resistentes a los cambios. A partir de estos conceptos, queremos explicar en esta tesis, que si bien no existen recetas magistrales para aplicar metodologías a un determinado proyecto, es posible detectar buenas prácticas y otros patrones que hacen posible decidir acerca de los métodos a utilizar. En particular, a partir de nuestra experiencia de varios años en un proyecto de gran escala vamos a explicar cómo pueden convivir dos tipos de metodologías (Scrum y RUP). Esto es, tomando lo que se sea necesario de cada metodología y adaptándola al proyecto en cuestión.",0.979663
819,http://sedici.unlp.edu.ar/handle/10915/59939,"Hoy en día existen diversas alternativas a la hora de elegir una metodología para desarrollar software. Años atrás imperaban las metodologías rígidas, también conocidas como las metodologías tradicionales, en las cuales abunda la documentación, los modelados, las actividades, actores y/o roles. A partir del 2001, surge un punto de inflexión, con el surgimiento de otro tipo de metodologías conocidas como las metodologías ágiles para el desarrollo de software. Estas fueron creadas para ser aplicadas en proyectos pequeños/ medianos y que tienen requerimientos volátiles o que cambian con frecuencia; mientras que las metodologías tradicionales, suelen ser más apropiadas para grandes proyectos y donde sus requerimientos son más resistentes a los cambios. A partir de estos conceptos, queremos explicar en esta tesis, que si bien no existen recetas magistrales para aplicar metodologías a un determinado proyecto, es posible detectar buenas prácticas y otros patrones que hacen posible decidir acerca de los métodos a utilizar. En particular, a partir de nuestra experiencia de varios años en un proyecto de gran escala vamos a explicar cómo pueden convivir dos tipos de metodologías (Scrum y RUP). Esto es, tomando lo que se sea necesario de cada metodología y adaptándola al proyecto en cuestión.",http://sedici.unlp.edu.ar/handle/10915/47082,"Hoy en día existen diversas alternativas a la hora de elegir una metodología para desarrollar software. Años atrás imperaban las metodologías rígidas, también conocidas como las metodologías tradicionales, en las cuales abunda la documentación, los modelados, las actividades, actores y/o roles. A partir del 2001, surge un punto de inflexión, con el surgimiento de otro tipo de metodologías conocidas como las metodologías ágiles para el desarrollo de software. Estas fueron creadas para ser aplicadas en proyectos pequeños/medianos y que tienen requerimientos volátiles o que cambian con frecuencia. Mientras que las metodologías tradicionales, suelen ser más apropiadas para grandes proyectos y donde sus requerimientos son más resistentes a los cambios.\r\nA partir de estos conceptos, queremos explicar en esta tesis, que si bien no existen recetas magistrales para aplicar metodologías a un determinado proyecto, es posible detectar buenas prácticas y otros patrones que hacen posible decidir acerca de los métodos a utilizar. Es decir, que a partir de nuestra experiencia en un proyecto vamos a explicar cómo pueden convivir dos tipos de metodologías (Scrum y Rup). Esto es, tomando lo que se sea necesario de cada metodología y adaptándola al proyecto en cuestión.",0.979663
1087,http://sedici.unlp.edu.ar/handle/10915/79713,"In this paper we present a design approach and a software framework for building physical hypermedia applications, i.e. those mobile (Web) applications in which physical and digital objects are related and explored using the hypermedia paradigm. We show how we extended the popular MVC metaphor by incorporating the concept of located object, and we describe a framework implementation using Jakarta Struts. We first review the state of the art of this kind of software systems, stressing the need of a systematic design and implementation approach; we briefly present a light extension to the OOHDM design approach, incorporating physical objects and “walkable” links. We next present a Web application framework for deploying physical hypermedia software and show an example of use. We compare our approach with others in this field and finally we discuss some further work we are pursuing.",http://sedici.unlp.edu.ar/handle/10915/79779,"In this paper we present a model-based approach for the development of physical hypermedia applications, i.e.\r\nthose mobile (Web) applications in which physical and digital objects are related and explored using the hypermedia paradigm.\r\nWe describe an extension of the Object-Oriented Hypermedia Design Method (OOHDM) and present an improvement of the popular Model-View-Controller (MVC) metaphor to incorporate the concept of located object; we illustrate the idea with a framework implementation using Jakarta Struts. We first review the state of the art of this kind of software systems, stressing the need of a systematic design and implementation approach; we briefly present a light extension to the OOHDM design approach, incorporating physical objects and “walkable” links. We next present a Web application framework for deploying physical hypermedia software and show an example of use. We evaluate our approach and finally we discuss some further work we are pursuing",0.940098


In [25]:
result[(result['similaridad%'] > 0.7) & (result['similaridad%'] < 0.8)].sort_values(by=['similaridad%'], ascending=False).head(5)

Unnamed: 0,id,abstract,id similar,abstract.1,similaridad%
1174,http://sedici.unlp.edu.ar/handle/10915/84612,"Diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal militar, para afrontar el reto de poseer un Conciencia Situacional (CS) degradada. En este trabajo se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes sistemas utilizados en el ámbito militar y se analizan las características principales que debe poseer un framework de software basado en RA para uso militar. Se diseña un framework basado en RA que permite la visualización de objetivos tácticos tales como visualización de objetivos tácticos en un radar en 360 grados, posicionamiento y orientación espacial de los objetos y del operador, ayudas visuales mediante iconografía/simbología adaptable, uso de menús interactivos mediante reconocimiento gestual y vocal, reconocimientos de objetos edilicios y uso de cartografía en 3D mediante uso de RA. Se utiliza una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en realizar el procesamiento de imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA propuesto en el presente trabajo y, finalmente, se arriba a las conclusiones finales y a las futuras líneas de investigación.",http://sedici.unlp.edu.ar/handle/10915/86707,"Durante las operaciones militares, los campos de batalla se convierten en zonas fracturadas donde el nivel de confusión, el ruido y la ambigüedad impactan en la manera de alcanzar los objetivos tácticos. La Conciencia Situacional (CS) se convierte en un reto ya que la percepción de la situación es inestable, lo que conduce a la comprensión degradada y a la incapacidad del soldado en proyectar los resultados apropiados. Para afrontar dicho reto diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal. \r\nEn esta tesis doctoral se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió identificar y analizar los requisitos funcionales y desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes frameworks, menciona las características principales que debe poseer un framework de software de RA para uso militar, se detalla el uso de metodologías combinadas, se considera una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en procesar las imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA y se obtienen los resultados provenientes de la evaluación de los despliegues que se centran en mejorar la CS. Finalmente, se detallan las conclusiones arribadas y se proponen líneas futuras de investigación.",0.796605
1186,http://sedici.unlp.edu.ar/handle/10915/86707,"Durante las operaciones militares, los campos de batalla se convierten en zonas fracturadas donde el nivel de confusión, el ruido y la ambigüedad impactan en la manera de alcanzar los objetivos tácticos. La Conciencia Situacional (CS) se convierte en un reto ya que la percepción de la situación es inestable, lo que conduce a la comprensión degradada y a la incapacidad del soldado en proyectar los resultados apropiados. Para afrontar dicho reto diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal. \r\nEn esta tesis doctoral se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió identificar y analizar los requisitos funcionales y desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes frameworks, menciona las características principales que debe poseer un framework de software de RA para uso militar, se detalla el uso de metodologías combinadas, se considera una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en procesar las imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA y se obtienen los resultados provenientes de la evaluación de los despliegues que se centran en mejorar la CS. Finalmente, se detallan las conclusiones arribadas y se proponen líneas futuras de investigación.",http://sedici.unlp.edu.ar/handle/10915/84612,"Diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal militar, para afrontar el reto de poseer un Conciencia Situacional (CS) degradada. En este trabajo se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes sistemas utilizados en el ámbito militar y se analizan las características principales que debe poseer un framework de software basado en RA para uso militar. Se diseña un framework basado en RA que permite la visualización de objetivos tácticos tales como visualización de objetivos tácticos en un radar en 360 grados, posicionamiento y orientación espacial de los objetos y del operador, ayudas visuales mediante iconografía/simbología adaptable, uso de menús interactivos mediante reconocimiento gestual y vocal, reconocimientos de objetos edilicios y uso de cartografía en 3D mediante uso de RA. Se utiliza una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en realizar el procesamiento de imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA propuesto en el presente trabajo y, finalmente, se arriba a las conclusiones finales y a las futuras líneas de investigación.",0.796605
1238,http://sedici.unlp.edu.ar/handle/10915/95242,"En un trabajo conjunto de la Prosecretaría de Postgrado, la Dirección de Postgrado y la Secretaría Administrativa de Postgrado se presenta el Libro de Tesis y Tesistas correspondiente al año 2019, en la Facultad de Informática de la UNLP.\r\nEn sus páginas se pueden recorrer la síntesis de las Tesis de Doctorado y Maestría, así como los Trabajos Finales de Especialización aprobados a lo largo del año 2019.\r\nAcompañamos estos resúmenes de los datos de los autores, de sus directores y también un listado de los distinguidos profesores e investigadores de Argentina y de Universidades del exterior que han sido Jurados en las Tesis.\r\nEn los 24 trabajos que se sintetizan y cuyos contenidos completos se pueden obtener del repositorio institucional de la UNLP (SEDICI) se refleja el intenso trabajo que desarrolla el área de Postgrado de la Facultad de Informática, trabajo iniciado en 1995 en la Facultad de Ciencias Exactas y consolidado a partir de 1999 en la Facultad de Informática.\r\nEs interesante resaltar que de estas 24 Tesis, 3 corresponden a docentes-investigadores con cargos en la Facultad de Informática de la UNLP y 21 no tienen relación directa con nuestra Facultad.\r\nCon este libro esperamos contribuir a la difusión de las actividades académicas de Postgrado, así como a la trasmisión de conocimientos generados en la Facultad de Informática de la UNLP.",http://sedici.unlp.edu.ar/handle/10915/75883,"En un trabajo conjunto de la Prosecretaría de Posgrado, la Dirección de Posgrado y la Secretaría Administrativa de Posgrado se presenta el Libro de Tesis y Tesistas correspondiente al año 2018, en la Facultad de Informática de la UNLP.\r\nEn sus páginas se pueden recorrer la síntesis de las Tesis de Doctorado y Maestría, así como los Trabajos Finales de Especialista aprobados a lo largo del año 2018.\r\nAcompañamos estos resúmenes de los datos de los autores, de sus directores y también un listado de los distinguidos profesores e investigadores de Argentina y de Universidades del exterior que han sido Jurados en las Tesis.\r\nEn los 29 trabajos que se sintetizan y cuyos contenidos completos se pueden obtener del repositorio institucional de la UNLP (SEDICI) se refleja el intenso trabajo que desarrolla el área de Posgrado de la Facultad de Informática, trabajo iniciado en 1995 en la Facultad de Ciencias Exactas y consolidado a partir de 1999 en la Facultad de Informática.\r\nEs interesante resaltar que de estas 29 Tesis, 8 corresponden a docentes-investigadores con cargos en la Facultad de Informática de la UNLP y 21 no tienen relación directa con nuestra Facultad.",0.774593
567,http://sedici.unlp.edu.ar/handle/10915/45773,"El presente artículo se centra en la elaboración de un estudio sobre los aportes del turismo educativo a los procesos de enseñanza-aprendizaje en la población de primaria y secundaria de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nPara responder a los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de turismo estudiantil existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el turismo educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos. \r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el turismo educativo concientiza a la población estudiada respecto a la importancia de conservar, entender y respetar los recursos naturales a través de la educación ambiental que fortalezca su consumo sustentable.",http://sedici.unlp.edu.ar/handle/10915/47937,"El presente artículo recoge la experiencia del desarrollo de una investigación a cerca de los aportes brindados por parte del Turismo Educativo en la construcción de nuevos escenarios educativos y pedagógicos en la población de primaria y secundaria, de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nEl término Turismo Educativo se puede definir como un tipo de turismo que involucra el aprendizaje en temas específicos, utilizados como rangos de aplicación o escenarios, sus respectivas paradas técnicas y el lugar de destino.\r\nEl Turismo Educativo busca enriquecer la educación costarricense, ya que genera en la población estudiantil un sentimiento de pertenencia y de identidad local, esto por medio de la visita a diferentes proyectos establecidos en el país que les permite entrar en contacto directo con el patrimonio natural. Las giras educativas a estos proyectos se han convertido en una herramienta metodológica importante para las y los docentes, ya que por medio de ellas se establecen nuevos escenarios pedagógicos, mismo que son más prácticos y divertidos para las y los estudiantes.\r\nPara responder los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de Turismo Educativo existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el Turismo Educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos.\r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi-cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el Turismo Educativo concientiza a la población estudiada con respecto a la importancia de la construcción de nuevas ciudadanías, a través del desarrollo de procesos educativos y pedagógicos orientados a nuevos escenarios en la línea de la conservación de los recursos naturales a través de la educación ambiental.",0.751422
595,http://sedici.unlp.edu.ar/handle/10915/47937,"El presente artículo recoge la experiencia del desarrollo de una investigación a cerca de los aportes brindados por parte del Turismo Educativo en la construcción de nuevos escenarios educativos y pedagógicos en la población de primaria y secundaria, de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nEl término Turismo Educativo se puede definir como un tipo de turismo que involucra el aprendizaje en temas específicos, utilizados como rangos de aplicación o escenarios, sus respectivas paradas técnicas y el lugar de destino.\r\nEl Turismo Educativo busca enriquecer la educación costarricense, ya que genera en la población estudiantil un sentimiento de pertenencia y de identidad local, esto por medio de la visita a diferentes proyectos establecidos en el país que les permite entrar en contacto directo con el patrimonio natural. Las giras educativas a estos proyectos se han convertido en una herramienta metodológica importante para las y los docentes, ya que por medio de ellas se establecen nuevos escenarios pedagógicos, mismo que son más prácticos y divertidos para las y los estudiantes.\r\nPara responder los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de Turismo Educativo existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el Turismo Educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos.\r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi-cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el Turismo Educativo concientiza a la población estudiada con respecto a la importancia de la construcción de nuevas ciudadanías, a través del desarrollo de procesos educativos y pedagógicos orientados a nuevos escenarios en la línea de la conservación de los recursos naturales a través de la educación ambiental.",http://sedici.unlp.edu.ar/handle/10915/45773,"El presente artículo se centra en la elaboración de un estudio sobre los aportes del turismo educativo a los procesos de enseñanza-aprendizaje en la población de primaria y secundaria de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nPara responder a los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de turismo estudiantil existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el turismo educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos. \r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el turismo educativo concientiza a la población estudiada respecto a la importancia de conservar, entender y respetar los recursos naturales a través de la educación ambiental que fortalezca su consumo sustentable.",0.751422


###  Implementar clustering de k-medias usando similitud de coseno

In [28]:
spanish_stopwords = stopwords.words('spanish')

def get_tfidf_matrix(X):
    #function to calculate term freq for each element
    tf = lambda x: np.log(1+x)
    # apply tf lambda on matrix
    tf_result = np.apply_along_axis(tf,1,X.toarray())  
    #Get the total number of documents/reviews
    N = len(X.toarray())
    # Get frequency of each word across all documents
    overall_freq = X.toarray().sum(axis=0)
    # function to calculate idf for each word
    idf = lambda x: np.log(N/(1+x))
    idf_result = idf(overall_freq)
    #multiply tf with idf for each document
    return np.multiply(tf_result,idf_result)

vectorizer = CountVectorizer(stop_words=spanish_stopwords)
X = vectorizer.fit_transform(df.description.values)
tf_idf = get_tfidf_matrix(X)

class Kmeans:

    def __init__(self, k, seed = None, max_iter = 200):
        self.k = k
        self.seed = seed
        if self.seed is not None:
            np.random.seed(self.seed)
        self.max_iter = max_iter
        
            
    # randomly Initialise Centroids
    def random_centres(self, data):
        initial_centres = np.random.permutation(data.shape[0])[:self.k]
        self.centres = data[initial_centres]

        return self.centres
    
    # get  distance of data from clusters and assign data point to closest cluster.
    def assign_clusters(self, data):
        if data.ndim == 1:
            data = data.reshape(-1, 1)
        dist_to_centres =  self.cosine_sim(data, self.centres)
        self.cluster_val = np.argmax(dist_to_centres, axis = 1)
        return  self.cluster_val
    
    # get the cosine similarity of two vectors
    def cosine_sim(self, X, Y):
        dot_product = np.dot(X, Y.T)
        review_norm = np.linalg.norm(X, axis = 1)
        review_norm = review_norm.reshape(X.shape[0],1)
        center_norm = np.linalg.norm(Y, axis = 1)
        center_norm = center_norm.reshape(Y.shape[0],1)
        return dot_product / (review_norm.dot(center_norm.T))
        
    # get average of all data points in cluster and assigns new centres 
    def update_centres(self, data):
        self.centres = np.array([data[self.cluster_labels == i].mean(axis = 0) for i in range(self.k)])
        return self.centres
    
    # Predict which cluster data point belongs to
    def get_prediction(self, data):
        return self.assign_clusters(data)
    
    # assign all data to 2nd cluster
    def assign_to_random_clusters(self, data):
        self.cluster_labels = np.ones((data.shape))
        
    #  main loop to fit the algorithm       
    def fit_kmeans(self, data):
        #print(self)
        self.centres = self.random_centres(data)
        self.assign_to_random_clusters(data)
        
        # main kmeans loop
        for iter in range(self.max_iter):
            self.cluster_labels = self.assign_clusters(data)
            self.centres = self.update_centres(data) 
            if iter % 5 == 0:
                print("Model Iteration %d " %iter)
        print("Cluster labels:::*********")
        #print(self.cluster_labels)
        #print(type(self.cluster_labels), self.cluster_labels.shape)
        print("Model finished running")
        return self
    
def print_cluster(label, n):
    df["cluster_label"] = list(labels)
    for cluster in range(n):
        print("Cluster:", cluster)
        display(df[df.cluster_label == cluster][["description","cluster_label"]].head(5))

In [None]:
# Cluster = 15
n = 15
#Generate 5 random indices 
np.random.seed(45678)
indices = np.random.choice(tf_idf.shape[0], n, replace=False)
cluster_centres = tf_idf[indices]

np.set_printoptions(threshold=sys.maxsize)
km = Kmeans(n, seed= 1234, max_iter=35)
labels = km.fit_kmeans(tf_idf).cluster_labels
print_cluster(labels, n)

Model Iteration 0 
Model Iteration 5 
Model Iteration 10 
Model Iteration 15 
Model Iteration 20 
Model Iteration 25 
