# Experiencia SEDICI 

## Detección automática de repeticiones parciales en repositorios digitales

El repositorio del proyecto es [Github](https://github.com/germanchaca/OAI-PMH-ABSTRACTS_PARTIAL_REPETITIONS-).


### Alcance
* Se extraerán los metadatos de un proveedor de datos OAI-PMH y cómo convertir los datos recuperados de Dublin Core en un pandas dataframe. Se podrá utilizar le código en cualquiera de los proveedores de metadatos listados en buscadores como [sherpa](https://v2.sherpa.ac.uk/view/repository_by_country/Argentina.html) o [roar](http://roar.eprints.org/).

* Se llevará a cabo un análisis de datos básico en sus datos para averiguar si los datos están corruptos o sucios.
* Finalmente, se bucará detectar repeticiones parciales en el texto del abstract o resumen de los registros publicados en el repositorio SEDICI. EL código puede ser utilizado para detectar repeticiones parciales entre los distintos repositorios ditigales que soporten la interoperabilidad con OAI-PMH.


### Preparación del entorno de trabajo
El siguiente fragmento de código inicializa su entorno de tiempo de ejecución de Python para ejecutar todas las acciones posteriores.

Si ha instalado todo correctamente con la ayuda de [Anaconda](https://www.continuum.io/downloads), los siguientes paquetes deben instalarse correctamente y ser importados sin problemas.

In [None]:
!pip install jellyfish
!pip install geojson
!pip install geopy
!pip install sickle
!pip install googlemaps

### Sickle - Librería para el manejo de OAI-PMH

[Sickle](https://sickle.readthedocs.io/en/latest/) es una biblioteca de OAI-PMH escrita en Python. Ha sido diseñado para recuperar datos cómodamente de OAI interactúa a la manera Pythonic

In [2]:
%matplotlib inline
import numpy as np
import scipy as sp
import matplotlib as mpl
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import pandas as pd
import time

pd.set_option('display.notebook_repr_html', True)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', -1)

from collections import OrderedDict # provides the ordered dictionary
import re # for regular expressions used below
import urllib # to read from URLs
import json
import itertools
import os.path
from datetime import datetime # for time measurement
import sys
import os
import pickle
import subprocess as subp
import gzip
import math

import nltk
#nltk.download('stopwords')
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
import string
from IPython.display import display
import sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import stop_words

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import linear_kernel
# OAI
from sickle import Sickle

allowDownloads=True # should be True if you run this for the first time
downloadDir="./tmp/"
allowExactStringMatching=True

def printLog(text):
    now=str(datetime.now())
    print("["+now+"]\t"+text)
    # forces to output the result of the print command immediately, see: http://stackoverflow.com/questions/230751/how-to-flush-output-of-python-print
    sys.stdout.flush()
    
def pickleCompress(fileName,pickledObject):
    printLog("Pickling to '%s'" %fileName)
    f = gzip.open(fileName,'wb')
    pickle.dump(pickledObject,f)
    f.close()
    printLog("Pickling done.")
    
def pickleDecompress(fileName):
    #restore the object
    printLog("Depickling from '%s'" %fileName)
    f = gzip.open(fileName,'rb')
    pickledObject = pickle.load(f)
    f.close()
    printLog("Depickling done.")
    return pickledObject

if not os.path.exists(downloadDir):
        os.makedirs(downloadDir)
if not os.path.exists("./picklez/"):
        os.makedirs("./picklez/")     

## Recolección de metadatos de un repositorio digital

### Conexión al repositorio proveedor OAI y descarga de registros de metadatos

La siguiente celda se conecta al servidor OAI-PMH de Repositorio de la Universidad Nacional de La Plata - [SEDICI](http://sedici.unlp.edu.ar/).

los registros se guardan localmente para trabajar con ellos más tarde. Por simplicidad, el ahorro se basa en el mecanismo de pickling de Python, su método de serialización de objetos incorporado. En un caso de uso productivo, es posible que alcance los límites del paquete pickle debido al tamaño del archivo resultante. Una alternativa viable es [HDF5](https://www.h5py.org/).

In [3]:
repository_address = 'http://sedici.unlp.edu.ar/oai/snrd'
allowDownloads = True
#repository_address = 'http://repositorio.filo.uba.ar/oai/request'

Se listan los conjuntos o sets de datos proporcionados por el proveedor de datos

In [4]:
sickle = Sickle(repository_address)
sets = sickle.ListSets()
print ("Conjuntos proporcionados por el proveedor de datos\n* * * * * * * * * * * * * * * * * * * * * ") 
for s in sets:
     print("'"+s.setName+"' accessible via: '"+s.setSpec+"'")

Conjuntos proporcionados por el proveedor de datos
* * * * * * * * * * * * * * * * * * * * * 
'Conjunto de recursos para Sistema Nacional de Repositorios Digitales, Argentina SNRD' accessible via: 'snrd'
'Unidades académicas' accessible via: 'com_10915_1'
'Facultad de Ingeniería' accessible via: 'com_10915_2'
'Facultad de Ciencias Veterinarias' accessible via: 'com_10915_5'
'Facultad de Ciencias Jurídicas y Sociales' accessible via: 'com_10915_7'
'Facultad de Ciencias Agrarias y Forestales' accessible via: 'com_10915_10'
'Facultad de Periodismo y Comunicación Social' accessible via: 'com_10915_12'
'Facultad de Ciencias Astronómicas y Geofísicas' accessible via: 'com_10915_15'
'Facultad de Trabajo Social' accessible via: 'com_10915_18'
'Facultad de Odontología' accessible via: 'com_10915_20'
'Facultad de Ciencias Exactas' accessible via: 'com_10915_22'
'Facultad de Arquitectura y Urbanismo' accessible via: 'com_10915_25'
'Facultad de Psicología' accessible via: 'com_10915_28'
'Facultad 

'Boletín Informativo de la Cátedra Brasil' accessible via: 'com_10915_45790'
'Museo' accessible via: 'com_10915_46375'
'Letras' accessible via: 'com_10915_46575'
'Bit & Byte' accessible via: 'com_10915_46701'
'Jornadas de Investigación del Centro de Investigaciones Geográficas y del Departamento de Geografía' accessible via: 'com_10915_46995'
'Anuarios' accessible via: 'com_10915_47622'
'Jornadas de Poéticas de la Literatura Argentina para Niñ@s' accessible via: 'com_10915_48037'
'Eventos' accessible via: 'com_10915_48593'
'III Jornadas de TIC e Innovación en el Aula' accessible via: 'com_10915_48594'
'Ponencias' accessible via: 'com_10915_48595'
'Trayectorias Universitarias' accessible via: 'com_10915_48969'
'METAL' accessible via: 'com_10915_49539'
'Aletheia' accessible via: 'com_10915_50277'
'Puertas Abiertas' accessible via: 'com_10915_50294'
'Abreletras-Psicodiagnóstico [Publicación cerrada]' accessible via: 'com_10915_51212'
'Nexo [Publicación cerrada]' accessible via: 'com_10915

'Congreso de Música Popular' accessible via: 'com_10915_76772'
'Audios' accessible via: 'com_10915_76810'
'Congreso Internacional de Enseñanza del Derecho' accessible via: 'com_10915_76917'
'ProBiota | Serie Folletos [Publicación cerrada]' accessible via: 'com_10915_77252'
'Congreso Internacional de Victimología' accessible via: 'com_10915_77432'
'Avances en Energías Renovables y Medio Ambiente (AVERMA)' accessible via: 'com_10915_78060'
'@info' accessible via: 'com_10915_78123'
'Revista Electrónica de Derecho Internacional Contemporáneo (REDIC)' accessible via: 'com_10915_78486'
'Laboratorio de Arquitectura y Hábitat Sustentable (LAyHS)' accessible via: 'com_10915_78649'
'Simulaciones y Observaciones de Supernovas (SOS)' accessible via: 'com_10915_79771'
'Documentos de Trabajo de la Secretaría de Planificación y Control Institucional' accessible via: 'com_10915_79950'
'Centro Interdisciplinario de Estudios Complejos (CIEC)' accessible via: 'com_10915_80012'
'Laboratorio de Historia de

'vol. 12, no. 01' accessible via: 'col_10915_172'
'vol. 12, no. 02' accessible via: 'col_10915_173'
'vol. 12, no. 03' accessible via: 'col_10915_174'
'vol. 13, no. 01' accessible via: 'col_10915_175'
'vol. 13, no. 02' accessible via: 'col_10915_176'
'vol. 13, no. 03' accessible via: 'col_10915_177'
'vol. 11, no. 01' accessible via: 'col_10915_178'
'vol. 11, no. 02' accessible via: 'col_10915_179'
'vol. 11, no. 03' accessible via: 'col_10915_180'
'vol. 10, no. 01' accessible via: 'col_10915_181'
'vol. 10, no. 02' accessible via: 'col_10915_182'
'vol. 10, no. 03' accessible via: 'col_10915_183'
'vol. 09, no. 01' accessible via: 'col_10915_184'
'vol. 09, no. 02' accessible via: 'col_10915_185'
'vol. 09, no. 03' accessible via: 'col_10915_186'
'vol. 08, no. 01' accessible via: 'col_10915_187'
'vol. 08, no. 02' accessible via: 'col_10915_188'
'vol. 08, no. 03' accessible via: 'col_10915_189'
'vol. 07, no. 01' accessible via: 'col_10915_190'
'vol. 07, no. 02' accessible via: 'col_10915_191'


'Volumen 03 | Número 02' accessible via: 'col_10915_378'
'Volumen 04 | Número 01' accessible via: 'col_10915_379'
'Volumen 04 | Número 02' accessible via: 'col_10915_380'
'Volumen 04 | Número 03' accessible via: 'col_10915_381'
'Volumen 05 | Número 01' accessible via: 'col_10915_382'
'Volumen 06 | Número 01' accessible via: 'col_10915_383'
'Volumen 07 | Número 01' accessible via: 'col_10915_384'
'Volumen 06 | Número 02' accessible via: 'col_10915_385'
'Volumen 07 | Número 02' accessible via: 'col_10915_386'
'Volumen 07 | Número 03' accessible via: 'col_10915_387'
'Volumen 05 | Número 02' accessible via: 'col_10915_388'
'Volumen 05 | Número 03' accessible via: 'col_10915_389'
'Volumen 05 | Número 04' accessible via: 'col_10915_390'
'Volumen 08 | Número 01' accessible via: 'col_10915_391'
'Volumen 08 | Número 02' accessible via: 'col_10915_392'
'Volumen 08 | Número 03' accessible via: 'col_10915_393'
'Volumen 09 | Número 01' accessible via: 'col_10915_394'
'Volumen 09 | Número 02' access

'Volumen 04' accessible via: 'col_10915_612'
'Volumen 06' accessible via: 'col_10915_613'
'Volumen 07' accessible via: 'col_10915_614'
'Volumen 09' accessible via: 'col_10915_615'
'Volumen 10' accessible via: 'col_10915_616'
'Volumen 11' accessible via: 'col_10915_617'
'Volumen 12' accessible via: 'col_10915_618'
'Volumen 01' accessible via: 'col_10915_620'
'Volumen 02' accessible via: 'col_10915_621'
'Volumen 03' accessible via: 'col_10915_622'
'Volumen 04' accessible via: 'col_10915_623'
'Volumen 05' accessible via: 'col_10915_624'
'Volumen 06' accessible via: 'col_10915_625'
'Volumen 07' accessible via: 'col_10915_626'
'Volumen 08' accessible via: 'col_10915_627'
'Volumen 09' accessible via: 'col_10915_628'
'Volumen 02 | Número 02 (cuarta época)' accessible via: 'col_10915_630'
'Volumen 01 | Número 01 (cuarta época)' accessible via: 'col_10915_631'
'Tomo 01 | Número 01 (segunda época)' accessible via: 'col_10915_632'
'Tomo 01 | Número 02 (segunda época)' accessible via: 'col_10915_6

'no. 02' accessible via: 'col_10915_827'
'no. 03' accessible via: 'col_10915_828'
'no. 04' accessible via: 'col_10915_829'
'no. 05' accessible via: 'col_10915_830'
'no. 06' accessible via: 'col_10915_831'
'Número especial 2002' accessible via: 'col_10915_833'
'Número especial 2006' accessible via: 'col_10915_834'
'Volumen 01 | Número 01' accessible via: 'col_10915_835'
'Número 01' accessible via: 'col_10915_837'
'Número 02' accessible via: 'col_10915_838'
'Número 03' accessible via: 'col_10915_839'
'Número 04' accessible via: 'col_10915_840'
'Número 05' accessible via: 'col_10915_841'
'Número 06' accessible via: 'col_10915_842'
'Número 01' accessible via: 'col_10915_844'
'Número 02' accessible via: 'col_10915_845'
'Número 03' accessible via: 'col_10915_846'
'Número 04' accessible via: 'col_10915_847'
'Número 05' accessible via: 'col_10915_848'
'Número 06' accessible via: 'col_10915_849'
'Número 07' accessible via: 'col_10915_850'
'Número 08' accessible via: 'col_10915_851'
'Número 09' 

'no. 25' accessible via: 'col_10915_17787'
'no. 26' accessible via: 'col_10915_17789'
'no. 27' accessible via: 'col_10915_17790'
'no. 28' accessible via: 'col_10915_17791'
'no. 29' accessible via: 'col_10915_17792'
'no. 30' accessible via: 'col_10915_17793'
'no. 31' accessible via: 'col_10915_17794'
'no. 32' accessible via: 'col_10915_17795'
'no. 33' accessible via: 'col_10915_17796'
'no. 34' accessible via: 'col_10915_17797'
'no. 35' accessible via: 'col_10915_17798'
'no. 36' accessible via: 'col_10915_17799'
'no. 37' accessible via: 'col_10915_17800'
'no. 39' accessible via: 'col_10915_17801'
'no. 38' accessible via: 'col_10915_17802'
'no. 40' accessible via: 'col_10915_17803'
'no. 41' accessible via: 'col_10915_17804'
'no. 42' accessible via: 'col_10915_17805'
'no. 43' accessible via: 'col_10915_17806'
'no. 44' accessible via: 'col_10915_17807'
'no. 45' accessible via: 'col_10915_17808'
'no. 46' accessible via: 'col_10915_17809'
'no. 47' accessible via: 'col_10915_17810'
'no. 49' ac

'Tomo 05 (2)' accessible via: 'col_10915_25422'
'Tomo 04' accessible via: 'col_10915_25438'
'Volumen 26 | Suplemento 01' accessible via: 'col_10915_25467'
'Tomo 03' accessible via: 'col_10915_25486'
'Tomo 02' accessible via: 'col_10915_25505'
'Número 08' accessible via: 'col_10915_25508'
'Tomo 01' accessible via: 'col_10915_25527'
'vol. 31, no. 06' accessible via: 'col_10915_25563'
'Volumen 14 | Número especial' accessible via: 'col_10915_25664'
'Número 43' accessible via: 'col_10915_25676'
'Volumen 04' accessible via: 'col_10915_25699'
'Tomo 37 (2)' accessible via: 'col_10915_25701'
'vol. 31, no. 07' accessible via: 'col_10915_25732'
'Número 03' accessible via: 'col_10915_25778'
'Volumen 01 | Número 01' accessible via: 'col_10915_25787'
'Número 38' accessible via: 'col_10915_25809'
'Volumen 17 | Número 18' accessible via: 'col_10915_25814'
'Número 39' accessible via: 'col_10915_25878'
'Número 40' accessible via: 'col_10915_25907'
'Juicio Circuito Camps' accessible via: 'col_10915_2591

'Número 07' accessible via: 'col_10915_32606'
'Número 08' accessible via: 'col_10915_32622'
'XIV Seminario Internacional y II Latinoamericano de Praxiología Motriz' accessible via: 'col_10915_32637'
'Número 09-10' accessible via: 'col_10915_32652'
'Número 11' accessible via: 'col_10915_32681'
'Número 12' accessible via: 'col_10915_32705'
'Número 40' accessible via: 'col_10915_32736'
'Número 26' accessible via: 'col_10915_32749'
'2012 | Trabajos del tomo LXVI' accessible via: 'col_10915_32762'
'Número 10' accessible via: 'col_10915_32767'
'1972-1973 Trabajos del tomo XXVI' accessible via: 'col_10915_32770'
'1969 Trabajos del tomo XXIII' accessible via: 'col_10915_32782'
'Volumen 07 | Número 07' accessible via: 'col_10915_32783'
'1974 Trabajos del tomo XXVIII' accessible via: 'col_10915_32809'
'Número 22' accessible via: 'col_10915_32822'
'1966-1967 Trabajos del tomo XXI' accessible via: 'col_10915_32895'
'Número 44' accessible via: 'col_10915_32921'
'Volumen 13 | Número 18' accessible v

'Número 06' accessible via: 'col_10915_37199'
'Año 19 | Número 29' accessible via: 'col_10915_37207'
'Número 07' accessible via: 'col_10915_37232'
'Volumen 09 | Número 01' accessible via: 'col_10915_37234'
'Número 08' accessible via: 'col_10915_37256'
'Número 09' accessible via: 'col_10915_37277'
'Documentos de Federalismo Fiscal' accessible via: 'col_10915_37300'
'Número 10' accessible via: 'col_10915_37312'
'Número 11' accessible via: 'col_10915_37346'
'Número 12' accessible via: 'col_10915_37361'
'Número 13' accessible via: 'col_10915_37431'
'Volumen 09 | Número 02' accessible via: 'col_10915_37437'
'Volumen 10 | Número 01' accessible via: 'col_10915_37450'
'Número 51' accessible via: 'col_10915_37464'
'Número 14' accessible via: 'col_10915_37469'
'Volumen 10 | Número 02' accessible via: 'col_10915_37478'
'Volumen 11 | Número 01' accessible via: 'col_10915_37492'
'Volumen 11 | Número 02' accessible via: 'col_10915_37503'
'Volumen 12 | Número 01' accessible via: 'col_10915_37513'
'Nú

'VI Encuentro de Docentes e Investigadores en Historia del Diseño, la Arquitectura y la Ciudad "Iván Hernández Larguía"' accessible via: 'col_10915_43018'
'Curso de Introducción a las Ciencias Agrarias y Forestales' accessible via: 'col_10915_43022'
'Introducción a la Sociología' accessible via: 'col_10915_43026'
'Número 01' accessible via: 'col_10915_43052'
'Volumen 16 | Número 02' accessible via: 'col_10915_43064'
'Número 03' accessible via: 'col_10915_43098'
'Volumen 13 (segunda época)' accessible via: 'col_10915_43133'
'Número 11' accessible via: 'col_10915_43167'
'III Seminario de Distribución del Conocimiento en Turismo' accessible via: 'col_10915_43186'
'Edición Especial | Rodolfo Walsh' accessible via: 'col_10915_43190'
'Número 02' accessible via: 'col_10915_43242'
'Volumen 06' accessible via: 'col_10915_43263'
'Trabajo Social III' accessible via: 'col_10915_43367'
'Número 11' accessible via: 'col_10915_43372'
'Congreso Internacional de Códigos y Desafíos para Enfrentar la Cris

'Número 47' accessible via: 'col_10915_48625'
'Conocimiento libre y recursos compartidos' accessible via: 'col_10915_48640'
'Inclusión de redes sociales en propuestas de enseñanza universitaria' accessible via: 'col_10915_48641'
'Posgrados a distancia: desarrollos, oportunidades y desafíos' accessible via: 'col_10915_48643'
'Escuela media y prácticas con tecnologías digitales' accessible via: 'col_10915_48646'
'Tecnologías digitales, educación en línea, articulación escuela media-universidades' accessible via: 'col_10915_48709'
'Número 11' accessible via: 'col_10915_48796'
'Volumen 05 | Número 01' accessible via: 'col_10915_48799'
'Volumen 04 | Número 02' accessible via: 'col_10915_48864'
'Año 04 | Número 04' accessible via: 'col_10915_48874'
'Número 46' accessible via: 'col_10915_48901'
'Anuario 1998' accessible via: 'col_10915_48909'
'Anuario 2015' accessible via: 'col_10915_48912'
'Número 02' accessible via: 'col_10915_48943'
'Volumen 20 | Número 21' accessible via: 'col_10915_48956

'Seminario: Desarrollo de Propuestas de Enseñanza para Aulas Virtuales' accessible via: 'col_10915_54319'
'Número 78' accessible via: 'col_10915_54377'
'Volumen 12 | Número 01' accessible via: 'col_10915_54452'
'Año 09 | Número 45' accessible via: 'col_10915_54467'
'Publicaciones' accessible via: 'col_10915_54501'
'Volumen 06 | Número 01' accessible via: 'col_10915_54505'
'Número 37' accessible via: 'col_10915_54534'
'Volumen 02 | Número 13 (primera época)' accessible via: 'col_10915_54536'
'Número 14' accessible via: 'col_10915_54641'
'Número 50' accessible via: 'col_10915_54669'
'Volumen 18 | Número 01' accessible via: 'col_10915_54736'
'Volumen 02 | Número 02' accessible via: 'col_10915_54756'
'I Taller del Grupo de Trabajo de Ingeniería de Internet/Argentina (IETF Day 2015)' accessible via: 'col_10915_54842'
'Volumen 112 | Número 03' accessible via: 'col_10915_54894'
'Número 01' accessible via: 'col_10915_54930'
'Número 06' accessible via: 'col_10915_54981'
'Número 05' accessible v

'XI Jornadas de Investigación del Centro de Investigaciones Geográficas y del Departamento de Geografía' accessible via: 'col_10915_60262'
'II Taller de Indicadores de Evaluación de Bibliotecas' accessible via: 'col_10915_60272'
'I Taller de Indicadores de Evaluación de Bibliotecas' accessible via: 'col_10915_60273'
'Número 35' accessible via: 'col_10915_60290'
'Volumen 18 | Número 37' accessible via: 'col_10915_60294'
'IV Congreso Nacional de Derecho Agrario Provincial' accessible via: 'col_10915_60334'
'Volumen 04 | Número 02' accessible via: 'col_10915_60370'
'Año 05 | Número 09' accessible via: 'col_10915_60425'
'Volumen 02 | Año 2016' accessible via: 'col_10915_60426'
'Volumen 02 | Número 04' accessible via: 'col_10915_60480'
'Volumen 02 | Número 01' accessible via: 'col_10915_60483'
'Número 16' accessible via: 'col_10915_60490'
'II Congreso Nacional de Derecho Agrario Provincial' accessible via: 'col_10915_60539'
'III Congreso Nacional de Derecho Agrario Provincial' accessible vi

'Tomo 42 (2)' accessible via: 'col_10915_64089'
'Número 003' accessible via: 'col_10915_64117'
'Número 004' accessible via: 'col_10915_64122'
'Número 005' accessible via: 'col_10915_64126'
'Volumen 04 | Número 02' accessible via: 'col_10915_64127'
'Número 04' accessible via: 'col_10915_64169'
'Número 52' accessible via: 'col_10915_64191'
'Número 04' accessible via: 'col_10915_64203'
'Numero 37' accessible via: 'col_10915_64256'
'Número 29' accessible via: 'col_10915_64275'
'Año 08 | Número 15' accessible via: 'col_10915_64315'
'Número 05' accessible via: 'col_10915_64321'
'Volumen 60 | Edición suplementaria' accessible via: 'col_10915_64354'
'Número 53' accessible via: 'col_10915_64357'
'Publicaciones' accessible via: 'col_10915_64366'
'Volumen 03 | Número 05' accessible via: 'col_10915_64430'
'Número 53 | Segmento Digital' accessible via: 'col_10915_64437'
'Número 39' accessible via: 'col_10915_64458'
'Volumen 63' accessible via: 'col_10915_64495'
'Volumen 37 | Número 02' accessible v

'Estrategias para la Gestión Integral del Territorio' accessible via: 'col_10915_68504'
'Número 1' accessible via: 'col_10915_68507'
'Número 2' accessible via: 'col_10915_68516'
'Número 53' accessible via: 'col_10915_68559'
'Plan estratégico' accessible via: 'col_10915_68580'
'Plan estratégico' accessible via: 'col_10915_68583'
'Plan estratégico' accessible via: 'col_10915_68586'
'Informes de avance' accessible via: 'col_10915_68588'
'Número 54 | Segmento Digital' accessible via: 'col_10915_68592'
'Plan estratégico' accessible via: 'col_10915_68596'
'Informes de avance' accessible via: 'col_10915_68597'
'Plan estratégico' accessible via: 'col_10915_68600'
'Informes de avance' accessible via: 'col_10915_68601'
'Volumen 19 | Número 02' accessible via: 'col_10915_68628'
'Volumen 07 | Número 02' accessible via: 'col_10915_68701'
'Volumen 14 | Número 01' accessible via: 'col_10915_68719'
'Año 02 | Número 03' accessible via: 'col_10915_68732'
'Número 33' accessible via: 'col_10915_68746'
'Nú

'Número 04' accessible via: 'col_10915_73254'
'Llamados a concursos docentes' accessible via: 'col_10915_73293'
'Año 03 | Número 04' accessible via: 'col_10915_73321'
'Resoluciones' accessible via: 'col_10915_73334'
'Convenios' accessible via: 'col_10915_73335'
'Número 05' accessible via: 'col_10915_73343'
'Informes de Auditoría 2018' accessible via: 'col_10915_73378'
'Llamados a concurso docente' accessible via: 'col_10915_73411'
'Llamados a concurso docente' accessible via: 'col_10915_73413'
'Llamados a concurso docente' accessible via: 'col_10915_73415'
'Llamados a concurso docente' accessible via: 'col_10915_73417'
'Llamados a concurso docente' accessible via: 'col_10915_73419'
'Llamados a concurso docente' accessible via: 'col_10915_73421'
'Llamados a concurso docente' accessible via: 'col_10915_73422'
'Llamados a concurso docente' accessible via: 'col_10915_73423'
'Llamados a concurso docente' accessible via: 'col_10915_73425'
'Llamados a concurso docente' accessible via: 'col_10

'XXVI Jornadas Nacionales de Derecho Civil' accessible via: 'col_10915_79546'
'V Congreso Nacional de Derecho Agrario Provincial' accessible via: 'col_10915_79561'
'Volumen 05' accessible via: 'col_10915_79640'
'II Jornadas sobre las Prácticas Docentes en la Universidad Pública' accessible via: 'col_10915_79643'
'Número 53' accessible via: 'col_10915_79740'
'Publicaciones' accessible via: 'col_10915_79772'
'Número 52' accessible via: 'col_10915_79783'
'Número 51' accessible via: 'col_10915_79839'
'Número 50' accessible via: 'col_10915_79841'
'Número 20' accessible via: 'col_10915_79844'
'Número 49' accessible via: 'col_10915_79852'
'Volumen 24 | Número 29' accessible via: 'col_10915_79922'
'Documentos de Trabajo de la Secretaría de Planificación y Control Institucional' accessible via: 'col_10915_79951'
'Número 48' accessible via: 'col_10915_80011'
'Colección Fermín Estrella' accessible via: 'col_10915_80013'
'Número 47' accessible via: 'col_10915_80015'
'Número 38' accessible via: 'co

'Volumen 19 | Número 01' accessible via: 'col_10915_93352'
'Importaciones 2020 - Tanda 2 CONICET' accessible via: 'col_10915_93436'
'V Congreso Argentino de AgroInformática (CAI 2013)' accessible via: 'col_10915_93441'
'Volumen 26 | Número 01' accessible via: 'col_10915_93513'
'2019 | Volumen 04 | Número 02' accessible via: 'col_10915_93516'
'Volumen 24 | Número 30' accessible via: 'col_10915_93521'
'Volumen 04 | Número 03' accessible via: 'col_10915_93522'
'IV Congreso Argentino de Informática y Salud (CAIS 2013)' accessible via: 'col_10915_93583'
'Volumen 05 | Número 01' accessible via: 'col_10915_93759'
'1895 | Volumen 06' accessible via: 'col_10915_93763'
'1896 | Volumen 07' accessible via: 'col_10915_93765'
'1899 | Volumen 09' accessible via: 'col_10915_93766'
'1890-1891 | Volumen 01' accessible via: 'col_10915_93820'
'Tomo 01 | Número 01-06' accessible via: 'col_10915_93822'
'1936' accessible via: 'col_10915_93828'
'Tomo 10 | Número 81-90' accessible via: 'col_10915_93829'
'Tomo 

### Análisis sobre la colección 'Facultad de Informática'

Si se quiere recuperar los registros de un conjunto/set específico se debe indicar el parámetro set, de lo contrario se listarán todos los registros disponibles.

In [5]:
maxDocs=100000
# Si vuelve a ejecutar esta celda, el contenido de la matriz SavedRecords se modificará.
# 2:15 h para 100k

savedRecords=[]
if allowDownloads:
    sickle = Sickle(repository_address)
    # using Dublin Core format 
    #records = sickle.ListRecords(metadataPrefix='oai_dc')
    records = sickle.ListRecords(metadataPrefix='oai_dc', set = 'com_10915_36')
    printLog("Inicio de la descarga de registros OAI-PMH...")
    savedDocs=0
    for record in records:
        # get the PPN of the digitized work as the DC identifier will reference different (analog) manifestations
        tokens=record.header.identifier.split(":")
        tokens
        
        if savedDocs<maxDocs:
            savedDocs=savedDocs+1
            savedRecords.append(record.metadata)
            if savedDocs%1000==0:
                printLog("Downloaded %d of %d records."%(savedDocs,maxDocs))
        else:
            break
    printLog("Descarga finalizada de OAI-PMH de "+str(len(savedRecords))+" registros.")
    pickle.dump( savedRecords, open( "sedici_dc_all.pickle", "wb" ) )
else:
    printLog("Cargando registros OAI-PMH desde el disco...")
    savedRecords=pickle.load( open( "sedici_dc_all.pickle", "rb" ) )
    printLog("Done.")

[2020-08-11 21:32:22.042000]	Inicio de la descarga de registros OAI-PMH...
[2020-08-11 21:32:29.110000]	Downloaded 1000 of 100000 records.
[2020-08-11 21:32:31.006000]	Descarga finalizada de OAI-PMH de 1255 registros.


In [6]:
record = savedRecords[34]
record["identifier"]

['http://sedici.unlp.edu.ar/handle/10915/3864']

In [7]:
record

{'contributor': ['Bertone, Rodolfo Alfredo', u'Pessacq, Ra\xfal Adolfo'],
 'creator': [u'Beneforti, Mar\xeda Fernanda', u'Ainchil, Mar\xeda Virginia'],
 'date': ['2000'],
 'description': [u'El presente trabajo de grado surgi\xf3 para canalizar inquietudes respecto del uso de la computadora en el aprendizaje. El objetivo inicial tuvo su origen en la idea de realizar un aporte para lograr mejorar el nivel de lectura y escritura de los estudiantes secundarios, en una forma amena, \xe1gil, con un medio atractivo o usual para ellos, como es la computadora; mediante algunos de los mejores textos literarios de ficci\xf3n de habla espa\xf1ola, su an\xe1lisis e interpretaci\xf3n. Las t\xe9cnicas que se han utilizado para llevar a cabo desarrollos inform\xe1ticos orientados al aprendizaje han sido diversas, siendo la hipermedia una de las que goza de mayor aceptaci\xf3n. Esta tecnolog\xeda proporciona caracter\xedsticas que resultan muy \xfatiles en el campo del aprendizaje por computadora, como

In [None]:
#http://sedici.unlp.edu.ar/bitstream/handle/10915/1377/Documento_completo.pdf?sequence=1&isAllowed=y

### Crear un pandas dataframe a partir de los registros de metadatos

In [8]:
# load the records
printLog("Cargando registros...")
# uncomment this line if you are continuing the execution of this notebook at a later point in time
savedRecords=pickle.load( open( "sedici_dc_all.pickle", "rb" ) )
printLog("Finalizada la carga de registros.")

availableKeys=dict()

# check for all keys present in the previously downloaded dataset
for i,r in enumerate(savedRecords):
    for k in r.keys():
        if not k in availableKeys:
            availableKeys[k]=1
        else:
            availableKeys[k]=availableKeys[k]+1
    
print(availableKeys)

# create a dictionary for the records
values=dict()
# take the keys as they have found within the downloaded OAI records
keys=availableKeys.keys()
# for every metadata field, create an empty array as the content of the dictionary filed under the key 'k'
for k in keys:
    values[k]=[]

# iterate over all saved records
for record in savedRecords:
    # we cannot iterate over the keys of record.metadata directly because not all records cotain the same fields,...
    for k in keys:
        # thus we check if the metadata field 'k' has been created above
        if k in values:
            # append the metadata fields to the dictionary created above
            # if the metadata field 'k' is not available input "None" instead
            #values[k].append(record.get(k,["None"])[0].encode('ISO-8859-1'))
            if k in record:
                value=record.get(k)[0]
                if value:
                    if value.isdigit():
                        value=int(value)
                    else:
                        #p27 value=value.encode('ISO-8859-1')
                            #value=value.encode('ISO-8859-1').decode("utf-8", "backslashreplace")
                        value=value
                    values[k].append(value)
                else:
                    values[k].append(np.nan)
            else:
                values[k].append(np.nan)
# create a data frame from the 
#p27 df=pd.DataFrame(pd.to_numeric(values,errors='coerce'))
df=pd.DataFrame(values)
df['date']=pd.to_numeric(df['date'],errors='ignore',downcast='integer')
#df=pd.DataFrame(values)
#df=df.convert_objects(convert_dates=False, convert_numeric=True, convert_timedeltas=False, copy=True)
df.shape

[2020-08-11 21:36:43.519000]	Cargando registros...
[2020-08-11 21:36:43.864000]	Finalizada la carga de registros.
{'publisher': 32, 'rights': 1255, 'description': 1255, 'language': 1255, 'format': 1253, 'creator': 1255, 'date': 1254, 'relation': 421, 'source': 1, 'contributor': 831, 'title': 1255, 'identifier': 1255, 'type': 1255, 'subject': 1255}


(1255, 14)

In [9]:
df.head(2)

Unnamed: 0,contributor,creator,date,description,format,identifier,language,publisher,relation,rights,source,subject,title,type
0,"Rossi, Gustavo Héctor","Garrido, Alejandra",1997,Las tres primeras secciones de este trabajo pl...,application/pdf,http://sedici.unlp.edu.ar/handle/10915/2161,spa,,,info:eu-repo/semantics/openAccess,,Ciencias Informáticas,OO-Navigator: un framework para hipermedia : E...,info:eu-repo/semantics/bachelorThesis
1,"Rossi, Gustavo Héctor","Antonelli, Rubén Leandro",1998,Si bien ambos modelos [modelo en cascada y pro...,application/pdf,http://sedici.unlp.edu.ar/handle/10915/2174,spa,,,info:eu-repo/semantics/openAccess,,Ciencias Informáticas,Herramienta asistente para el análisis de requ...,info:eu-repo/semantics/bachelorThesis


## TF-IDF Transform

###  tf-idf-cosine: para encontrar la similitud del documento

In [12]:
topN = -5 

def processing(file):
    file = file.encode('ascii', 'ignore').decode('ascii')
    #Tokenizing the string object from the text file
    tokens = word_tokenize(file)
    
    #Removing punctuations and making all letters to lower case
    words = [w.lower() for w in tokens if w.isalpha()]
    
    #Removing the stopwords from the list of words
    stop_words = set(stopwords.words('spanish'))
    filtered_tokens = [w for w in words if w not in stop_words]
    
    #Stemming the list of words
    porter = nltk.PorterStemmer()
    stemmed = [porter.stem(t) for t in filtered_tokens]
    
    return ', '.join(str(v) for v in filtered_tokens)

df['abstract'] = df['description'].apply(processing)

In [14]:
doc = df['abstract'] 

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(doc)

cosine_similarities = linear_kernel(tfidf[0:1], tfidf).flatten()

related_docs_indices = cosine_similarities.argsort()[:topN:-1]

print related_docs_indices
print cosine_similarities[related_docs_indices]

In [39]:
result = pd.DataFrame(columns=["id", "original df col", "most similar id", "most similar doc", "similarity%"])

for i in range(len(doc)):
    cosine_similarities = linear_kernel(tfidf[i:i+1], tfidf).flatten()
    # make pairs of (index, similarity)
    cosine_similarities = list(enumerate(cosine_similarities))
    # delete the cosine similarity with itself
    cosine_similarities.pop(i)
    # get the tuple with max similarity
    most_similar, similarity = max(cosine_similarities, key=lambda t:t[1])
    result.loc[len(result)] = [df['identifier'].iloc[i], df['description'].iloc[i],df['identifier'].iloc[most_similar], df['description'].iloc[most_similar], similarity]

In [44]:
result[(result['similarity%'] > 0.7) & (result['similarity%'] < 0.8)].sort_values(by=['similarity%'], ascending=False)

Unnamed: 0,id,original df col,most similar id,most similar doc,similarity%
1174,http://sedici.unlp.edu.ar/handle/10915/84612,"Diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal militar, para afrontar el reto de poseer un Conciencia Situacional (CS) degradada. En este trabajo se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes sistemas utilizados en el ámbito militar y se analizan las características principales que debe poseer un framework de software basado en RA para uso militar. Se diseña un framework basado en RA que permite la visualización de objetivos tácticos tales como visualización de objetivos tácticos en un radar en 360 grados, posicionamiento y orientación espacial de los objetos y del operador, ayudas visuales mediante iconografía/simbología adaptable, uso de menús interactivos mediante reconocimiento gestual y vocal, reconocimientos de objetos edilicios y uso de cartografía en 3D mediante uso de RA. Se utiliza una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en realizar el procesamiento de imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA propuesto en el presente trabajo y, finalmente, se arriba a las conclusiones finales y a las futuras líneas de investigación.",http://sedici.unlp.edu.ar/handle/10915/86707,"Durante las operaciones militares, los campos de batalla se convierten en zonas fracturadas donde el nivel de confusión, el ruido y la ambigüedad impactan en la manera de alcanzar los objetivos tácticos. La Conciencia Situacional (CS) se convierte en un reto ya que la percepción de la situación es inestable, lo que conduce a la comprensión degradada y a la incapacidad del soldado en proyectar los resultados apropiados. Para afrontar dicho reto diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal. \r\nEn esta tesis doctoral se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió identificar y analizar los requisitos funcionales y desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes frameworks, menciona las características principales que debe poseer un framework de software de RA para uso militar, se detalla el uso de metodologías combinadas, se considera una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en procesar las imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA y se obtienen los resultados provenientes de la evaluación de los despliegues que se centran en mejorar la CS. Finalmente, se detallan las conclusiones arribadas y se proponen líneas futuras de investigación.",0.796605
1186,http://sedici.unlp.edu.ar/handle/10915/86707,"Durante las operaciones militares, los campos de batalla se convierten en zonas fracturadas donde el nivel de confusión, el ruido y la ambigüedad impactan en la manera de alcanzar los objetivos tácticos. La Conciencia Situacional (CS) se convierte en un reto ya que la percepción de la situación es inestable, lo que conduce a la comprensión degradada y a la incapacidad del soldado en proyectar los resultados apropiados. Para afrontar dicho reto diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal. \r\nEn esta tesis doctoral se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió identificar y analizar los requisitos funcionales y desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes frameworks, menciona las características principales que debe poseer un framework de software de RA para uso militar, se detalla el uso de metodologías combinadas, se considera una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en procesar las imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA y se obtienen los resultados provenientes de la evaluación de los despliegues que se centran en mejorar la CS. Finalmente, se detallan las conclusiones arribadas y se proponen líneas futuras de investigación.",http://sedici.unlp.edu.ar/handle/10915/84612,"Diversos proyectos militares han centrado sus esfuerzos en diseñar un sistema digital integrado como soporte para la toma de decisiones del personal militar, para afrontar el reto de poseer un Conciencia Situacional (CS) degradada. En este trabajo se propone un framework de Realidad Aumentada (RA) denominado RAIOM (Realidad Aumentada para la Identificación de Objetivos Militares) –entendiéndose por identificación de objetivos militares a todos los objetivos militares del enemigo circundantes a los soldados que representan una amenaza bélica- cuyo objetivo es mejorar la CS de los soldados en el campo de batalla mediante el uso de la RA. Para el desarrollo del framework se consideró como principal característica a la CS, y a la RA como tecnología de visualización e interpretación contextual. La aplicación de metodologías tales como SCRUM y Diseño Centrado en el Usuario (DCU) permitió desarrollar los despliegues correspondientes. En particular, este trabajo presenta una recopilación actualizada de diferentes sistemas utilizados en el ámbito militar y se analizan las características principales que debe poseer un framework de software basado en RA para uso militar. Se diseña un framework basado en RA que permite la visualización de objetivos tácticos tales como visualización de objetivos tácticos en un radar en 360 grados, posicionamiento y orientación espacial de los objetos y del operador, ayudas visuales mediante iconografía/simbología adaptable, uso de menús interactivos mediante reconocimiento gestual y vocal, reconocimientos de objetos edilicios y uso de cartografía en 3D mediante uso de RA. Se utiliza una arquitectura basada en capas para facilitar la integración tecnológica como también una arquitectura de sistemas distribuida donde la principal característica se centra en realizar el procesamiento de imágenes en un componente de hardware externo. Se realizan los despliegues utilizando el framework de RA propuesto en el presente trabajo y, finalmente, se arriba a las conclusiones finales y a las futuras líneas de investigación.",0.796605
1238,http://sedici.unlp.edu.ar/handle/10915/95242,"En un trabajo conjunto de la Prosecretaría de Postgrado, la Dirección de Postgrado y la Secretaría Administrativa de Postgrado se presenta el Libro de Tesis y Tesistas correspondiente al año 2019, en la Facultad de Informática de la UNLP.\r\nEn sus páginas se pueden recorrer la síntesis de las Tesis de Doctorado y Maestría, así como los Trabajos Finales de Especialización aprobados a lo largo del año 2019.\r\nAcompañamos estos resúmenes de los datos de los autores, de sus directores y también un listado de los distinguidos profesores e investigadores de Argentina y de Universidades del exterior que han sido Jurados en las Tesis.\r\nEn los 24 trabajos que se sintetizan y cuyos contenidos completos se pueden obtener del repositorio institucional de la UNLP (SEDICI) se refleja el intenso trabajo que desarrolla el área de Postgrado de la Facultad de Informática, trabajo iniciado en 1995 en la Facultad de Ciencias Exactas y consolidado a partir de 1999 en la Facultad de Informática.\r\nEs interesante resaltar que de estas 24 Tesis, 3 corresponden a docentes-investigadores con cargos en la Facultad de Informática de la UNLP y 21 no tienen relación directa con nuestra Facultad.\r\nCon este libro esperamos contribuir a la difusión de las actividades académicas de Postgrado, así como a la trasmisión de conocimientos generados en la Facultad de Informática de la UNLP.",http://sedici.unlp.edu.ar/handle/10915/75883,"En un trabajo conjunto de la Prosecretaría de Posgrado, la Dirección de Posgrado y la Secretaría Administrativa de Posgrado se presenta el Libro de Tesis y Tesistas correspondiente al año 2018, en la Facultad de Informática de la UNLP.\r\nEn sus páginas se pueden recorrer la síntesis de las Tesis de Doctorado y Maestría, así como los Trabajos Finales de Especialista aprobados a lo largo del año 2018.\r\nAcompañamos estos resúmenes de los datos de los autores, de sus directores y también un listado de los distinguidos profesores e investigadores de Argentina y de Universidades del exterior que han sido Jurados en las Tesis.\r\nEn los 29 trabajos que se sintetizan y cuyos contenidos completos se pueden obtener del repositorio institucional de la UNLP (SEDICI) se refleja el intenso trabajo que desarrolla el área de Posgrado de la Facultad de Informática, trabajo iniciado en 1995 en la Facultad de Ciencias Exactas y consolidado a partir de 1999 en la Facultad de Informática.\r\nEs interesante resaltar que de estas 29 Tesis, 8 corresponden a docentes-investigadores con cargos en la Facultad de Informática de la UNLP y 21 no tienen relación directa con nuestra Facultad.",0.774593
567,http://sedici.unlp.edu.ar/handle/10915/45773,"El presente artículo se centra en la elaboración de un estudio sobre los aportes del turismo educativo a los procesos de enseñanza-aprendizaje en la población de primaria y secundaria de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nPara responder a los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de turismo estudiantil existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el turismo educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos. \r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el turismo educativo concientiza a la población estudiada respecto a la importancia de conservar, entender y respetar los recursos naturales a través de la educación ambiental que fortalezca su consumo sustentable.",http://sedici.unlp.edu.ar/handle/10915/47937,"El presente artículo recoge la experiencia del desarrollo de una investigación a cerca de los aportes brindados por parte del Turismo Educativo en la construcción de nuevos escenarios educativos y pedagógicos en la población de primaria y secundaria, de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nEl término Turismo Educativo se puede definir como un tipo de turismo que involucra el aprendizaje en temas específicos, utilizados como rangos de aplicación o escenarios, sus respectivas paradas técnicas y el lugar de destino.\r\nEl Turismo Educativo busca enriquecer la educación costarricense, ya que genera en la población estudiantil un sentimiento de pertenencia y de identidad local, esto por medio de la visita a diferentes proyectos establecidos en el país que les permite entrar en contacto directo con el patrimonio natural. Las giras educativas a estos proyectos se han convertido en una herramienta metodológica importante para las y los docentes, ya que por medio de ellas se establecen nuevos escenarios pedagógicos, mismo que son más prácticos y divertidos para las y los estudiantes.\r\nPara responder los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de Turismo Educativo existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el Turismo Educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos.\r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi-cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el Turismo Educativo concientiza a la población estudiada con respecto a la importancia de la construcción de nuevas ciudadanías, a través del desarrollo de procesos educativos y pedagógicos orientados a nuevos escenarios en la línea de la conservación de los recursos naturales a través de la educación ambiental.",0.751422
595,http://sedici.unlp.edu.ar/handle/10915/47937,"El presente artículo recoge la experiencia del desarrollo de una investigación a cerca de los aportes brindados por parte del Turismo Educativo en la construcción de nuevos escenarios educativos y pedagógicos en la población de primaria y secundaria, de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nEl término Turismo Educativo se puede definir como un tipo de turismo que involucra el aprendizaje en temas específicos, utilizados como rangos de aplicación o escenarios, sus respectivas paradas técnicas y el lugar de destino.\r\nEl Turismo Educativo busca enriquecer la educación costarricense, ya que genera en la población estudiantil un sentimiento de pertenencia y de identidad local, esto por medio de la visita a diferentes proyectos establecidos en el país que les permite entrar en contacto directo con el patrimonio natural. Las giras educativas a estos proyectos se han convertido en una herramienta metodológica importante para las y los docentes, ya que por medio de ellas se establecen nuevos escenarios pedagógicos, mismo que son más prácticos y divertidos para las y los estudiantes.\r\nPara responder los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de Turismo Educativo existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el Turismo Educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos.\r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi-cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el Turismo Educativo concientiza a la población estudiada con respecto a la importancia de la construcción de nuevas ciudadanías, a través del desarrollo de procesos educativos y pedagógicos orientados a nuevos escenarios en la línea de la conservación de los recursos naturales a través de la educación ambiental.",http://sedici.unlp.edu.ar/handle/10915/45773,"El presente artículo se centra en la elaboración de un estudio sobre los aportes del turismo educativo a los procesos de enseñanza-aprendizaje en la población de primaria y secundaria de los cantones de Pococí y Guácimo (Limón, Costa Rica).\r\nPara responder a los objetivos planteados se investigó mediante el diseño descriptivo y exploratorio con un enfoque metodológico cualitativo. Se percibe como descriptivo por el establecimiento de lugares específicos para el análisis, la observación y evaluación de proyectos de turismo estudiantil existentes en la zona de influencia. Además, se considera exploratorio por la indagación de un tema poco analizado como el turismo educativo. Finalmente, se clasifica como metodológico cualitativo por la descripción y análisis de diferentes puntos de vista que permiten complementar la información y generar un amplio examen de los datos obtenidos. \r\nLa información fue recopilada a partir de una revisión bibliográfica, mientras que los datos primarios resultaron de la aplicación de cuestionarios con preguntas semi cerradas enfocadas al tema de estudio. La información secundaria fue extraída de documentos existentes, navegación en Internet y otras fuentes documentales relacionadas al tema.\r\nSe concluyó que el turismo educativo concientiza a la población estudiada respecto a la importancia de conservar, entender y respetar los recursos naturales a través de la educación ambiental que fortalezca su consumo sustentable.",0.751422


###  Implementar clustering de k-medias usando similitud de coseno

In [45]:
spanish_stopwords = stopwords.words('spanish')

In [48]:

def get_tfidf_matrix(X):
    #function to calculate term freq for each element
    tf = lambda x: np.log(1+x)
    # apply tf lambda on matrix
    tf_result = np.apply_along_axis(tf,1,X.toarray())  
    #Get the total number of documents/reviews
    N = len(X.toarray())
    # Get frequency of each word across all documents
    overall_freq = X.toarray().sum(axis=0)
    # function to calculate idf for each word
    idf = lambda x: np.log(N/(1+x))
    idf_result = idf(overall_freq)
    #multiply tf with idf for each document
    return np.multiply(tf_result,idf_result)

vectorizer = CountVectorizer(stop_words=spanish_stopwords)
X = vectorizer.fit_transform(df.description.values)
tf_idf = get_tfidf_matrix(X)

In [50]:
class Kmeans:

    def __init__(self, k, seed = None, max_iter = 200):
        self.k = k
        self.seed = seed
        if self.seed is not None:
            np.random.seed(self.seed)
        self.max_iter = max_iter
        
            
    # randomly Initialise Centroids
    def random_centres(self, data):
        initial_centres = np.random.permutation(data.shape[0])[:self.k]
        self.centres = data[initial_centres]

        return self.centres
    
    # get  distance of data from clusters and assign data point to closest cluster.
    def assign_clusters(self, data):
        if data.ndim == 1:
            data = data.reshape(-1, 1)
        dist_to_centres =  self.cosine_sim(data, self.centres)
        self.cluster_val = np.argmax(dist_to_centres, axis = 1)
        return  self.cluster_val
    
    # get the cosine similarity of two vectors
    def cosine_sim(self, X, Y):
        dot_product = np.dot(X, Y.T)
        review_norm = np.linalg.norm(X, axis = 1)
        review_norm = review_norm.reshape(X.shape[0],1)
        center_norm = np.linalg.norm(Y, axis = 1)
        center_norm = center_norm.reshape(Y.shape[0],1)
        return dot_product / (review_norm.dot(center_norm.T))
        
    # get average of all data points in cluster and assigns new centres 
    def update_centres(self, data):
        self.centres = np.array([data[self.cluster_labels == i].mean(axis = 0) for i in range(self.k)])
        return self.centres
    
    # Predict which cluster data point belongs to
    def get_prediction(self, data):
        return self.assign_clusters(data)
    
    # assign all data to 2nd cluster
    def assign_to_random_clusters(self, data):
        self.cluster_labels = np.ones((data.shape))
        
    #  main loop to fit the algorithm       
    def fit_kmeans(self, data):
        #print(self)
        self.centres = self.random_centres(data)
        self.assign_to_random_clusters(data)
        
        # main kmeans loop
        for iter in range(self.max_iter):
            self.cluster_labels = self.assign_clusters(data)
            self.centres = self.update_centres(data) 
            if iter % 5 == 0:
                print("Model Iteration %d " %iter)
        print("Cluster labels:::*********")
        #print(self.cluster_labels)
        #print(type(self.cluster_labels), self.cluster_labels.shape)
        print("Model finished running")
        return self

In [51]:
def print_cluster(label, n):
    df["cluster_label"] = list(labels)
    for cluster in range(n):
        print("Cluster:", cluster)
        display(df[df.cluster_label == cluster][["description","cluster_label"]].head(5))

In [54]:
# Cluster = 15
n = 15
#Generate 5 random indices 
np.random.seed(45678)
indices = np.random.choice(tf_idf.shape[0], n, replace=False)
cluster_centres = tf_idf[indices]

In [55]:
import sys
import numpy
numpy.set_printoptions(threshold=sys.maxsize)
km = Kmeans(n, seed= 1234, max_iter=35)
labels = km.fit_kmeans(tf_idf).cluster_labels
print_cluster(labels, n)

Model Iteration 0 
Model Iteration 5 
Model Iteration 10 
Model Iteration 15 
Model Iteration 20 
Model Iteration 25 
Model Iteration 30 
Cluster labels:::*********
Model finished running
('Cluster:', 0)


Unnamed: 0,description,cluster_label
106,"En este trabajo propongo una formalización basada en gramáticas de atributos que permite capturar en forma precisa la estructura de los diagramas y su simultánea evaluación (p. ej., construir/evaluar automáticamente el modelo semántico de los diagramas durante la construcción de los mismos). Comencé este trabajo en el marco de un proyecto colaborativo entre la UNLP y la PUC (Pontificia Universidad Católica do Rio de Janeiro) y reporté algunos resultados preliminares. En dicha instancia introduje la idea básica do utilizar gramáticas para capturar la estructura de los diagramas y estudié además distintas alternativas para la formalización. Además, ese proyecto culminó con la construcción de un prototipo funcional que mostraba la importancia práctica de la investigación previamente mencionada.\r\nEn esta tesis reporto el trabajo mencionado y brindo un análisis más comprensivo y extenso del uso de gramáticas para la descripción de los lenguajes visuales. Por otro lado, y a fin de demostrar la importancia práctica, desarrollo un editor que utiliza los conceptos expresados, mostrando de esta forma cómo el diseño y prototipación de lenguajes visuales se vé simplificada en forma significativa. Además el trabajo está acompañado de una serie de ejemplos prácticos que apoyan el desarrollo.",0
228,"Esta tesis investiga posibles incrementos de la performance en las soluciones de ciertos problemas de optimización combinatorial NP-duros. Ejemplos de esto son los problemas de secuenciamiento puros. Se realiza una reseña de los métodos convencionales, comparándolos con los pertenecientes al campo de la Computación Evolutiva, conjuntamente con la propuesta de eventuales mejoras a estos últimos. Las aplicaciones prácticas discutidas en esta tesis se encuentran fuertemente relacionadas con la administración, el diseño de redes en general, y el diseño de circuitos.",0
364,"In this book, Hansen presents a collection of structured multicomputer programs for computational science, with the unifying idea of programming paradigm.",0
409,"The main purpose of this book is to present the contents of an introductory course in databases. In this regard, one can find a number of material validity and recognized different scopes. This work is developed under the guidelines that the authors use in dictating the course Introduction to Databases, Faculty of Informatics, National University of La Plata, Argentina",0
448,"A social network is formed by a set of actors and the relationships established by them. SNA leads to distinct goals and perspectives of social network analysis and computer science. This paper introduces the study of social networks and their relationship with trust. We study the methods of detection and description of structural properties. This covers the concepts, methods and data analysis techniques of social networks analysis. After that, we introduce the concept of trust and its relation with social networks, because trust is a crucial factor in the interaction between actors. We use the Node XL tool and a case study in a classroom environment, to test the usability of SNA techniques considering metrics to measure trust and, significantly, the power of a tightly integrated metrics/visualization tool to spark insight and facilitate sense making to SNA.",0


('Cluster:', 1)


Unnamed: 0,description,cluster_label
6,"Las herramientas de simulación a eventos discretos ofrecen una amplia gama de opciones para realizar análisis detallados en base a los resultados arrojados luego de las corridas de cada simulación. En este trabajo proponemos una alternativa en la cual se persisten todas las entidades del modelo simulado, lo cual sienta las bases para el desarrollo de nuevas herramientas de análisis que permitan conocer en un alto nivel de detalle la evolución de la simulación como un todo y de cada una de las entidades por separado. El desarrollo, basado en el lenguaje de simulación GPSS, consta de todo el modelo que éste lenguaje utiliza para ejecutar simulaciones y de un conjunto de entidades básicas que permiten crear verdaderas simulaciones. Este trabajo también incluye una herramienta para ejecutar simulaciones y conocer las historias de las entidades involucradas en las mismas.",1
32,"El trabajo que se presenta es la última evolución conseguida hasta el momento de un ambiente de simulación donde se modelizan e implementan situaciones en la que una BDD debe mantener la integridad de la información ante fallos producidos durante la ejecución de transacciones, enfocándose en la utilización y posterior comparación de diferentes protocolos de commit atómicos (ACP). La implementación se realizó en Java debido a diferentes aspectos como facilidad de trabajo, portabilidad, etc. Las situaciones evaluadas en el ambiente se basan en la recuperación de fallos de transacciones en un entorno de datos distribuidos, permitiendo seleccionar, para el desarrollo de la simulación, entre los protocolos dos fases, de tres fases, el protocolo de presumed commit y presumed abort. A partir del desarrollo y los resultados obtenidos se presentan una serie de conclusiones respecto de las evaluaciones registradas.",1
56,"Las redes neuronales artificiales han demostrado ser exitosas resolviendo adecuadamente muchos problemas, pero como todo paradigma también presentan debilidades, tales como dificultad para hallar una topología adecuada, dificultad para elegir el valor apropiado de algunos parámetros del entrenamiento, fuerte dependencia con los valores iniciales de los pesos escogidos aleatoriamente, a veces requieren funciones de transferencia derivables, y entre otras más, pueden caer mínimos locales de la función de error que desean minimizar.\r\nEstas dificultades suelen resolverse a fuerza de la experiencia y habilidades de los expertos humanos. Ahora bien, la Computación Evolutiva, que junto al Conexionismo de las redes neuronales artificiales conforma la rama subsimbólica de la Inteligencia Artificial, puede mejorar estos resultados. Así es posible reemplazar el entrenamiento tradicional de las redes neuronales artificiales por la aplicación de los principios darwinianos –evolución por selección natural– a las redes neuronales artificiales debidamente codificadas en un cromosoma. Esto resuelve algunas de las debilidades mencionadas y da origen al nuevo paradigma denominado Neuroevolución.\r\nLos investigadores del área han propuesto distintas estrategias dentro de este paradigma. Entre otras cosas se utilizan los algoritmos evolucionarios para conseguir la arquitectura de la red, los pesos de las conexiones y las funciones de transferencia de los nodos. Incluso se han propuesto hibridaciones combinando aprendizaje evolucionario con las técnicas de entrenamiento propias de las redes neuronales artificiales.\r\nEsta tesina se enmarca dentro del paradigma de la Neuroevolución y, si bien me he ajustado a la propuesta de trabajo de grado presentada, aspiro a tratar unos cuantos conceptos propios de esta renovada rama de la Inteligencia Artificial.",1
124,"El campo de acción de las aplicaciones hypermedia, en especial el de las aplicaciones web, se encuentra en constante evolución. Muchas son las razones y entre las más importantes se destacan el avance de las tecnologías y su incorporación a innumerables disciplinas. Los ejemplos sobran y entre los más comunes se encuentran los sitios web, los sistemas de gestión administrativa y el comercio electrónico. A medida que esto sucede, las características de los requerimientos para realizar su diseño e implementación también evolucionan. En otras palabras, cada vez se necesita especificar una mayor cantidad de aspectos del dominio de la aplicación y entre estos se encuentran aquellos que dependen del tiempo.\r\nNosotros entendemos que durante el proceso de desarrollo de aplicaciones hypermedia, en particular de aplicaciones web, es imprescindible realizar la especificación de cualquier aspecto temporal porque son tan importantes como cualquier otro aspecto de la aplicación. Por tal motivo, el objetivo de este trabajo consiste en realizar la definición de mecanismos útiles para poder especificar aspectos temporales en la etapa de diseño.",1
133,"La proliferación de dispositivos móviles, como PDA o teléfonos celulares, motiva la inclusión de entidades del mundo real –un cuadro, una estatua, un almacén, etc.- dentro de sistemas informáticos, de manera de aprovechar la movilidad del usuario: a medida que este se desplaza, dentro de un espacio geográfico, puede ser provisto de servicios o información en relación a aquellas entidades con las cuales se cruza.\r\nComo consecuencia de esta motivación, la hipermedia física propone incluir estas entidades en una hipermedia. A través de la misma, se establece una red donde las entidades u objetos físicos poseen una contraparte digital (información textual, gráfica y/o sonora), que coexiste con aquellos elementos de un sistema de hipermedia tradicional. De esta manera el usuario puede ampliar sus conocimientos sobre aquellas entidades, incluidas en la hipermedia, a medida que se encuentra físicamente con las mismas.\r\nUno de los requisitos fundamentales, para la inclusión propuesta, es la determinación de la posición del usuario y la de los objetos físicos dentro de un espacio, así como también la detección de una serie de eventos, como por ejemplo la cercanía a un objeto o el ingreso a un determinado lugar. Este proceso de determinación y detección es conocido con el nombre de location sensing. A partir de este proceso es que se provee al usuario de servicios y/o información.",1


('Cluster:', 2)


Unnamed: 0,description,cluster_label
103,"Problemática: Repsol-YPF mantiene en su red de estaciones de servicios un conjunto de sistemas para administrar diversas operaciones. Dichos sistemas se encuentran desconectados entre sí, y solo mantienen un intercambio esporádico de información a través de archivos planos.\r\nLos repositorios de datos locales no son necesariamente procesados por el mismo motor, ni con el mismo formato. (Puede haber bases de datos bajo distintos productos de mercado, como SQL Server, Oracle, Access o, eventualmente como una colección de datos en archivos de textos) Lo que se desea es que las diferentes aplicaciones existentes dispongan en la base de datos local que permita mantener su autonomía.\r\nSolución propuesta: Para asegurar la autonomía se buscará que los nodos tengan réplicas de los datos globales, y de esta forma asegurar la velocidad de acceso y la disponibilidad de la información.\r\nCon este fin se aprovechará una capa de software preexistente en todas las aplicaciones (core), redefiniéndola para lograr la administración de las múltiples bases de datos heterogéneas.\r\nObjetivos: El objetivo de este trabajo es diseñar, implementar y analizar la solución propuesta.",2
183,"El objetivo de esta tesina es analizar, investigar y desarrollar algoritmos de scheduling para ejecutar eficientemente aplicaciones de procesamiento paralelo sobre arquitecturas multicore y clusters de multicore. Esto implica manejar la distribución de procesos en los cores desde la aplicación para obtener ganancia de performance. Interesa el estudio de nuevas técnicas para la programación de algoritmos paralelos que aprovechen eficientemente la potencia de la arquitectura, considerando los sistemas híbridos en los que se combina memoria compartida y distribuida.\r\nPara esto, se debe analizar:\r\na) El problema de la asignación de tareas a núcleos, incluyendo la problemática del balance de carga.\r\nb) La estrategia de descomposición de la aplicación (tanto paralelismo funcional como de datos) y su impacto en la performance.\r\nc) La necesidad de combinar memoria compartida y pasaje de mensajes en el uso de clusters de multicore.",2
286,"El presente trabajo monográfico tiene por objetivo presentar una visión general sobre el estado actual y la actividad científica relacionada con los sistemas inteligentes aplicados en áreas inherentes a las redes de datos. He recopilado una vasta cantidad de publicaciones vinculadas con la temática aquí pretendida. Sin embargo, la enumeración detallada de éstas resultaría tediosa y de escasa utilidad. En su lugar he estructurado la presentación del material agrupándolos en cinco tópicos generales con los que espero haber realizado una buena cobertura de los temas abordados. Pretendo no profundizar en detalles que oscurezcan la visión general que deseo brindar. Sin embargo, cada temática estará acompañada de las referencias correspondientes para que el lector interesado pueda hallar fácilmente las fuentes originales y ampliar los conceptos de su interés.\r\nA medida que vaya avanzando en los temas propuestos, y conforme sea necesario, iré introduciendo de forma muy reducida los conceptos más generales de las estrategias inteligentes utilizadas en cada caso.\r\nEste trabajo está organizado de la siguiente manera. En la sección 2 abordaré la temática del diseño óptimo de redes confiables y algunas soluciones aportadas por los Algoritmos Evolutivos. La sección 3 tratará el tema de ruteo en redes y la aplicación de los sistemas basados en Colonias de Hormigas. La problemática sobre cómo lograr una transmisión multicast eficiente será el tema de la sección 4 presentando algunas soluciones evolutivas para resolverlo. En la sección 5 presentaré una importante área de aplicación de las Redes Neuronales y los Sistemas Inmunes Artificiales en el contexto de la seguridad informática: los Sistemas de Detección de Intrusos. Finalmente, antes de las conclusiones, dedicaré la sección 6 al tratamiento de la recuperación de la información en Internet utilizando Agentes Inteligentes.",2
316,"El presente Trabajo Final tiene por objetivo describir los Sistemas Tutoriales Inteligentes (STIs) y realizar un análisis crí tico de sus fortalezas y debilidades.\r\nPara alcanzar tal fin, se describirá la arquitectura tradicional de los STIs, se delinearán teorías de aprendizaje e instruccionales que provean el marco conceptual a estos sistemas y se presentarán herramientas de diseño. Asimismo, se analizarán las características principales de estos sistemas, focalizando el problema de su adaptación a los estudiantes.",2
355,"La medición de variables del medio es fundamental para la supervisión y control de ambientes y actividades de la más diversa índole. Resulta de gran utilidad en aplicaciones industriales, médicas, agrícolas, de preservación del medio natural o creación de ambientes inteligentes, entre otras. En muchas de las aplicaciones mencionadas, el seguimiento de las variables de interés debe realizarse en locaciones distantes u hostiles que hacen muy difícil el cableado y la atención periódica de los dispositivos de medición. Por estos motivos se utilizan las redes inalámbricas de sensores inteligentes (RISI) para obtener los datos necesarios.",2


('Cluster:', 3)


Unnamed: 0,description,cluster_label
4,"La primera etapa del trabajo consistió en el análisis de las diferentes técnicas de modelado orientado a objetos y su influencia sobre el proceso de desarrollo de software basado en modelos. Este análisis nos condujo a reconocer las claras ventajas que ofrece la integración de técnicas de modelado formales con técnicas no formales aceptadas y usadas por los ingenieros de software típicos.\r\nEl siguiente paso consistió en estudiar las propuestas existentes acerca de cómo efectivizar la mencionada integración, con el objetivo de identificar aspectos potencialmente mejorables.\r\nFinalmente y como consecuencia del análisis previo, definimos una nueva propuesta de integración la cual aporta los beneficios esperados para un método de integración standard pero además incorpora ciertas características que no han sido cubiertas satisfactoriamente por las propuestas anteriores, tales como evolución, reusabilidad y métricas de modelos. Además nuestra propuesta se basa en una estructura formal de primer orden que, en contraste con las estructuras de orden superior, facilita los procedimientos para calcular la validez de las fórmulas.\r\nLa parte restante de esta tesis está organizada de la siguiente forma:\r\nEn los capítulos 2 y 3 describimos detalladamente un lenguaje gráfico de especificación (UML) y un lenguaje formal (Lógica Dinámica) respectivamente. En el capítulo 4 discutimos las distintas propuestas para lograr la integración de ambas técnicas. En el capítulo 5 presentamos nuestra propuesta: la M&D-theory. El capítulo 6 contiene ejemplos de los principales beneficios standard provistos por la M&D-theory. En los capítulos 7, 8 y 9 demostramos la utilidad de nuestra formalización para expresar evolución de modelos, métricas de calidad y temas de reuso tales como contratos y patrones de diseño. Finalmente el capítulo 10 contiene conclusiones, reflexiones y comentarios acerca del trabajo presentado.",3
8,"En particular nos interesa la automatización de procesos de reconocimiento y clasificación de objetos que provienen de una línea industrial (de producción o packaging). Lo cual trae consigo la incorporación de computadoras para la realización de las tareas que hasta ahora eran solo realizadas por el ser humano con dependencia de su discernimiento y su percepción visual del mundo que lo rodea.\r\nNuestro interés se centra, como se menciona previamente, en el reconocimiento y clasificación de objetos que en nuestro caso serían pomelos, naranjas, bananas, limones, etc.. Para lograr este objetivo se supone contar con un sistema industrial provisto de una cinta transportadora por donde circularán dichos productos. También se contará con cámaras de video que en un punto del trayecto de los productos los filmará, enviando la información respectiva a la computadora. A continuación, con la adquisición de estas imágenes y la aplicación de los algoritmos pertinentes de reconocimiento y clasificación se procederá a la toma de decisión, derivando el objeto a su correspondiente destino final que puede ser o bien a un sector determinado por sus características inherentes (color, forma, tamaño), o bien descartarlo como consecuencia por ejemplo de defectos que podrían ser manchas.\r\nLos objetos tomados como base para la clasificación fueron elegidos por su diversidad en forma y tamaño; presentando éstos regularidades en cuanto a su forma y facilitando por consiguiente los algoritmos de clasificación. Pero, no obstante, estas técnicas se pueden emplear para una variedad de otros productos como pueden ser otras frutas; herramientas como pinzas, tuercas, tornillos . Asimismo de estos objetos estudiados se extraen sus características más importantes como son: área, perímetro, diámetro máximo, centroide, color, sus distintos momentos que los hacen invariantes ante rotaciones, traslaciones y cambios de escala, y también la presencia de defectos en su superficie tales como manchas o decoloraciones.",3
9,"La Web es un recurso de información global y distribuido, que contiene una gran cantidad de datos relevantes. El volumen de estos datos ha tenido un aumento importante en los últimos años, lo que provoca que resulte cada vez más difícil encontrar información de interés. Actualmente la búsqueda de información se realiza por medio de distintos index-servers, la mayoría de ellos muy conocidos como puede ser el buscador AltaVista, cada uno tiene su propio conjunto de parámetros para iniciar una búsqueda y ofrecen diferentes posibilidades. Esta diversidad de lenguajes de interrogación propios de los index-servers dificulta la creación de consultas precisas que retomen la información buscada y no una cantidad excesiva de respuestas donde encontramos una gran cantidad de información irrelevante. Encontrar formas de consultas más eficientes para la Web es lo que nos motiva a investigar nuevas técnicas que proponen la utilización de un lenguaje standard como es SQL, las cuales permiten formular las consultas utilizando un lenguaje conocido y con los beneficios propios de éste.\r\nNuestro estudio se basa en investigar herramientas desarrolladas en esta dirección y realizar una evaluación de una de ellas, WebSQL, para lo cual implementamos una interfaz para embeber la librería WebSQL, ambas desarrolladas en lenguaje JAVA.\r\nHay dos aspectos que se verán reflejados durante el estudio y evaluación de esta herramienta. Uno, es como el filtrado automático de información podría ser útil para encontrar información relevante, evitando la navegación manual que se vuelve un proceso lento y tedioso. Mostraremos como se puede filtrar información sobre las respuestas obtenidas de algún Índex-server consultado, utilizando la librería WebSQL. El otro aspecto que mostraremos es cómo encontrar la información buscada simulando la navegación manual, este proceso consiste en realizar consultas a partir de una URL conocida, y siguiendo sus links aprovechando la estructura hipermedial de la Web.\r\nLas herramientas estudiadas tienen diferentes enfoques pero todas apuntan a dar una nueva ventaja en las formas actuales de recuperar información desde la Web. El objetivo de esta tesis es dar un punto de partida en esta dirección, y puede ser ampliado como proponemos en el capítulo “Conclusiones y Trabajos Futuros”.",3
17,"El trabajo de investigación que se presenta a continuación tiene como objetivo definir un modelo teórico que permita encapsular la Versión 6 de IP sobre Redes ATM.\r\nEste trabajo esta organizado en capítulos, los iniciales detallan las características de los conceptos y tecnologías aquí empleados, mientras que el último describe el modelo propuesto para lograr el objetivo planteado. De esta manera en el Capítulo 1 se encuentra la información acerca de Redes ATM, y de la interface UNI 4.0.\r\nEn el Capítulo siguiente (Capítulo 2) se describen las características básicas de la Versión 4 del Protocolo de Redes IP, este capítulo tiene como objetivo contar con una reseña de la versión actual del protocolo IP.\r\nLa nueva Versión de IP es presentada en el Capítulo 3 de este trabajo, aquí se detallan las características del protocolo como así también los protocolos de control que IPv6 define tales como Neighbor Discovery, etc.\r\nEn el Capítulo 4 se describe el modelo teórico propuesto en este trabajo de investigación, en él se detallan el objetivo, los términos relacionados con el modelo, la arquitectura necesaria, las capas definidas, los algoritmos de cada una de ellas, y un sistema de seguridad contra pérdida de información de control necesaria para el funcionamiento de esta solución.\r\nPor último este trabajo contiene dos apéndices, en el Apéndice A, se describe una solución al problema de encapsular la versión actual de IP (IPv4) y en el Apéndice B, se detalla un análisis comparativo entre ambas soluciones (encapsulamiento de IPv6 e IPv4 sobre Redes ATM).",3
44,"El objetivo principal del proyecto es el de llevar a cabo una investigación básica y aplicada en el campo del procesamiento digital de imágenes. Dentro del procesamiento de imágenes, encontramos sistemas de reconocimiento y clasificación que tratan con áreas como seguridad y autenticación, automatización industrial, análisis de imágenes médicas, etc.\r\nEn particular, nos abocamos a observar técnicas para la detección e identificación de objetos complejos, mediante el reconocimiento basado en patrones ya conocidos, con lo cual se persigue simular la facilidad del ser humano para clasificar/seleccionar/descartar. El inconveniente de esto es que los sistemas solo proveen soluciones a problemas particulares, dependiendo del conocimiento previo con el cual se nutre en primer instancia.\r\nDentro de este marco, nos encontramos con el estudio de los sistemas de reconocimiento de rostros, los cuales pretenden simular (como se mencionó anteriormente en general), el proceso que realiza un ser humano al observar a una persona en la vida real, tal vez reconociéndola, resultándole familiar o simplemente determinando que no la conoce.\r\nSe realiza un estudio de diferentes modelos para la detección y/o reconocimiento de rostros, tratando de no realizar una comparación, sino más bien una presentación teórica de estas técnicas. Se realiza un estudio de mayor énfasis de la técnica que más promete resultados tendientes a lo óptimo, de tal manera de reunir el conocimiento necesario, para poder realizar una implementación en un lenguaje de programación, y poder comprobar la eficiencia y eficacia de la misma, realizando un análisis de índole estadístico.\r\nAsimismo, y como resultado del análisis exhaustivo de las distintas técnicas, se obtiene como valor agregado, el estudio de un patrón de diseño de los sistemas de reconocimiento de rostros en general, capturando tanto puntos en común a nivel microsistema (es decir, distintas técnicas utilizan mismas características), como a nivel macro (es decir, distintas técnicas utilizan características distintas pero persiguiendo estas objetivos en común).",3


('Cluster:', 4)


Unnamed: 0,description,cluster_label
12,"El principal objetivo del trabajo es fundamentar la necesidad de contar con un ambiente de Data Warehouse para el análisis de información estratégica inaccesible mediante los sistemas transaccionales actuales (OLTP). Con el propósito de alcanzar dicho objetivo:\r\n• Haremos una breve reseña de la evolución de los los sistemas de información desde sus orígenes hasta la actualidad mostrando que el crecimiento del volumen de la información a través de los años por sí solo no cumple con los requerimientos de calidad de información para la toma de decisiones en el mercado competitivo actual, ya que para dicha toma de decisiones se necesita que la información sea cada vez de mayor calidad; \r\n• Desarrollaremos conceptos teóricos fundamentales para encarar el desarrollo de un Data Warehouse: arquitectura, modelo, migración de datos, etc.; \r\n• Describiremos la metodología de diseño adoptada basada en el diseño de base de datos multidimensional. La metodología está conformada por una serie de actividades o pasos que mantienen un cierto orden, en donde existe siempre una actividad procedente y otra siguiente, un tiempo estimado para su realización y una frecuencia de ejecución; \r\n• Partiendo de un modelo Relacional Real correspondiente a un sistema orientado al manejo de obras sociales (S.l.A), proponemos el diseño de un Data Warehouse utilizando la metodología antes mencionada, para la futura implementación de un módulo de gestión del mismo que en la actualidad no posee, mostrando como se beneficiaría a los tomadores de decisiones con el uso del mismo.",4
16,"Analizamos la problemática del Data Warehouse, la tecnología OLAP para alcanzar la funcionalidad y eficiencia requeridas y estudiamos las características de las bases de datos multidimensionales como una alternativa para el almacenamiento de datos. Finalmente presentamos una herramienta usada actualmente en el mercado para resolver problemas de este tipo, mostrando los conceptos de las bases de datos multidimensionales y las distintas formas de efectuar consultas y análisis, en un problema real de control de presupuestos.",4
18,"Los Sistemas de Información Geográficos (SIG) constituyen una herramienta tecnológica de extraordinaria utilidad en la gestión territorial. Estos sistemas son el resultado de múltiples desarrollos metodológicos e informáticos procedentes de muy diversas disciplinas, tales como los modelos ecológicos, sistemas de cartografía automática, base de datos, modelos urbanos y territoriales, etc., con la idea de crear una herramienta pluridisciplinaria que posibilite una gestión de los datos geográficos con sistemas informáticos sin perder las particulares relaciones espaciales entre los datos geográficos.\r\nLos SIGs pueden trabajar con diversos tipos de mapas: orográficos (elevaciones del terreno), físicos, políticos, meteorológicos, de carreteras, etc., y producir, en base al tipo de mapa, diversos resultados, como por ejemplo: caminos mínimos, áreas de drenaje, pendientes u orientaciones del terreno, entre otros.\r\nEl objetivo del presente trabajo ha sido el de describir paso a paso las distintas etapas de los SIGs (lo que podría ser el desarrollo de un proyecto SIG real) y el desarrollo de una herramienta que permita trabajar con distintas clases de mapas y realizar muchas de las funciones de los SIGs existentes en la actualidad. Para ello se ha combinado la investigación bibliográfica con conclusiones o ideas propias.",4
33,"La mayoría de las aplicaciones software existentes en la actualidad destinadas al soporte del trabajo en grupo, por lo general carecen de una estructura de grupos flexible o bien directamente no la proveen. Ésto hace que a cada uno de sus integrantes se los trate como si tuviesen las mismas características, habilidades, expectativas y/o jerarquías. Usualmente los desarrolladores de dichas aplicaciones, se han preocupado en las entidades y recursos involucrados en el ámbito colaborativo, de cómo pueden accederse y compartirse los mismos, y de políticas y mecanismos de soluciones distribuidas, etc. Pero sin duda, no han hecho hincapié en el manejo de uno de sus recursos más importantes, ni más ni menos que al usuario como integrante de un grupo.\r\nEs así, que no ofrecen ningún soporte específico para el manejo de los grupos desde el punto de vista de su estructura y organización, sus privilegios, los roles que cumple cada miembro dentro del mismo, y los mecanismos y formas de comunicación. Aunque ofrecen una solución al problema tiempo-espacio facilitando la interacción de los grupos, ésta es una solución incompleta a las llamadas soluciones cooperativas /colaborativas.\r\nNuestra Tesis tendrá como objetivo dar una posible solución a esta problemática presente en la forma de trabajo actual, para lo cuál analizaremos el comportamiento de los individuos en el contexto de los grupos, las estructuras internas que puedan presentarse, y los modelos de comunicación utilizados. El análisis de dichas propiedades nos permitirá definir una serie de conceptos, lineamientos y primitivas que han de tenerse en cuenta en el análisis de los requerimientos necesario para el diseño de cualquier herramienta que soporte el trabajo colaborativo, independientemente del paradigma seleccionado para tal fin.",4
47,"Comenzamos con un estudio de hipermedia y patrones para conocer las herramientas ya establecidas, probadas y disponibles actualmente. Si bien los resultados de la tesis pueden ser usados independientemente de OOHDM, introducimos el método como marco para razonar acerca de aplicaciones aprovechando la explícita separación en capas que ofrece, como veremos más adelante.\r\nSeguimos analizando XML y las diversas especificaciones que conforman el concepto general de XML. Incluimos muchos ejemplos en esta sección y para no contaminar la esencia del trabajo, incluimos otros en el Apéndice donde se encuentra la implementación de los ejemplos.\r\nContinuamos desarrollando el concepto de Vistas como forma de personalizar la información de acuerdo a la necesidad de la aplicación que la recibe o administra, perfil del usuario o simplemente mostrar la información de la manera que se espera. Finalmente presentamos cuatro patrones como soluciones específicas usando XML.",4


('Cluster:', 5)


Unnamed: 0,description,cluster_label
42,"En este proyecto se trata de investigar las características de replicación y fragmentación de la información, en particular la propagación y regulación de las actualizaciones de datos. El esquema de replicación planteado en este estudio se considera estático y preestablecido, interesando para este estudio el comportamiento de los métodos, en cuanto al tratamiento de lecturas y modificaciones de los datos. El soporte de simulación elegido es Java, dado que permite una mayor versatilidad en las construcciones de aplicaciones.",5
101,"Las contribuciones de este trabajo son:\r\n1. Un modelo de autenticación/autorización único que permita integrar múltiples aplicaciones basadas en un mecanismo de autenticación que requiere nombre de usuario/contraseña.\r\n2. Implementación de una solución de software basada en el modelo propuesto.\r\n3. Demostración de la utilización de la solución, en un prototipo que integra un servicio de mensajería instantánea (Jabber), una hipermedia editable (ChikiWiki) y un sistema para el reporte y seguimiento de bugs (Mantis).",5
125,"El objetivo de este trabajo es construir una herramienta para certificar la madurez de procesos que requiere CMMI nivel 2, ayudando en la tarea diaria a la persona que realiza aseguramiento de la calidad (QA). El foco de la misma estará en la generación de evidencia de la aplicación de control de procesos a través del seguimiento de las auditorías y del registro y tratamiento de las no conformidades. El producto propuesto en esta tesis, es una herramienta que podrá utilizarse en el área de QA de una fábrica de sistemas.",5
142,"Este trabajo consta de una investigación de los aspectos necesarios para la generación automática de Casos de Prueba, y la presentación de un prototipo que permite diversas configuraciones para obtener en un formato legible para humanos, diferentes tipos de Casos de Pruebas según se necesite, para auxiliar la tarea de testing humano y la codificación posterior de las pruebas de unidad por desarrolladores, contribuyéndose a la calidad en los procesos de IS.",5
145,"Objetivo de esta tesis:\r\n- Realizar un trabajo de investigación biotecnológica en el área de segmentación de imágenes médicas. Entendiendo por segmentación de imágenes la división o separación de aquellas partes de la imagen que pertenezcan a una misma estructura.\r\nEl software será destinado a médicos y profesionales de la salud, con el primordial objetivo de:\r\n1. Permitir a técnicos presentar la evaluación de la imagen ante médicos, usando el software, disminuyendo de esta forma parte de la carga de tarea del médico.\r\n2. Acelerar el proceso de dicha evaluación.",5


('Cluster:', 6)


Unnamed: 0,description,cluster_label
5,"En el presente trabajo se estudia el algoritmo de cómputo numérico CORDIC y se describen algunas de sus variantes arquitecturales. Para comenzar se realizará una descripción a nivel funcional algorítmica con un alto nivel de abstracción del algoritmo en VHDL, utilizando aritmética en punto flotante proporcionada por el lenguaje. El propósito es validar el funcionamiento de algoritmo mediante el cálculo del seno, del coseno y del arcotangente. Seguidamente se realizará la descripción de dos de las arquitecturas mas comunes (CORDIC bitparalelo desplegado y CORDIC bit-paralelo iterativo) utilizando aritmética de punto fijo como forma de representación numérica. La descripción de las arquitecturas particulares, se llevará a cabo a partir del funcionamiento correcto de la descripción funcional algorítmica. Otro aspecto interesante es la modificación de los parámetros principales que afectan a las arquitecturas, ancho de palabra y número de iteraciones. Para verificar el funcionamiento de las descripciones, se utilizarán como referencia a las funciones seno, coseno y arcotangente. La validación se llevará a cabo utilizando MATLAB<SUP>TM</SUP> como herramienta de comparación.",6
7,"En la actualidad un área de creciente importancia dentro de las ciencias de la computación es el relacionado con el procesamiento distribuido sobre arquitecturas heterogéneas.\r\nDentro del área de Bases de Datos Distribuidas (DDB) es interesante el estudio de la eficiencia en la ejecución de transacciones en bases de datos con diferentes modelos de distribución, con o sin replicación.\r\nUna base de datos es la representación de una parte del mundo real en términos de objetos computables y las relaciones existentes entre ellos.\r\nUna DDB es un sistema que consiste de una colección de localidades, cada una de las cuales consiste en un sistema de base de datos centralizado. Las localidades de la base de datos son conectadas mediante un soporte de red y la comunicación entre ellas es por medio de mensajes. \r\nUn gestor de base de datos (DBM) es el software que permite la administración de los datos de la base. Los gestores de base de datos distribuidos (DDBM) proveen la misma funcionalidad que los DBM excepto que deben proveer la transparencia de ubicación, replicación y fragmentación al usuario. El trabajo realizado consiste en la implementación de una herramienta que permite generar un ambiente de prueba sobre el cual simular la ejecución de transacciones de diversa complejidad, parametrizando las características del modelo de distribución y los algoritmos globales a utilizar para la ejecución y el control de concurrencia.\r\nEl presente escrito se encuentra organizado en cuatro partes. La primera parte detalla los conceptos teóricos que se utilizaron como base en la implementación del simulador. La parte siguiente hace referencia a las principales características de las herramientas utilizadas durante el desarrollo. La tercera parte incluye la especificación de las características de diseño del trabajo y las experiencias realizadas y resultados obtenidos se encuentran la última parte.",6
15,"La Detección e Identificación Automática de Patentes de Automóviles requirió para su desarrollo, el estudio, implementación, combinación y adaptación de diversas técnicas de adquisición, representación y procesamiento de imágenes, como así también de reconocimiento y clasificación de patrones.\r\nEl objetivo principal de la investigación y el desarrollo consiste en “Obtener el número de la patente del vehículo representado en la imagen”.\r\nEn ia búsqueda de la solución surgen dos etapas significativas:\r\n- Detección de la patente del vehículo.\r\n- Reconocimiento de las letras y los números que la componen.\r\nLa realización de dichas etapas, mediante la implementación de las técnicas antes mencionadas, permite la obtención de una secuencia de procesos a realizar sobre la imagen de entrada, con el fin de alcanzar el objetivo principal.\r\nComo consecuencia de los desarrollos realizados se obtienen una “Herramienta de utilidad en el procesamiento digital de imágenes en general” y una “Herramienta para la creación y el entrenamiento de redes neuronales”.",6
21,"Kerberos es una conexión de software que se emplea en una red grande para establecer la identidad declarada de un usuario. Utiliza una combinación de encriptación (referenciado en el Capítulo 2 de la tesis) y Bases de Datos distribuidas de tal forma que un usuario pueda registrarse y comenzar una sesión desde cualquier computadora localizada en la red mediante la obtención de tickets para servicios de un servidor especial conocido como TGS (servidor despachador de tickets); cada ticket contiene información para identificar al usuario o servicio encriptada con la clave privada para el servicio. Como sólo Kerberos y el servicio conocen dicha clave, se considera que el mensaje está genuinamente originado en la fuente y que no fue adulterado en el transporte del mismo. El ticket otorgado por el TGS contiene una nueva clave de sesión que solo conoce el cliente y el servicio afectado. Esta clave será utilizada para encriptar las transacciones que ocurren durante la sesión.\r\nUna de las ventajas es que el ticket tiene un tiempo de vida específico, y una vez que éste expira, debe solicitarse un nuevo ticket al TGS para poder seguir utilizando el servicio. Para cada servicio se requiere un ticket distinto. Otra ventaja es que el usuario no debe reingresar la password cada vez que requiere un servicio, porque si el ticket TGS no expiró puede reusarlo para pedir otro ticket de servicio deseado. Por este motivo, el tiempo de vida del ticket TGS deberá ser mayor que el tiempo de vida del ticket de servicio (explicado en el Capítulo 3).",6
25,"Tradicionalmente, el problema de consultas por contenido, es decir, el problema de recuperación de imágenes que resulten similares a una imagen dada de una base de imágenes fue solucionado utilizando una firma digital para cada imagen que extraiga las características de interés para comparar. Posteriormente, utilizando una función de distancia (como métrica de diferenciación) adecuada, se puede determinar si dos imágenes poseen firmas digitales similares[Jac95]. Los métodos típicos para computar las firmas digitales fallan cuando consideran un subconjunto reducido de características de una imagen, retomando como similares imágenes que tienen ciertas características parecidas pero que no lo son considerando otras características importantes.",6


('Cluster:', 7)


Unnamed: 0,description,cluster_label
11,"Con el correr del tiempo, /as capacidades de generar y coleccionar datos se han incrementado con rapidez. El extenso uso de códigos de barras en al mayoría de los productos comerciales, la informatización de muchas actividades y de gestiones de gobierno, y los avances en herramientas de colección de datos; proveen enormes cantidades de ellos. La disponibilidad de poderosos sistemas de Bases de Datos y el crecimiento explosivo en los datos, generaron una urgente necesidad de algunas técnicas y herramientas. Estas deben poder, inteligentemente y automáticamente, transformar los datos procesados en información y conocimiento útil. En consecuencia, Data Mining se ha transformado en una área de investigación, cuya importancia se incrementa día a día. En este trabajo tratamos de presentar esta área y sus generalidades, y luego nos ubicamos en el problema de encontrar Reglas de Asociación Cuantitativas.",7
76,"El trabajo persigue dos objetivos:\r\n- Desarrollar un método de detección y clasificación de latidos que sea a la vez robusto y eficiente, de forma que pueda ser utilizado en ECG de 24 horas de duración adquiridos mediante dispositivos tipo Holter.\r\n- Desarrollar un sistema de análisis de grabaciones Holter que tenga utilidad clínica; este sistema será una aplicación concreta del método de detección y clasificación desarrollado.",7
110,"Nuestra tesis se basará en buscar una solución a las aplicaciones de Hipermedia Física, utilizando conceptos ya estudiados para la Hipermedia Tradicional, tratando de reutilizar desarrollos e implementaciones ya probadas. Además, trataremos de aplicar patrones de diseño, los cuales nos asegurarán una implementación más eficiente, debido a la posibilidad de encontrar estructuras que puedan ser aisladas, estudiadas y reutilizadas. Nuestra intención es aprovechar todos los beneficios ya establecidos para la Hipermedia y para el desarrollo de aplicaciones, para poder brindar recursos que faciliten la realización de aplicaciones en el contexto de la Hipermedia Física.\r\nHoy en día el ejemplo más común de Hipermedia son las aplicaciones web. A la hora de desarrollar una aplicación web, se debe decidir entre sí se utiliza un framework web o si se van a implementar manualmente todas sus funcionalidades. La mayor parte de estos frameworks implementan el modelo MVC y basan la creación de aplicaciones en dicho modelo. De más está aclarar, que los frameworks no basados en MVC es preferible descartarlos, ya que independientemente de su eficacia, aumentan las dependencias. El modelo MVC permite una separación casi perfecta entre lo que se conoce como modelo (ó la lógica de negocio), el controlador y la vista.\r\nDebido a que los cambios de requerimientos y especificaciones son una costumbre clásica en cualquier desarrollo, será mucho más fácil migrar una aplicación realizada en un framework MVC a otro framework de similares características, que intentar migrar una aplicación creada con un framework spaguetti que no siga ningún patrón de diseño claro.\r\nBasaremos nuestra tesis en los diseños de frameworks para Hipermedia, que implementan MVC, con la intención de conseguir una extensión de los mismos para soportar Hipermedia Física, que permita integrar la ubicación del usuario.",7
119,"Uno de los grandes problemas aún sin resolver de las nuevas tecnologías de la información y la comunicación aplicadas a la educación es la falta de una metodología común que garantice los objetivos de accesibilidad, interoperabilidad, durabilidad y reutilización de los materiales didácticos basados en Web.\r\nEn las actuales soluciones e-learning, generalmente los contenidos preparados para un sistema no pueden ser fácilmente transferidos a otro. Los estándares e-learning son el vehículo a través del cual será posible dotar de flexibilidad a las soluciones e-learning, tanto en contenido como en infraestructura. Ellos han abierto una puerta hacia una manera más coherente de empaquetar los recursos y contenidos, tanto para los estudiantes como para los desarrolladores.\r\nEsta convergencia de tecnologías e-learning es muy importante para los consumidores de estas tecnologías, debido a que los productos que se adhieran a estos estándares no quedarán obsoletos a corto plazo, protegiendo así las inversiones realizadas en este tipo de productos. Además, estándares comunes para asuntos tales como metadata de contenidos, empaquetamiento de contenidos, secuencia de contenidos, interoperabilidad de preguntas y test, perfil de alumnos, interacción en tiempo de ejecución, etc., son requisitos indispensables para el éxito de la economía del conocimiento y para el futuro del e-learning.\r\nEstas problemáticas, así como el estudio de los estándares que intentan resolverlas no han sido parte de lo estudiado durante la carrera. Sin embargo, a través de la materia Herramientas Tecnológicas aplicadas a la Educación, así como también el desarrollo de un Campus Virtual en mi desempeño laboral, han generado en mí un amplio interés por el área del e-learning, lo cual me ha llevado a desarrollar esta tesis.\r\nDurante el desarrollo del Campus Virtual antes mencionado me he encontrado con muchos de los problemas planteados anteriormente, especialmente en lo que concierne a la transferencia de material educativo de una plataforma a otra.\r\nCreo que el experimentar las problemáticas planteadas generan un mayor interés en el estudio de sus soluciones, así como la posibilidad de aplicar lo estudiado, no solo en mis tareas laborales sino también en los ámbitos de la facultad que lo requieran, como la posibilidad de generar material educativo portable para las cátedras de la misma.\r\nEl objetivo de esta tesis es analizar en profundidad los principales estándares que existen en al ámbito de e-learning, comparar las ventajas y desventajas de cada uno de ellos, y evaluar su aplicabilidad.",7
153,"En el contexto del desarrollo de software por pequeñas y medianas empresas en Iberoamérica y las dificultades de intentar aplicar estándares internacionales de calidad, se analizan los modelos que han surgido en distintos países para la aplicación en PyMEs, en particular el modelo CompetiSoft en su versión Perfil Básico y se presenta una propuesta para la evaluación del cuestionario del proceso ""administración de proyectos específicos"" y la aplicación de la misma en una PyME de la ciudad de La Plata.",7


('Cluster:', 8)


Unnamed: 0,description,cluster_label
0,"Las tres primeras secciones de este trabajo plantean el objetivo que se ha perseguido, su motivación y principales contribuciones, las que luego serán fundamentadas en los siguientes capítulos.\r\nLa cuarta sección presenta el estado del arte con respecto a los conceptos básicos sobre los que se ha trabajado, y al mismo tiempo explica qué faceta de cada uno es la que ha incidido en esta tesis. Cabe destacar que se suponen conocimientos básicos sobre el paradigma de orientación a objetos.\r\nLa quinta sección caracteriza las aplicaciones que podrán hacer uso de este trabajo a distintos niveles.",8
2,"El objetivo de este trabajo es brindar una metodología para documentación estructurada de componentes reusables que mantenga consistencia en la evolución de estas componentes y que muestre en que casos esta consistencia puede ser alterada. El trabajo está dirigido particularmente a poder expresar, mediante esta metodología, semántica de comportamiento de estas componentes.\r\nEste capítulo presenta en la sección 1.1 las motivaciones generales del trabajo, en la sección 1.2 los trabajos relacionados con la propuesta, en la 1.3 se presenta la propuesta y sus objetivos y por último se describe la forma en que se organiza el resto del trabajo.",8
10,"La tecnología de objetos propone un cambios profundo en la realización del software. No se trata de un nuevo lenguaje o herramienta de programación sino de un nuevo proceso de concepción de aplicaciones. Para una integración efectiva de la tecnología de objetos en un grupo de construcción de software se debe comenzar desde el principio: aprender y entender el modelo. No basta con ser capaz de programar C++, Java o Smalltalk; hay que entender y estar convencido de los principios del modelo que da soporte a la tecnología de objetos. Esto conlleva a necesidad de fortalecer y mejorar las técnicas de aprendizaje potenciándolas para las nuevas características de este paradigma.\r\nLa búsqueda de nuev.os enfoques para el aprendizaje de tecnología de objetos ha llevado a la formación de diversos grupbs de investigación y a la aparición de conferencias y publicaciones científicas al respecto. Algunos de ellos centran sus esfuerzos en los aspectos pedagógicos, como es el caso del Proyecto Pedagogical Patterns, otros en el desarrollo de herramientas de aprendizaje, como el caso de la línea sobre orientación a objetos de la conferencias ITiCSE, otros en el aprendizaje de objetos en general, como es el caso de el Educator's simposium en OOPSLA.\r\nEste trabajo expone los resultados de nuestros esfuerzos en pos de mejorar el proceso de aprendizaje de tecnología de objetos. El contexto de trabajo son las herramientas de software. En particular hemos adoptado LearningWorks, una herramienta ideada y desarrollada por la Doctora Adele Goldberg y su empresa Neometron y originalmente financiada por Mitsubishi Electronics. LearningWorks es un ambiente especialmente desarrollado para explorar y aprender acerca del proceso de desarrollo de software en objetos.\r\nLas extensiones presentadas aquí, discutidas y pautadas en acuerdo con los autores y propietarios de la herramienta, apuntan a fortalecer el ambiente y sus mecanismos de exploración del paradigma de objetos.",8
19,"La arquitectura cliente/servidor ha provocado un profundo cambio de paradigmas en la industria informática. Está reemplazando a las aplicaciones monolíticas de los mainframes por otras que están organizadas en un esquema de clientes y servidores. El cliente normalmente suministra una interface gráfica, mientras que el servidor administra el acceso a los recursos compartidos, como una base de datos.\r\nLos objetos distribuidos producen una revolución dentro de ese cambio de paradigmas. Dividen a los clientes y servidores de las aplicaciones en componentes capaces de colaborar e interoperar a través de las redes.\r\nCORBA, Common Object Requesí Broker Architecture, es una infraestructura emergente y abierta para la computación con objetos distribuidos. Define un estándard creado por el OMG, Object Management Group, que automatiza muchas tareas de programación sobre redes, facilitando la interoperabilidad de las aplicaciones a través de las distintas plataformas y lenguajes de programación.\r\nEste trabajo tiene por objetivo explorar la tecnología de CORBA aplicada a los objetos distribuidos. En la Parte 1 presentamos las ventajas de los objetos distribuidos comparados con otras tecnologías existentes. La Parte 2 describe en profundidad todos los detalles del ORB y los servicios disponibles. La Parte 3 cubre los business objects y ffameworks para el desarrollo de aplicaciones. En la Parte 4 presentamos el análisis, diseño e implementación de una aplicación distribuida con CORBA. Y finalmente, en la Parte 5, hay un glosario de vocabulario y una lista de la bibliografía consultada durante la investigación.",8
20,"El objetivo principal de nuestro trabajo es permitir, a los usuarios de aplicaciones hipermediales orientadas a objetos, formular consultas sobre la información perteneciente a los nodos y links del hipermedia, proveyendo una implementación de un componente que interprete y ejecute consultas expresadas en OOHQL.\r\nComo segundo objetivo, planteamos la necesidad de formalizar el proceso de ejecución de consultas sobre sistemas de hipermedia, desarrollando una especificación algebraica que permita expresar las consultas dentro de un marco formal, que nos posibilite luego realizar estudios de optimización y comparaciones en forma independiente del lenguaje de consultas a alto nivel y de la implementación del sistema.\r\nPor último, es nuestro objetivo, lograr una implementación lo suficientemente extensible y mantenible, haciendo un uso provechoso de las ventajas del paradigma orientado a objetos.",8


('Cluster:', 9)


Unnamed: 0,description,cluster_label
13,"El advenimiento de la computación paralela junto con las innovaciones tecnológicas producidas en este campo, han beneficiado la manera de atacar este tipo de problemas. Así, tenemos métodos de optimización paralelos, que introducen ideas y técnicas de la computación paralela en la teoría y en los algoritmos numéricos de optimización.\r\nA menudo la implementación de un algoritmo cambia la perspectiva que uno tiene del mismo. Es con los experimentos computacionales de testeo cuando uno puede tener realmente confianza en la eficiencia y robustez de un algoritmo de optimización matemático de gran envergadura.\r\nUna de las cosas que más nos motivó a emprender el desafío de este Trabajo de Grado es la posibilidad de que el mismo realice un aporte para poder resolver en forma más eficiente cada uno de los importantes problemas que se encuentran subyacentes en el modelo matemático a optimizar: reconstrucción de imágenes por proyecciones, aplicaciones médicas como el planeamiento de la terapia de radiación, programación no lineal para el planeamiento bajo incertidumbre, balanceo de matrices, optimización de redes, planeamiento financiero, etc.",9
22,"El tema de la segundad no es exclusivo del área de la informática sino que, por el contrario, lo rigen principios aplicables a diferentes ambientes, siendo la informática uno de sus tantos casos particulares. Cuando nos referimos al ambiente informático y nos planteamos los problemas de tener bien conservados los trabajos, asegurar la integridad de la información, y la reserva y privacidad de los datos ante extraños, es que se habla de seguridad de redes y de la implementación de sistemas de segundad. El objetivo de cualquier sistema de seguridad es minimizar las posibilidades de que se metan intrusos, la rápida detección de los mismos, y -si es necesario- la reconstrucción del estado de los datos al momento de la violación.",9
38,"En muchas aplicaciones se debe seguir la trayectoria de una entidad, característica u objeto sobre una secuencia de imágenes. Cuando el procesamiento debe hacerse en tiempo real, lleva consigo una complejidad importante y requiere esfuerzo en la paralelización de los algoritmos.\r\nEn el presente proyecto, se estudiará el caso particular de objetos simples moviéndose en un contexto alcanzable por el elemento de visión (cámara de video). Serán los objetivos principales:\r\n- Analizar y comprender las etapas relacionadas con los sistemas de visión por computadora, como son el mecanismo de tracking y el reconocimiento de objetos en una secuencia de imágenes.\r\n- Desarrollar los algoritmos que implementen una solución para dicho problema, permitiendo extraer de una secuencia de imágenes la información de objetos y sus movimientos.\r\n- Estudiar la paralelización de los algoritmos involucrados tanto en el proceso de reconocimiento de objetos como en el de seguimiento de sus trayectorias.\r\n- Implementar esta paralelización por medio de una herramienta de programación adecuada.\r\n- Por último, realizar un análisis cuantitativo del comportamiento de los distintos algoritmos y evaluar los resultados obtenidos. Esta evaluación permitirá conocer la efectividad de la paralelización realizada, y determinar bajo qué condiciones resulta ser ésta la mejor solución.",9
39,"Este es el Informe Final de Trabajo de Grado, que he realizado siguiendo los lincamientos de la Propuesta y el Informe de Avance del 50% aprobados en su oportunidad por la Comisión designada. Este informe esta dividido en una Parte Práctica y una Teórica. La Parte Práctica describe cada uno de los Módulos del Sistema de Pago On_Line, su instalación y su prueba, como asi también se detallan algunos puntos del análisis y del desarrollo de los mismos. La Parte Teórica de este Trabajo de Grado muestra parte de la información que he estudiado, aprendido y recopilado en estos dos últimos años.",9
43,"El objetivo de esta tesis de grado es presentar los últimos avances de las herramientas y tecnologías educativas.\r\nLas herramientas courseware descriptas previamente presentan una serie de características que hemos analizado y estudiado, como su estructura funcional, la arquitectura y los tipos de comunicación que proveen. De acuerdo a ellos confeccionamos una lista de características deseables en estos sistemas. Se pondrá particular énfasis no sólo en las arquitecturas de soporte de este tipo de herramientas sino también en cuestiones metodológicas de diseño de cursos con ellas. Para ilustrar esto, implementamos un prototipo de curso a partir del curso de Seguridad en Redes de Datos dictado por el profesor Francisco Javier Díaz, en el sistema courseware Lotus® LearningSpace<SUP>TM</SUP>. También planteamos una metodología de diseño de cursos basados en Web.",9


('Cluster:', 10)


Unnamed: 0,description,cluster_label
94,"Sobre la base de intentar solucionar los problemas de comunicación y teniendo presente que existen problemas que van más allá del alcance que se puede dar en un trabajo de grado de informática, esta tesis plantea problemas detectados y alternativas de soluciones para lograr organizar las comunicaciones y brindar métodos para lograr comunicar grupos de trabajos, tanto a nivel interno como a niveles inter grupos dentro de una organización a la vez que también en el trato con el cliente.",10
155,"Es frecuente en la industria del software que el alcance de la arquitectura se restrinja a la definición de tecnologías a utilizar. De esta manera, los responsables de la arquitectura de software suelen trabajan solo en etapas previas al comienzo del desarrollo y con una definición vaga de la arquitectura.\r\n¿Por qué consideramos que esta visión de la arquitectura no es adecuada para aplicaciones de tipo Enterprise? Porque:\r\n- La definición de la arquitectura no solo debe abarcar tecnología sino también definiciones conceptuales y, principalmente, pautas de uso de la arquitectura y de los frameworks elegidos;\r\n- El trabajo del equipo de arquitectura no concluye en la definción, sino que incluye una implementación y más aún, acompañamiento a lo largo del desarrollo.\r\nEl efecto negativo que produce este problema en aplicaciones pequeñas puede no ser alto, pero en aplicaciones Enterprise puede ser la causa del fracaso del proyecto: poco reuso, baja productividad, alto acomplamiento a tecnologías, dificultad de mantenimiento y extensión, entre otros.\r\nSobre la base de este problema, formulamos una definición de arquitectura sobre la que basamos nuestra tesis: “Soporte necesario para la construcción de los casos de uso, que ayude a garantizar el cumplimiento de los requerimientos no funcionales, asegure la calidad y maximice la productividad.",10
200,"En los últimos años, una de las áreas de negocios que más se ha expandido es la de las transacciones electrónicas financieras. En este marco ha aparecido jPOS, una biblioteca / framework OpenSource desarrollado en Java y basado en el protocolo ISO-8583, que puede ser personalizado y extendido para implementar transacciones electrónicas de todo tipo (incluyendo financieras). Los proyectos de esta índole suelen estar acompañados de información complementaria vinculada al negocio abordado. Dicha información debe ser administrada y gestionada desde una interfaz de usuario y su desarrollo puede ser tan costoso de realizar como el sistema transaccional propiamente dicho (o incluso más). Esto hace que se multiplique el trabajo de los programadores y que la atención sea desviada del objetivo principal. Es por esto que una herramienta integrada a jPOS, de fácil uso, integración y expansión puede ser de utilidad para reducir el desvío de la atención y la carga de desarrollo del proyecto, disminuyendo así costos y plazos.",10
201,"El objetivo de esta tesina es definir los puntos planteados por el modelo de madurez CMMI (metas y prácticas específicas de las áreas clave de proceso) que son mapeados directamente con el modelo MDD y para los casos en que no exista un claro y directo mapeo, se presentan pautas generales para que la organización tenga en cuenta y pueda cubrir esas áreas clave con otras actividades que caen fuera de la definición de MDD. Dado que CMMI no impone una metodología en particular de desarrollo de software para poder realizar una medición de madurez, y tampoco define las condiciones que se deben cumplir para cada tipo de metodología, se definen las pautas a aplicar para MDD dada la poca información existente sobre el tema. Para lograr el objetivo planteado, se desarrolla una investigación sobre el modelo CMMI-SW describiendo los requisitos que debe cumplir un proyecto de software, independientemente de la metodología de desarrollo que utilice, para aplicar a cada uno de los cinco niveles definidos. Tomando como base esta investigación, se realiza el correspondiente mapeo con la metodología de desarrollo RUP, tal vez la más conocida y utilizada en el mercado, y luego lo que nos interesa, el mapeo con MDD.",10
229,"El mundo de los negocios actuales está sufriendo muchos cambios, ya no basta con generar reportes y realizar una correcta planificación. Se deben incluir herramientas de optimización para crear soluciones de negocios adaptativas como por ejemplo para límites de créditos, precios y descuentos, y scheduling. Esto redundará en beneficios para la empresa ya sea en la disponibilidad de tecnología de avanzada como también en la disminución de los costos asociados a la toma de decisiones óptimas, también incrementará la capacidad para aprender de experiencias previas y para adaptar a cambios en el mercado. En estos últimos años se han realizados muchos estudios de investigación respecto de la aplicación de las técnicas de computación evolutiva para la solución de problemas de scheduling. La principal ventaja de las técnicas evolutivas es su habilidad para proveer buenas soluciones a problemas extremadamente complejos usando tiempos razonables. En este trabajo se hace un revisión de las clases y características de algoritmos evolutivos así como también algunas mejoras introducidas a los mismos. Entre estas últimas se pueden incluir múltiple crossover, multiplicidad de padres y prevención de incesto. Asimismo se presentan algunas variantes de algoritmos evolutivos planteados para la resolución de un problema particular de scheduling como lo es el problema de job shop scheduling.",10


('Cluster:', 11)


Unnamed: 0,description,cluster_label
62,"This is an undergraduate thesis to obtain the degree of Licentiate in Computer Science in University of La Plata, Argentina. Since by standing rules of the institution this work must be presented in Spanish, the author would like to cross-refer the reader to a shorter English version of this work [Martinez Lopez and Badenes, 2003], that is being published in the Proceedings of the VII Argentinian Workshop on Theoretical Computer Science (WAIT 2003, Buenos Aires, September 2003). There, the core chapters of this work (Simplification, chapter 2, and Solving, chapter 3) are included (with a lower level of detail). In any case, we give an English introduction for better understanding the scope of this work.",11
266,"The Rijndael cipher, designed by Joan Daemen and Vincent Rijmen and recently selected as the official Advanced Encryption Standard (AES) is well suited for hardware use. This implementation can be carried out through several trade-offs between area and speed. This thesis presents an 8-bit FPGA implementation of the 128-bit block and 128 bit-key AES cipher. Selected FPGA Family is Altera Flex 10K. The cipher operates at 25 MHz and consumes 470 clock cycles for algorithm encryption, resulting in a throughput of 6.8 Mbps. Synthesis results in the use of 460 logic cells and 4480 memory bits. The VHDL code was simulated using the test vectors provided in the AES submission package. The results are functionally correct. The architecture needs fewer logic cells than other ciphers and uses as few memory blocks as possible. The design goals were area and cost optimisation.",11
268,"Tanenbaum's MINIX Operating System was extended with a Real-Time microkernel and services to conform MINIX4RT, a Real-Time Operating System for academic uses that includes more flexible Interprocess Communications facilities supporting basic priority inheritance protocol, a fixed priority scheduler, timer and event driven interrupt management, statistics and Real-Time metrics gathering keeping backward compatibility with standard MINIX versions.",11
272,"The objective of this work is to develop a chat application between systems embedding the ColdFire processor utilizing Mobile IPv6 and TCP protocols in order to demonstrate that TCP connections are maintained while a device roams between two Ethernet 802.3 networks and that a peer node can be located even though it is not attached to its home network. Furthermore, it will be demonstrated that mobility is transparent to upper layers and the benefits this fact brings up.",11
314,"The C preprocessor is heavily used in C programs because it provides useful and even necessary additions to the C language. Since preprocessor directives are not part of C, they are removed before parsing and program analysis take place, during the phase called preprocessing. In the context of refactoring, it is inappropriate to remove preprocessor directives: if changes are applied on the preprocessed version of a program, it may not be possible to recover the un-preprocessed version. This means that after refactoring, all the source code would be contained in a single unit, targeted to a single configuration and without preprocessor macros. This thesis describes a novel approach to preserve preprocessor directives during parsing and program analysis, and integrate them in the program representations. Furthermore, it illustrates how the program representations are used during refactor ing and how transformations preserve preprocessor directives. Additionally, the semantics of the C preprocessor are formally specified, and the results of implementing this approach in a refactoring tool for C, CRefactory, are presented.",11


('Cluster:', 12)


Unnamed: 0,description,cluster_label
1,"Si bien ambos modelos [modelo en cascada y prototipación][ ofrecen una buena ayuda para el desarrollo de soft, tienen el inconveniente de que dicen “que” es lo que hay que hacer, pero sin decir el “como”. Este trabajo tiene por objetivo plantear el “como” para la fase de análisis de requisitos y diseño preliminar, en un ambiente de objetos. Se refinan métodos y heurísticas del modelo del baseline tratado en [Leite 90], [Leite 93], [Leite 95b] y [Leite 97c], Y se implementa una herramienta que soporta el modelo presentado.\r\nLa organización del trabajo es la siguiente: en los puntos 1.1.2, 1.1.3 y 1.1.4 se da una idea introductoria y global de todo el modelo. En los puntos 1.2, 1.3 y 1.4 se tratan en profundidad cada uno de los pilares del modelo: LEL, Escenario y clases candidatas, respectivamente. Y por último, en la sección 2 se trata la herramienta que automatiza el modelo presentado.",12
3,"El aporte más importante de este trabajo es la definición de una arquitectura que permite la definición y el tratamiento de un campo continuo como un objeto del sistema; esto significa: \r\n• El campo continuo se define como un conjunto finito de pares (posición, valor) conocido a través de algún método de toma de datos (la muestra origen) más un método de estimación necesario para calcular puntos intermedios que no han sido relevados. \r\n• Se pueden asociar distintos algoritmos de estimación a una muestra y, en el caso necesario, cambiar dicho algoritmo dinámicamente, de manera transparente a la aplicación subyacente. \r\n• Es posible definir y asociar distintos métodos de implementación para una muestra determinada. \r\n• El encapsulamiento del campo continuo permite utilizarlo como un objeto en sí mismo o asociar valores del campos a objetos (discretos) a través de atributos. \r\nEn el capítulo 2 se describen las principales características de los sistemas de información geográfica. Además de considerar cúales son los principales elementos de estos sistemas, se detallan los diferentes procesos que aparecen en el desarrollo y utilización de los sistemas en particular: \r\n• la entrada de datos, la cual tiene una importancia vital en el proceso, pues ésta determinada en gran parte cúan correcta (y por lo tanto cúan confiable) es la información que se está manipulando. \r\n• La manipulación de los datos se describe a partir de las funciones de análisis que utilizan la mayoría de los productos de SIG existentes en el mercado. \r\n• La definición de las interfaces que definen la salida de información y el análisis que se puede realizar sobre los datos geográficos. \r\nEn el capítulo 3 se detallan las estructuras de datos que se utilizan para soportar información geográfica y se plantean discusiones sobre el uso de cada una. \r\nEn el capítulo 4 se describen los conceptos básicos del modelo de objetos que se utiliza como base para la definición de la arquitectura para manipular campos continuos. Este modelo está basado en la tecnología de “Patrones de Diseño” [Gamma et al.95] la cual se describe sucintamente incluyendo un ejemplo. \r\nEn el capítulo 5 se introducen los conceptos básicos de un campo continuo y las operaciones que habitualmente se requieren sobre este tipo de datos. Se discuten los problemas que existen actualmente para la representación y manipulación de los mismos y se describen algunas investigaciones referentes al tema. \r\nEn el capítulo 6, se describe la arquitectura definida para campos continuos sobre la base del modelo descripto en el capítulo 4. Se detalla la arquitectura y se especifican las ventajas de su definición. Para mayor claridad se define un ejemplo en el que se muestra su uso. \r\nEn el capítulo 7 se presenta una implementación posible para la arquitectura definida en el capítulo 6. \r\nEn el capítulo 8 se describen algunos trabajos relacionados que utilizan técnicas de la orientación a objetos para modelizar aplicaciones SIG. También se hace una discusión sobre las ventajas de la arquitectura presentada en esta tesis. \r\nEn el capítulo 9 se describen las conclusiones, así como los trabajos futuros que complementarán el proyecto.",12
23,"El objetivo de esta tesis es enriquecer los métodos de diseño de aplicaciones SIG, utilizando el Modelo Orientado a Objetos. En particular se pretende estudiar la semántica de las relaciones de composición de este modelo con objetos referenciados geográficamente. Para ello, es necesario estudiar cóomo se reflejan las relaciones de composición conceptuales en un modelo geográfico. Además es necesario identificar composiciones conceptuales y composiciones que se refieren a las posiciones y a la geometría de los objetos. De esta forma se hace necesario ampliar la semántica de estas relaciones de manera de poder reflejar la composición en ambos niveles. Para realizar este trabajo se tomará como base el modelo de diseño propuesto en [Gordillo et al.97], que define dos niveles en el desarrollo de una aplicación geográfica: el nivel conceptual, en donde se definen las clases sin tener en cuenta sus características espaciales y el nivel geográfico en donde se refinan los objetos de manera de incorporar características espaciales. Este modelo utiliza el concepto de “Patrones de Diseño” para resolver situaciones recurrentes.",12
27,"Mucho hay escrito sobre análisis y diseño orientado a objetos que es imposible seguirlos a todos. La mayoría de los escritores se concentra en notaciones técnicas sujeta a un proceso simple y modelando algunos ejemplos. Si bien son importantes conocer las técnicas de modelado y saber como usarlas, también es importante es poder reusarlas.\r\nFrecuentemente se encuentra que muchos aspectos de un proyecto revisten problemas que ya se visto anteriormente. Por lo que podríamos reusar modelos que han sido construidos anteriormente, mejorándolos y adaptándolos a nuevas demandas.\r\nEsta investigación se encuentra basada en la utilidad de los patrones de análisis en los sistemas de software, que reflejan la estructura conceptual de proceso de negocios más que la implementación del software.\r\nLos patrones de análisis son un nuevo concepto en el desarrollo de software. Y el uso de ios mismos nos ayuda a la comprensión de los modelos.\r\nEste trabajo introduce un ejemplo de un Sistema de Historias Clínicas Únicas para mostrar como el patrón de análisis puede ser aplicado, para proveer una solución inicial rápida para plantear el modelo.",12
28,"A fines del año 1997, habiendo concluido la cursada de la carrera de Licenciatura en Informática, debimos orientar nuestros esfuerzos hacia la definición de un tema que se concretara en una tesis. Pero no fue, hasta fines de 1999, que realmente dedicamos nuestro tiempo a esta investigación. Comenzamos reconociendo problemáticas que podían ser satisfechas en el ámbito informático, que nos movilizaran a la adquisición de conocimientos teóricos y técnicos y que, al mismo tiempo, puedan ser profundizadas y resueltas con el desarrollo de una tesis.\r\nFinalmente, basados en el incremento y exceso de información que existe en nuestros tiempos, y la imposibilidad de poder ubicarla correctamente, optamos por el tema de buscadores, presentado por Javier Díaz, que podían ayudar en la resolución de esta problemática en el contexto de Internet. Esto fue sólo el puntapié inicial y, una vez que ahondamos en el tema, vimos la posibilidad de profundizar en él, llevándonos a la di versificación del tópico inicial hacia los metabuscadores y los agentes móviles, ya que apoyarían en la resolución de la problemática y servirían como sustento conceptual para el desarrollo de la aplicación. Además, como el buscador inicialmente no tenía información, se pensó en brindarle la capacidad de aprender del resto de los buscadores.\r\nFue así que, en Diciembre de 1999, presentamos la propuesta para la resolución de esta problemática a través de un metabuscador denominado BIPI, acrónimo de Buscador Inteligente Para Internet, que se ve realizada en esta investigación aplicada y que, en los capítulos y apéndices siguientes, se define.\r\nYa en la presentación de la propuesta se vislumbraban cuestiones que debían ser resueltas a lo largo de la investigación y desarrollo de la tesis. Entre estas preguntas se encuentran cuestiones claves como: ¿Cómo definir el metabuscador y que funcionalidad debe incluir? ¿Qué características de los demás buscadores se deben adoptar? ¿Es el concepto de agente móvil el adecuado para el propósito del desarrollo? ¿Qué herramientas brindan la versatilidad necesaria para construir la aplicación? ¿Será útil el metabuscador obtenido y resolverá la problemática inicialmente planteada?",12


('Cluster:', 13)


Unnamed: 0,description,cluster_label
34,"El presente trabajo de grado surgió para canalizar inquietudes respecto del uso de la computadora en el aprendizaje. El objetivo inicial tuvo su origen en la idea de realizar un aporte para lograr mejorar el nivel de lectura y escritura de los estudiantes secundarios, en una forma amena, ágil, con un medio atractivo o usual para ellos, como es la computadora; mediante algunos de los mejores textos literarios de ficción de habla española, su análisis e interpretación. Las técnicas que se han utilizado para llevar a cabo desarrollos informáticos orientados al aprendizaje han sido diversas, siendo la hipermedia una de las que goza de mayor aceptación. Esta tecnología proporciona características que resultan muy útiles en el campo del aprendizaje por computadora, como son la interactividad, el uso de grandes bases de información, la información multimedia y la representación del conocimiento de forma similar a la forma de procesamiento de la información del alumno.",13
46,"Se está haciendo un considerable progreso en la integración de los sistemas de información espacial, GIS y los modelos matemáticos que rigen en medioambiente. Para la mayoría de los proyectos de modelos ambientales, los GISs son vistos como bases de datos apropiadas y bien estructuradas para el manejo de grandes cantidades de datos espaciales. La herramientas GIS tradicionales, como los overlays y buffering son también importantes para el desarrollo de juegos de datos derivados (derivative datasets) que sirven para generar vistas sobre variables. Muchos expertos esperan que pronto se incorporen mejores métodos de análisis espacial a los GIS actuales, la tecnología GIS se convertirá en una herramienta importante en todos los aspectos del modelamiento, incluyendo construcción de modelos, validación y operación. Sin embargo, existen grandes incompatibilidades que obstruyen la verdadera integración. Los GIS manejan datos estáticos y discretos mientras los modelos ambientales tratan fenómenos dinámicos y continuos.\r\nLas BD GIS manipulan datos en términos de ubicación, distribución y relaciones espaciales, mientras que los modelos ambientales trabajan con la transferencia masa y energía. Para lograr una integración total de ambos necesitamos agregar el dinamismo y la continuidad a nuestro concepto de datos espaciales; e interacción espacial y funcionalidad a los modelos ambientales.\r\nEste trabajo de investigación apunta a la primera de estas necesidades, considerando lo que implica trabajar con fenómenos continuos directamente en el contexto de GIS. Se tendrá en cuenta cómo los fenómenos espacialmente distribuidos se caracterizan en los modelos ambientales, una estrategia para trabajar con dichos fenómenos de manera que puedan ser eficientes y convincentemente incorporados en aplicaciones GIS.\r\nYa que la mayoría de los fenómenos ambientales tratan con fenómenos que son continuos en el espacio, es necesario proveer formas en las que los modeladores puedan trabajar directamente con los fenómenos continuos, en vez de verse forzados a trabajar con datos espaciales discretos.\r\nDebemos reconocer que los datos espaciales son representaciones de la realidad, no la realidad en sí, por lo que deberíamos concentrarnos en lograr un análisis que no dependa de la representación, sino de la realidad en sí (frame free analysis).",13
64,"Un proceso efectivo proporciona normas para la realización de aplicaciones eficientes y de calidad. Además guía a los distintos participantes (desarrolladores, clientes y usuarios) de un proyecto.\r\nEl método debe ayudarnos a conseguir aplicaciones con características tales como extensibilidad, cambiabilidad y reusabilidad y a descubrir, tempranamente, los riesgos que pueden llevar al fracaso del software.\r\nEl proceso de desarrollo de software está compuesto por varias actividades diferentes. La pregunta que nos surge es: ¿cómo deben organizarse estas actividades para lograr la calidad deseada en el producto final?",13
87,"A pesar de la existencia de una gran variedad de aplicaciones groupware, que soportan muchas tareas cooperativas, varios estudios de la CSCW encontraron que tales aplicaciones no soportan adecuadamente la variabilidad del trabajo cooperativo en las organizaciones.\r\nSin embargo desarrollar esta clase de aplicaciones es una tarea compleja, dado que involucran diversas áreas de trabajo, tales como sistemas distribuidos, comunicaciones, interfaces humano-computador, bases de datos, y algunas otras áreas más.\r\nEn aplicaciones groupware que desempeñan funciones en un espacio de trabajo compartido, tales como las aplicaciones colaborativas sincrónicas, es imprescindible mantener alguna clase de consistencia entre dos o más representaciones del mismo espacio de trabajo compartido, a pesar de las actividades concurrentes de los usuarios en el mismo instante de tiempo.\r\nAsí es que uno de los problemas con los que deben enfrentarse los desarrolladores de tales aplicaciones, es que muchas veces las actividades concurrentes de los usuarios conducen a acciones concurrentes sobre el mismo espacio de trabajo compartido, lo cual puede causar representaciones inconsistentes de la misma información.",13
96,"La falta de asistencia en el diseño de integraciones de servicios groupware, ejemplos y arquitecturas que sirvan de guía y ayuden a realizar integraciones efectivas, conlleva a que cada vez que alguien necesite realizar una integración, la misma se lleve a cabo desde cero. Con lo cual los problemas que ya fueron resueltos por otras personas previamente se vuelvan a resolver desde cero una y otra vez. Una forma de abstraerse de los problemas inherentes de los diseños orientados a la implementación, es la utilización de patrones de diseño de software. Los mismos documentan soluciones ya probadas por medio de arquitecturas mínimas que luego pueden ser implementadas por medio de las tecnologías que se seleccionen. El objetivo de esta tesis es el estudio de los servicios groupware existentes, el desarrollo y la compilación de un catálogo de patrones de servicios groupware y de patrones de integración de servicios groupware.",13


('Cluster:', 14)


Unnamed: 0,description,cluster_label
14,La primera parte de este trabajo tiene como objetivo describir la especificación de CORBA (Common Object Request Broker Arquitecture) en general. En la segunda parte veremos cómo CORBA se Integra con Java. La Tercera parte incluye la comparación de CORBA con otros sistemas que permiten construir aplicaciones Client/Server y se perfilan como sus competidores.\r\nComo apéndice presentaré un ejemplo práctico del uso de CORBA con JAVA a través de una aplicación.,14
24,"Un caching proxy server colecciona todas las páginas que pasan a través de él, así cuando un usuario pregunta por una página, el proxy server, si la tiene, la retoma de su cache, sin necesidad de acceder al servidor real. De ésta manera se ahorra ancho de banda y se agilizan las respuestas.\r\nCada requerimiento que arriba a un proxy ó a un servidor, se almacena en archivos de logs. Existen varios tipos de archivos de logs, que se utilizan para auditoría del rendimiento, monitoreo, control de errores, seguridad y estadísticas.\r\nAsí, existen actualmente muchos analizadores de logs de Web, que permiten realizar un estudio detallado de un sitio, ayudando a la planificación y a la auditoría de seguridad.\r\nEn éste trabajo, se plantea la problemática de no actualización de los logs de servidores cuando está de por medio un servidor proxy, ya que en éste esquema, el log del servidor no refleja la realidad de accesos al mismo.\r\nEsto ocurre, porque cuando un servidor proxy retoma documentos al cliente desde su cache local, dichos movimientos quedan registrados en el log del proxy y no en el log del servidor.\r\nPor éste motivo, la información recolectada por los analizadores de logs no es exacta y se distorsiona, provocando estadísticas no tan precisas.\r\nComo solución, la idea es mantener el archivo de log de accesos del servidor actualizado, para lo cuál se necesita intercambiar información entre logs de proxies y logs de servidores, es decir, lograr una sincronización de los mismos.\r\nSe proponen aquí dos modelos para resolver la problemática enunciada, y se analizan los pro y los contra de cada uno. Así, se adoptará alguno cómo solución, o ambos como dos métodos alternativos.",14
35,"Este proyecto se concentró especialmente en los métodos utilizados para la captura y filtrado de paquetes, y para ello, el primer paso fue la especificación de la plataforma seleccionada: sistemas Unix o basados en Unix (sistemas Linux). Esta selección se fundamentó, principalmente, por su performance, confiabilidad y alta disponibilidad de herramientas que dichas plataformas soportan. La flexibilidad de estos sistemas es aún mayor si se considera que el código fuente de algunos de ellos es abierto (como es el caso de Linux). Por otra parte, las herramientas de monitoreo, requieren determinadas características que estos sistemas pueden brindar (manejo de threads, manejo de tareas en forma automática mediante scripts,…).\r\nEl control de procesos provisto por los sistemas basados en Unix incluye la creación de nuevos procesos, la ejecución de programas y la terminación de procesos. Contando solamente con lo recién mencionado, la única manera de que los procesos intercambien información es transfiriéndola a través de archivos abiertos mediante las llamadas al sistema fork o exec, o a través del sistema de archivos (file system). En esta implementación se utilizó la segunda forma de comunicación (accediendo a los archivos mediante funciones del sistema de archivos).",14
36,"La idea principal de nuestro proyecto es la implementación de un Lector de Noticias online/offline, desarrollado en lenguaje Java. Para llevar a cabo nuestro desarrollo tuvimos como objetivo de implementación el cumplimiento de las carácterísticas básicas de la mensajeria dentro de Usenet, la integración de dos importantes servicios de internet, mail y newsreader y la implementación de una interfaz gráfica que permita visualmente guiar al usuario por las distintas funcionalidades del lector. Asimismo hicimos hincapié en la reducción del tiempo de conexión, manteniendo la historia de la sesión de trabajo de cada usuario.",14
60,"El nacimiento de Internet significó un cambio revolucionario que en nuestros tiempos es comparado por su magnitud como la revolución industrial de la década del 30’ u otros eventos que marcaron un antes y un después en la historia del hombre. Por primera vez se pudo acceder a un volumen de información prácticamente infinita para la capacidad de consumo del ser humano. Esto representó una ventaja y un inconveniente a la vez. Por un lado, cualquier usuario se beneficia con la existencia de toda esta información. Por el otro, se hace muy complicado organizar y clasificar la información de forma tal que sea legible y útil.\r\nEn un ámbito caótico como la red, la información buscada podría no estar disponible en el momento de efectuar la búsqueda, pero si un momento después. De manera que seria deseable tener algún tipo de proceso automático que nos avise en el momento en que surja o se encuentre disponible esta información.\r\nDentro de la ciencia de la información, un nuevo tipo de tecnología surge cada vez con mayor fuerza. Sus componentes son denominados agentes.\r\nAl plantearnos un desarrollo para nuestra tesis de grado, se nos enfrentó con el desafío de cómo encontrar información dentro del caos de datos lo más sintética posible y que esté lo más cercana posible al resultado que desea el usuario.\r\nNos pusimos entonces como objetivo primordial la utilizar software de desarrollo de aplicaciones basadas en agentes para poder desarrollar una aplicación amigable de búsqueda de información. Hicimos que los agentes ayudaran al usuario a organizar búsquedas de información de acuerdo a gustos del usuario, las programara y esperara los resultados. Además, los agentes fueron programados para aprender del usuario, haciendo más fácil las búsquedas posteriores.\r\nA pesar de que nos planteamos una tesis aplicada, que hace escala en muchas tecnologías, eso no implica que la aplicación terminada sea perfecta o utilice las mejores técnicas conocidas, lo que sobre todo buscamos con esta tesis era demostrar que se podía hacer, usando las tecnologías existentes, y que el aplicativo terminado tenía bases que pudieran llevarse a la práctica, aunque en la actualidad eso no es posible.",14
