In [141]:
from pymongo import MongoClient
from IPython.display import JSON
import pandas as pd
from unidecode import unidecode

In [142]:
def str_normilize(word):
    """
    Normalize a string to lowercase and remove accents.

    Parameters
    ----------
    word : str
        string to be normalized.

    Returns
    -------
    str
        normalized string.
    """
    return unidecode(word).lower().strip().replace(".", "")

In [151]:

def is_thesis(work_type):
    """
    Check if the work type is a thesis.

    Parameters
    ----------
    work_type : str
        work type.

    Returns
    -------
    bool
        True if the work type is a thesis, False otherwise.
    """
    filters=["tesis","thesis","trabajo de grado","monografia","disertacion","monografia","monograph","bachelor"]
    for t in filters:
        if t in str_normilize(work_type.lower()):
            return True
    return False

In [145]:
c=MongoClient()
db=c["oxomoc_colombia"]

In [146]:
cols = sorted([i for i in db.list_collection_names() if "records" in i and "dspace" in i])
cols

['dspace_areandina_records',
 'dspace_artesaniasdecolombia_records',
 'dspace_car_records',
 'dspace_ccb_records',
 'dspace_cecar_records',
 'dspace_ceipa_records',
 'dspace_ces_records',
 'dspace_cesa_records',
 'dspace_corhuila_records',
 'dspace_cuc_records',
 'dspace_cun_records',
 'dspace_ecci_records',
 'dspace_ecr_records',
 'dspace_educacionbogota_records',
 'dspace_eia_records',
 'dspace_elpoli_records',
 'dspace_endeporte_records',
 'dspace_escuelaing_records',
 'dspace_esdegrepositorio_records',
 'dspace_fucsalud_records',
 'dspace_fumc_records',
 'dspace_ibero_records',
 'dspace_icesi_records',
 'dspace_itc_records',
 'dspace_itfip_records',
 'dspace_itm_records',
 'dspace_iue_records',
 'dspace_javeriana_records',
 'dspace_juanncorpas_records',
 'dspace_konradlorenz_records',
 'dspace_lasalle_records',
 'dspace_libertadores_records',
 'dspace_minciencias_records',
 'dspace_pedagogica_records',
 'dspace_poligran_records',
 'dspace_sena_records',
 'dspace_tdea_records',
 'ds

In [147]:
all_types=[]
for col_name in cols:
    col=db[col_name]
    pipeline = [
        {
            "$unwind": "$OAI-PMH.GetRecord.record.metadata.dim:dim.dim:field"
        },
        {
            "$match": {
                "OAI-PMH.GetRecord.record.metadata.dim:dim.dim:field.@element": "type"
            }
        },
        {
            "$group": {
                "_id": "$OAI-PMH.GetRecord.record.metadata.dim:dim.dim:field.#text"
            }
        },
        {
            "$project": {
                "_id": 0,
                "unique_types": "$_id"
            }
        }
    ]
    
    # Ejecutar la consulta
    result = col.aggregate(pipeline)
    
    # Mostrar resultados
    unique_types = [doc['unique_types'] for doc in result]
    all_types.extend(unique_types)

In [148]:
def get_doc(tipo):
    for col_name in cols:
        col=db[col_name]
        rec = col.find_one({"OAI-PMH.GetRecord.record.metadata.dim:dim.dim:field.@element": "type","OAI-PMH.GetRecord.record.metadata.dim:dim.dim:field.#text":tipo})
        if rec:
            return rec
    

In [149]:

all_types = [str_normilize(i) for i in all_types if i]
all_types=list(set(all_types))
len(all_types)

3246

In [170]:
rterm=["fu-","pt-","seccion","version","pre-escolar","http","purl","semantics"]
for term in rterm:
    all_types = [i for i in all_types if term not in i ]


In [198]:
filters=["book","libro","articulo","article","paper","documento","document","monografia","monograph","report",
         "review","revision","ficha","manual","trabajo", "apropiacion","material","object","objeto","caso","project","proyecto","audio","grabación"
        "analisis","investigacion","apropiacion","page","pagina","esquema","work","arte","etno","noticia","thesis","tesis","cuento","mapa",
         "podcast","radio","anal","reseña","curso","nota","product","conferenc","text","infor","memo","obra",
        "produccion","pre-","anima","boletin","capitulo","print","carta","cartilla","guia","cuadern","poema","post","plan","acta",
        "anuario","study","estudio","editorial","video","translation","traduccion","software","ensayo","ponencia","narración",
        "resen","infografia","composicion","bachelor","traduc","data","dato","resume","relato","research","consultoria","disertacion",
        "note","entrevista","folleto","patent","mooc","contribucion","congreso","revista","taller","seminario","event","practica",
        "dossier","coloquio","draft","revisao","aplicativo","web",
        "academic",
 'acuerdo',
 'afiche',
 'agenda',
 'art gallery',
 'articuos evaluados por pares',
 'artigo',
 'artigo de pesquisa',
 'artigo de reflexao',
 'aticulo',
 'bibliography',
 'biografico narrativo',
 'borradores de administracion',
 'busto',
 'cartillero',
 'catalogo',
 'censo',
 'ceramica',
 'cine expandido',
 'coleccion',
 'collection',
 'colofon',
 'colophon',
 'comentario invitado',
 'comites, arbritros, et',
 'comparativo',
 'comunicaciones breves',
 'conjunto escultorico',
 'conjunto escutorico',
 'conservacion',
 'contributiontoperiodical',
 'creacion de redes',
 'creacion o interpretacion',
 'creacion o onterpretacion',
 'debate',
 'decreto',
 'desarrollo tecnologico e innovacion',
 'diagnostico',
 'diagnostico bioquimico por tincion de filipin',
 'diagnostico territorial',
 'diagrama',
 'diario',
 'dibujo',
 'docencia - lectura critica',
 'doss-cr',
 'draf',
 'encuentro',
 'encuentro interdisciplinario',
 'encuesta',
 'encuesta corta',
 'encuesta; observacion directa',
 'encuestas',
 'encuestas a turistas en distintas rutas gastronomicas',
 'ensamble escultorico',
 'errata',
 'erratum',
 'escultura',
 'escultura - talla',
 'escultura pedestre',
 'estatutos',
 'fe de erratas',
 'flujograma',
 'foro',
 'fotografia',
 'fotografias',
 'generacion de nuevo conocimiento: otra publicacion divulgativa',
 'glosario',
 'grabacion sonora',
 'grabaciones sonoras',
 'grafico y simulacion',
 'hermeneutico',
 'hermeneutico, cualitativo',
 'hipermedia narrativo',
 'historia de los imperios; historia cultural de la ciencia',
 'historiografico',
 'image',
 'image, 3-d',
 'imagen',
 'imagen fija',
 'imagen fotografia',
 'imagenes',
 'imagenfotografia',
 'instrucciones a los autores',
 'instructions',
 'interactive resource',
 'interactiveresource',
 'interdisciplinario',
 'internship',
 'interview',
 'investigacao qualitativa',
 'investigacion',
 'investigation',
 'investigative section',
 'investigativo',
 'investiugacion accion educativa',
 'invetigacion cualitativa',
 'journal',
 'lectura',
 'lecturas criticas',
 'legal y contenidos',
 'letter',
 'librillo',
 'literatura gris',
 'magazine',
 'manuscript',
 'manuscripts',
 'manuscrito',
 'map',
 'marco logico',
 'marcos logicos',
 'micrositio',
 'modelo a escala',
 'modelos y prototipos',
 'montaje',
 'montaje escenico',
 'multimedia resource',
 'musical composition',
 'narracion transmedia',
 'netart',
 'norma legal',
 'obituario',
 'other',
 'otre',
 'otro',
 'otros',
 'participacion ciudadana',
 'partitura',
 'partituras',
 'pasantia',
 'performance',
 'periodico',
 'photography',
 'pintura',
 'placa',
 'plataforma web',
 'plegable',
 'poa',
 'portal web',
 'programa radial',
 'protocol',
 'protocolo',
 'protocolos',
 'publicacion academica',
 'publicacion seriada',
 'publisher',
 'recording, oral',
 'reda',
 'referencia bibliografica',
 'referencial',
 'reflection',
 'reflexion',
 'reflexion academica',
 'registro de performance',
 'regulaciones, normas, reglamentos o legislaciones',
 'resolucion',
 'resolucion|',
 'sitio web',
 'stillimage',
 'talla',
 'taxonomia',
 'trajo de grado',
 'website',
]
filtered=[]
for p in all_types:
    for f in filters:
        if f in p :
            filtered.append(p)
len(filtered)
#all_types = list(set(all_types)-set(filtered))

1959

In [199]:
filter_works=["book","libro","articulo","article","paper","monografia","monograph","report",
         "thesis","tesis","capitulo","bachelor",
        "note"]

In [200]:
len(filtered)

1959

In [201]:
len(set(filtered))

1182

In [202]:
post_filters=["la investigacion","la presen"]
for term in post_filters:
    filtered = [i for i in filtered if i not in term]

In [203]:
len(filtered)

1957

In [204]:
filtered = list(set(filtered))
len(filtered)

1181

In [205]:
set(all_types)-set(filtered)

{'"actividad antioxidante de variedades de cannabis del cauca - colombia"',
 '"antioxidant activity of cannabis varieties from cauca - colombia"',
 '"efectos tributarios y su propagacion sobre los sectores economicos de colombia"',
 '"tax effects and its propagation over the colombia economics sectors"',
 '"the carrot and its export potential in alemania"',
 '"txt"',
 '1',
 '150',
 '170',
 '2019',
 'abduccion',
 'abstract',
 'acceso restringido',
 'accion',
 'accompaniment, catholic church, person, drug addiction, marijuana, alcohol',
 'acompanamiento, iglesia, persona, drogadiccion, marihuana, alcohol',
 'actividad_interactiva',
 'activo',
 'additives, metabolism, supplementation',
 'aditivos, metabolismo, suplementacion',
 'alta',
 'altorrelieve',
 'america latina',
 'antioquia',
 'antropologico',
 'aplicado',
 'application/pdf',
 'applied',
 'archivo en pdf',
 'archivos comprimidos',
 'archivos visuales',
 'archivos word',
 'area agricola',
 'area ambiental',
 'area pecuaria',
 'ari

In [206]:
df=pd.DataFrame()
all_types = [i for i in filtered if i]
all_types=sorted(filtered)
df["source"] = ["dspace"]*len(filtered)
df["tipos_dspace"]=filtered
df.to_excel("tipos_dspace_valid.xlsx")

In [24]:
filtered

[]

In [32]:
get_doc("PT-002")

{'_id': 'oai:expeditiorepositorio.utadeo.edu.co:20.500.12010/32627',
 'OAI-PMH': {'@xmlns': 'http://www.openarchives.org/OAI/2.0/',
  '@xmlns:xsi': 'http://www.w3.org/2001/XMLSchema-instance',
  '@xsi:schemaLocation': 'http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd',
  'responseDate': '2025-01-23T07:36:47Z',
  'request': {'@verb': 'GetRecord',
   '@identifier': 'oai:expeditiorepositorio.utadeo.edu.co:20.500.12010/32627',
   '@metadataPrefix': 'dim',
   '#text': 'http://expeditiorepositorio.utadeo.edu.co/oai/request'},
  'GetRecord': {'record': {'header': {'identifier': 'oai:expeditiorepositorio.utadeo.edu.co:20.500.12010/32627',
     'datestamp': '2023-11-17T21:34:13Z',
     'setSpec': ['com_20.500.12010_32610',
      'com_20.500.12010_1897',
      'com_20.500.12010_18',
      'col_20.500.12010_32611']},
    'metadata': {'dim:dim': {'@xmlns:dim': 'http://www.dspace.org/xmlns/dspace/dim',
      '@xmlns:xsi': 'http://www.w3.org/2001/XMLSchema-instanc