# Análisis de la producción de la UADY en los tiempos de pandemia

Autor: Jared Guerrero 

En este cuaderno se presenta la consulta y el análisis de la producción científica de la Universidad Autónoma de Yucatán en tres ventanas de tiempo para su posterior análisis. 
Las ventanas de tiempo a analizar son las siguientes:
* Pre-pandemia: 2018 y 2019
* Pandemia: 2020 y 2021
* Post-pandemia: 2022 y 2023

La producción fue recuperada previamente de Scopus.

## Preliminares

Importamos las librerías necesarias para esta tarea.

In [1]:
import path
import sys
import json
from decouple import config
from datetime import datetime
import pandas as pd
import networkx as nx
import plotly.graph_objects as go

También importamos el script MongoDB_Database, el cual fue creado para facilitar las tareas habituales con los documentos de las colecciones de las diversas fuentes de publicaciones.

In [2]:
directory = path.Path('__file__').abspath()
sys.path.append(directory.parent.parent)
from MongoDB_Database import MongoDB

## Carga del archivo con las AF-ID de las universidades

En Scopus, cada institución tiene por lo menos un AF-ID (Affiliation ID), que es el identificador único en Scopus. Cada institución tiene por lo menos un identificador. Estos identificadores están almacenados en un JSON. Cada elemento del JSON consiste en una clave, que es el nombre de la universidad, y el valor es de tipo lista, que contiene los AF-IDs correspondientes.

A continuación cargamos el archivo.

In [3]:
with open ('sureste.json', 'r') as file:
    afiliaciones = json.load(file)

Listamos los nombres de las universidades incluidas en el archivo

In [4]:
for afiliacion in afiliaciones:
    print(afiliacion)

Universidad Autónoma de Yucatán
Universidad Autónoma de Campeche
Universidad Autónoma del Carmen
Universidad de Quintana Roo
Universidad Autónoma de Chiapas
Universidad Juárez Autónoma de Tabasco


Guardamos en una lista los AF-IDs de la UADY, que se usarán como parámetro para la consulta a la base de datos

In [5]:
AF_IDs_UADY = afiliaciones['Universidad Autónoma de Yucatán']
print('Número de AF-IDs de la UADY:', len(AF_IDs_UADY))

Número de AF-IDs de la UADY: 22


Mostramos los AF-IDs de la UADY

In [6]:
AF_IDs_UADY

['107262669',
 '100507008',
 '109008305',
 '106595647',
 '115298306',
 '110150957',
 '116269115',
 '100350403',
 '101230706',
 '112536994',
 '119704852',
 '116694096',
 '107274441',
 '112680170',
 '101589649',
 '113627408',
 '123006655',
 '112417613',
 '122769635',
 '60000409',
 '120505049',
 '101200262']

## Consulta a la base de datos

#### Conexión a la BBDD

Como la base de datos se encuentra en un servidor remoto, es necesario crear la conexión con un usuario y contraseña obtenidos previamente. Una vez disponibles, se cargan a partir del archivo .env.

In [7]:
user_db = config('user_db_peninsula')
password_db = config('password_db_peninsula')
cliente = f'mongodb+srv://{user_db}:{password_db}@surestemexico.m0qucbf.mongodb.net/test'

#### Creación de la cadena de consulta

La base de datos tiene cinco colecciones, cada una representa un tipo de origen de publicación:
* acta_de_conferencia
* libro
* libro_serializado
* revista
* revista_comercial

Cada documento en la colección tiene una serie de campos. El que nos interesa para este trabajo es el campo *autores*, de tipo Array. Cada objeto del campo contiene la siguiente estructura:

![Captura de pantalla 2024-09-26 a la(s) 13.36.16.png](<attachment:Captura de pantalla 2024-09-26 a la(s) 13.36.16.png>)

En el campo *afiliacion*, que es de tipo Array, cada objeto incluye el campo *af-id*, el cual es el más importante para nuestras consultas.

La consulta a realizar tiene dos partes, la primera consiste en las afiliaciones a recuperar, y la segunda en la ventana de tiempo a recuperar.

In [8]:
fecha_inicio = datetime(2018, 1, 1, 0, 0, 00)
fecha_fin = datetime(2023, 12, 31, 23, 59, 59)
query = {'autores.afiliacion.af-id': {'$in': AF_IDs_UADY}, 'fecha_publicacion': {'$gte': fecha_inicio, '$lte': fecha_fin}} 

Creamos una instancia de la clase MongoDB con el cliente y el nombre de la base de datos, que en este caso se llama *scopus*

In [9]:
db = MongoDB(cliente, 'scopus')

A través de la función *recuperar_registros*, recuperamos los documentos de la producción científica.

In [10]:
produccion_uady = db.consulta_coleccion(query, coleccion = 'All', campos=['tipo_documento', 'scopus_id', 'acta_de_conferencia', 'libro', 
                                                                           'libro_serializado', 'revista', 'revista_comercial',
                                                                           'autores', 'titulo', 'fecha_publicacion', 'area_conacyt'])

## Preparación de los datos

### Afiliaciones y colaboraciones

Crearemos un campo llamado *afiliaciones*, que incluirán las instituciones involucradas en cada publicación, a partir de los valores del campo *autores*. De igual forma, vamos a crear un campo llamado *paises_afiliaciones*.

In [11]:
for registro in produccion_uady:
    afiliaciones = []
    paises_afiliaciones = []
    for autor in registro['autores']:
        for afiliacion in autor['afiliacion']:
            if afiliacion['af-id'] in AF_IDs_UADY:
                nombre_afiliacion = 'Universidad Autónoma de Yucatán'
            else:
                nombre_afiliacion = afiliacion['nombre']
            if nombre_afiliacion not in afiliaciones:
                afiliaciones.append(nombre_afiliacion)
                if 'pais' in afiliacion and type(afiliacion['pais']) == str:
                    paises_afiliaciones.append(afiliacion['pais'])
    #Si la lista afiliaciones contiene más de un elemento, representa una colaboración
    if len(afiliaciones) > 1:
        registro['colaboracion'] = True
    else:
        registro['colaboracion'] = False
    
    #Si es una colaboración, y todos los elementos en la lista paises_afiliaciones son Mexico, es una colaboración nacional
    if registro['colaboracion']==True and all(pais == 'Mexico' for pais in paises_afiliaciones):
        registro['tipo_colaboracion'] = 'Nacional'
    #Si es una colaboración, y no todos los elementos en la lista paises_afiliaciones son Mexico, es una colaboración internacional
    elif registro['colaboracion']==True and not all(pais == 'Mexico' for pais in paises_afiliaciones):
        registro['tipo_colaboracion'] = 'Internacional'
    #Si no es una colaboración, no aplica
    else:
        registro['tipo_colaboracion'] = 'N/A'

    #Insertamos los valores de las afiliaciones, separadas por comas
    registro['afiliaciones'] = ', '.join(afiliaciones)
    registro['paises_afiliaciones'] = ', '.join(paises_afiliaciones)

Haremos algunos ajustes a los resultados. Almacenaremos el tipo de origen que se encuentra en el campo *coleccion*, y a partir de esta información, reemplazaremos el campo con el tipo de origen con el nombre *titulo_origen*

In [12]:
for registro in produccion_uady:
    try:
        tipo_origen = registro['coleccion']
        if tipo_origen!='libro':
            registro['titulo_origen'] = registro[tipo_origen]
        #Renombramos el campo 'coleccion' a 'tipo_origen'
        registro['tipo_origen'] = registro.pop('coleccion')
        registro.pop(tipo_origen)
    except:
        pass

### Creación del dataframe con la producción científica

Cambiamos el formato del campo *tipo_origen*, cambiando la inicial por mayúscula y removiendo los guiones. También capitalizamos las áreas de conocimiento.

In [13]:
for registro in produccion_uady:
    tipo_origen = registro['tipo_origen']
    if '_' in tipo_origen:
        tipo_origen = tipo_origen.replace('_', ' ')
    
    tipo_origen = tipo_origen.capitalize()
    registro['tipo_origen'] = tipo_origen
    
    registro['area_conacyt'] = registro['area_conacyt'].capitalize()
    

In [14]:
#Convertimos a dataframe
df_produccion_uady = pd.DataFrame(produccion_uady)
#Reordenamos las columnas
df_produccion_uady = df_produccion_uady[['scopus_id', 'titulo', 'tipo_documento',  'afiliaciones', 'paises_afiliaciones', 
                                         'fecha_publicacion', 'tipo_origen', 'titulo_origen', 'area_conacyt',
                                         'colaboracion', 'tipo_colaboracion']]
#Ordenamos el dataframe por fecha de publicación de forma ascendente y reiniciamos los índices
df_produccion_uady = df_produccion_uady.sort_values('fecha_publicacion', ascending=True).reset_index(drop=True)

In [15]:
df_produccion_uady

Unnamed: 0,scopus_id,titulo,tipo_documento,afiliaciones,paises_afiliaciones,fecha_publicacion,tipo_origen,titulo_origen,area_conacyt,colaboracion,tipo_colaboracion
0,85041738278,Trypanosoma cruzi vaccine candidate antigens T...,Artículo,"Universidad Autónoma de Yucatán, Baylor Colleg...","Mexico, United States, Mexico, Mexico, United ...",2018-01-01,Revista,PLoS Neglected Tropical Diseases,Medicina y ciencias de la salud,True,Internacional
1,85064874801,Acetylcholinesterase (AChE) and butyrylcholine...,Artículo,"Universidad Autónoma de Nayarit, Centro de Inv...","Mexico, Mexico, Mexico, Mexico, Mexico",2018-01-01,Revista,Revista Internacional de Contaminacion Ambiental,Ciencias fisico matematicas y ciencias de la t...,True,Nacional
2,85040942205,Study of the interaction of phaseolus lunatus ...,Artículo,"Universidad Autónoma de Yucatán, Instituto Pol...","Mexico, Mexico, Argentina",2018-01-01,Revista,Chiang Mai Journal of Science,Ciencias fisico matematicas y ciencias de la t...,True,Internacional
3,85042533637,Three-dimensional sol manifolds and complex Kl...,Artículo,"Universidad Autónoma de Yucatán, University of...","Mexico, United Kingdom",2018-01-01,Revista,Pacific Journal of Mathematics,Ciencias fisico matematicas y ciencias de la t...,True,Internacional
4,85044217421,Intelligent recognition system of myoelectric ...,Artículo de congreso,"Universidad Autónoma del Estado de Morelos, Un...","Mexico, Mexico",2018-01-01,Libro serializado,Communications in Computer and Information Sci...,Ciencias fisico matematicas y ciencias de la t...,True,Nacional
...,...,...,...,...,...,...,...,...,...,...,...
2388,85180081506,Biopolymer Microencapsulation of Bacillus thur...,Artículo,"Universidad Autónoma de Nuevo León, Universida...","Mexico, Mexico",2023-12-14,Revista,Southwestern Entomologist,Biologia y quimica,True,Nacional
2389,85197120654,"Oswaldo Estrada (editor), Rosa Beltrán: afecto...",Revisión,"Universidad Modelo, Universidad Autónoma de Yu...","Mexico, Mexico",2023-12-19,Revista,Confluenze,Ciencias sociales,True,Nacional
2390,85196824134,"Eugenia Scarzanella, “Isabel e la sua ombra. D...",Artículo,Universidad Autónoma de Yucatán,Mexico,2023-12-19,Revista,Confluenze,Ciencias sociales,False,
2391,85180565728,Analysis of academic trajectories of higher ed...,Artículo,Universidad Autónoma de Yucatán,Mexico,2023-12-20,Revista,Revista de la Academia Colombiana de Ciencias ...,Ciencias fisico matematicas y ciencias de la t...,False,


### Creación de dataframes por ventana de tiempo

Por cada periodo de tiempo a evaluar se creará un dataframe para facilitar la evaluación.

#### Pre-pandemia

Consideramos la producción pre-pandemia la de los dos años anteriores al 2020.

In [16]:
df_pre_pandemia = df_produccion_uady[df_produccion_uady['fecha_publicacion'] < datetime(2020, 1, 1, 0, 0, 0)]
#Ordenamos el dataset por fecha de publicación de forma ascendente y reiniciamos el índice
df_pre_pandemia = df_pre_pandemia.sort_values('fecha_publicacion', ascending=True).reset_index(drop=True)
df_pre_pandemia

Unnamed: 0,scopus_id,titulo,tipo_documento,afiliaciones,paises_afiliaciones,fecha_publicacion,tipo_origen,titulo_origen,area_conacyt,colaboracion,tipo_colaboracion
0,85041738278,Trypanosoma cruzi vaccine candidate antigens T...,Artículo,"Universidad Autónoma de Yucatán, Baylor Colleg...","Mexico, United States, Mexico, Mexico, United ...",2018-01-01,Revista,PLoS Neglected Tropical Diseases,Medicina y ciencias de la salud,True,Internacional
1,85053423897,The quality of teacher education postgraduates...,Artículo,Universidad Autónoma de Yucatán,Mexico,2018-01-01,Revista,Publicaciones de la Facultad de Educacion y Hu...,Humanidades y ciencias de la conducta,False,
2,85049319543,Feed resource selection by Criollo goats brows...,Artículo,"Universidad Autónoma de Yucatán, Centro Multid...","Mexico, Mexico",2018-01-01,Revista,Animal Production Science,Biologia y quimica,True,Nacional
3,85062690101,Frequency of trypanosoma cruzi infection in sy...,Artículo,Universidad Autónoma de Yucatán,Mexico,2018-01-01,Revista,Veterinary Medicine International,Ciencias agropecuarias y biotecnologia,False,
4,85029405250,"Effects of quebracho tannin extract on intake,...",Artículo,"Universidad Autónoma de Yucatán, El Colegio de...","Mexico, Mexico, Mexico",2018-01-01,Revista,Tropical Animal Health and Production,Biologia y quimica,True,Nacional
...,...,...,...,...,...,...,...,...,...,...,...
786,85084408902,"Searching with georadar ancient T’hó, a Mayan ...",Artículo,"Universidad Nacional Autónoma de México, Unive...","Mexico, Mexico",2019-12-16,Revista,Science and Technology of Archaeological Research,Ciencias sociales,True,Nacional
787,85074053004,Pre-columbian culinary landscapes: reconstruct...,Artículo,Universidad Autónoma de Yucatán,Mexico,2019-12-16,Revista,Science and Technology of Archaeological Research,Ciencias sociales,False,
788,85074837746,Citalopram reduces glutamatergic synaptic tran...,Artículo,"Universidad Autónoma de Yucatán, Universidad A...","Mexico, Mexico",2019-12-18,Revista,NeuroReport,Medicina y ciencias de la salud,True,Nacional
789,85125154196,Systematic violence of organized crime in Méxi...,Capítulo de libro,"Universidad Autónoma de Yucatán, Autonomus Uni...","Mexico, Mexico, Spain",2019-12-27,Libro,,Ciencias sociales,True,Internacional


#### Pandemia

Consideramos la producción pandemia la que se publicó entre el 2020 y el 2021.

In [17]:
df_pandemia = df_produccion_uady[(df_produccion_uady['fecha_publicacion'] >= datetime(2020, 1, 1, 0, 0, 0)) & 
                                 (df_produccion_uady['fecha_publicacion'] < datetime(2022, 1, 1, 0, 0, 0))]
#Ordenamos el dataset por fecha de publicación de forma ascendente y reiniciamos el índice
df_pandemia = df_pandemia.sort_values('fecha_publicacion', ascending=True).reset_index(drop=True)
df_pandemia

Unnamed: 0,scopus_id,titulo,tipo_documento,afiliaciones,paises_afiliaciones,fecha_publicacion,tipo_origen,titulo_origen,area_conacyt,colaboracion,tipo_colaboracion
0,85087069366,Antioxidant and chelating activities from Lion...,Artículo,Universidad Autónoma de Yucatán,Mexico,2020-01-01,Revista,Emirates Journal of Food and Agriculture,Ciencias agropecuarias y biotecnologia,False,
1,85078916145,Biochemical and molecular characterization of ...,Artículo,"Instituto Tecnológico de Mérida, Universidad A...","Mexico, Mexico, United Kingdom, Mexico",2020-01-01,Revista,Chiang Mai Journal of Science,Ciencias fisico matematicas y ciencias de la t...,True,Internacional
2,85084478998,Ophioglossum nudicaule (Ophioglossaceae) and P...,Artículo,Universidad Autónoma de Yucatán,Mexico,2020-01-01,Revista,Acta Botanica Mexicana,Biologia y quimica,False,
3,85092746928,Indicators of the competitiveness of Mexican b...,Artículo,"Tecnológico Nacional de México, Universidad Au...","Mexico, Mexico",2020-01-01,Revista,Revista Mexicana De Ciencias Pecuarias,Ciencias agropecuarias y biotecnologia,True,Nacional
4,85082129139,Corrosion behavior of metallic materials in ch...,Artículo,"Universidad Autónoma del Estado de Morelos, Ce...","Mexico, Mexico, Mexico, Mexico",2020-01-01,Revista,International Journal of Electrochemical Science,Ciencias fisico matematicas y ciencias de la t...,True,Nacional
...,...,...,...,...,...,...,...,...,...,...,...
763,85122595406,Information overload syndrome: a bibliographic...,Revisión,Universidad Autónoma de Yucatán,Mexico,2021-12-16,Revista,Revista de Neurologia,Medicina y ciencias de la salud,False,
764,85121045725,Theoretical insight into the on-water catalyti...,Artículo,"Universidad Nacional Autónoma de México, Unive...","Mexico, Mexico, Mexico",2021-12-21,Revista,New Journal of Chemistry,Ciencias fisico matematicas y ciencias de la t...,True,Nacional
765,85122907382,Maternal health and Indigenous traditional mid...,Revisión,"School of Medicine, Universidad del Rosario, U...","Canada, Colombia, Mexico, Mexico, Colombia",2021-12-23,Revista,BMJ open,Medicina y ciencias de la salud,True,Internacional
766,85129574511,Integrating parasite assemblages and host gene...,Artículo,Universidad Autónoma de Yucatán,Mexico,2021-12-27,Revista,Journal of the Marine Biological Association o...,Biologia y quimica,False,


#### Post-pandemia

Consideramos la producción post-pandemia la que se publicó después del 2021.

In [18]:
df_post_pandemia = df_produccion_uady[df_produccion_uady['fecha_publicacion'] >= datetime(2022, 1, 1, 0, 0, 0)]
#Ordenamos el dataset por fecha de publicación de forma ascendente y reiniciamos el índice
df_post_pandemia = df_post_pandemia.sort_values('fecha_publicacion', ascending=True).reset_index(drop=True)
df_post_pandemia

Unnamed: 0,scopus_id,titulo,tipo_documento,afiliaciones,paises_afiliaciones,fecha_publicacion,tipo_origen,titulo_origen,area_conacyt,colaboracion,tipo_colaboracion
0,85138490369,Vaccine-linked chemotherapy with a low dose of...,Artículo,"Universidad Autónoma de Yucatán, Centro de Inv...","Mexico, Mexico, United States, United States, ...",2022-01-01,Revista,PLoS Neglected Tropical Diseases,Medicina y ciencias de la salud,True,Internacional
1,85143810287,How on Earth did that get there? Natural and h...,Artículo,"Universidad Autónoma de Querétaro, University ...","Mexico, United Kingdom, Russian Federation, De...",2022-01-01,Revista,Hydrobiologia,Biologia y quimica,True,Internacional
2,85132654913,Behavioral and biological factors agents that ...,Artículo,"Universidad Autonoma de Coahuila, Universidad ...","Mexico, Mexico",2022-01-01,Revista,Salud Uninorte,Medicina y ciencias de la salud,True,Nacional
3,85129691238,Quantification of Sphingosine-1-Phosphate (S1P...,Artículo,"Universidad Autónoma de Yucatán, Universidad A...","Mexico, Mexico",2022-01-01,Revista,Odovtos - International Journal of Dental Scie...,Medicina y ciencias de la salud,True,Nacional
4,85128205486,New records of biting midges (Diptera: Ceratop...,Artículo,Instituto Nacional de Diagnostico y Referencia...,"Mexico, Mexico, Mexico",2022-01-01,Revista,Revista Mexicana de Biodiversidad,Biologia y quimica,True,Nacional
...,...,...,...,...,...,...,...,...,...,...,...
829,85180081506,Biopolymer Microencapsulation of Bacillus thur...,Artículo,"Universidad Autónoma de Nuevo León, Universida...","Mexico, Mexico",2023-12-14,Revista,Southwestern Entomologist,Biologia y quimica,True,Nacional
830,85197120654,"Oswaldo Estrada (editor), Rosa Beltrán: afecto...",Revisión,"Universidad Modelo, Universidad Autónoma de Yu...","Mexico, Mexico",2023-12-19,Revista,Confluenze,Ciencias sociales,True,Nacional
831,85196824134,"Eugenia Scarzanella, “Isabel e la sua ombra. D...",Artículo,Universidad Autónoma de Yucatán,Mexico,2023-12-19,Revista,Confluenze,Ciencias sociales,False,
832,85180565728,Analysis of academic trajectories of higher ed...,Artículo,Universidad Autónoma de Yucatán,Mexico,2023-12-20,Revista,Revista de la Academia Colombiana de Ciencias ...,Ciencias fisico matematicas y ciencias de la t...,False,


## Análisis de la producción

### Número de publicaciones por área de conocimiento

Definimos una función que retorna un dataframe con la producción por área de conocimiento y año. 

In [19]:
def crear_dataframe_area_anio(df):
    area_col = 'area_conacyt'
    fecha_col = 'fecha_publicacion'
    
    # Agrupar por área y año, y calcular la cantidad de publicaciones por año
    df_area_anio = df.groupby([area_col, df[fecha_col].dt.year]).size().unstack().fillna(0)
    
    # Reiniciar el índice para que 'area' sea una columna
    df_area_anio.reset_index(inplace=True)
    
    # Asegurar que el nombre de las columnas no tenga nombres adicionales
    df_area_anio.columns.name = None
    
    # Asignar los nombres de las columnas dinámicamente
    # El primer nombre es 'area' y los siguientes son "Año" + el valor del año
    columns = ['area'] + ['Año ' + str(int(year)) for year in df_area_anio.columns[1:]]
    df_area_anio.columns = columns
    
    return df_area_anio


Obtenemos los dataframes para cada ventana de tiempo.

In [20]:
df_area_año_pre_pandemia =  crear_dataframe_area_anio(df_pre_pandemia)
df_area_año_pandemia =  crear_dataframe_area_anio(df_pandemia)
df_area_año_post_pandemia =  crear_dataframe_area_anio(df_post_pandemia)

Unimos los dataframes creados para su posterior análisis

In [21]:
df_area_año = pd.merge(df_area_año_pre_pandemia, df_area_año_pandemia, on='area', how='outer', suffixes=('_pre_pandemia', '_pandemia'))
df_area_año = pd.merge(df_area_año, df_area_año_post_pandemia, on='area', how='outer')
#Cambiamos el orden de los años para facilitar la comparación de primer y segundo año por ventana de tiempo, es decir: 2018, 2020, 2022, 2019, 2021, 2023
df_area_año = df_area_año[['area', 'Año 2018', 'Año 2020', 'Año 2022', 'Año 2019', 'Año 2021', 'Año 2023']]
#Las columnas que tienen el prefijo 'Año' serán modificadas para que solo contengan el año, y deberán mantenerse de tipo string
df_area_año.columns = ['area'] + [str(col[-4:]) for col in df_area_año.columns[1:]]
df_area_año

Unnamed: 0,area,2018,2020,2022,2019,2021,2023
0,Biologia y quimica,129,120,142,151,115,118
1,Ciencias agropecuarias y biotecnologia,23,43,38,34,32,42
2,Ciencias fisico matematicas y ciencias de la t...,49,60,64,47,47,43
3,Ciencias sociales,20,26,31,35,17,38
4,Humanidades y ciencias de la conducta,19,18,8,15,25,21
5,Ingenieria y tecnologia,55,50,72,73,57,72
6,Medicina y ciencias de la salud,69,73,86,72,85,59


Definimos una función que genera la gráfica de la producción, donde los parámetros son: 
* df: El dataframe a evaluar 
*  ventana es una lista con los años a evaluar.

In [22]:
import plotly.graph_objects as go

def grafico_produccion(df, ventana):
    fig = go.Figure()

    # Lista de colores para cada área
    colors = ['#636EFA', '#EF553B', '#00CC96', '#AB63FA', '#FFA15A', '#19D3F3', '#FF6692']

    # Orden personalizado de los años
    years_order = ventana

    # Añadir barras apiladas para cada área
    for idx, area in enumerate(df['area']):
        fig.add_trace(go.Bar(
            y=years_order,
            x=df.loc[idx, years_order],  # Valores de producción por año en el orden personalizado
            name=area,
            orientation='h',  # Barras horizontales
            marker=dict(color=colors[idx]),  # Color para cada área
            text=df.loc[idx, years_order],  # Texto con los valores (número de publicaciones)
            textposition='inside',  # Poner el texto dentro de la barra
            insidetextanchor='middle'  # Centrar el texto dentro de la barra
        ))

    # Actualizar el layout de la gráfica
    fig.update_layout(
        barmode='stack',  # Barras apiladas
        title='Producción por año y área',
        xaxis_title='Producción total',
        yaxis_title='Año',
        yaxis=dict(
            tickmode='array',
            tickvals=years_order,
            automargin=True,
            tickfont=dict(size=9),  # Reducir el tamaño de la fuente en el eje Y
            tickangle=0  # Mantener los ticks rectos
        ),
        legend_title='Área',
        height=400,   # Ajusta la altura total del gráfico para hacerlo más compacto
        margin=dict(l=40, r=10, t=40, b=40),  # Reducir el margen alrededor del gráfico
        bargap=0.6  # Ajustar el espacio entre las barras
    )

    # Mostrar la figura
    fig.show()


Graficamos los primeros años de cada periodo. Obtendremos el gráfico con los años 2018, 2020 y 2022.

In [23]:
grafico_produccion(df_area_año, ['2022','2020','2018'])

Graficamos los segundos años de cada periodo. Obtendremos el gráfico con los años 2019, 2021 y 2023.

In [24]:
grafico_produccion(df_area_año, ['2023','2021','2019'])

### Colaboraciones

##### Creación de dataset de colaboraciones

Construimos una función que retorna un dataframe con las colaboraciones. Los parámetros de entrada son:
* dataframe: Un dataframe con publicaciones
* tipo_colaboracion: Puede ser Nacional o Internacional
* area_conacyt = Sirve para filtrar, por si se requiere identificar por un tipo de colaboración en específico

In [25]:
def colaboraciones(dataframe, tipo_colaboracion, area_conacyt = None):
    #Filtramos el dataframe por el tipo de colaboración
    df = dataframe[dataframe['tipo_colaboracion']==tipo_colaboracion]
    #Si se especifica un área del CONACYT, filtramos el dataframe
    if area_conacyt:
        df = df[df['area_conacyt']==area_conacyt]
    coincidencias = [] #Lista para almacenar las coincidencias
    #Recorremos fila por fila
    for index, row in df.iterrows():
        #Buscamos las afiliaciones
        afiliaciones = row['afiliaciones'].split(', ')
        paises_afiliaciones = row['paises_afiliaciones'].split(', ')
        if tipo_colaboracion == 'Nacional':
            for afiliacion in afiliaciones:
                #Si la afiliación es diferente a la UADY, es una colaboración
                if afiliacion != 'Universidad Autónoma de Yucatán':
                    #Buscamos si existe el registro en la lista
                    try:
                        coincidencia = next((item for item in coincidencias if item["target"] == afiliacion))
                        #Si existe, incrementamos el contador
                        coincidencia['weight'] += 1
                    except:
                        #Si no existe, lo agregamos a la lista
                        coincidencias.append({'source': 'Universidad Autónoma de Yucatán', 'target': afiliacion, 'weight': 1})
        elif tipo_colaboracion == 'Internacional':
            for i in range (len(paises_afiliaciones)):
                #Si el país es diferente a México, es una colaboración
                if paises_afiliaciones[i] != 'Mexico' and afiliaciones[i] != 'Universidad Autónoma de Yucatán':
                    #Buscamos si existe el registro en la lista la posición de dicho país pero en la lista de paises_afiliaciones
                    try:
                        coincidencia = next((item for item in coincidencias if item["target"] == afiliaciones[i]))
                        #Si existe, incrementamos el contador
                        coincidencia['weight'] += 1
                    except:
                        #Si no existe, lo agregamos a la lista
                        coincidencias.append({'source': 'Universidad Autónoma de Yucatán', 'target': afiliaciones[i], 'weight': 1, 'pais': paises_afiliaciones[i]})
    #Convertimos la lista a un dataframe y ordenamos de forma descendente por el campo 'weight'
    df_colaboraciones = pd.DataFrame(coincidencias)
    df_colaboraciones = df_colaboraciones.sort_values('weight', ascending=False).reset_index(drop=True)
    return df_colaboraciones



#### Creación del grafo de colaboraciones

La siguiente función genera un grafo para visualizar las colaboraciones de diversas universidades con la UADY. El grosor de cada vértice depende del peso, es decir, el número de publicaciones de la UADY con la institución colaboradora.

In [26]:
def grafo_colaboraciones(dataframe):
    # Crear el grafo ponderado
    G = nx.Graph()

    # Añadir nodos y aristas con pesos desde el DataFrame
    for index, row in dataframe.iterrows():
        G.add_edge(row['source'], row['target'], weight=row['weight'])

    # Obtener posiciones de los nodos para la visualización (spring_layout permite estirar los nodos)
    pos = nx.spring_layout(G, k=0.5, iterations=50)  # `k` controla la distancia entre nodos, puedes ajustarlo

    # Obtener los datos para plotly (aristas)
    edge_traces = []  # Lista para guardar las trazas de aristas con diferentes grosores

    for edge in G.edges(data=True):
        x0, y0 = pos[edge[0]]
        x1, y1 = pos[edge[1]]

        # Crear las aristas individualmente para controlar el grosor
        edge_trace = go.Scatter(
            x=[x0, x1, None], y=[y0, y1, None],
            line=dict(width=edge[2]['weight'], color='#888'),  # Ajustar el grosor según el peso
            hoverinfo='none',
            mode='lines'
        )

        edge_traces.append(edge_trace)

    # Crear los nodos
    node_x = []
    node_y = []
    for node in G.nodes():
        x, y = pos[node]
        node_x.append(x)
        node_y.append(y)

    # Calcular la suma de los pesos de las aristas conectadas a cada nodo
    node_weights = []
    node_colors = []
    for node in G.nodes():
        total_weight = sum([G.edges[node, neighbor]['weight'] for neighbor in G.neighbors(node)])
        node_weights.append(total_weight)

        # Asignar color a todos los nodos excepto 'Universidad Autónoma de Yucatán'
        if node == "Universidad Autónoma de Yucatán":
            node_colors.append('gray')  # Color fijo para UADY
        else:
            node_colors.append(total_weight)  # Color basado en la suma de los pesos

    # Crear traza de nodos con color basado en la suma de pesos, excepto para UADY
    node_trace = go.Scatter(
        x=node_x, y=node_y,
        mode='markers',
        hoverinfo='text',
        text=[f'{node}: Total peso = {total_weight}' for node, total_weight in zip(G.nodes(), node_weights)],
        marker=dict(
            showscale=True,
            colorscale='YlGnBu',  # Puedes cambiar el esquema de color
            color=node_colors,  # Color basado en la suma de los pesos de las aristas conectadas, excepto UADY
            size=20,
            colorbar=dict(
                thickness=15,
                title='Suma de publicaciones',
                xanchor='left',
                titleside='right'
            ),
            line_width=2
        )
    )

    # Crear la figura final con interactividad
    fig = go.Figure(data=edge_traces + [node_trace],  # Añadimos todas las trazas de aristas y nodos
                    layout=go.Layout(
                        #title='Grafo de colaboración de la UADY',
                        titlefont_size=16,
                        showlegend=False,
                        hovermode='closest',
                        margin=dict(b=0, l=0, r=0, t=40),
                        annotations=[dict(
                            showarrow=False,
                            xref="paper", yref="paper",
                            x=0.005, y=-0.002
                        )],
                        xaxis=dict(showgrid=False, zeroline=False),
                        yaxis=dict(showgrid=False, zeroline=False),
                        dragmode='pan',  # Permite "arrastrar" el grafo
                        width=800, height=600  # Ajusta el tamaño del lienzo
                    )
    )

    # Mostrar el grafo
    fig.show()
    #Mostramos cuántos nodos tiene el grafo
    print('Número de instituciones colaboradoras por encima de la media:', len(G.nodes())-1)

### Colaboraciones nacionales

Generamos el dataset con las instituciones colaboradoras antes de la pandemia.

In [27]:
df_colaboraciones_nacionales_pre_pandemia = colaboraciones(df_pre_pandemia, 'Nacional')
df_colaboraciones_nacionales_pre_pandemia.head()

Unnamed: 0,source,target,weight
0,Universidad Autónoma de Yucatán,Universidad Nacional Autónoma de México,35
1,Universidad Autónoma de Yucatán,CINVESTAV Unidad Merida,34
2,Universidad Autónoma de Yucatán,Centro de Investigacion Cientifica de Yucatan,30
3,Universidad Autónoma de Yucatán,Universidad Juárez Autónoma de Tabasco,15
4,Universidad Autónoma de Yucatán,Instituto Tecnológico de Mérida,14


Generamos el dataset con las instituciones colaboradoras durante de la pandemia.

In [28]:
df_colaboraciones_nacionales_pandemia = colaboraciones(df_pandemia, 'Nacional')
df_colaboraciones_nacionales_pandemia.head()

Unnamed: 0,source,target,weight
0,Universidad Autónoma de Yucatán,Universidad Nacional Autónoma de México,52
1,Universidad Autónoma de Yucatán,Centro de Investigacion Cientifica de Yucatan,40
2,Universidad Autónoma de Yucatán,Universidad Juárez Autónoma de Tabasco,25
3,Universidad Autónoma de Yucatán,CINVESTAV Unidad Merida,22
4,Universidad Autónoma de Yucatán,Centro de Investigacion y de Estudios Avanzado...,20


Obtenemos el dataset de las colaboraciones en la producción post-pandemia.

In [29]:
df_colaboraciones_nacionales_post_pandemia = colaboraciones(df_post_pandemia, 'Nacional')
df_colaboraciones_nacionales_post_pandemia.head()

Unnamed: 0,source,target,weight
0,Universidad Autónoma de Yucatán,Universidad Nacional Autónoma de México,54
1,Universidad Autónoma de Yucatán,Centro de Investigacion Cientifica de Yucatan,40
2,Universidad Autónoma de Yucatán,Instituto Politécnico Nacional,33
3,Universidad Autónoma de Yucatán,Tecnológico Nacional de México,25
4,Universidad Autónoma de Yucatán,Universidad Autónoma de Nuevo León,18


¿Cuántas instituciones colaboraron con la UADY en dichos periodos?

In [30]:
print('Número de instituciones con colaboraciones nacionales')
print('Pre-pandemia:', len(df_colaboraciones_nacionales_pre_pandemia))
print('Pandemia:', len(df_colaboraciones_nacionales_pandemia))
print('Post-pandemia:', len(df_colaboraciones_nacionales_post_pandemia))

Número de instituciones con colaboraciones nacionales
Pre-pandemia: 227
Pandemia: 213
Post-pandemia: 246


¿Cuántas colaboraciones se hicieron?

In [31]:
print('Número de colaboraciones nacionales')
print('Pre-pandemia:', df_colaboraciones_nacionales_pre_pandemia['weight'].sum())
print('Pandemia:', df_colaboraciones_nacionales_pandemia['weight'].sum())
print('Post-pandemia:', df_colaboraciones_nacionales_post_pandemia['weight'].sum())

Número de colaboraciones nacionales
Pre-pandemia: 627
Pandemia: 670
Post-pandemia: 821


¿Cuál es la media del número de colaboraciones nacionales?

In [32]:
media_colaboraciones_nacionales_pre_pandemia = round(df_colaboraciones_nacionales_pre_pandemia['weight'].mean(),2)
media_colaboraciones_nacionales_pandemia = round(df_colaboraciones_nacionales_pandemia['weight'].mean(),2)
media_colaboraciones_nacionales_post_pandemia = round(df_colaboraciones_nacionales_post_pandemia['weight'].mean(),2)

print('Media del número de colaboraciones nacionales')
print('Pre-pandemia:', media_colaboraciones_nacionales_pre_pandemia)
print('Pandemia:', media_colaboraciones_nacionales_pandemia)
print('Post-pandemia', media_colaboraciones_nacionales_post_pandemia)

Media del número de colaboraciones nacionales
Pre-pandemia: 2.76
Pandemia: 3.15
Post-pandemia 3.34


Visualizamos las colaboraciones que están por encima de la media para quedarnos con las más relevantes

Pre-pandemia

In [33]:
grafo_colaboraciones(df_colaboraciones_nacionales_pre_pandemia[df_colaboraciones_nacionales_pre_pandemia['weight'] > media_colaboraciones_nacionales_pre_pandemia])

Número de instituciones colaboradoras por encima de la media: 50


Pandemia

In [34]:
grafo_colaboraciones(df_colaboraciones_nacionales_pandemia[df_colaboraciones_nacionales_pandemia['weight'] > media_colaboraciones_nacionales_pandemia])

Número de instituciones colaboradoras por encima de la media: 41


Post-pandemia

In [35]:
grafo_colaboraciones(df_colaboraciones_nacionales_post_pandemia[df_colaboraciones_nacionales_post_pandemia['weight'] > media_colaboraciones_nacionales_post_pandemia])

Número de instituciones colaboradoras por encima de la media: 62


### Colaboraciones internacionales

Generamos el dataset con las instituciones colaboradoras antes de la pandemia.

In [36]:
df_colaboraciones_internacionales_pre_pandemia = colaboraciones(df_pre_pandemia, 'Internacional')
df_colaboraciones_internacionales_pre_pandemia.head()

Unnamed: 0,source,target,weight,pais
0,Universidad Autónoma de Yucatán,CSIC - Mision Biologica de Galicia (MBG),20,Spain
1,Universidad Autónoma de Yucatán,University of California,20,United States
2,Universidad Autónoma de Yucatán,Emory University,15,United States
3,Universidad Autónoma de Yucatán,Tulane University School of Public Health and ...,12,United States
4,Universidad Autónoma de Yucatán,Texas A&amp;M University,11,United States


Generamos el dataset con las instituciones colaboradoras durante de la pandemia.

In [37]:
df_colaboraciones_internacionales_pandemia = colaboraciones(df_pandemia, 'Internacional')
df_colaboraciones_internacionales_pandemia.head()

Unnamed: 0,source,target,weight,pais
0,Universidad Autónoma de Yucatán,Emory University,17,United States
1,Universidad Autónoma de Yucatán,Texas A&amp;M University,14,United States
2,Universidad Autónoma de Yucatán,University of California,12,United States
3,Universidad Autónoma de Yucatán,Faculté des Sciences - Agadir,10,Morocco
4,Universidad Autónoma de Yucatán,CSIC - Mision Biologica de Galicia (MBG),10,Spain


Obtenemos el dataset de las colaboraciones en la producción post-pandemia.

In [38]:
df_colaboraciones_internacionales_post_pandemia = colaboraciones(df_post_pandemia, 'Internacional')
df_colaboraciones_internacionales_post_pandemia.head()

Unnamed: 0,source,target,weight,pais
0,Universidad Autónoma de Yucatán,University of California,23,United States
1,Universidad Autónoma de Yucatán,CSIC - Mision Biologica de Galicia (MBG),14,Spain
2,Universidad Autónoma de Yucatán,Emory University,13,United States
3,Universidad Autónoma de Yucatán,Universidad de Chile,11,Chile
4,Universidad Autónoma de Yucatán,Irvine,8,Spain


¿Cuántas instituciones colaboraron con la UADY en dichos periodos?

In [39]:
print('Número de instituciones con colaboraciones internacionales')
print('Pre-pandemia:', len(df_colaboraciones_internacionales_pre_pandemia))
print('Pandemia:', len(df_colaboraciones_internacionales_pandemia))
print('Post-pandemia:', len(df_colaboraciones_internacionales_post_pandemia))

Número de instituciones con colaboraciones internacionales
Pre-pandemia: 615
Pandemia: 603
Post-pandemia: 625


¿Cuántos países colaboraron con la UADY en dichos periodos?

In [40]:
#¿Cuántos países diferentes tienen colaboraciones internacionales?
print('Número de países con colaboraciones')
print('Pre-pandemia:', len(df_colaboraciones_internacionales_pre_pandemia['pais'].unique()))
print('Pandemia:', len(df_colaboraciones_internacionales_pandemia['pais'].unique()))
print('Post-pandemia:', len(df_colaboraciones_internacionales_post_pandemia['pais'].unique()))


Número de países con colaboraciones
Pre-pandemia: 77
Pandemia: 85
Post-pandemia: 73


¿Cuántas colaboraciones se hicieron?

In [41]:
print('Número de colaboraciones internacionales')
print('Pre-pandemia:', df_colaboraciones_internacionales_pre_pandemia['weight'].sum())
print('Pandemia:', df_colaboraciones_internacionales_pandemia['weight'].sum())
print('Post-pandemia:', df_colaboraciones_internacionales_post_pandemia['weight'].sum())

Número de colaboraciones internacionales
Pre-pandemia: 972
Pandemia: 902
Post-pandemia: 949


¿Cuál es la media del número de colaboraciones internacionales?

In [42]:
media_colaboraciones_internacionales_pre_pandemia = round(df_colaboraciones_internacionales_pre_pandemia['weight'].mean(),2)
media_colaboraciones_internacionales_pandemia = round(df_colaboraciones_internacionales_pandemia['weight'].mean(),2)
media_colaboraciones_internacionales_post_pandemia = round(df_colaboraciones_internacionales_post_pandemia['weight'].mean(),2)

print('Media del número de colaboraciones internacionales')
print('Pre-pandemia:', media_colaboraciones_internacionales_pre_pandemia)
print('Pandemia:', media_colaboraciones_internacionales_pandemia)
print('Post-pandemia', media_colaboraciones_internacionales_post_pandemia)

Media del número de colaboraciones internacionales
Pre-pandemia: 1.58
Pandemia: 1.5
Post-pandemia 1.52


Visualizamos las colaboraciones que están por encima de la media para quedarnos con las más relevantes

Pre-pandemia

In [43]:
grafo_colaboraciones(df_colaboraciones_internacionales_pre_pandemia[df_colaboraciones_internacionales_pre_pandemia['weight'] > media_colaboraciones_internacionales_pre_pandemia])

Número de instituciones colaboradoras por encima de la media: 147


Pandemia

In [44]:
grafo_colaboraciones(df_colaboraciones_internacionales_pandemia[df_colaboraciones_internacionales_pandemia['weight'] > media_colaboraciones_internacionales_pandemia])

Número de instituciones colaboradoras por encima de la media: 147


Post-pandemia

In [45]:
grafo_colaboraciones(df_colaboraciones_internacionales_post_pandemia[df_colaboraciones_internacionales_post_pandemia['weight'] > media_colaboraciones_internacionales_post_pandemia])

Número de instituciones colaboradoras por encima de la media: 150


In [46]:
#Creamos un dataframe para obtener el porcentaje de tipo de colaboración por periodo
df_porcentaje_colaboracion = pd.DataFrame(columns=['Periodo', 'Nacional', 'Internacional', 'N/A'])
df_porcentaje_colaboracion.loc[0] = ['Pre-pandemia', round(df_pre_pandemia[df_pre_pandemia['tipo_colaboracion']=='Nacional'].shape[0]/df_pre_pandemia.shape[0]*100, 2),
                                    round(df_pre_pandemia[df_pre_pandemia['tipo_colaboracion']=='Internacional'].shape[0]/df_pre_pandemia.shape[0]*100, 2),
                                    round(df_pre_pandemia[df_pre_pandemia['tipo_colaboracion']=='N/A'].shape[0]/df_pre_pandemia.shape[0]*100, 2)]
df_porcentaje_colaboracion.loc[1] = ['Pandemia', round(df_pandemia[df_pandemia['tipo_colaboracion']=='Nacional'].shape[0]/df_pandemia.shape[0]*100, 2),
                                    round(df_pandemia[df_pandemia['tipo_colaboracion']=='Internacional'].shape[0]/df_pandemia.shape[0]*100, 2),
                                    round(df_pandemia[df_pandemia['tipo_colaboracion']=='N/A'].shape[0]/df_pandemia.shape[0]*100, 2)]
df_porcentaje_colaboracion.loc[2] = ['Post-pandemia', round(df_post_pandemia[df_post_pandemia['tipo_colaboracion']=='Nacional'].shape[0]/df_post_pandemia.shape[0]*100, 2),
                                    round(df_post_pandemia[df_post_pandemia['tipo_colaboracion']=='Internacional'].shape[0]/df_post_pandemia.shape[0]*100, 2),
                                    round(df_post_pandemia[df_post_pandemia['tipo_colaboracion']=='N/A'].shape[0]/df_post_pandemia.shape[0]*100, 2)]
df_porcentaje_colaboracion

Unnamed: 0,Periodo,Nacional,Internacional,N/A
0,Pre-pandemia,39.82,41.59,18.58
1,Pandemia,42.45,38.15,19.4
2,Post-pandemia,44.6,39.33,16.07
