<a href="https://colab.research.google.com/github/L-Abel-RT/Publicaciones/blob/main/Predicci%C3%B3n_de_Publicaciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

El siguiente proyecto tiene como objetivo predecir el comportamiento de las publicaciones de los docentes del departamento de Matemática-Física de la Facultad de Educación en Ciencias Naturales y Exactas de la Universidad de Ciencias Pedagógicas "Enrique José Varona". Para ello se analizan los datos proporcionados durante el período de tiempo 2015-2019 (tiempo prepandemia) y se entrena un modelo de regresión lineal. La Facultad de Educación en Ciencias Naturales y Exactas de la Universidad de Ciencias Pedagógicas "Enrique José Varona" está estructurada por dos departamentos docentes-carrera: Departamento de Ciencias Naturales, que atienede las carreras de Biología, Química y Geografía, y el Departamento de Matemática-Física, que atiene las carreras de Matemática y Física; y el Centro de Estudios de Educación Ambiental (CEEA-GEA).

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

En esta celda se importan la librerías de Python a usar en el proyecto.

In [None]:
! git clone https://github.com/L-Abel-RT/Publicaciones.git

Cloning into 'Publicaciones'...
remote: Enumerating objects: 31, done.[K
remote: Counting objects: 100% (31/31), done.[K
remote: Compressing objects: 100% (29/29), done.[K
remote: Total 31 (delta 13), reused 0 (delta 0), pack-reused 0[K
Unpacking objects: 100% (31/31), done.


Para poder ser visto desde cualquier cuenta de Google Colab, se carga un archivo con formato xlsx desde la cuenta en Github del autor. El archivo, nombrado 'Publicaciones.xlsx', es un libro de Excel con 6 hojas, en donde, en las cinco primeras, aparecen las publicaciones realizadas por todos los profesores e investigadores de la Facultad de Educación en Ciencias Naturales y Exactas en el período de tiempo 2015-2019 y en la última hoja aparece el listado de los profesores del departamento de Matemática-Física con sus datos relevantes, el de interés para el proyecto. Los datos significativos de los profesores del departamento de Matemática-Física son el nombre, el sexo, la categoría docente y el grado científico.

In [None]:
data15 = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='2015')
data16 = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='2016')
data17 = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='2017')
data18 = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='2018')
data19 = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='2019')
datalist = pd.read_excel('/content/Publicaciones/Publicaciones.xlsx', sheet_name='Listado')

Se cargan los datos de cada hoja del documento en varios DataFrame de Pandas para facilitar su manipulación.

In [None]:
data15 = data15.drop(columns=['Id'])
data16 = data16.drop(columns=['Id'])
data17 = data17.drop(columns=['Id'])
data18 = data18.drop(columns=['Id'])
data19 = data19.drop(columns=['Id'])
datalist = datalist.drop(columns=['Id'])


En cada DataFrame existe una columna llamada Id, que asocia a cada fila (sin incluir la del nombre de la columna) un número natural comenzando en 1 y terminando en el número de filas. Esta columna se elimina usando la función drop en cada DataFrame, pues ya cada DataFrame al ser creados Pandas le asigna un identificador.

In [None]:
data15.isna().sum(), data16.isna().sum(), data17.isna().sum(), data18.isna().sum(), data19.isna().sum()

(Título    0
 Autor     5
 dtype: int64, Título    1
 Autor     0
 dtype: int64, Título    0
 Autor     2
 dtype: int64, Título    1
 Autor     0
 dtype: int64, Título    3
 Autor     1
 dtype: int64)

Se examina cada DataFrame en busca de los valores NaN (Not a Number) que puedan existir. Como se puede observar, excepto el último DataFrame (datalist), todos los otros poseen valores NaN. Esta pequeña visualización nos permite ver que el último no es necesario modificarlo.

In [None]:
data15.isna().sum(), data16.isna().sum(), data17.isna().sum(), data18.isna().sum(), data19.isna().sum()

(Título    0
 Autor     5
 dtype: int64, Título    1
 Autor     0
 dtype: int64, Título    0
 Autor     2
 dtype: int64, Título    1
 Autor     0
 dtype: int64, Título    3
 Autor     1
 dtype: int64)

Al comprobar podemos ver que no existe ningún valor NaN en los DataFrame.

In [None]:
pub15 = data15.value_counts('Autor').to_frame()
pub15.columns = ['2015']
pub15.reset_index(level=0, inplace=True)

pub16 = data16.value_counts('Autor').to_frame()
pub16.columns = ['2016']
pub16.reset_index(level=0, inplace=True)

pub17 = data17.value_counts('Autor').to_frame()
pub17.columns = ['2017']
pub17.reset_index(level=0, inplace=True)

pub18 = data18.value_counts('Autor').to_frame()
pub18.columns = ['2018']
pub18.reset_index(level=0, inplace=True)

pub19 = data19.value_counts('Autor').to_frame()
pub19.columns = ['2019']
pub19.reset_index(level=0, inplace=True)

Se cuenta la cantidad de publicaciones de cada autor en cada año haciendo uso de la función value_counts( ), la cual devuelve una serie. Luego se convierte esa serie en un DataFrame con la función to_frame( ). Se le asigna el nombre del año a la columna donde aparece la cantidad de publicaciones de cada autor. Se transforman los índices del DataFrame en una columna de este con el uso de la función reset_index( ). Este procedimiento es aplicado a todos los DataFrame con datos de cantidad de publicaciones.

In [None]:
pub15['MF'] = pub15.Autor.isin(datalist.Autor)
pub16['MF'] = pub16.Autor.isin(datalist.Autor)
pub17['MF'] = pub17.Autor.isin(datalist.Autor)
pub18['MF'] = pub18.Autor.isin(datalist.Autor)
pub19['MF'] = pub19.Autor.isin(datalist.Autor)

Se le agrega una columna a cada DataFrame con los datos de la publicaciones de tipo booleano que será verdadera si el autor pertenece al departamento docente-carrera de Matemática-Física y falso si no, haciendo uso de la función isin( ).

In [None]:
pub15 = pub15[pub15.MF == True]
pub16 = pub16[pub16.MF == True]
pub17 = pub17[pub17.MF == True]
pub18 = pub18[pub18.MF == True]
pub19 = pub19[pub19.MF == True]

Se eliminan los autores de los DataFrame de las cantidades de publicaciones que no pertenecen al departamento docente-carrera de Matemática-Física.

In [None]:
pub15 = pub15.drop(columns=['MF'])
pub16 = pub16.drop(columns=['MF'])
pub17 = pub17.drop(columns=['MF'])
pub18 = pub18.drop(columns=['MF'])
pub19 = pub19.drop(columns=['MF'])

Se elimina la columna de pertenencia o no al departamento docente-carrera de Matemática-Física, pues solo quedan los autores que pertenecen a este

In [None]:
datalist = pd.merge(datalist,pub15,how='outer')
datalist = pd.merge(datalist,pub16,how='outer')
datalist = pd.merge(datalist,pub17,how='outer')
datalist = pd.merge(datalist,pub18,how='outer')
datalist = pd.merge(datalist,pub19,how='outer')

Se hace uso de la función merge para combinar todos los DataFrames en uno solo, para entrenar el modelo de regresión lineal con este.

In [None]:
datalist = datalist.drop(columns=['Autor'])
datalist = datalist.fillna(0)
datalist = datalist.astype({'2015':'int32', '2016':'int32', '2017':'int32', '2018':'int32', '2019':'int32',})

Se elimina la columna Autor, pues no es de relevancia en el entrenamiento del modelo, haciendo uso de la función drop( ). Se sustituyen los valores NaN de la cantidad de publicaciones por ceros, haciendo uso de la función fillna( ). Se convierten los valores tipo float de las columnas 2015, 2016, 2017, 2018 y 2019 por valores tipo int32.

**A partir de este momento comenzara el proceso de entrenamiento del modelo de regesión lineal que se usará en el proyecto, pues los datos ya aparrece en la mejor forma para tratarlos.**

In [None]:
training = datalist.sample(frac=0.8,random_state=0)
test = datalist.drop(training.index)

Separamos nuestros datos en una muestra de entrenamiento, escogida aleatoriamente con la función sample( ), y una muestra de test, que corresponden a los datos que no son seleccionados para el entrenamiento.

In [None]:
etiq_training = training.pop('2019')
etiq_test = test.pop('2019')

Haciendo uso de la función pop( ), se extrae la última columna de ambas muestras, que es la variable a predecir: la cantidad de publicaciones en el último año anterior a la pandemia de Covid-19.

In [None]:
from sklearn import linear_model
modelo_lineal = linear_model.LinearRegression(positive=True, fit_intercept=False)
modelo_lineal.fit(training, etiq_training)
modelo_lasso = linear_model.Lasso(alpha=0.1)
modelo_lasso.fit(training, etiq_training)
modelo_elasticnet = linear_model.ElasticNet(alpha=0.1, l1_ratio=0.7)
modelo_elasticnet.fit(training, etiq_training)

ElasticNet(alpha=0.1, l1_ratio=0.7)

Entrenamos tres modelos de regresión lineal haciendo uso de los datos de entrenamiento.

In [None]:
Pred_lineal = modelo_lineal.predict(test)
Pred_lasso = modelo_lasso.predict(test)
Pred_elasticnet = modelo_elasticnet.predict(test)

Haciendo uso de la función predict( ) hacemos que nuestro modelo prediga que valores debería tener la cantidad de publicaciones en el último año prepandemia.

In [None]:
from sklearn.metrics import mean_squared_error
errorl = np.sqrt(mean_squared_error(etiq_test,Pred_lineal))
print('El error porcentual del modelo lineal es: %f' % (errorl*100))

errorlasso = np.sqrt(mean_squared_error(etiq_test,Pred_lineal))
print('El error porcentual del modelo Lasso es: %f' % (errorlasso*100))

errornet = np.sqrt(mean_squared_error(etiq_test,Pred_elasticnet))
print('El error porcentual del modelo Elastic-Net es: %f' % (errornet*100))

El error porcentual del modelo lineal es: 260.572719
El error porcentual del modelo Lasso es: 260.572719
El error porcentual del modelo Elastic-Net es: 255.110083


**Conclusiones**


Podemos concluir que los modelos usados no se corresponden con el comportamiento del fenómeno estudiado, por lo que se debe, en futuros proyectos, usar otros modelos de Machine Learning, como podrían ser las series temporales o la combinación de estas con modelos lineales o más complejos.