In [54]:
import pandas as pd
import re
from models import ResumenesInvestigacion

resumenes_docentes = pd.read_excel("./data/Resumenes.xlsx", sheet_name="Proyectos Docentes")
resumenes_estudiantes = pd.read_excel("./data/Resumenes.xlsx", sheet_name="studiantiles y Trabajos de G")

columnas_resumenes = [column for column in dir(ResumenesInvestigacion)
                      if not (column.startswith('_') or column == 'metadata' or column == 'id')]


def all_in_one_row_5_columns(df, col1, col2, col3, col4, col5):
    contador = 1
    nan = 0
    indexcol1 = 0
    for index, row in df.iterrows():

        nac = row['no']
        if nac > nan:
            nan = nac
            contador = 1
            indexcol1 = index
        else:
            if contador == 2:
                df.loc[indexcol1, col2] = row[col1]
            elif contador == 3:
                df.loc[indexcol1, col3] = row[col1]
            elif contador == 4:
                df.loc[indexcol1, col4] = row[col1]
            elif contador == 5:
                df.loc[indexcol1, col5] = row[col1]

        contador += 1

    return df


def all_in_one_row_4_columns(df, col1, col2, col3, col4):
    contador = 1
    nan = 0
    indexcol1 = 0
    for index, row in df.iterrows():

        nac = row['no']
        if nac > nan:
            nan = nac
            contador = 1
            indexcol1 = index
        else:
            if contador == 2:
                df.loc[indexcol1, col2] = row[col1]
            elif contador == 3:
                df.loc[indexcol1, col3] = row[col1]
            elif contador == 4:
                df.loc[indexcol1, col4] = row[col1]
        contador += 1

    return df


def datos_adicionales(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        regex = re.compile(r'[a-zA-Z\s/()]+|\d+')

        for index, resumen in df.iterrows():
            result = regex.findall(resumen['convocatoria'])
            convocatoria = result[0]
            anio = result[1] if len(result) > 1 else ''

            df.at[index, 'tipo_convocatoria'] = convocatoria
            df.at[index, 'anio_convocatoria'] = anio

            for i in range(1, 5):
                try:
                    name = resumen.loc[f'nombres_autor{i}'].split(' ')
                except:
                    break

                if len(name) <= 3:
                    first_name = name[0]
                    last_name = ' '.join(name[1:])
                else:
                    first_name = ' '.join(name[:2])
                    last_name = ' '.join(name[2:])

                df.at[index, f'nombres_autor{i}'] = first_name
                df.at[index, f'apellidos_autor{i}'] = last_name

        return df

    return wrapper


def ordenamiento_datos(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        columns = ['palabra', 'codigo', 'nombres', 'programa', 'facultad', 'grupo', 'linea', 'departamento']
        for column in columns:
            regex = re.compile(column)
            filtered_columns = list(filter(regex.match, columnas_resumenes))
            df = all_in_one_row_5_columns(df, *filtered_columns) if len(
                filtered_columns) > 4 else all_in_one_row_4_columns(df, *filtered_columns)

        # Eliminacion de Datos Nulos
        df.dropna(thresh=13, inplace=True)
        # Reasignar Index
        df['index'] = df['no'].astype('int')
        df.set_index('index', inplace=True)
        df.drop(columns=['no'], inplace=True)

        return df

    return wrapper


def completado_numero_registros(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        nac = 1
        for index, row in df.iterrows():
            if pd.isnull(row['no']):
                df.loc[index, 'no'] = nac
            else:
                nac = row['no']

        return df

    return wrapper


def estructura_columnas(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        # Asignamos index
        df['index'] = [*range(1, len(df) + 1)]
        df.set_index('index', inplace=True)

        columns = ["no", "id_investigacion", "titulo_investigacion",
                   "resumen_investigacion", "estado_investigacion",
                   "codigo_autor1", "nombres_autor1", "programa_autor1",
                   "facultad_autor1", "convocatoria", "grupo_investigacion1",
                   "linea_investigacion1", "palabra_clave1"]

        # Asignamos Columnas
        if len(df.columns) > 13:  # Columnas para estudiantes
            columns.insert(7, 'departamento_autor1')
            columns.insert(9, 'nombre_asesor')
            df.columns = columns
        else:  # Columnas para docentes
            df.columns = columns

        # Agregamos Columnas restantes
        for column in columnas_resumenes:
            if column not in df:
                df[column] = None

        # Eliminamos registros no encontrados en Palabras Clave
        df['palabra_clave1'] = df['palabra_clave1'].apply(
            lambda row: row if (row != 'No se encontraron palabras clave registradas') else "")

        # Convocatorias N/A
        df['convocatoria'] = df['convocatoria'].apply(lambda row: row if (row != 'N/A (Registrado)') else "Ninguna")

        return df

    return wrapper

@datos_adicionales
@ordenamiento_datos
@completado_numero_registros
@estructura_columnas
def estructura_dataset(df):
    return df


if __name__ == '__main__':
    resumenes_docentes = estructura_dataset(resumenes_docentes)
    resumenes_estudiantes = estructura_dataset(resumenes_estudiantes)
    print('finish')



finish


In [58]:
resumenes_docentes['convocatoria']

index
1      Docente 2017
2      Docente 2017
3      Docente 2016
4      Docente 2018
5      Docente 2012
           ...     
308    Docente 2014
309    Docente 2018
310         Ninguna
311    Docente 2017
312    Docente 2019
Name: convocatoria, Length: 312, dtype: object

In [51]:
r = resumenes_docentes.dropna(thresh=13)
r.iloc[2]

id_investigacion                    NaN
titulo_investigacion                NaN
resumen_investigacion               NaN
estado_investigacion                NaN
codigo_autor1                       NaN
nombres_autor1                      NaN
programa_autor1                     NaN
facultad_autor1                     NaN
convocatoria                        NaN
grupo_investigacion1                NaN
linea_investigacion1                NaN
palabra_clave1           Emprendimiento
anio_convocatoria                      
apellidos_autor1                       
apellidos_autor2                       
apellidos_autor3                       
apellidos_autor4                       
codigo_autor2                          
codigo_autor3                          
codigo_autor4                          
departamento_autor1                    
departamento_autor2                    
departamento_autor3                    
departamento_autor4                    
facultad_autor2                        


In [31]:
resumenes_docentes=resumenes_docentes.astype('object')

In [32]:
resumenes_docentes.dtypes

id_investigacion         object
titulo_investigacion     object
resumen_investigacion    object
estado_investigacion     object
codigo_autor1            object
nombres_autor1           object
programa_autor1          object
facultad_autor1          object
convocatoria             object
grupo_investigacion1     object
linea_investigacion1     object
palabra_clave1           object
anio_convocatoria        object
apellidos_autor1         object
apellidos_autor2         object
apellidos_autor3         object
apellidos_autor4         object
codigo_autor2            object
codigo_autor3            object
codigo_autor4            object
departamento_autor1      object
departamento_autor2      object
departamento_autor3      object
departamento_autor4      object
facultad_autor2          object
facultad_autor3          object
facultad_autor4          object
grupo_investigacion2     object
grupo_investigacion3     object
grupo_investigacion4     object
linea_investigacion2     object
linea_in

In [18]:
resumenes_estudiantes.iloc[22]

no                                                                       7
id_investigacion                                                      1921
titulo_investigacion     Análisis de un modelo matemático en ecuaciones...
resumen_investigacion    El virus de la inmunodeficiencia humana VIH es...
estado_investigacion                                          En Ejecución
codigo_autor1                                                        14345
nombres_autor1                              Marilin Nathalya Guerrero Laos
departamento_autor1                            Licenciatura en Matemáticas
programa_autor1                                  Matemáticas y Estadística
nombres_asesor                                Ciencias Exactas y Naturales
facultad_autor1                                                     Miller
convocatoria                                              Estudiantil 2019
grupo_investigacion1     Grupo de Investigación en Biología Matemática ...
linea_investigacion1     

In [17]:
resumenes_docentes.iloc[22]

no                                             5
id_investigacion                             NaN
titulo_investigacion                         NaN
resumen_investigacion                        NaN
estado_investigacion                         NaN
codigo_autor1                              11718
nombres_autor1           Sonia Maria Gómez Erazo
programa_autor1                         Medicina
facultad_autor1             Ciencias de la Salud
convocatoria                                 NaN
grupo_investigacion1                         NaN
linea_investigacion1                         NaN
palabra_clave1                               NaN
anio_convocatoria                               
apellidos_autor1                                
apellidos_autor2                                
apellidos_autor3                                
apellidos_autor4                                
codigo_autor2                                   
codigo_autor3                                   
codigo_autor4       

In [30]:
def ordenamiento_datos():
    columns = ['palabra', 'codigo', 'nombres', 'programa', 'facultad', 'grupo', 'linea']
    for column in columns:
        regex = re.compile(column)
        filtered_columns = list(filter(regex.match, columnas_resumenes))
        all_in_one_row_5_columns() if len(filtered_columns) > 4 else all_in_one_row_4_columns()
        
ordenamiento_datos()

5
4
4
4
4
4
4


In [19]:
len(resumenes_docentes.columns)

47

In [7]:
len(resumenes_docentes.columns)

13

In [7]:
from sqlalchemy import create_engine, inspect
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

# Scheme: "postgres+psycopg2://<USERNAME>:<PASSWORD>@<IP_ADDRESS>:<PORT>/<DATABASE_NAME>"

username='sangeeky'
password='D.va7-34p'
DATABASE_URI = f'postgres+psycopg2://{username}:{password}@localhost:5432/uimidb'

engine = create_engine(DATABASE_URI)
Session = sessionmaker(bind=engine)
session = Session()

Base = declarative_base()
inspector = inspect(engine)

In [8]:
inspector.get_columns('resumenes_docente')

[{'name': 'id',
  'type': INTEGER(),
  'nullable': False,
  'default': "nextval('resumenes_docentes_id_seq'::regclass)",
  'autoincrement': True,
  'comment': None},
 {'name': 'id_investigacion',
  'type': VARCHAR(length=8),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'titulo_investigacion',
  'type': VARCHAR(length=10000),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'resumen_investigacion',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'estado_investigacion',
  'type': VARCHAR(length=100),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'palabra_clave1',
  'type': VARCHAR(length=500),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'palabra_clave2',
  'type': VARCHAR(length=500),
  'nullable': True,
  'default': None,
  'autoi