# Spacy Tokenizacion Notebook

In [1]:
import pandas as pd
import re
import json




In [None]:
def clean_text(text):
    '''Make text lowercase, 
    remove text in square brackets, 
    remove punctuation and remove words             
    containing numbers.'''

    text = text.lower()    
    text = re.sub("\d", '',text)
    text = re.sub("\.", '', text)
    pattern = re.compile(r"""                  # Flag para iniciar el modo verbose
              #(?:[A-Za-z]\.|\'|[A-Za-z])+     # Hace match con abreviaciones como U.S.A. o Nombre's
              #(?:[A-Za-z]\.)+                 # Hace match con abreviaciones como U.S.A.        
               \w+(?:\w+)*                     # Hace match con palabras completas
              # | \w+(?:-\w+)*                 # Hace match con palabras que pueden tener un guión interno
              # \$?\d+(?:\.\d+)?%?             # Hace match con dinero o porcentajes como $15.5 o 100%
              # \.\.\.                         # Hace match con puntos suspensivos
              # [][.,;"'?():-_`]               # Hace match con signos de puntuación
              """, re.X)

    resultado = pattern.findall(text) #Encuentra las ocurrencias y las retorna como lista
    return resultado


### Crear tabla 'CORPUS' y agregar datos

- corpus_completo
- corpus_nombres
- corpus_palabras -> sin tildes
- corpus_lemas -> instanciar ontologia

In [None]:
#Agregamos Columna de Corpus palabras tokenizadas
resumenes_docentes['corpus'] = resumenes_docentes.apply(lambda row: row['titulo']+' '+row['resumen']+' '+row['palabras_clave']+' '+row['facultad']+' '+row['programa']+' '+
                                                                    row['grupo_investigacion']+' '+row['linea_investigacion'],axis=1)

resumenes_estudiantes['corpus'] = resumenes_estudiantes.apply(lambda row: row['titulo']+' '+row['resumen']+' '+row['palabras_clave']+' '+row['facultad']+' '+row['departamento']+' '+row['programa']+' '+
                                                                          row['grupo_investigacion']+' '+row['linea_investigacion'],axis=1)

In [None]:
#Corpus con Nombres Autores

resumenes_docentes['palabras_corpus']=''
for index, row in resumenes_docentes.iterrows():
    palabras_clean = clean_text(row['corpus'])
    #Agregamos el autor para que no sea lematizado
    palabras_clean.extend(row['nombre_autor'].split())
    palabras_clean.extend(row['convocatoria'].split())
    palabras = [palabra for palabra in palabras_clean if not palabra in stopwords and len(palabra) > 2] #Uso de stopwords

    resumenes_docentes.at[index, 'palabras_corpus'] = ' '.join(palabras)

resumenes_estudiantes['palabras_corpus']=''
for index, row in resumenes_estudiantes.iterrows():
    palabras_clean = clean_text(row['corpus'])
    #Agregamos el autor para que no sea lematizado
    palabras_clean.extend(row['nombre_autor'].split())
    palabras_clean.extend(row['nombre_asesor'].split())
    palabras_clean.extend(row['convocatoria'].split())
    palabras = [palabra for palabra in palabras_clean if not palabra in stopwords and len(palabra) > 2] #Uso de stopwords
    
    resumenes_estudiantes.at[index, 'palabras_corpus'] = ' '.join(palabras) 

In [None]:
#Corpus solo Palabras para entrenar modelos
resumenes_docentes['palabras_no_autor']=''
for index, row in resumenes_docentes.iterrows():
    palabras_clean = clean_text(row['corpus'])
    #Agregamos el autor para que no sea lematizado
    palabras_clean.extend(row['convocatoria'].split())
    palabras = [palabra for palabra in palabras_clean if not palabra in stopwords and len(palabra) > 2]

    resumenes_docentes.at[index, 'palabras_no_autor'] = ' '.join(palabras)

resumenes_estudiantes['palabras_no_autor']=''
for index, row in resumenes_estudiantes.iterrows():
    palabras_clean = clean_text(row['corpus'])
    #Agregamos el autor para que no sea lematizado
    palabras_clean.extend(row['convocatoria'].split())
    palabras = [palabra for palabra in palabras_clean if not palabra in stopwords and len(palabra) > 2]
    
    resumenes_estudiantes.at[index, 'palabras_no_autor'] = ' '.join(palabras) 
    
##Guardar Corpus

### Tabla Datos Limpieza
- diccionario lemas -> json
- stopwords
- corpus_resumenes entrenamiento

### Lematizador de Palabras

In [None]:
#Importar spacy para lemmatizar palabras
import spacy
import difflib

nlp = spacy.load('es_core_news_sm')

#Eliminacion de Tildes y dialisis
#Diccionario lemas y palabras derivadas
#Key: Lema
#Value: Las Palabras Originales
diccionario_lemas = dict()

def lemmatizer(text):
  
  #Remover tildes y dialisis  
  normalizar = str.maketrans('áéíóúüàèìòù','aeiouuaeiou')
  
  lemas = '' #corpus transformado a lemas
  
  doc = nlp(text) #Usamos el modelo de Spacy e identificamos Lemas

  for word in doc:
        
    #Lematizar si es VERBO
    if word.pos_=="VERB":
        cleaned_lema = word.lemma_.translate(normalizar).lower() #Lema Limpio
        cleaned_word = word.text.translate(normalizar).lower() #Letra Original limpia
    #Si no es verbo dejamos la palabra original
    else:
        cleaned_lema = word.text.translate(normalizar).lower() #lema limpio
        cleaned_word = cleaned_lema #letra original limpia

    #Agreamos el corpus de lemas original
#     lemas = lemas + ' ' + cleaned_lema
  
    #Obtenemos Lista de palabras asociadas al lema
    list_words = diccionario_lemas.get(cleaned_lema)
    
    if(list_words == None):
        # Palabras Similares al lema encontrado
        similar_word = difflib.get_close_matches(cleaned_lema, diccionario_lemas.keys(), n=1, cutoff=0.94)
        # Si hay un lema ya registrado tomamos esa base
        cleaned_lema = similar_word[0] if len(similar_word) > 0 else cleaned_lema
    
    #Agreamos el corpus de lemas que servirá para el entranamiento e instancias
    lemas = lemas + ' ' + cleaned_lema #table -> corpus_lemas
    
    #Verificar si el Lema existe
    if(list_words == None):
      #Agregamos palabra original y lema
      if(cleaned_lema == cleaned_word):
        diccionario_lemas[cleaned_lema] = [ cleaned_word ] #Palabra original no se lematizo
      else:
        diccionario_lemas[cleaned_lema] = [ cleaned_word, cleaned_lema ] #Palabra lematizada y su original
    else:
      #Revisamos si es una nueva palabra
      if cleaned_word not in list_words:
        diccionario_lemas[cleaned_lema].append(cleaned_word) #Agregamos nueva palabra original

  #Retornamos Corpus de Lemas 
  return lemas


##Cambiar codigo arriba if list_words == None

### Lemas como corpus - DOCENTES

In [None]:
resumenes_docentes['lemas_corpus'] = ''
resumenes_docentes['lemas_corpus_autor'] = ''
resumenes_docentes['vocabulario'] = ''
for index, row in resumenes_docentes.iterrows():
    #if( index > 3): break
    #palabras = ast.literal_eval(row['palabras'])
    lemas = lemmatizer(row['palabras_no_autor'])
    lemas_corpus = lemas #Entrenamiento del Modelo
    lemas_corpus_autor = lemas+' '+row['nombre_autor'].lower() #Instanciar en la ontologia
    vocabulario_lemas = set(lemas_corpus_autor.split())
    
    resumenes_docentes.at[index, 'lemas_corpus'] = lemas_corpus
    resumenes_docentes.at[index, 'lemas_corpus_autor'] = lemas_corpus_autor
    resumenes_docentes.at[index, 'vocabulario'] = vocabulario_lemas
    print(f'Lemas Completo Resumen {index}')


### Lemas como corpus - ESTUDIANTES

In [None]:
resumenes_estudiantes['lemas_corpus'] = ''
resumenes_estudiantes['lemas_corpus_autor'] = ''
resumenes_estudiantes['vocabulario'] = ''
for index, row in resumenes_estudiantes.iterrows():
    #if( index > 1): break
    lemas = lemmatizer(row['palabras_no_autor'])
    lemas_corpus = lemas
    lemas_corpus_autor = lemas+' '+row['nombre_autor'].lower()+' '+row['nombre_asesor'].lower()
    vocabulario_lemas = set(lemas_corpus_autor.split())
    
    resumenes_estudiantes.at[index, 'lemas_corpus'] = lemas_corpus
    resumenes_estudiantes.at[index, 'lemas_corpus_autor'] = lemas_corpus_autor
    resumenes_estudiantes.at[index, 'vocabulario'] = vocabulario_lemas
    
    print(f'Lemas Completo Resumen {index}')

In [None]:
#Store diccionario lemas

## Modelo Base de Datos y Carga de Datos

In [54]:
import pandas as pd
import re
from models import ResumenesInvestigacion

resumenes_docentes = pd.read_excel("./data/Resumenes.xlsx", sheet_name="Proyectos Docentes")
resumenes_estudiantes = pd.read_excel("./data/Resumenes.xlsx", sheet_name="studiantiles y Trabajos de G")

columnas_resumenes = [column for column in dir(ResumenesInvestigacion)
                      if not (column.startswith('_') or column == 'metadata' or column == 'id')]


def all_in_one_row_5_columns(df, col1, col2, col3, col4, col5):
    contador = 1
    nan = 0
    indexcol1 = 0
    for index, row in df.iterrows():

        nac = row['no']
        if nac > nan:
            nan = nac
            contador = 1
            indexcol1 = index
        else:
            if contador == 2:
                df.loc[indexcol1, col2] = row[col1]
            elif contador == 3:
                df.loc[indexcol1, col3] = row[col1]
            elif contador == 4:
                df.loc[indexcol1, col4] = row[col1]
            elif contador == 5:
                df.loc[indexcol1, col5] = row[col1]

        contador += 1

    return df


def all_in_one_row_4_columns(df, col1, col2, col3, col4):
    contador = 1
    nan = 0
    indexcol1 = 0
    for index, row in df.iterrows():

        nac = row['no']
        if nac > nan:
            nan = nac
            contador = 1
            indexcol1 = index
        else:
            if contador == 2:
                df.loc[indexcol1, col2] = row[col1]
            elif contador == 3:
                df.loc[indexcol1, col3] = row[col1]
            elif contador == 4:
                df.loc[indexcol1, col4] = row[col1]
        contador += 1

    return df


def datos_adicionales(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        regex = re.compile(r'[a-zA-Z\s/()]+|\d+')

        for index, resumen in df.iterrows():
            result = regex.findall(resumen['convocatoria'])
            convocatoria = result[0]
            anio = result[1] if len(result) > 1 else ''

            df.at[index, 'tipo_convocatoria'] = convocatoria
            df.at[index, 'anio_convocatoria'] = anio

            for i in range(1, 5):
                try:
                    name = resumen.loc[f'nombres_autor{i}'].split(' ')
                except:
                    break

                if len(name) <= 3:
                    first_name = name[0]
                    last_name = ' '.join(name[1:])
                else:
                    first_name = ' '.join(name[:2])
                    last_name = ' '.join(name[2:])

                df.at[index, f'nombres_autor{i}'] = first_name
                df.at[index, f'apellidos_autor{i}'] = last_name

        return df

    return wrapper


def ordenamiento_datos(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        columns = ['palabra', 'codigo', 'nombres', 'programa', 'facultad', 'grupo', 'linea', 'departamento']
        for column in columns:
            regex = re.compile(column)
            filtered_columns = list(filter(regex.match, columnas_resumenes))
            df = all_in_one_row_5_columns(df, *filtered_columns) if len(
                filtered_columns) > 4 else all_in_one_row_4_columns(df, *filtered_columns)

        # Eliminacion de Datos Nulos
        df.dropna(thresh=13, inplace=True)
        # Reasignar Index
        df['index'] = df['no'].astype('int')
        df.set_index('index', inplace=True)
        df.drop(columns=['no'], inplace=True)

        return df

    return wrapper


def completado_numero_registros(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        nac = 1
        for index, row in df.iterrows():
            if pd.isnull(row['no']):
                df.loc[index, 'no'] = nac
            else:
                nac = row['no']

        return df

    return wrapper


def estructura_columnas(dataset):
    def wrapper(*args, **kargs):
        df = dataset(*args, **kargs)
        # Asignamos index
        df['index'] = [*range(1, len(df) + 1)]
        df.set_index('index', inplace=True)

        columns = ["no", "id_investigacion", "titulo_investigacion",
                   "resumen_investigacion", "estado_investigacion",
                   "codigo_autor1", "nombres_autor1", "programa_autor1",
                   "facultad_autor1", "convocatoria", "grupo_investigacion1",
                   "linea_investigacion1", "palabra_clave1"]

        # Asignamos Columnas
        if len(df.columns) > 13:  # Columnas para estudiantes
            columns.insert(7, 'departamento_autor1')
            columns.insert(9, 'nombre_asesor')
            df.columns = columns
        else:  # Columnas para docentes
            df.columns = columns

        # Agregamos Columnas restantes
        for column in columnas_resumenes:
            if column not in df:
                df[column] = None

        # Eliminamos registros no encontrados en Palabras Clave
        df['palabra_clave1'] = df['palabra_clave1'].apply(
            lambda row: row if (row != 'No se encontraron palabras clave registradas') else "")

        # Convocatorias N/A
        df['convocatoria'] = df['convocatoria'].apply(lambda row: row if (row != 'N/A (Registrado)') else "Ninguna")

        return df

    return wrapper

@datos_adicionales
@ordenamiento_datos
@completado_numero_registros
@estructura_columnas
def estructura_dataset(df):
    return df


if __name__ == '__main__':
    resumenes_docentes = estructura_dataset(resumenes_docentes)
    resumenes_estudiantes = estructura_dataset(resumenes_estudiantes)
    print('finish')



finish


In [58]:
resumenes_docentes['convocatoria']

index
1      Docente 2017
2      Docente 2017
3      Docente 2016
4      Docente 2018
5      Docente 2012
           ...     
308    Docente 2014
309    Docente 2018
310         Ninguna
311    Docente 2017
312    Docente 2019
Name: convocatoria, Length: 312, dtype: object

In [51]:
r = resumenes_docentes.dropna(thresh=13)
r.iloc[2]

id_investigacion                    NaN
titulo_investigacion                NaN
resumen_investigacion               NaN
estado_investigacion                NaN
codigo_autor1                       NaN
nombres_autor1                      NaN
programa_autor1                     NaN
facultad_autor1                     NaN
convocatoria                        NaN
grupo_investigacion1                NaN
linea_investigacion1                NaN
palabra_clave1           Emprendimiento
anio_convocatoria                      
apellidos_autor1                       
apellidos_autor2                       
apellidos_autor3                       
apellidos_autor4                       
codigo_autor2                          
codigo_autor3                          
codigo_autor4                          
departamento_autor1                    
departamento_autor2                    
departamento_autor3                    
departamento_autor4                    
facultad_autor2                        


In [31]:
resumenes_docentes=resumenes_docentes.astype('object')

In [32]:
resumenes_docentes.dtypes

id_investigacion         object
titulo_investigacion     object
resumen_investigacion    object
estado_investigacion     object
codigo_autor1            object
nombres_autor1           object
programa_autor1          object
facultad_autor1          object
convocatoria             object
grupo_investigacion1     object
linea_investigacion1     object
palabra_clave1           object
anio_convocatoria        object
apellidos_autor1         object
apellidos_autor2         object
apellidos_autor3         object
apellidos_autor4         object
codigo_autor2            object
codigo_autor3            object
codigo_autor4            object
departamento_autor1      object
departamento_autor2      object
departamento_autor3      object
departamento_autor4      object
facultad_autor2          object
facultad_autor3          object
facultad_autor4          object
grupo_investigacion2     object
grupo_investigacion3     object
grupo_investigacion4     object
linea_investigacion2     object
linea_in

In [18]:
resumenes_estudiantes.iloc[22]

no                                                                       7
id_investigacion                                                      1921
titulo_investigacion     Análisis de un modelo matemático en ecuaciones...
resumen_investigacion    El virus de la inmunodeficiencia humana VIH es...
estado_investigacion                                          En Ejecución
codigo_autor1                                                        14345
nombres_autor1                              Marilin Nathalya Guerrero Laos
departamento_autor1                            Licenciatura en Matemáticas
programa_autor1                                  Matemáticas y Estadística
nombres_asesor                                Ciencias Exactas y Naturales
facultad_autor1                                                     Miller
convocatoria                                              Estudiantil 2019
grupo_investigacion1     Grupo de Investigación en Biología Matemática ...
linea_investigacion1     

In [17]:
resumenes_docentes.iloc[22]

no                                             5
id_investigacion                             NaN
titulo_investigacion                         NaN
resumen_investigacion                        NaN
estado_investigacion                         NaN
codigo_autor1                              11718
nombres_autor1           Sonia Maria Gómez Erazo
programa_autor1                         Medicina
facultad_autor1             Ciencias de la Salud
convocatoria                                 NaN
grupo_investigacion1                         NaN
linea_investigacion1                         NaN
palabra_clave1                               NaN
anio_convocatoria                               
apellidos_autor1                                
apellidos_autor2                                
apellidos_autor3                                
apellidos_autor4                                
codigo_autor2                                   
codigo_autor3                                   
codigo_autor4       

In [30]:
def ordenamiento_datos():
    columns = ['palabra', 'codigo', 'nombres', 'programa', 'facultad', 'grupo', 'linea']
    for column in columns:
        regex = re.compile(column)
        filtered_columns = list(filter(regex.match, columnas_resumenes))
        all_in_one_row_5_columns() if len(filtered_columns) > 4 else all_in_one_row_4_columns()
        
ordenamiento_datos()

5
4
4
4
4
4
4


In [19]:
len(resumenes_docentes.columns)

47

In [7]:
len(resumenes_docentes.columns)

13

In [7]:
from sqlalchemy import create_engine, inspect
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

# Scheme: "postgres+psycopg2://<USERNAME>:<PASSWORD>@<IP_ADDRESS>:<PORT>/<DATABASE_NAME>"

username='sangeeky'
password='D.va7-34p'
DATABASE_URI = f'postgres+psycopg2://{username}:{password}@localhost:5432/uimidb'

engine = create_engine(DATABASE_URI)
Session = sessionmaker(bind=engine)
session = Session()

Base = declarative_base()
inspector = inspect(engine)

In [8]:
inspector.get_columns('resumenes_docente')

[{'name': 'id',
  'type': INTEGER(),
  'nullable': False,
  'default': "nextval('resumenes_docentes_id_seq'::regclass)",
  'autoincrement': True,
  'comment': None},
 {'name': 'id_investigacion',
  'type': VARCHAR(length=8),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'titulo_investigacion',
  'type': VARCHAR(length=10000),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'resumen_investigacion',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'estado_investigacion',
  'type': VARCHAR(length=100),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'palabra_clave1',
  'type': VARCHAR(length=500),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'palabra_clave2',
  'type': VARCHAR(length=500),
  'nullable': True,
  'default': None,
  'autoi