# Imports and configuration

In [1]:
import asyncio
import os
import pandas as pd
import time
from typing import Dict
import sys


from src.processing.constants import BASE_DIRECTORY
from src.processing.data_handler.models.obtained_text import ObtainedText
from src.processing.data_handler.models.descriptive_index import DescriptiveIndex
from src.processing.data_handler.models.connective_index import ConnectiveIndex
from src.processing.data_handler.models.lexical_diversity_index import LexicalDiversityIndex
from src.processing.data_handler.models.readability_index import ReadabilityIndex
from src.processing.data_handler.models.referential_cohesion_index import ReferentialCohesionIndex
from src.processing.data_handler.models.syntactic_complexity_index import SyntacticComplexityIndex
from src.processing.data_handler.models.syntactic_pattern_density_index import SyntacticPatternDensityIndex
from src.processing.data_handler.models.word_information_index import WordInformationIndex
from src.processing.data_handler.data_access.obtained_text_da import ObtainedTextDA
from src.processing.text_complexity_analizer import TextComplexityAnalizer

  util.warn(


# Calculate text complexity indices

In [2]:
tca = TextComplexityAnalizer('es')
da = ObtainedTextDA()
obtained_texts = da.select_all()

for ot in obtained_texts:
    if ot.descriptive_index is not None and ot.word_information_index is not None and ot.syntactic_pattern_density_index is not None and ot.syntactic_complexity_index is not None and ot.connective_index is not None and ot.lexical_diversity_index is not None and ot.readability_index is not None and ot.referential_cohesion_index:
        print(f'{ot.filename} Ya ha sido procesado anteriormente.')
    else:
        try:
            start = time.time()
            descriptive_row = tca.calculate_descriptive_indices_for_one_text(ot.text)
            word_count = descriptive_row['DESWC']
            mean_words_per_sentence = descriptive_row['DESSL']
            mean_syllables_per_word = descriptive_row['DESWLsy']
            ot.descriptive_index = DescriptiveIndex(**descriptive_row)
            ot.word_information_index = WordInformationIndex(**tca.calculate_word_information_indices_for_one_text(ot.text, word_count))
            ot.syntactic_pattern_density_index = SyntacticPatternDensityIndex(**tca.calculate_syntactic_pattern_density_indices_for_one_text(ot.text, word_count))
            ot.syntactic_complexity_index = SyntacticComplexityIndex(**tca.calculate_syntactic_complexity_indices_for_one_text(ot.text))
            ot.connective_index = ConnectiveIndex(**tca.calculate_connective_indices_for_one_text(ot.text, word_count))
            ot.lexical_diversity_index = LexicalDiversityIndex(**tca.calculate_lexical_diversity_density_indices_for_one_text(ot.text))
            ot.readability_index = ReadabilityIndex(**tca.calculate_readability_indices_for_one_text(ot.text, mean_words_per_sentence=mean_words_per_sentence, mean_syllables_per_word=mean_syllables_per_word))
            ot.referential_cohesion_index = ReferentialCohesionIndex(**tca.calculate_referential_cohesion_indices_for_one_text(text=ot.text))
            end = time.time()
            da.update(ot) # Save the indices for the current record       
            print(f'Tiempo demorado para {ot.filename}: {end - start} segundos.')
        except Exception as e:
            print(f'{ot.filename} no pudo ser procesado debido a un error en el procesamiento.')
            print(str(e))
            continue

Ruta_castellano_inicial.txt Ya ha sido procesado anteriormente.
abecedario.txt Ya ha sido procesado anteriormente.
aguita-vida.txt Ya ha sido procesado anteriormente.
antes-muy-antes.txt Ya ha sido procesado anteriormente.
antologia-de-poesia-para-ninos-y-ninas.txt Ya ha sido procesado anteriormente.
aprendemos-jugando-2018-4.txt Ya ha sido procesado anteriormente.
aprendemos-jugando-2018-5.txt Ya ha sido procesado anteriormente.
cancion-amor.txt Ya ha sido procesado anteriormente.
cancionero-bebetecas.txt Ya ha sido procesado anteriormente.
capacidades_comunica_ama.txt Ya ha sido procesado anteriormente.
capacidades_comunica_ande.txt Ya ha sido procesado anteriormente.
cartilla-acogida-comunidad-educativa-reinicio-clases.txt Ya ha sido procesado anteriormente.
con-los-ojos-abierto-yo-escucho.txt Ya ha sido procesado anteriormente.
con-los-ojos-abiertos-yo-veo.txt Ya ha sido procesado anteriormente.
cuentos-trabalenguas-3.txt Ya ha sido procesado anteriormente.
cuentos-trabalenguas-4.t

cuenca_rio_santa.txt no pudo ser procesado debido a un error en el procesamiento.
division by zero
fernando_belaunde.txt Ya ha sido procesado anteriormente.
haya_torre.txt Ya ha sido procesado anteriormente.
historia_geografia.txt Ya ha sido procesado anteriormente.
manuel_valdes.txt Ya ha sido procesado anteriormente.
manuela_saenz.txt Ya ha sido procesado anteriormente.
agua_suelo.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-portafolio-3-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-portafolio-4-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-1-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-2.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-3-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-4-avanzado.txt Ya ha sido procesado anteriormente.
biodiversidad_docente.txt Ya ha sido procesado anteriormente.
biologia.txt Ya ha sido p

  ret = _var(a, axis=axis, dtype=dtype, out=out, ddof=ddof,
  arrmean = um.true_divide(
  ret = ret.dtype.type(ret / rcount)
  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)


charles_dickens.txt no pudo ser procesado debido a un error en el procesamiento.
division by zero
clorinda_matto.txt Ya ha sido procesado anteriormente.
competencias-comunicativas.txt Ya ha sido procesado anteriormente.
comunicacion-secundaria-rural-cuaderno-1.txt Ya ha sido procesado anteriormente.
corsario_negro.txt Ya ha sido procesado anteriormente.
cuadernillo_salida4_escritura_5to_grado.txt Ya ha sido procesado anteriormente.
cuaderno-nivelacion-competencias-com-vi.txt Ya ha sido procesado anteriormente.
cumbres_borrascosas.txt Ya ha sido procesado anteriormente.
diccionario_shipibo.txt Ya ha sido procesado anteriormente.
estacion-de-las-letras.txt Ya ha sido procesado anteriormente.
extrano_caso_doctor_hyde.txt Ya ha sido procesado anteriormente.
frankenstein.txt Ya ha sido procesado anteriormente.
guia_produccion_audiolibros.txt Ya ha sido procesado anteriormente.
hora-literaria-1-m1.txt Ya ha sido procesado anteriormente.
hora-literaria-1-m2.txt Ya ha sido procesado anteriorme