# Imports and configuration

In [1]:
import asyncio
import os
import pandas as pd
import time
from typing import Dict
import sys


from src.processing.constants import BASE_DIRECTORY
from src.processing.data_handler.models.obtained_text import ObtainedText
from src.processing.data_handler.models.descriptive_index import DescriptiveIndex
from src.processing.data_handler.models.connective_index import ConnectiveIndex
from src.processing.data_handler.models.lexical_diversity_index import LexicalDiversityIndex
from src.processing.data_handler.models.readability_index import ReadabilityIndex
from src.processing.data_handler.models.referential_cohesion_index import ReferentialCohesionIndex
from src.processing.data_handler.models.syntactic_complexity_index import SyntacticComplexityIndex
from src.processing.data_handler.models.syntactic_pattern_density_index import SyntacticPatternDensityIndex
from src.processing.data_handler.models.word_information_index import WordInformationIndex
from src.processing.data_handler.data_access.obtained_text_da import ObtainedTextDA
from src.processing.text_complexity_analizer import TextComplexityAnalizer

  util.warn(


# Calculate text complexity indices

In [2]:
tca = TextComplexityAnalizer('es')
da = ObtainedTextDA()
obtained_texts = da.select_all()

for ot in obtained_texts:
    try:
        start = time.time()
        descriptive_row = tca.calculate_descriptive_indices_for_one_text(ot.text)
        word_count = descriptive_row['DESWC']
        mean_words_per_sentence = descriptive_row['DESSL']
        mean_syllables_per_word = descriptive_row['DESWLsy']
        ot.descriptive_index = DescriptiveIndex(**descriptive_row)
        ot.word_information_index = WordInformationIndex(**tca.calculate_word_information_indices_for_one_text(ot.text, word_count))
        ot.syntactic_pattern_density_index = SyntacticPatternDensityIndex(**tca.calculate_syntactic_pattern_density_indices_for_one_text(ot.text, word_count))
        ot.syntactic_complexity_index = SyntacticComplexityIndex(**tca.calculate_syntactic_complexity_indices_for_one_text(ot.text))
        ot.connective_index = ConnectiveIndex(**tca.calculate_connective_indices_for_one_text(ot.text, word_count))
        ot.lexical_diversity_index = LexicalDiversityIndex(**tca.calculate_lexical_diversity_density_indices_for_one_text(ot.text))
        ot.readability_index = ReadabilityIndex(**tca.calculate_readability_indices_for_one_text(ot.text, mean_words_per_sentence=mean_words_per_sentence, mean_syllables_per_word=mean_syllables_per_word))
        ot.referential_cohesion_index = ReferentialCohesionIndex(**tca.calculate_referential_cohesion_indices_for_one_text(text=ot.text))
        end = time.time()
        da.update(ot) # Save the indices for the current record       
        print(f'Tiempo demorado para {ot.filename}: {end - start} segundos.')
    except Exception as e:
        print(e)
        continue

Tiempo demorado para Ruta_castellano_inicial.txt: 33.622758865356445 segundos.
Tiempo demorado para abecedario.txt: 15.85399055480957 segundos.
Tiempo demorado para aguita-vida.txt: 18.622206926345825 segundos.
Tiempo demorado para antes-muy-antes.txt: 11.250368356704712 segundos.
Tiempo demorado para antologia-de-poesia-para-ninos-y-ninas.txt: 28.17194175720215 segundos.
Tiempo demorado para aprendemos-jugando-2018-4.txt: 128.5023033618927 segundos.
Tiempo demorado para aprendemos-jugando-2018-5.txt: 223.739342212677 segundos.
Tiempo demorado para cancion-amor.txt: 21.427358150482178 segundos.
Tiempo demorado para cancionero-bebetecas.txt: 18.518893003463745 segundos.
Tiempo demorado para capacidades_comunica_ama.txt: 45.69926452636719 segundos.
Tiempo demorado para capacidades_comunica_ande.txt: 50.767345666885376 segundos.
Tiempo demorado para cartilla-acogida-comunidad-educativa-reinicio-clases.txt: 125.0835964679718 segundos.
Tiempo demorado para con-los-ojos-abierto-yo-escucho.tx

Tiempo demorado para comunicacion-situaciones-comunicativas-portafolio-inicial-1.txt: 1006.0219702720642 segundos.
Tiempo demorado para comunicacion1-cuaderno-trabajo.txt: 915.7076179981232 segundos.
Tiempo demorado para comunicacion2-cuaderno-trabajo.txt: 1818.573723077774 segundos.
Tiempo demorado para comunicacion3-cuaderno-trabajo.txt: 375.9014320373535 segundos.
Tiempo demorado para comunicacion4-cuaderno-trabajo.txt: 438.0394763946533 segundos.
Tiempo demorado para comunicacion5-cuaderno-trabajo.txt: 567.9262237548828 segundos.
Tiempo demorado para comunicacion6-cuaderno-trabajo.txt: 718.5067849159241 segundos.
Tiempo demorado para cuadernillo-alfabetizacion-inicial-comunicacion1.txt: 21.63608741760254 segundos.
Tiempo demorado para cuadernillo-alfabetizacion-inicial-comunicacion2.txt: 20.46015954017639 segundos.
Tiempo demorado para cuadernillo-alfabetizacion-inicial-comunicacion3.txt: 20.650565147399902 segundos.
Tiempo demorado para cuadernillo_salida2_comunicacion_4to_grado.t

ZeroDivisionError: division by zero