# Imports and configuration

In [2]:
import asyncio
import os
import pandas as pd
import time
from typing import Dict
import sys


from src.processing.constants import BASE_DIRECTORY
from src.processing.data_handler.models.obtained_text import ObtainedText
from src.processing.data_handler.models.descriptive_index import DescriptiveIndex
from src.processing.data_handler.models.connective_index import ConnectiveIndex
from src.processing.data_handler.models.lexical_diversity_index import LexicalDiversityIndex
from src.processing.data_handler.models.readability_index import ReadabilityIndex
from src.processing.data_handler.models.referential_cohesion_index import ReferentialCohesionIndex
from src.processing.data_handler.models.syntactic_complexity_index import SyntacticComplexityIndex
from src.processing.data_handler.models.syntactic_pattern_density_index import SyntacticPatternDensityIndex
from src.processing.data_handler.models.word_information_index import WordInformationIndex
from src.processing.data_handler.data_access.obtained_text_da import ObtainedTextDA
from src.processing.text_complexity_analizer import TextComplexityAnalizer

  util.warn(


# Calculate text complexity indices

In [2]:
tca = TextComplexityAnalizer('es')
da = ObtainedTextDA()
obtained_texts = da.select_all()

for ot in obtained_texts:
    if ot.descriptive_index is not None and ot.word_information_index is not None and ot.syntactic_pattern_density_index is not None and ot.syntactic_complexity_index is not None and ot.connective_index is not None and ot.lexical_diversity_index is not None and ot.readability_index is not None and ot.referential_cohesion_index:
        print(f'{ot.filename} Ya ha sido procesado anteriormente.')
    else:
        try:
            start = time.time()
            descriptive_row = tca.calculate_descriptive_indices_for_one_text(ot.text)
            word_count = descriptive_row['DESWC']
            mean_words_per_sentence = descriptive_row['DESSL']
            mean_syllables_per_word = descriptive_row['DESWLsy']
            ot.descriptive_index = DescriptiveIndex(**descriptive_row)
            ot.word_information_index = WordInformationIndex(**tca.calculate_word_information_indices_for_one_text(ot.text, word_count))
            ot.syntactic_pattern_density_index = SyntacticPatternDensityIndex(**tca.calculate_syntactic_pattern_density_indices_for_one_text(ot.text, word_count))
            ot.syntactic_complexity_index = SyntacticComplexityIndex(**tca.calculate_syntactic_complexity_indices_for_one_text(ot.text))
            ot.connective_index = ConnectiveIndex(**tca.calculate_connective_indices_for_one_text(ot.text, word_count))
            ot.lexical_diversity_index = LexicalDiversityIndex(**tca.calculate_lexical_diversity_density_indices_for_one_text(ot.text))
            ot.readability_index = ReadabilityIndex(**tca.calculate_readability_indices_for_one_text(ot.text, mean_words_per_sentence=mean_words_per_sentence, mean_syllables_per_word=mean_syllables_per_word))
            ot.referential_cohesion_index = ReferentialCohesionIndex(**tca.calculate_referential_cohesion_indices_for_one_text(text=ot.text))
            end = time.time()
            da.update(ot) # Save the indices for the current record       
            print(f'Tiempo demorado para {ot.filename}: {end - start} segundos.')
        except Exception as e:
            print(f'{ot.filename} no pudo ser procesado debido a un error en el procesamiento.')
            print(str(e))
            continue

Ruta_castellano_inicial.txt Ya ha sido procesado anteriormente.
abecedario.txt Ya ha sido procesado anteriormente.
aguita-vida.txt Ya ha sido procesado anteriormente.
antes-muy-antes.txt Ya ha sido procesado anteriormente.
antologia-de-poesia-para-ninos-y-ninas.txt Ya ha sido procesado anteriormente.
aprendemos-jugando-2018-4.txt Ya ha sido procesado anteriormente.
aprendemos-jugando-2018-5.txt Ya ha sido procesado anteriormente.
cancion-amor.txt Ya ha sido procesado anteriormente.
cancionero-bebetecas.txt Ya ha sido procesado anteriormente.
capacidades_comunica_ama.txt Ya ha sido procesado anteriormente.
capacidades_comunica_ande.txt Ya ha sido procesado anteriormente.
cartilla-acogida-comunidad-educativa-reinicio-clases.txt Ya ha sido procesado anteriormente.
con-los-ojos-abierto-yo-escucho.txt Ya ha sido procesado anteriormente.
con-los-ojos-abiertos-yo-veo.txt Ya ha sido procesado anteriormente.
cuentos-trabalenguas-3.txt Ya ha sido procesado anteriormente.
cuentos-trabalenguas-4.t

cuenca_rio_santa.txt no pudo ser procesado debido a un error en el procesamiento.
division by zero
fernando_belaunde.txt Ya ha sido procesado anteriormente.
haya_torre.txt Ya ha sido procesado anteriormente.
historia_geografia.txt Ya ha sido procesado anteriormente.
manuel_valdes.txt Ya ha sido procesado anteriormente.
manuela_saenz.txt Ya ha sido procesado anteriormente.
agua_suelo.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-portafolio-3-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-portafolio-4-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-1-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-2.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-3-avanzado.txt Ya ha sido procesado anteriormente.
ambiente-salud-unidad-2-texto-4-avanzado.txt Ya ha sido procesado anteriormente.
biodiversidad_docente.txt Ya ha sido procesado anteriormente.
biologia.txt Ya ha sido p

  ret = _var(a, axis=axis, dtype=dtype, out=out, ddof=ddof,
  arrmean = um.true_divide(
  ret = ret.dtype.type(ret / rcount)
  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)


charles_dickens.txt no pudo ser procesado debido a un error en el procesamiento.
division by zero
clorinda_matto.txt Ya ha sido procesado anteriormente.
competencias-comunicativas.txt Ya ha sido procesado anteriormente.
comunicacion-secundaria-rural-cuaderno-1.txt Ya ha sido procesado anteriormente.
corsario_negro.txt Ya ha sido procesado anteriormente.
cuadernillo_salida4_escritura_5to_grado.txt Ya ha sido procesado anteriormente.
cuaderno-nivelacion-competencias-com-vi.txt Ya ha sido procesado anteriormente.
cumbres_borrascosas.txt Ya ha sido procesado anteriormente.
diccionario_shipibo.txt Ya ha sido procesado anteriormente.
estacion-de-las-letras.txt Ya ha sido procesado anteriormente.
extrano_caso_doctor_hyde.txt Ya ha sido procesado anteriormente.
frankenstein.txt Ya ha sido procesado anteriormente.
guia_produccion_audiolibros.txt Ya ha sido procesado anteriormente.
hora-literaria-1-m1.txt Ya ha sido procesado anteriormente.
hora-literaria-1-m2.txt Ya ha sido procesado anteriorme

# Visualizing  the data obtained

In [3]:
da = ObtainedTextDA()
obtained_texts = da.select_all_as_dataframe()
obtained_texts

Unnamed: 0,CNCADC,CNCAdd,CNCAll,CNCCaus,CNCLogic,CNCTemp,CRFANP1,CRFANPa,CRFAO1,CRFAOa,...,WRDPRP1s,WRDPRP2p,WRDPRP2s,WRDPRP3p,WRDPRP3s,WRDVERB,category,filename,grade,id
0,1.927354,1.037806,61.082283,4.892513,51.297257,1.927354,0.086735,0.030246,0.244898,0.074469,...,3.706449,0.000000,2.223870,49.073388,58.561898,113.120830,Comunicación,Ruta_castellano_inicial.txt,1,1.0
1,1.282599,1.282599,64.557503,8.978196,51.303976,1.710133,0.013100,0.005898,0.091703,0.065860,...,0.855066,0.000000,0.000000,29.072253,69.687901,96.194955,Comunicación,abecedario.txt,1,2.0
2,1.993024,0.996512,66.517190,6.228201,55.057299,2.242152,0.026515,0.016618,0.231061,0.100263,...,1.743896,0.000000,0.000000,28.151470,52.815147,78.475336,Comunicación,aguita-vida.txt,1,3.0
3,2.695418,2.695418,72.776280,2.695418,37.735849,26.954178,0.000000,0.003916,0.019231,0.029548,...,2.695418,0.000000,0.000000,75.471698,13.477089,13.477089,Comunicación,antes-muy-antes.txt,1,4.0
4,2.023547,1.655629,59.234731,5.886681,48.749080,0.919794,0.038202,0.009743,0.175281,0.046130,...,8.462104,0.367918,5.334805,21.155261,59.418690,79.286240,Comunicación,antologia-de-poesia-para-ninos-y-ninas.txt,1,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287,1.391450,0.939228,58.406095,5.878874,49.639962,0.556580,0.024795,0.005598,0.135532,0.013851,...,13.879709,0.869656,7.792117,22.889345,73.085887,105.680593,Formación Ciudadana y Cívica,trabajo-emprendimiento-unidad-4-portafolio-3-a...,3,292.0
288,3.102290,1.559715,56.406828,9.358289,40.998217,1.388318,0.038963,0.015879,0.190970,0.025472,...,4.627725,0.737008,4.593446,28.246264,66.947758,89.349376,Formación Ciudadana y Cívica,trabajo-emprendimiento-unidad-4-texto-1-avanza...,3,293.0
289,3.484193,1.878911,57.954359,8.591912,42.886590,1.112753,0.040149,0.016301,0.180934,0.025914,...,5.855634,0.310111,4.067933,26.268265,70.614203,96.608840,Formación Ciudadana y Cívica,trabajo-emprendimiento-unidad-4-texto-2-avanza...,3,294.0
290,2.263993,1.160534,57.570108,9.170123,44.138351,0.837107,0.036862,0.012648,0.160552,0.022459,...,7.457859,0.646855,5.327042,21.289144,70.640387,97.256573,Formación Ciudadana y Cívica,trabajo-emprendimiento-unidad-4-texto-3-avanza...,3,295.0
