# [TextStat](https://github.com/textstat/textstat)

Librería para calcular estadísticas sobre los textos. Ayuda a determinar el grado complejidad y el nivel de dificultad del mismo.


# Instalación

In [None]:
!pip install textstat
import textstat

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting textstat
  Downloading textstat-0.7.3-py3-none-any.whl (105 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m105.1/105.1 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyphen
  Downloading pyphen-0.14.0-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m34.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyphen, textstat
Successfully installed pyphen-0.14.0 textstat-0.7.3


# Textos

Definimos los textos a utilizar.

- **texto**: texto que venimos usando en los notebooks anteriores.
- **don_quijote**: extracto del libro de Don Quijote.
- **nota**: extracto de una nota.

In [None]:
texto = """La inteligencia artificial (IA), en el contexto de las ciencias de la
computación, es el conjunto de sistemas o combinación de algoritmos, cuyo
propósito es crear máquinas que imitan la inteligencia humana para realizar
tareas y pueden mejorar conforme la información que recopilan. La inteligencia
artificial no tiene como finalidad reemplazar a los humanos, sino mejorar
significativamente las capacidades y contribuciones humanas. Se hizo presente
poco después de la Segunda Guerra Mundial, y el nombre lo acuñó en 1956 el
informático John McCarthy, en la Conferencia de Dartmouth."""

don_quijote = """En un lugar de la Mancha, de cuyo nombre no quiero acordarme,
no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga
antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lentejas los viernes,
algún palomino de añadidura los domingos, consumían las tres partes de su
hacienda."""

nota = """Hay que recordar que Google maneja el 90% de las búsquedas en
Internet, pero este dominio fue atacado el pasado febrero cuando Microsoft
presentó su nuevo chatbot, integrando ChatGPT a su buscador Bing y mejorando
muchísimo la experiencia. Mientras el Bard de Google ha llegado con ciertos
problemas."""

# Íngles

## [Puntuación Flesch de facilidad de lectura](https://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_tests#Flesch_reading_ease)

La tabla es un ejemplo de valores. Aunque la puntuación máxima es 121,22, no hay límite en cuanto a lo baja que puede ser la puntuación. Una puntuación negativa es válida.

| Score | Difficulty |
| --- | --- |
| 90-100 | Muy fácil |
| 80-89 | Fácil |
| 70-79 | Bastante fácil |
| 60-69 | Normal |
| 50-59 | Bastante difícil |
| 30-49 | Difícil |
| 0-29 | Muy confuso |

In [None]:
print("Puntuación para texto: \n", textstat.flesch_reading_ease(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.flesch_reading_ease(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.flesch_reading_ease(nota), end="\n")

Puntuación para texto: 
 24.82
Puntuación para don_quijote: 
 46.44
Puntuación para nota: 
 38.66


## [El grado Flesch-Kincaid](https://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_tests#Flesch%E2%80%93Kincaid_grade_level)

Se trata de una fórmula de grado en la que una puntuación de 9,3 significa que un alumno de noveno grado (en EEUU) sería capaz de leer el documento. Es muy utilizada por profesores o bibliotecarios.

Cuanto más alta es la puntuación más complejo es el texto.

In [None]:
print("Puntuación para texto: \n", textstat.flesch_kincaid_grade(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.flesch_kincaid_grade(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.flesch_kincaid_grade(nota), end="\n")

Puntuación para texto: 
 17.1
Puntuación para don_quijote: 
 15.0
Puntuación para nota: 
 13.8


## [La escala de niebla](https://en.wikipedia.org/wiki/Gunning_fog_index)

Devuelve el índice FOG del texto dado. Se trata de una fórmula de grado en la que una puntuación de 9,3 significa que un alumno de noveno grado sería capaz de leer el documento.

| Fog | Índice Nivel de lectura por curso |
| --- | --- |
| 17 | Graduado universitario |
| 16 | Último curso universitario |
| 15 | Junior universitario |
| 14 | Segundo año de universidad |
| 13 | Estudiante de primer año de universidad |
| 12 | Estudiante de último curso de secundaria |
| 11 | Junior de secundaria |
| 10 | Estudiante de segundo de bachillerato |
| 9 | Estudiante de primer año de secundaria |
| 8 | Octavo curso |
| 7 | Séptimo curso |
| 6 | Sexto curso |

In [None]:
print("Puntuación para texto: \n", textstat.gunning_fog(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.gunning_fog(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.gunning_fog(nota), end="\n")

Puntuación para texto: 
 18.99
Puntuación para don_quijote: 
 16.23
Puntuación para nota: 
 17.93


## [El índice SMOG](https://en.wikipedia.org/wiki/SMOG)

Devuelve el índice SMOG del texto dado. Se trata de una fórmula de grado en la que una puntuación de 9,3 significa que un alumno de noveno grado sería capaz de leer el documento.

Los textos de menos de 30 frases no son estadísticamente válidos, porque la fórmula SMOG se normalizó en muestras de 30 frases. textstat requiere al menos 3 frases para obtener un resultado.


In [None]:
print("Puntuación para texto: \n", textstat.smog_index(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.smog_index(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.smog_index(nota), end="\n")

Puntuación para texto: 
 17.5
Puntuación para don_quijote: 
 0.0
Puntuación para nota: 
 0.0


## [Índice de legibilidad automatizado](https://en.wikipedia.org/wiki/Automated_readability_index)
textstat.automated_readability_index(texto)
Devuelve el ARI (Automated Readability Index), que da como resultado un número que se aproxima al nivel de grado necesario para comprender el texto.

Por ejemplo, si el ARI es 6,5, el nivel necesario para comprender el texto es de 6º a 7º curso.

| Puntuación | Edad | Nivel |
| --- | --- | --- |
| 1 | 5-6 | Jardín de infancia |
| 2 | 6-7 | Primer curso |
| 3 | 7-8 | Segundo curso |
| 4 | 8-9 | Tercer Grado |
| 5 | 9-10 | Cuarto curso |
| 6 | 10-11 | Quinto Grado |
| 7 | 11-12 | Sexto Grado |
| 8 | 12-13 | Séptimo Grado |
| 9 | 13-14 | Octavo Grado |
| 10 | 14-15 | Noveno Grado |
| 11 | 15-16 | Décimo Grado |
| 12 | 16-17 | Undécimo Grado |
| 13 | 17-18 | Duodécimo curso |
| 14 | 18-22 | Estudiante universitario |


In [None]:
print("Puntuación para texto: \n", textstat.automated_readability_index(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.automated_readability_index(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.automated_readability_index(nota), end="\n")

Puntuación para texto: 
 19.8
Puntuación para don_quijote: 
 17.5
Puntuación para nota: 
 15.4


## [Índice Coleman-Liau](https://en.wikipedia.org/wiki/Coleman%E2%80%93Liau_index)

Devuelve el nivel de grado del texto utilizando la fórmula Coleman-Liau. Se trata de una fórmula de grado en la que una puntuación de 9,3 significa que un alumno de noveno grado sería capaz de leer el documento.

In [None]:
print("Puntuación para texto: \n", textstat.coleman_liau_index(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.coleman_liau_index(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.coleman_liau_index(nota), end="\n")

Puntuación para texto: 
 15.33
Puntuación para don_quijote: 
 10.05
Puntuación para nota: 
 13.0


## [Fórmula de escritura Linsear](https://en.wikipedia.org/wiki/Linsear_Write)

Devuelve el nivel de grado utilizando la fórmula Linsear Write. Se trata de una fórmula de grado en la que una puntuación de 9,3 significa que un alumno de noveno grado sería capaz de leer el documento.

In [None]:
print("Puntuación para texto: \n", textstat.linsear_write_formula(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.linsear_write_formula(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.linsear_write_formula(nota), end="\n")

Puntuación para texto: 
 21.0
Puntuación para don_quijote: 
 19.0
Puntuación para nota: 
 17.0


## [Puntuación Dale-Chall de legibilidad](https://en.wikipedia.org/wiki/Dale%E2%80%93Chall_readability_formula)

Diferente de otros tests, ya que utiliza una tabla de búsqueda de las 3000 palabras `inglesas` más utilizadas. Así, devuelve el nivel de grado utilizando la Nueva Fórmula Dale-Chall.

| Puntuación | Comprendido por |
| --- | --- |
| 4,9 o inferior | alumno medio de 4º curso o inferior |
| 5,0-5,9 | alumno medio de 5º o 6º curso |
| 6,0-6,9 | alumno medio de 7º u 8º curso |
| 7,0-7,9 | alumno medio de 9º o 10º curso |
| 8,0-8,9 | estudiante medio de 11º o 12º curso |
| 9,0-9,9 | estudiante medio de 13º a 15º curso (universitario) |

In [None]:
print("Puntuación para texto: \n", textstat.dale_chall_readability_score(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.dale_chall_readability_score(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.dale_chall_readability_score(nota), end="\n")

Puntuación para texto: 
 16.04
Puntuación para don_quijote: 
 16.76
Puntuación para nota: 
 17.66


## Consenso de legibilidad basado en todas las pruebas anteriores

Basándose en todas las pruebas anteriores, devuelve el nivel escolar estimado necesario para comprender el texto.

La opción float_output permite obtener la puntuación como un valor flotante. Por defecto es False.



In [None]:
print("Puntuación para texto: \n", textstat.text_standard(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.text_standard(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.text_standard(nota), end="\n")

Puntuación para texto: 
 17th and 18th grade
Puntuación para don_quijote: 
 16th and 17th grade
Puntuación para nota: 
 17th and 18th grade


## [Fórmula de legibilidad de Spache](https://en.wikipedia.org/wiki/Spache_readability_formula)

Devuelve el nivel de grado del texto en `inglés`.

Pensado para textos escritos para niños de hasta cuarto curso.

In [None]:
print("Puntuación para texto: \n", textstat.spache_readability(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.spache_readability(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.spache_readability(nota), end="\n")

Puntuación para texto: 
 8.59
Puntuación para don_quijote: 
 8.88
Puntuación para nota: 
 7.99


## [Puntuación de legibilidad McAlpine EFLAW](https://strainindex.wordpress.com/2009/04/30/mcalpine-eflaw-readability-score/)

Devuelve una puntuación de la legibilidad de un texto en `inglés` para un estudiante extranjero o inglés, centrándose en el número de minipalabras y la longitud de sentencias.

In [None]:
print("Puntuación para texto: \n", textstat.mcalpine_eflaw(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.mcalpine_eflaw(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.mcalpine_eflaw(nota), end="\n")

Puntuación para texto: 
 41.3
Puntuación para don_quijote: 
 47.5
Puntuación para nota: 
 33.5


# Español

## [Índice de lecturabilidad Fernandez-Huerta](https://legible.es/blog/lecturabilidad-fernandez-huerta/)

Reformulación de la Fórmula de Facilidad de Lectura de Flesch específica para el español. Los resultados pueden interpretarse de forma similar

In [None]:
print("Puntuación para texto: \n", textstat.fernandez_huerta(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.fernandez_huerta(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.fernandez_huerta(nota), end="\n")

Puntuación para texto: 
 68.95
Puntuación para don_quijote: 
 83.18
Puntuación para nota: 
 80.36


## [Índice de perspicuidad de Szigriszt-Pazos](https://legible.es/blog/perspicuidad-szigriszt-pazos/)

Adaptación de la fórmula Flesch Reading Ease para textos en español.

Intenta cuantificar el grado de comprensión de un texto.


In [None]:
print("Puntuación para texto: \n", textstat.szigriszt_pazos(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.szigriszt_pazos(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.szigriszt_pazos(nota), end="\n")

Puntuación para texto: 
 65.64
Puntuación para don_quijote: 
 82.27
Puntuación para nota: 
 75.11


## [Fórmula de comprensibilidad de Gutiérrez de Polini](https://legible.es/blog/comprensibilidad-gutierrez-de-polini/)

Devuelve el índice de comprensibilidad de Gutiérrez de Polini.

Diseñado específicamente para los textos en español, no es una adaptación. Concebido para textos de nivel escolar.

Las puntuaciones para textos más complejos no son fiables.

In [None]:
print("Puntuación para texto: \n", textstat.gutierrez_polini(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.gutierrez_polini(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.gutierrez_polini(nota), end="\n")

Puntuación para texto: 
 31.36
Puntuación para don_quijote: 
 38.97
Puntuación para nota: 
 36.68


## [Fórmula de Crawford](https://legible.es/blog/formula-de-crawford/)

Devuelve la puntuación de Crawford para el texto.

Devuelve una estimación de los años de escolarización necesarios para comprender el texto.

Sólo es válida para textos de nivel de educación primaria.


In [None]:
print("Puntuación para texto: \n", textstat.crawford(texto), end="\n")
print("Puntuación para don_quijote: \n", textstat.crawford(don_quijote), end="\n")
print("Puntuación para nota: \n", textstat.crawford(nota), end="\n")

Puntuación para texto: 
 4.7
Puntuación para don_quijote: 
 3.2
Puntuación para nota: 
 4.2


# Agregados y promedios

## [Tiempo de lectura](https://homepages.inf.ed.ac.uk/keller/papers/cognition08a.pdf)

Devuelve el tiempo de lectura del texto dado.

Supone 14,69 ms por carácter.

In [None]:
# recibe como parámetro el texto y el tiempo de lectura
print("Tiempo en segundos para texto: \n", textstat.reading_time(texto), end="\n")
print("Tiempo en segundos para don_quijote: \n", textstat.reading_time(don_quijote), end="\n")
print("Tiempo en segundos para nota: \n", textstat.reading_time(nota), end="\n")

Tiempo en segundos para texto: 
 9.94
Tiempo en segundos para don_quijote: 
 4.63
Tiempo en segundos para nota: 
 3.72


## Recuento de sílabas

Devuelve el número de sílabas presentes en el texto dado.

Utiliza el módulo Pyphen de Python para el cálculo de sílabas.

In [None]:
print("Valor para texto: \n", textstat.syllable_count(texto), end="\n")
print("Valor para don_quijote: \n", textstat.syllable_count(don_quijote), end="\n")
print("Valor para nota: \n", textstat.syllable_count(nota), end="\n")

Valor para texto: 
 158
Valor para don_quijote: 
 97
Valor para nota: 
 83


## Recuento de palabras

Calcula el número de palabras presentes en el texto. El valor opcional removepunct especifica si es necesario tener en cuenta los símbolos de puntuación al realizar el recuento de léxicos. El valor por defecto es True, que elimina la puntuación antes de contar los elementos.


In [None]:
print("Valor para texto: \n", textstat.lexicon_count(texto), end="\n")
print("Valor para don_quijote: \n", textstat.lexicon_count(don_quijote), end="\n")
print("Valor para nota: \n", textstat.lexicon_count(nota), end="\n")

Valor para texto: 
 88
Valor para don_quijote: 
 66
Valor para nota: 
 48
48


## Recuento de sentencias u oraciones

Devuelve el número de sentencias presentes en el texto dado.

In [None]:
print("Valor para texto: \n", textstat.sentence_count(texto), end="\n")
print("Valor para don_quijote: \n", textstat.sentence_count(don_quijote), end="\n")
print("Valor para nota: \n", textstat.sentence_count(nota), end="\n")

Valor para texto: 
 3
Valor para don_quijote: 
 2
Valor para nota: 
 2


## Recuento de caracteres

Devuelve el número de caracteres presentes en el texto dado. Se le puede pasar el parámetro ignore_spaces para ignorar los espacios, por defecto es True.


In [None]:
print("Valor para texto: \n", textstat.char_count(texto), end="\n")
print("Valor para don_quijote: \n", textstat.char_count(don_quijote), end="\n")
print("Valor para nota: \n", textstat.char_count(nota), end="\n")

Valor para texto: 
 497
Valor para don_quijote: 
 315
Valor para nota: 
 253


## Recuento de letras

Devuelve el número de caracteres presentes en el texto dado sin puntuación. Se le puede pasar el parámetro ignore_spaces para ignorar los espacios, por defecto es True.


In [None]:
print("Valor para texto: \n", textstat.letter_count(texto), end="\n")
print("Valor para don_quijote: \n", textstat.letter_count(don_quijote), end="\n")
print("Valor para nota: \n", textstat.letter_count(nota), end="\n")

Valor para texto: 
 486
Valor para don_quijote: 
 304
Valor para nota: 
 248


## Recuento de polisílabos

Devuelve el número de palabras con un número de sílabas mayor o igual a 3.


In [None]:
print("Valor para texto: \n", textstat.polysyllabcount(texto), end="\n")
print("Valor para don_quijote: \n", textstat.polysyllabcount(don_quijote), end="\n")
print("Valor para nota: \n", textstat.polysyllabcount(nota), end="\n")

Valor para texto: 
 19
Valor para don_quijote: 
 5
Valor para nota: 
 10


## Recuento de monosílabos

Devuelve el número de palabras con un recuento de sílabas igual a uno.

In [None]:
print("Valor para texto: \n", textstat.monosyllabcount(texto), end="\n")
print("Valor para don_quijote: \n", textstat.monosyllabcount(don_quijote), end="\n")
print("Valor para nota: \n", textstat.monosyllabcount(nota), end="\n")

Valor para texto: 
 47
Valor para don_quijote: 
 40
Valor para nota: 
 27
