In [4]:
!pip install nltk textstat unidecode

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


In [5]:
import nltk
import textstat
from unidecode import unidecode

nltk.download('punkt')

def contar_palavras(texto):
    """Conta o número de palavras no texto."""
    palavras = nltk.word_tokenize(texto)
    return len(palavras)

def contar_frases(texto):
    """Conta o número de frases no texto."""
    frases = nltk.sent_tokenize(texto)
    return len(frases)

def contar_silabas(palavra):
    """Conta o número de sílabas em uma palavra."""
    return textstat.syllable_count(palavra)

def contar_silabas_total(texto):
    """Conta o número total de sílabas no texto."""
    palavras = nltk.word_tokenize(texto)
    total_silabas = sum(contar_silabas(palavra) for palavra in palavras)
    return total_silabas

def flesch_portugues(texto):
    """Calcula o índice de Flesch adaptado para o português."""
    total_palavras = contar_palavras(texto)
    total_frases = contar_frases(texto)
    total_silabas = contar_silabas_total(texto)

    if total_frases == 0 or total_palavras == 0:
        return None

    frase_media = total_palavras / total_frases
    silabas_por_palavra = total_silabas / total_palavras

    indice_flesch = 248.835 - (1.015 * frase_media) - (84.6 * silabas_por_palavra)

    return round(indice_flesch, 2)

def szigriszt_pazos(texto):
    """Calcula o índice de Szigriszt Pazos para o português."""
    total_palavras = contar_palavras(texto)
    total_frases = contar_frases(texto)
    total_silabas = contar_silabas_total(texto)

    if total_frases == 0 or total_palavras == 0:
        return None

    frase_media = total_palavras / total_frases
    porcentagem_monossilabas = (sum(1 for palavra in nltk.word_tokenize(texto) if contar_silabas(palavra) == 1) / total_palavras) * 100

    indice_szigriszt = 206.835 - (62.3 * frase_media) - porcentagem_monossilabas

    return round(indice_szigriszt, 2)

# Texto exemplo em português
texto = """
A educação é a base de uma sociedade forte. O investimento em conhecimento tem o poder de transformar vidas e proporcionar oportunidades. O futuro do Brasil depende de políticas públicas que priorizem o ensino de qualidade.
"""

# Removendo acentos para melhorar o processamento
texto_limpo = unidecode(texto)

# Calculando os índices de legibilidade
indice_flesch = flesch_portugues(texto_limpo)
indice_szigriszt = szigriszt_pazos(texto_limpo)

print(f"Índice de Flesch (Português): {indice_flesch}")
print(f"Índice de Szigriszt Pazos: {indice_szigriszt}")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Índice de Flesch (Português): 88.13
Índice de Szigriszt Pazos: -656.91
