In [4]:
!pip install nltk textstat unidecode

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


In [6]:
!pip install pandas



In [5]:
import nltk
import textstat
from unidecode import unidecode

nltk.download('punkt')

def contar_palavras(texto):
    """Conta o número de palavras no texto."""
    palavras = nltk.word_tokenize(texto)
    return len(palavras)

def contar_frases(texto):
    """Conta o número de frases no texto."""
    frases = nltk.sent_tokenize(texto)
    return len(frases)

def contar_silabas(palavra):
    """Conta o número de sílabas em uma palavra."""
    return textstat.syllable_count(palavra)

def contar_silabas_total(texto):
    """Conta o número total de sílabas no texto."""
    palavras = nltk.word_tokenize(texto)
    total_silabas = sum(contar_silabas(palavra) for palavra in palavras)
    return total_silabas

def flesch_portugues(texto):
    """Calcula o índice de Flesch adaptado para o português."""
    total_palavras = contar_palavras(texto)
    total_frases = contar_frases(texto)
    total_silabas = contar_silabas_total(texto)

    if total_frases == 0 or total_palavras == 0:
        return None

    frase_media = total_palavras / total_frases
    silabas_por_palavra = total_silabas / total_palavras

    indice_flesch = 248.835 - (1.015 * frase_media) - (84.6 * silabas_por_palavra)

    return round(indice_flesch, 2)

def szigriszt_pazos(texto):
    """Calcula o índice de Szigriszt Pazos para o português."""
    total_palavras = contar_palavras(texto)
    total_frases = contar_frases(texto)
    total_silabas = contar_silabas_total(texto)

    if total_frases == 0 or total_palavras == 0:
        return None

    frase_media = total_palavras / total_frases
    porcentagem_monossilabas = (sum(1 for palavra in nltk.word_tokenize(texto) if contar_silabas(palavra) == 1) / total_palavras) * 100

    indice_szigriszt = 206.835 - (62.3 * frase_media) - porcentagem_monossilabas

    return round(indice_szigriszt, 2)



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Índice de Flesch (Português): 88.13
Índice de Szigriszt Pazos: -656.91


In [33]:
import pandas as pd
import numpy as np


# Caminho para o arquivo CSV
caminho_arquivo_csv = '/content/sample_data/explanations_fv.csv'

# Ler o arquivo CSV em um DataFrame
df_data = pd.read_csv(caminho_arquivo_csv)


df_classe_fake = df_data[df_data['class'] == 1]

# Exibir as primeiras linhas do DataFrame
print(df_classe_fake.head())

                                         explanation  class
0  Sim, é mentira que caças russos tenham sobrevo...      1
1  Sim, é uma mentira que pessoas com condições c...      1
2  Até o momento, não há informações oficiais con...      1
3  Essa afirmação parece misturar informações fal...      1
4  Sim, é mentira que a ministra Damares Alves, e...      1


In [30]:
import pandas as pd
import numpy as np


# Caminho para o arquivo CSV
caminho_arquivo_csv = '/content/sample_data/explanations_fv.csv'

# Ler o arquivo CSV em um DataFrame
df_data = pd.read_csv(caminho_arquivo_csv)


df_classe_true = df_data[df_data['class'] == 0]

# Exibir as primeiras linhas do DataFrame
print(df_classe_true.head())

                                           explanation  class
154  Sim, é verdade que, em média, as mulheres bras...      0
155  Sim, é verdade que a violência é uma das princ...      0
156  Sim, é verdade que o Brasil investe uma quanti...      0
157  Sim, é verdade que em muitas democracias ao re...      0
158  Sim, é verdade que a produção de gás natural n...      0


In [31]:
#Readbility para a classe 0 (true)
final_indice_flesch = []
final_indice_szigriszt = []
for i in df_classe_true['explanation']:
  texto_limpo = unidecode(i)

  # Calculando os índices de legibilidade flesch
  indice_flesch = flesch_portugues(texto_limpo)
  final_indice_flesch.append(indice_flesch)

  # Calculando os índices de legibilidade szigriszt
  indice_szigriszt = szigriszt_pazos(texto_limpo)
  final_indice_szigriszt.append(indice_szigriszt)

media_valores_flesch = np.mean(final_indice_flesch)
media_valores_szigriszt = np.mean(final_indice_szigriszt)

print(f"Indice Flesch': {media_valores_flesch}")
print(f"Índice de Szigriszt Pazos: {media_valores_szigriszt}")


Indice Flesch': 85.2461956521739
Índice de Szigriszt Pazos: -1393.229239130435


In [34]:
#Readbility para a classe 1 (fake)
final_indice_flesch = []
final_indice_szigriszt = []
for i in df_classe_fake['explanation']:
  texto_limpo = unidecode(i)

  # Calculando os índices de legibilidade flesch
  indice_flesch = flesch_portugues(texto_limpo)
  final_indice_flesch.append(indice_flesch)

  # Calculando os índices de legibilidade szigriszt
  indice_szigriszt = szigriszt_pazos(texto_limpo)
  final_indice_szigriszt.append(indice_szigriszt)

media_valores_flesch = np.mean(final_indice_flesch)
media_valores_szigriszt = np.mean(final_indice_szigriszt)

print(f"Indice Flesch': {media_valores_flesch}")
print(f"Índice de Szigriszt Pazos: {media_valores_szigriszt}")

Indice Flesch': 84.99324675324677
Índice de Szigriszt Pazos: -1396.8608441558442


In [29]:

# Texto exemplo em português
texto = """
A educação é a base de uma sociedade forte. O investimento em conhecimento tem o poder de transformar vidas e proporcionar oportunidades. O futuro do Brasil depende de políticas públicas que priorizem o ensino de qualidade.
"""


# Removendo acentos para melhorar o processamento
texto_limpo = unidecode(texto)

# Calculando os índices de legibilidade
indice_flesch = flesch_portugues(texto_limpo)
indice_szigriszt = szigriszt_pazos(texto_limpo)

print(f"Índice de Flesch (Português): {indice_flesch}")
print(f"Índice de Szigriszt Pazos: {indice_szigriszt}")

Índice de Flesch (Português): 88.13
Índice de Szigriszt Pazos: -656.91
