In [None]:
!pip install pyphen
!python -m spacy download es_core_news_sm
import spacy
import pyphen
import json
import pandas as pd

In [None]:
# Modelo de spaCy
nlp = spacy.load("es_core_news_sm")
dic = pyphen.Pyphen(lang='es')

In [None]:
def contar_silabas(palabra):
    return len(dic.inserted(palabra).split('-'))

In [None]:
def calcular_fh(texto):
    doc = nlp(texto)
    oraciones = list(doc.sents)
    palabras = [token.text for token in doc if token.is_alpha]

    total_palabras = len(palabras)
    total_oraciones = len(oraciones)
    total_silabas = sum(contar_silabas(p) for p in palabras)

    if total_palabras == 0 or total_oraciones == 0:
        return None

    silabas_por_100_palabras = (total_silabas / total_palabras) * 100
    palabras_por_oracion = total_palabras / total_oraciones

    fh = 206.84 - (0.60 * silabas_por_100_palabras) - (1.02 * palabras_por_oracion)
    return round(fh, 2)

In [None]:
with open("test.json", "r", encoding="utf-8") as f:
    data = json.load(f)

In [None]:
#calculo para context
resultados = []
for item in data["data"]:
  contexto = item["context"]
  # id = item["id"]
  fh = calcular_fh(contexto)
  nivel = ""
  if fh <= 30:
    nivel = "Muy dificil"
  elif 30 < fh <= 50:
    nivel = "Difícil"
  elif 50 < fh <= 60:
    nivel = "Algo Difícil"
  elif 60 < fh <= 70:
    nivel = "Normal"
  elif 70 < fh <= 80:
    nivel = "Algo Fácil"
  elif 80 < fh <= 90:
    nivel = "Fácil"
  elif 90 < fh <= 100:
    nivel = "Muy Fácil"
  elif fh > 100:
    nivel = "Extremadamente Fácil"


  resultados.append({
      # "id": id,
      "indice_fernandez_huerta": fh,
      "nivel": nivel
  })

with open("indice_context_training.json", "w", encoding="utf-8") as f:
    json.dump(resultados, f, indent=4, ensure_ascii=False)

df = pd.DataFrame(resultados)
extremadamente_facil = (df["nivel"] == "Extremadamente Fácil").sum()
muy_facil = (df["nivel"] == "Muy Fácil").sum()
facil = (df["nivel"] == "Fácil").sum()
algo_facil = (df["nivel"] == "Algo Fácil").sum()
normal = (df["nivel"] == "Normal").sum()
algo_dificil = (df["nivel"] == "Algo Difícil").sum()
dificil = (df["nivel"] == "Difícil").sum()
muy_dificil = (df["nivel"] == "Muy dificil").sum()

print(f"Media de nivel Extremadamente Fácil: {extremadamente_facil}")
print(f"Media de nivel Muy Fácil: {muy_facil}")
print(f"Media de nivel Fácil: {facil}")
print(f"Media de nivel Algo Fácil: {algo_facil}")
print(f"Media de nivel Normal: {normal}")
print(f"Media de nivel Algo Difícil: {algo_dificil}")
print(f"Media de nivel Difícil: {dificil}")
print(f"Media de nivel Muy Difícil: {muy_dificil}")


# print(df)

In [None]:
# Calculo para question
resultados = []
for item in data["data"]:
  pregunta = item["question"]
  # id = item["id"]
  fh = calcular_fh(pregunta)
  nivel = ""
  if 0 < fh <= 30:
    nivel = "Muy dificil"
  elif 30 < fh <= 50:
    nivel = "Difícil"
  elif 50 < fh <= 60:
    nivel = "Algo Difícil"
  elif 60 < fh <= 70:
    nivel = "Normal"
  elif 70 < fh <= 80:
    nivel = "Algo Fácil"
  elif 80 < fh <= 90:
    nivel = "Fácil"
  elif 90 < fh <= 100:
    nivel = "Muy Fácil"
  else:
    nivel = "Muy Fácil"


  resultados.append({
      # "id": id,
      "indice_fernandez_huerta": fh,
      "nivel": nivel
  })

with open("indice_question_training.json", "w", encoding="utf-8") as f:
    json.dump(resultados, f, indent=4, ensure_ascii=False)

df = pd.DataFrame(resultados)
extremadamente_facil = (df["nivel"] == "Extremadamente Fácil").sum()
muy_facil = (df["nivel"] == "Muy Fácil").sum()
facil = (df["nivel"] == "Fácil").sum()
algo_facil = (df["nivel"] == "Algo Fácil").sum()
normal = (df["nivel"] == "Normal").sum()
algo_dificil = (df["nivel"] == "Algo Difícil").sum()
dificil = (df["nivel"] == "Difícil").sum()
muy_dificil = (df["nivel"] == "Muy dificil").sum()

print(f"Media de nivel Extremadamente Fácil: {extremadamente_facil}")
print(f"Media de nivel Muy Fácil: {muy_facil}")
print(f"Media de nivel Fácil: {facil}")
print(f"Media de nivel Algo Fácil: {algo_facil}")
print(f"Media de nivel Normal: {normal}")
print(f"Media de nivel Algo Difícil: {algo_dificil}")
print(f"Media de nivel Difícil: {dificil}")
print(f"Media de nivel Muy Difícil: {muy_dificil}")

In [None]:
with open("training.json", "r", encoding="utf-8") as f:
    data_training = json.load(f)

In [None]:
resultados_training = []
for idx, item in enumerate(data_training["data"],1):
  context = item["context"]
  #id = item["id"]
  fh = calcular_fh(context)
  nivel = ""
  if 0 < fh <= 30:
    nivel = "Muy dificil"
  elif 30 < fh <= 50:
    nivel = "Difícil"
  elif 50 < fh <= 60:
    nivel = "Algo difícil"
  elif 60 < fh <= 70:
    nivel = "Normal"
  elif 70 < fh <= 80:
    nivel = "Algo fácil"
  elif 80 < fh <= 90:
    nivel = "Fácil"
  elif 90 < fh <= 100:
    nivel = "Muy fácil"

  resultados_training.append({
      "id": idx,
      "indice_fernandez_huerta": fh,
      "Nivel": nivel
  })

with open("indice_context_training.json", "w", encoding="utf-8") as f:
    json.dump(resultados_training, f, indent=4, ensure_ascii=False)

df = pd.DataFrame(resultados_training)
print(df)