<a href="https://colab.research.google.com/github/frluquba/lenguaje_claro_cyc_2/blob/main/volumetr%C3%ADa/lecturabilidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cálculo de lecturabilidad de un sitio web

Con este código vamos a bajarnos el texto de un sitio web y a calcular su lecturabilidad de acuerdo con la fórmula de Fernández Huerta.

In [1]:
!pip install textstat

Collecting textstat
  Downloading textstat-0.7.4-py3-none-any.whl.metadata (14 kB)
Collecting pyphen (from textstat)
  Downloading pyphen-0.16.0-py3-none-any.whl.metadata (3.2 kB)
Downloading textstat-0.7.4-py3-none-any.whl (105 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m105.1/105.1 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyphen-0.16.0-py3-none-any.whl (2.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m25.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyphen, textstat
Successfully installed pyphen-0.16.0 textstat-0.7.4


In [2]:
#Importamos las librerías
import requests
from bs4 import BeautifulSoup
import pandas as pd
import textstat

In [3]:
url = 'https://www.comunidad.madrid/' #indicamos la URL de la que queremos extraer textos

In [4]:
#Descargamos los textos y los guardamos en una tabla
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Extracting all the links from the page
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

texts = []
for link in links[0:10]: #ponemos un índice para probar con los 10 primeros enlaces. Podemos quitarlo luego para descargar el sitio completo.
    if link is not None:# and link.startswith("/"):
        full_url = url + link
        response = requests.get(full_url)
        soup = BeautifulSoup(response.content, 'html.parser')
        # Extracting all the text from the page
        text = soup.get_text()
        #PENDIENTE. Añadir función que limpie el texto extraído. Eliminando, por ejemplo, espacios múltiples o saltos de línea
        if text:
            texts.append(text)
        else:
            texts.append("")  # add empty string when no text is found

df = pd.DataFrame()
df['links'] = pd.Series(links)
df['texts'] = pd.Series(texts)

In [5]:
import re
import pandas as pd

# Función para reemplazar URLs, correos electrónicos, o cualquier otro patrón
def clean_text(text):
    if isinstance(text, str):  # Verifica si es un string
        # Reemplazar URLs
        text = re.sub(r'https?://(?:www\.)?[^\s/$.?#].[^\s]*', ' ', text)
        # Reemplazar correos electrónicos
        text = re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', ' ', text)
        # Reemplazar otros patrones (puedes agregar más aquí)
        # Por ejemplo: remover menciones @
        text = re.sub(r'@\w+', ' ', text)
        # Reemplazar fechas en formato YYYY-MM-DD
        text = re.sub(r'\d{4}-\d{2}-\d{2}', ' ', text)

        text = re.sub(r'\d{4}', ' ', text)
        # Remover saltos de línea
        text = text.replace("\n", " ")

        text = re.sub(r'\s+', ' ', text).strip()

        return text
    return text

# Asumiendo que tienes un DataFrame `df`, aplicamos la función a cada celda
df_cleaned = df.applymap(clean_text)

# Eliminar filas con valores nulos si es necesario
df_cleaned = df_cleaned.dropna()

# Mostrar el DataFrame limpio
df_cleaned

  df_cleaned = df.applymap(clean_text)


Unnamed: 0,links,texts
0,#main-content,Comunidad de Madrid | Pasar al contenido princ...
1,/,Comunidad de Madrid | Pasar al contenido princ...
2,/servicios,Servicios e información | Comunidad de Madrid ...
3,/cultura,Cultura y Turismo | Comunidad de Madrid Pasar ...
4,/inversion,Inversión y empresa | Comunidad de Madrid Pasa...
5,/gobierno,Acción de gobierno | Comunidad de Madrid Pasar...
7,,Página no encontrada | Comunidad de Madrid Pas...
8,,Página no encontrada | Comunidad de Madrid Pas...


In [None]:
#Calculamos número de oraciones por página y lecturabilidad
df['num oraciones'] = df['texts'].astype(str).apply(lambda x: textstat.sentence_count(x) if x else 0)
df['num palabras'] = df['texts'].astype(str).apply(lambda x: textstat.lexicon_count(x, removepunct=True) if x else 0)
df['palabras/oración'] = df['num palabras'].divide(df['num oraciones'])
df['fdz huerta'] = df['texts'].astype(str).apply(lambda x: textstat.fernandez_huerta(x) if x else 0)
df['tiempo lectura'] = df['texts'].astype(str).apply(lambda x: textstat.reading_time(x, ms_per_char=14.69) if x else 0)
df.head()


In [None]:
df['fdz huerta'].hist()

In [None]:
#Guardamos la tabla en un fichero csv
df.to_csv("")

In [None]:
print ('media de oraciones por archivo:')
print (round (df['num sentences'].mean(),0))
print ('media de nivel de lectura:')
print(round(df['fdz huerta'].mean(), 0))
print ('media de tiempo de lectura (segundos):')
print(round(df['tiempo lectura'].mean(), 0))



In [None]:
df['fdz huerta'].plot.bar()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=a2326c74-8155-424a-a9ea-889ef1bb8e18' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>