In [33]:
import os
import re
import nltk
from pdfminer.high_level import extract_pages
from pdfminer.high_level import LTPage
from nltk.corpus import wordnet as wn
from pdfminer.layout import LTTextContainer, LTTextLineVertical, LTTextBoxHorizontal, LTTextBox, Rect
import wordninja

In [62]:
class SpanishLanguageModel(wordninja.LanguageModel):
    def __init__(self, word_file):
        super().__init__(word_file)
        self.SPLIT_RE = re.compile("[^a-zA-Z0-9áéíóúÁÉÍÓÚñÑ']+")
    
    def split(self, s):
        l = [self._split(x) for x in self.SPLIT_RE.split(s)]
        return [item for sublist in l for item in sublist]
wordninja.DEFAULT_LANGUAGE_MODEL = SpanishLanguageModel("words.txt.gz")

def separate_words(text):
    sep = wordninja.split(text)
    return " ".join(sep)

In [3]:
os.makedirs("data", exist_ok=True)
articles = [os.path.join("data", art) for art in os.listdir("data")]
articles

['data\\000.pdf',
 'data\\001.pdf',
 'data\\002.pdf',
 'data\\003.pdf',
 'data\\004.pdf',
 'data\\101404-Texto del artículo-379745-1-10-20230814.pdf',
 'data\\103822-Texto del artículo-398336-1-10-20240109.pdf',
 'data\\103827-Texto del artículo-398338-1-10-20240109.pdf',
 'data\\108896-Texto del artículo-430136-1-10-20240723.pdf',
 'data\\110685-Texto del artículo-444650-1-10-20241017.pdf',
 'data\\113135-Texto del artículo-461992-1-10-20250121.pdf',
 'data\\113136-Texto del artículo-461995-1-10-20250121.pdf',
 'data\\130-Texto del artículo en fichero de Microsoft Word o LibreOffice (necesario)-134-1-10-20090331.pdf',
 'data\\32502-Texto del artículo-103690-1-10-20150102 (1).pdf',
 'data\\32502-Texto del artículo-103690-1-10-20150102.pdf',
 'data\\32511-Texto del artículo-103699-1-10-20150102.pdf',
 'data\\32519-Texto del artículo-103707-1-10-20150102.pdf',
 'data\\32576-Texto del artículo-103765-1-10-20150102.pdf',
 'data\\32585-Texto del artículo-103775-1-10-20150102.pdf',
 'data\\3

**arreglar**:

etno-\ngráfico -> etnográfico -> .replace("-\n", "")

**tomar en cuenta toda la pagina hasta donde aparece el primer patron de pie de pagina**

**quitar**:
- citas como (Banks, 2001)

**arreglar**:
- hay conjunto de palabras que aparecen juntos, por ejemplo, lacercania en lugar de 
la cercania (art4, pag3)

In [4]:
def extract_page(pdf_path, page):
    pages = extract_pages(pdf_path)
    for i, page_layout in enumerate(pages):
        if i != page - 1: continue
        return page_layout
    return None

In [116]:
# regex stop conditions
references_re = r"(?i)^\s*(referencias|bibliografía citada|bibliografia citada|bibliografía|bibliografia|citas|fuentes|referencias bibliograficas|referencias bibliográficas)\s*$"

# regex delete
version_logs = r"(?i)(recibido|aceptado|publicado|(segunda|tercera|cuarta|quinta|sexta) versión)[,:]?\s*(el\s*)?(\d{1,2}(\s*de)?\s*[a-záéíóú]+(\s*de\s*\d{4})?|\d{1,2}/\d{1,2}/\d{4})(\s*\.\s*)?"
footnote_patterns = r"(?m)^(?:\d+|[*†‡¹²³⁴⁵⁶⁷⁸⁹]+|\[\d+\])\s+.*$"

footnote_references = r"\.[0-9]+|[0-9]+\."
duplicated_spaces = r"\s+"

# recognizing regex
abstract = r"Palabras clave|Keywords|Resumen|Abstract|Key words|Palabrasclave|Keyword|Palabra clave|Palabras claves|Keywords|Sumario|Síntesis|Sintesis|Sinopsis"

In [None]:
class ArticleExtractedData:
    def __init__(self, pdf_path: str):
        self.pdf_path: str = pdf_path
        self.headers: set[str] = set()
        self.footers: set[str] = set()
        self.start_page: int = 0

def extract_data_article(pdf_path) -> ArticleExtractedData:
    data = ArticleExtractedData(pdf_path)
    headers_counter: map[str, int] = {}
    footers_counter: map[str, int] = {}
    found_page = None

    for i, page in enumerate(extract_pages(pdf_path)):
        height = page.bbox[3]
        cutoff = height * 0.15

        for element in page:
            if not isinstance(element, (LTTextBox, LTTextBox, LTTextContainer)):
                continue
            txt = element.get_text().strip()
            if element.bbox[3] <= cutoff:
                footers_counter[txt] = footers_counter.get(txt, 0) + 1
            if element.bbox[1] >= height - cutoff:
                headers_counter[txt] = headers_counter.get(txt, 0) + 1
            
            # Stop searching for abstract after 3 pages
            if found_page is not None or i > 2:
                continue

            text_semiclean = re.sub(duplicated_spaces, " ", txt).strip()
            if re.search(abstract, text_semiclean, re.IGNORECASE):
                found_page = i


    data.headers = {k for k, v in headers_counter.items() if v > 1 and len(k) > 0}
    data.footers = {k for k, v in footers_counter.items() if v > 1 and len(k) > 0}
    if found_page is not None:
        data.start_page = found_page
    return data

In [118]:
def remove_accents(text: str) -> str:
    return text.replace("á", "a").replace("é", "e").replace("í", "i").replace("ó", "o").replace("ú", "u")

In [119]:
separate_words("espaciospúblicosylasautónomas")

'espacios público s y lasa u t ó n o m a s'

**los footnote references se llevan los años, en textos como: en 1592. Aquello [...]**

In [None]:
def check_stop_conditions(text) -> bool:
	return any([
		re.search(references_re, text, flags=re.MULTILINE),
	])

def clean_unwanted_patterns(text) -> str:
	# Eliminar patrones como "Recibido el 12 de marzo de 2021."
	text = re.sub(version_logs, "", text).strip()
	
	# text = re.sub(footnote_patterns, "", text, flags=re.MULTILINE).strip()

	# Eliminar las referencias de las notas al pie y reemplazarlas por un punto
	# text = re.sub(footnote_references, ".", text).strip()

	return text

def avoid_unwanted_texts(text) -> str:
	return text

def clean_page(text) -> str:
	text = text.replace("-\n", "")
	text = re.sub(duplicated_spaces, " ", text).strip()
	text = text.replace("«", "").replace("»", "")
    # text = remove_accents(text)
	return text

# def corrections(text: str) -> str:
#     words = text.split()
#     corrected = []
#     for word in words:
#         if len(word) < 3:
#             continue
#         corrected.append(separate_words(word))
#     return " ".join(corrected)

def extract_page_text(page, data: ArticleExtractedData) -> str:
	text = ""

	for element in page:
		if not isinstance(element, (LTTextBoxHorizontal, LTTextBox, LTTextContainer)):
			continue
		txt = element.get_text().strip()
		if txt.isdigit() or txt in data.headers or txt in data.footers:
			continue

		txt = avoid_unwanted_texts(txt)
		if check_stop_conditions(txt):
			break

		text += txt

	text = clean_unwanted_patterns(text)
	text = clean_page(text)
	# text = corrections(text)
	return text

In [121]:
art = articles[1]
data = extract_data_article(art)
page = extract_page(art, 4)
print(extract_page_text(page, data))

Pero la costumbre de elaborar arbitrios se inició en el siglo XVI. Como era usual, el arbitrista presentaba su papel ante la audiencia o el virrey, los que debían, a su vez, elevarlo al Consejo de Indias, que lo evaluaba para su posible presentación al valido o al rey. Otras veces el arbitrista enviaba directamente su escrito al consejo para esquivar la interferencia del virrey.10 A cambio, el arbitrista esperaba reconocimiento y remuneración y, de esta manera, el arbitrio se convertía en un medio excepcional para la aplicación de medidas políticas y en una vía para el ofrecimiento de privilegios por parte del monarca.Tal es el caso, por ejemplo, de Martín de Ocampo, que ilustra bien de qué manera el arbitrio operaba como un mecanismo de reforzamiento del honor y de reconocimiento pecuniario por las labores cumplidas en favor de la monarquía, que eran componentes esenciales del ejercicio político en el imperio de los Habsburgo. Ocampo llegó a América hacia mediados del siglo XVI y ganó

In [194]:
page = extract_page(articles[0], 5)
for element in page:
    print(element)

<LTTextBoxHorizontal(0) 92.700,748.933,106.756,757.401 '462\n'>
<LTTextBoxHorizontal(1) 271.980,747.891,376.029,757.318 'Segundas generaciones \n'>
<LTTextBoxHorizontal(2) 92.700,712.398,522.450,723.688 'ha  cuajado  en  fórmulas  distintas  y  más  o  menos  eficaces  en  cada  uno  de  esos \n'>
<LTTextBoxHorizontal(3) 92.700,692.898,522.335,704.188 'estados que, de todos modos, han mantenido cierta heterogeneidad. En tercer lugar, \n'>
<LTTextBoxHorizontal(4) 92.700,673.458,522.449,684.748 'en  los  años  de  posguerra  y  hasta  los  setenta,  se  desarrollaron  modelos  de \n'>
<LTTextBoxHorizontal(5) 92.700,653.958,522.414,665.248 'incorporación temporal de población inmigrante gracias a una elevada demanda de \n'>
<LTTextBoxHorizontal(6) 92.700,634.519,522.475,645.808 'mano  de  obra  que,  más  tarde,  se  han  visto  confrontados  con  una  evolución  del \n'>
<LTTextBoxHorizontal(7) 92.700,615.019,522.460,626.309 'fenómeno  migratorio  hacia  un  asentamiento  estable  de  es

In [37]:
import pdfplumber

def detect_lines_in_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            lines = page.lines  # Extrae todas las líneas de la página

            # Filtrar líneas horizontales (y0 ≈ y1 indica una línea horizontal)
            horizontal_lines = [line for line in lines if abs(line["y0"] - line["y1"]) < 1]

            if horizontal_lines:
                print(f"Página {i+1}: {len(horizontal_lines)} ({(page.width, page.height)}) línea(s) horizontal(es) detectada(s).")
                for line in horizontal_lines:
                    print(f"  - Coordenadas: {line}")

detect_lines_in_pdf(articles[2])


In [30]:
import pdfquery
pdf = pdfquery.PDFQuery(articles[0])
pdf.load()
lines = pdf.pq('LTLine')
print(len(lines))
for line in lines:
    print(line.get('bbox'))

31
[92.7, 744.18, 519.36, 744.18]
[191.7, 317.16, 420.3, 317.16]
[191.7, 91.08, 420.3, 91.08]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]
[92.7, 744.18, 519.36, 744.18]


# Preprocesado

In [19]:
articles = [os.path.join("data", art) for art in os.listdir("data")]
len(articles)

34

In [None]:
def extract_pages(articles):
  return [extract_pages(article) for article in articles]

def bound_delete(articles):
  pass

In [None]:
import re

def limpiar_fechas(texto):
    # Regex mejorada para eliminar fechas en líneas individuales y en la misma línea
    regex = r""
    # Reemplazar coincidencias con una cadena vacía
    return re.sub(regex, "", texto).strip()

# Ejemplo de texto
texto = """
Recibido el 16 de enero de 2014
Aceptado el 6 de abril de 2014

Recibido: 25/09/2023. Aceptado: 06/12/2023. Publicado: 22/10/2024.

Recibido, 27 de noviembre de 2019
Segunda versión, 4 de marzo de 2020
Aceptado, 23 de marzo de 2020
"""

# Limpiar el texto
texto_limpio = limpiar_fechas(texto)

print(texto_limpio)



