In [1]:
import os
import pandas as pd
import fitz  # PyMuPDF

In [2]:
def extract_text_from_pdf(pdf_path):
    document = fitz.open(pdf_path)
    full_text = ""
    
    for page_number in range(document.page_count):
        page = document.load_page(page_number)
        full_text += page.get_text("text")
    
    return full_text

def get_category(pdf_path, base_directory):
    # Obtener la ruta relativa al directory base
    relative_path = os.path.relpath(pdf_path, base_directory)
    parts = relative_path.split(os.sep)
    
    # La categoría es la primera carpeta después del directory base
    if len(parts) > 1:
        return parts[0]
    return "Unknown"

def process_pdfs(directory):
    data = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".pdf"):
                pdf_path = os.path.join(root, file)
                text = extract_text_from_pdf(pdf_path)
                word_count = len(text.split())
                category = get_category(pdf_path, directory)
                data.append({
                    "title": file,
                    "text": text,
                    "word_count": word_count,
                    "category": category
                })
    return pd.DataFrame(data)

In [3]:
# Ruta a la carpeta 'dataset'
directory_dataset = 'dataset/pdf'

# Procesar los PDFs y obtener el DataFrame
df = process_pdfs(directory_dataset)

# Mostrar el DataFrame
df

Unnamed: 0,title,text,word_count,category
0,El_origen_de_las_especies-Darwin_Charles.pdf,"Libro descargado en www.elejandria.com, tu sit...",197788,Ciencias
1,Lo_Inconsciente-Sigmund_Freud.pdf,LO INCONSCIENTE\nSigmund Freud\nLibro descarga...,11767,Ciencias
2,Sobre_la_teoria_de_la_relatividad-Einstein_Alb...,Sobre la Teoría de la Relatividad… \nwww.libr...,25323,Ciencias
3,CSS_Avanzado-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \navanzado \n ...,43243,Ciencias
4,Introduccion_a_AJAX-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \nIntroducción...,68424,Ciencias
5,Introduccion_a_Javascript-Eguiluz_Perez_Javier...,www.librosweb.es \n \n \n \n \n \nIntroducción...,38119,Ciencias
6,Kasparov_vs._Deep_Blue._La_conflictiva_relacio...,Tesina \n \n \nKasparov vs. Deep Blue \nLa c...,25920,Ciencias
7,Observatorio_de_la_Ilustracion_Grafica_los_ret...,L O S R E T O S D E L A E R A D I G I T A...,40589,Ciencias
8,Crimenes_pasionales-Carlos_Maza_Gomez.pdf,\n \n \n \n \n \nCrímenes pasionales \n \n \n...,53075,Historia
9,Historia_de_la_Revolucion_Rusa-Leon_Trotski.pdf,\n \n \n \n \nLEÓN TROTSKI \n \n \n \n \n \n ...,445966,Historia


In [10]:
# # Ruta a la carpeta 'dataset'
# directory_dataset = 'dataset/pdf'

# # Procesar los PDFs y obtener el DataFrame
# df = process_pdfs(directory_dataset)

# # Mostrar el DataFrame
# df

Unnamed: 0,title,text,word_count,category
0,Acerca_de_la_generacion_y_la_corrupcion-Aristo...,SOBRE LA GENERACIÓN\nY LA CORRUPCIÓN\nAristóte...,49,Ciencias
1,Consideraciones_sobre_el_origen_del_nombre_de_...,"Libro descargado en www.elejandria.com, tu sit...",7135,Ciencias
2,El_origen_de_las_especies-Darwin_Charles.pdf,"Libro descargado en www.elejandria.com, tu sit...",197788,Ciencias
3,Lo_Inconsciente-Sigmund_Freud.pdf,LO INCONSCIENTE\nSigmund Freud\nLibro descarga...,11767,Ciencias
4,Sobre_la_teoria_de_la_relatividad-Einstein_Alb...,Sobre la Teoría de la Relatividad… \nwww.libr...,25323,Ciencias
5,CSS_Avanzado-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \navanzado \n ...,43243,Ciencias
6,Introduccion_a_AJAX-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \nIntroducción...,68424,Ciencias
7,Introduccion_a_Javascript-Eguiluz_Perez_Javier...,www.librosweb.es \n \n \n \n \n \nIntroducción...,38119,Ciencias
8,Kasparov_vs._Deep_Blue._La_conflictiva_relacio...,Tesina \n \n \nKasparov vs. Deep Blue \nLa c...,25920,Ciencias
9,Observatorio_de_la_Ilustracion_Grafica_los_ret...,L O S R E T O S D E L A E R A D I G I T A...,40589,Ciencias


In [11]:
from pdfminer.high_level import extract_text

def extract_text_from_pdf(pdf_path):
    try:
        full_text = extract_text(pdf_path)
    except Exception as e:
        print(f"Error leyendo {pdf_path}: {e}")
        full_text = ""
    return full_text

def get_category(pdf_path, base_directory):
    # Obtener la ruta relativa al directory base
    relative_path = os.path.relpath(pdf_path, base_directory)
    parts = relative_path.split(os.sep)
    
    # La categoría es la primera carpeta después del directory base
    if len(parts) > 1:
        return parts[0]
    return "Unknown"

def process_pdfs(directory):
    data = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".pdf"):
                pdf_path = os.path.join(root, file)
                text = extract_text_from_pdf(pdf_path)
                word_count = len(text.split())
                category = get_category(pdf_path, directory)
                data.append({
                    "title": file,
                    "text": text,
                    "word_count": word_count,
                    "category": category
                })
    return pd.DataFrame(data)

In [12]:
# Ruta a la carpeta 'dataset'
directory_dataset = 'dataset/pdf'

# Procesar los PDFs y obtener el DataFrame
df = process_pdfs(directory_dataset)

# Mostrar el DataFrame
df

Unnamed: 0,title,text,word_count,category
0,Acerca_de_la_generacion_y_la_corrupcion-Aristo...,SOBRE LA GENERACIÓN\nY LA CORRUPCIÓN\n\nAristó...,49,Ciencias
1,Consideraciones_sobre_el_origen_del_nombre_de_...,"Libro descargado en www.elejandria.com, tu si...",7135,Ciencias
2,El_origen_de_las_especies-Darwin_Charles.pdf,"Libro descargado en www.elejandria.com, tu si...",197788,Ciencias
3,Lo_Inconsciente-Sigmund_Freud.pdf,LO INCONSCIENTE\n\nSigmund Freud\n\nLibro des...,11767,Ciencias
4,Sobre_la_teoria_de_la_relatividad-Einstein_Alb...,Sobre la Teoría de la Relatividad… \n\nwww.li...,25327,Ciencias
5,CSS_Avanzado-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n\navanzado \n\nJavier Eguíl...,43465,Ciencias
6,Introduccion_a_AJAX-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n\nIntroducción a \n\nAJAX \...,68548,Ciencias
7,Introduccion_a_Javascript-Eguiluz_Perez_Javier...,www.librosweb.es \n\nIntroducción a \nJavaScri...,38202,Ciencias
8,Kasparov_vs._Deep_Blue._La_conflictiva_relacio...,Tesina \n\nKasparov vs. Deep Blue \nLa confl...,25923,Ciencias
9,Observatorio_de_la_Ilustracion_Grafica_los_ret...,O bS E RvA T O R I O\nD E L A ILuS T R AcIó n...,40563,Ciencias


In [4]:
df['source']="pdf"
df

Unnamed: 0,title,text,word_count,category,source
0,El_origen_de_las_especies-Darwin_Charles.pdf,"Libro descargado en www.elejandria.com, tu sit...",197788,Ciencias,pdf
1,Lo_Inconsciente-Sigmund_Freud.pdf,LO INCONSCIENTE\nSigmund Freud\nLibro descarga...,11767,Ciencias,pdf
2,Sobre_la_teoria_de_la_relatividad-Einstein_Alb...,Sobre la Teoría de la Relatividad… \nwww.libr...,25323,Ciencias,pdf
3,CSS_Avanzado-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \navanzado \n ...,43243,Ciencias,pdf
4,Introduccion_a_AJAX-Eguiluz_Perez_Javier.pdf,www.librosweb.es \n \n \n \n \n \nIntroducción...,68424,Ciencias,pdf
5,Introduccion_a_Javascript-Eguiluz_Perez_Javier...,www.librosweb.es \n \n \n \n \n \nIntroducción...,38119,Ciencias,pdf
6,Kasparov_vs._Deep_Blue._La_conflictiva_relacio...,Tesina \n \n \nKasparov vs. Deep Blue \nLa c...,25920,Ciencias,pdf
7,Observatorio_de_la_Ilustracion_Grafica_los_ret...,L O S R E T O S D E L A E R A D I G I T A...,40589,Ciencias,pdf
8,Crimenes_pasionales-Carlos_Maza_Gomez.pdf,\n \n \n \n \n \nCrímenes pasionales \n \n \n...,53075,Historia,pdf
9,Historia_de_la_Revolucion_Rusa-Leon_Trotski.pdf,\n \n \n \n \nLEÓN TROTSKI \n \n \n \n \n \n ...,445966,Historia,pdf


In [5]:
# Se guardan los textos filtrados
df.to_csv('dataset/df_pdf.csv', index=False)