Esta celda importa TikaApp desde tikapp. TikaApp es una interfaz de Python para Apache Tika, que permite la extracción de metadatos y texto de una amplia variedad de archivos.

In [1]:
from tikapp import TikaApp

# Operaciones básicas de TIKA

Se crea una instancia de TikaApp, especificando la ubicación del archivo JAR de Tika. Este paso es necesario para interactuar con Apache Tika desde Python.

In [2]:
tika = TikaApp(file_jar="/home/duo/DataspellProjects/Traffic-Network-Transparency2.0/tika-app-1.16_duo.jar")

Esta celda establece la ruta del archivo a analizar y utiliza detect_content_type para determinar el tipo de contenido del archivo especificado, retornando application/pdf, indicando que el archivo es un PDF.

In [3]:
file_path = "/home/duo/DataspellProjects/Traffic-Network-Transparency2.0/Enunciado P2 POD2.pdf"
tika.detect_content_type(file_path)

'application/pdf'

Utiliza detect_language para determinar el idioma del contenido del archivo, retornando 'es' para español.

In [4]:
tika.detect_language(file_path)

'es'

Esta celda extrae y muestra únicamente los metadatos del archivo, proporcionando información como el autor, la longitud del contenido, la fecha de creación, entre otros

In [5]:
tika.extract_only_metadata(file_path)

'{"Author":"RAFAEL MUÑOZ GIL","Content-Length":"182719","Content-Type":"application/pdf","Creation-Date":"2023-02-28T09:43:32Z","Last-Modified":"2023-02-28T09:43:32Z","Last-Save-Date":"2023-02-28T09:43:32Z","X-Parsed-By":["org.apache.tika.parser.DefaultParser","org.apache.tika.parser.pdf.PDFParser"],"access_permission:assemble_document":"true","access_permission:can_modify":"true","access_permission:can_print":"true","access_permission:can_print_degraded":"true","access_permission:extract_content":"true","access_permission:extract_for_accessibility":"true","access_permission:fill_in_form":"true","access_permission:modify_annotations":"true","created":"Tue Feb 28 10:43:32 CET 2023","creator":"RAFAEL MUÑOZ GIL","date":"2023-02-28T09:43:32Z","dc:creator":"RAFAEL MUÑOZ GIL","dc:format":"application/pdf; version\\u003d1.7","dcterms:created":"2023-02-28T09:43:32Z","dcterms:modified":"2023-02-28T09:43:32Z","meta:author":"RAFAEL MUÑOZ GIL","meta:creation-date":"2023-02-28T09:43:32Z","meta:save

Este output muestra los metadatos extraídos del archivo, incluyendo autor, longitud del contenido, tipo de archivo (PDF), fechas de creación y modificación, herramienta de creación (Microsoft® Word para Microsoft 365), y más. Es notable cómo Apache Tika puede extraer una amplia gama de metadatos, demostrando su utilidad en el análisis de documentos.

Extrae todo el contenido y metadatos del archivo especificado. La salida incluye tanto los metadatos (como autor y fechas) como el contenido textual completo del archivo PDF.

In [6]:
tika.extract_all_content(file_path)

'[{"Author":"RAFAEL MUÑOZ GIL","Content-Length":"182719","Content-Type":"application/pdf","Creation-Date":"2023-02-28T09:43:32Z","Last-Modified":"2023-02-28T09:43:32Z","Last-Save-Date":"2023-02-28T09:43:32Z","X-Parsed-By":["org.apache.tika.parser.DefaultParser","org.apache.tika.parser.pdf.PDFParser"],"X-TIKA:content":"\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\nPRÁCTICA OBLIGATORIA EVALUABLE \\n\\nMETADATOS CON APACHE TIKA \\n\\nObjetivo  \\n\\nEl objetivo es poner en práctica diferentes conceptos aprendidos durante el módulo y \\n\\nrelacionados con la unidad de metadatos.  \\n\\nNormativa de entrega  \\n\\n La entrega de esta práctica es obligatoria se realiza individualmente. A continuación, se detallan \\n\\notros datos de interés relacionados con la normativa de entrega:   \\n\\n• La fecha límite de entrega de la práctica será el día indicado en el campus virtual. \\n\\n• La entrega de l

La salida incluye tanto los metadatos (similar a [Out [5]]) como el contenido textual del documento, destacando la capacidad de Tika para extraer texto limpio de archivos PDF. El texto extraído comienza con "PRÁCTICA OBLIGATORIA EVALUABLE" seguido por detalles de la asignación, mostrando cómo Tika maneja eficazmente la extracción de contenido textual de documentos complejos.

Se definen dos funciones: tika_extract, que imprime el tipo de contenido, el idioma, los metadatos y el contenido del archivo; y tika_extract_json, que retorna todo el contenido y metadatos del archivo en formato JSON.

In [7]:
def tika_extract(file_path):
    print(tika.detect_content_type(file_path))
    print(tika.detect_language(file_path))
    print(tika.extract_only_metadata(file_path))
    print(tika.extract_only_content(file_path))


def tika_extract_json(file_path):
    return tika.extract_all_content(file_path, convert_to_obj=True)

Esta celda muestra cómo utilizar tika_extract_json para obtener el contenido y metadatos del archivo en formato JSON y almacenar el resultado en fjson.

In [8]:
fjson = tika_extract_json(file_path)[0]

Muestra el contenido de fjson, que incluye metadatos como el autor, el tipo de contenido, las fechas de creación y modificación, y el contenido textual del archivo PDF.

In [9]:
fjson

{'Author': 'RAFAEL MUÑOZ GIL',
 'Content-Length': '182719',
 'Content-Type': 'application/pdf',
 'Creation-Date': '2023-02-28T09:43:32Z',
 'Last-Modified': '2023-02-28T09:43:32Z',
 'Last-Save-Date': '2023-02-28T09:43:32Z',
 'X-Parsed-By': ['org.apache.tika.parser.DefaultParser',
  'org.apache.tika.parser.pdf.PDFParser'],
 'X-TIKA:content': "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\nPRÁCTICA OBLIGATORIA EVALUABLE \n\nMETADATOS CON APACHE TIKA \n\nObjetivo  \n\nEl objetivo es poner en práctica diferentes conceptos aprendidos durante el módulo y \n\nrelacionados con la unidad de metadatos.  \n\nNormativa de entrega  \n\n La entrega de esta práctica es obligatoria se realiza individualmente. A continuación, se detallan \n\notros datos de interés relacionados con la normativa de entrega:   \n\n• La fecha límite de entrega de la práctica será el día indicado en el campus virtual. \n\n• La entrega de la práctica se hará a través de Aula Virtu

Este ejemplo ilustra cómo acceder y combinar datos específicos (autor y fecha de última modificación) del JSON extraído para generar una salida personalizada.

In [10]:
print(fjson['Author'], "creó ", fjson['Last-Modified'], " y lo modificó en ", fjson['Last-Save-Date'])

RAFAEL MUÑOZ GIL creó  2023-02-28T09:43:32Z  y lo modificó en  2023-02-28T09:43:32Z


# Operaciones de tika encapsulados

Ahora que conocemos las operaciones básicas, vamos a encapsularlas en dos clases:

In [11]:
from tikapp import TikaApp


class TikaReader:
    def __init__(self, tika_path):
        """
        Inicializa la clase TikaReader.
        :param tika_path: Ruta al archivo jar de Tika.
        """
        self.tika = TikaApp(file_jar=tika_path)

    def detect_content_type(self, file_path):
        """
        Detecta el tipo de contenido del archivo.
        :param file_path: Ruta al archivo a analizar.
        :return: Tipo de contenido del archivo.
        """
        return self.tika.detect_content_type(file_path)

    def detect_language(self, file_path):
        """
        Detecta el idioma del contenido del archivo.
        :param file_path: Ruta al archivo a analizar.
        :return: Idioma del archivo.
        """
        return self.tika.detect_language(file_path)

    def extract_metadata(self, file_path):
        """
        Extrae solo los metadatos del archivo.
        :param file_path: Ruta al archivo a analizar.
        :return: Metadatos del archivo.
        """
        return self.tika.extract_only_metadata(file_path)

    def extract_content(self, file_path):
        """
        Extrae todo el contenido y metadatos del archivo.
        :param file_path: Ruta al archivo a analizar.
        :return: Contenido y metadatos del archivo.
        """
        return self.tika.extract_all_content(file_path)
    
    def extract_json(self, file_path):
        """
        Extrae todo el contenido y metadatos del archivo en formato json
        :param file_path: Ruta al archivo a analizar.
        :return: Contenido y metadatos del archivo en formato json
        """
        return tika_extract_json(file_path)[0]


In [12]:
class ProcessJSONTika:
    def __init__(self, json_data):
        """
        Inicializa la clase ProcessJSONTika.
        :param json_data: Datos JSON proporcionados por Tika.
        """
        self.json_data = json_data

    def print_metadata(self):
        """
        Escribe por consola los metadatos específicos sobre autores, fecha de creación y fecha de modificación.
        """
        author = self.json_data.get('Author', 'Desconocido')
        creation_date = self.json_data.get('Creation-Date', 'Desconocida')
        modification_date = self.json_data.get('Last-Modified', 'Desconocida')
        print(f"Autor: {author}, Fecha de Creación: {creation_date}, Fecha de Modificación: {modification_date}")

    def get_content(self):
        """
        Obtiene solo el contenido (texto) del fichero JSON.
        :return: Texto contenido en el fichero.
        """
        return self.json_data.get('X-TIKA:content', 'Contenido no disponible')


Primero, necesitaremos instanciar la clase TikaReader con la ruta al archivo JAR de Tika. Reemplaza tu_ruta_a_tika.jar con la ruta correcta a tu archivo JAR de Tika.

In [13]:
tika_path = "/home/duo/DataspellProjects/Traffic-Network-Transparency2.0/tika-app-1.16_duo.jar"
reader = TikaReader(tika_path)

A continuación, prueba la detección del tipo de contenido y el idioma del archivo especificado. Reemplaza /path/to/your/file con la ruta al archivo que quieres analizar.

In [14]:
# Ruta al archivo a analizar
file_path = "/home/duo/DataspellProjects/Traffic-Network-Transparency2.0/Enunciado P2 POD2.pdf"

# Detección del tipo de contenido
print("Tipo de Contenido:", reader.detect_content_type(file_path))

# Detección del idioma
print("Idioma:", reader.detect_language(file_path))


Tipo de Contenido: application/pdf
Idioma: es


Ahora, vamos a extraer los metadatos y el contenido del archivo para su posterior procesamiento.

In [15]:
# Extraer metadatos
metadata = reader.extract_metadata(file_path)
print("Metadatos:", metadata)

content_and_metadata = reader.extract_content(file_path)
print("Contenido y Metadatos:", content_and_metadata)


Metadatos: {"Author":"RAFAEL MUÑOZ GIL","Content-Length":"182719","Content-Type":"application/pdf","Creation-Date":"2023-02-28T09:43:32Z","Last-Modified":"2023-02-28T09:43:32Z","Last-Save-Date":"2023-02-28T09:43:32Z","X-Parsed-By":["org.apache.tika.parser.DefaultParser","org.apache.tika.parser.pdf.PDFParser"],"access_permission:assemble_document":"true","access_permission:can_modify":"true","access_permission:can_print":"true","access_permission:can_print_degraded":"true","access_permission:extract_content":"true","access_permission:extract_for_accessibility":"true","access_permission:fill_in_form":"true","access_permission:modify_annotations":"true","created":"Tue Feb 28 10:43:32 CET 2023","creator":"RAFAEL MUÑOZ GIL","date":"2023-02-28T09:43:32Z","dc:creator":"RAFAEL MUÑOZ GIL","dc:format":"application/pdf; version\u003d1.7","dcterms:created":"2023-02-28T09:43:32Z","dcterms:modified":"2023-02-28T09:43:32Z","meta:author":"RAFAEL MUÑOZ GIL","meta:creation-date":"2023-02-28T09:43:32Z","

Finalmente, utilizaremos ProcessJSONTika para procesar la salida JSON obtenida de Tika, centrándonos en los metadatos y el contenido textual.

In [17]:
process_json = ProcessJSONTika(reader.extract_json(file_path))

# Imprimir metadatos específicos
process_json.print_metadata()

print("Contenido del Archivo:", process_json.get_content())


Autor: RAFAEL MUÑOZ GIL, Fecha de Creación: 2023-02-28T09:43:32Z, Fecha de Modificación: 2023-02-28T09:43:32Z
Contenido del Archivo: 











































 

PRÁCTICA OBLIGATORIA EVALUABLE 

METADATOS CON APACHE TIKA 

Objetivo  

El objetivo es poner en práctica diferentes conceptos aprendidos durante el módulo y 

relacionados con la unidad de metadatos.  

Normativa de entrega  

 La entrega de esta práctica es obligatoria se realiza individualmente. A continuación, se detallan 

otros datos de interés relacionados con la normativa de entrega:   

• La fecha límite de entrega de la práctica será el día indicado en el campus virtual. 

• La entrega de la práctica se hará a través de Aula Virtual, empleando la actividad 
habilitada para ello. 

• Se deberá subir un único archivo comprimido con todo el código fuente que se haya 
implementado y se necesite para ejecutar la práctica, así como una memoria explicando qué se 
ha hecho y por qué. 

• El archivo debe ser

# Conclusiones y Observaciones

Este trabajo presenta un caso de uso detallado para la biblioteca Apache Tika a través de su interfaz Python tikapp. A través de las celdas examinadas, podemos apreciar cómo Tika facilita la extracción de metadatos y contenido de archivos, particularmente PDFs, con aplicaciones potenciales en análisis de documentos, gestión de información y cumplimiento normativo. La capacidad de extraer texto limpio y metadatos ricos de documentos complejos y presentarlos en un formato estructurado (JSON) es particularmente valiosa para la ciencia de datos y la automatización de procesos relacionados con documentos.

El cuaderno también destaca la importancia de la manipulación de datos extraídos para aplicaciones específicas, como la generación de salidas personalizadas basadas en metadatos específicos. La versatilidad de Tika, combinada con el poder de Python para el procesamiento de datos, demuestra ser una herramienta poderosa para el análisis y gestión de documentos en una amplia gama de aplicaciones.

Además, este análisis subraya la importancia de las herramientas de extracción de datos en el contexto del big data y la inteligencia artificial. En un mundo donde la cantidad de información crece exponencialmente, herramientas como Apache Tika se vuelven indispensables para filtrar, analizar y comprender grandes volúmenes de datos no estructurados. La capacidad de procesar y analizar automáticamente documentos en diversos formatos abre nuevas puertas para la investigación, el desarrollo de soluciones innovadoras y la toma de decisiones basada en datos.

La integración de Tika con Python, gracias a tikapp, facilita su adopción y utilización en proyectos de ciencia de datos y automatización, permitiendo a los usuarios centrarse en el análisis y la interpretación de los datos más que en la extracción de los mismos. Este enfoque pragmático hacia la gestión de documentos digitales destaca el valor de combinar herramientas de software libre y de código abierto para enfrentar desafíos complejos en el procesamiento de información.

Finalmente, este cuaderno no solo demuestra la funcionalidad de Apache Tika sino que también sirve como un recurso educativo para aquellos interesados en la ciencia de datos y la gestión documental. Al proporcionar ejemplos claros y aplicables, facilita la comprensión de conceptos clave en el análisis de documentos y la extracción de datos, promoviendo así el desarrollo de habilidades relevantes para el futuro de la tecnología y la información.