<img style="float: left;;" src='https://github.com/gdesirena/Procesamiento_Natural_del_Lenguaje_2024/blob/main/Modulo%20I/Figures/alinco.png?raw=1' /></a>

# Introducción: Trabajando Con Archivos de PDF
___

A menudo tendremos que lidiar con archivos PDF. Hay [muchas bibliotecas en Python para trabajar con archivos PDF] (https://reachtim.com/articles/PDF-Manipulation.html), cada una con sus ventajas y desventajas, siendo la más común ** PyPDF2 **. Puede instalarlo con (tenga en cuenta la distinción entre mayúsculas y minúsculas, debe asegurarse de que su capitilización coincida):

    pip install PyPDF2
    
Tenga en cuenta que no todos los archivos PDF se pueden leer con esta biblioteca. Los archivos PDF que estén demasiado borrosos, tengan una codificación especial, estén encriptados o que hayan sido creados con un programa en particular que no funcione bien con PyPDF2 no se podrán leer. Si se encuentra en esta situación, intente utilizar las bibliotecas vinculadas anteriormente, pero tenga en cuenta que es posible que tampoco funcionen. La razón de esto es debido a los muchos parámetros diferentes para un PDF y cuán no estándar pueden ser las configuraciones, el texto podría mostrarse como una imagen en lugar de una codificación utf-8. Hay muchos parámetros a considerar en este aspecto.

En lo que respecta a PyPDF2, solo puede leer el texto de un documento PDF, no podrá capturar imágenes u otros archivos multimedia de un PDF.
___

## Trabajando con PyPDF2

Comencemos mostrando los conceptos básicos de la biblioteca PyPDF2.

In [None]:
pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [None]:
# note the capitalization
import PyPDF2

## Reading PDFs

First we open a pdf, then create a reader object for it. Notice how we use the binary method of reading , 'rb', instead of just 'r'.

In [None]:
# Notar que leeremos el archivo de manera binaria con'rb'
f = open('US_Declaration.pdf', 'rb')

In [None]:
pdf_reader = PyPDF2.PdfReader(f)

In [None]:
len(pdf_reader.pages)

5

In [None]:
page_one=pdf_reader.pages[0]

Podemos extraer el texto:

In [None]:
page_one_text = page_one.extract_text()

In [None]:
page_one_text


"Declaration of Independence\nIN CONGRESS, July 4, 1776.  \nThe unanimous Declaration of the thirteen united States of America,  \nWhen in the Course of human events, it becomes necessary for one people to dissolve thepolitical bands which have connected them with another, and to assume among the powers of theearth, the separate and equal station to which the Laws of Nature and of Nature's God entitlethem, a decent respect to the opinions of mankind requires that they should declare the causeswhich impel them to the separation. We hold these truths to be self-evident, that all men are created equal, that they are endowed bytheir Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit\nof Happiness.— \x14That to secure these rights, Governments are instituted among Men, derivingtheir just powers from the consent of the governed,—  \x14That whenever any Form of Government\nbecomes destructive of these ends, it is the Right of the People to alter or to 

In [None]:
f.close()

## Añadir a PDFs

No podemos escribir en archivos PDF con Python debido a las diferencias entre el tipo de cadena única de Python y la variedad de fuentes, ubicaciones y otros parámetros que podría tener un PDF.

Lo que * podemos * hacer es copiar páginas y agregar páginas al final.

In [None]:
f = open('US_Declaration.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(f)

In [None]:
prim_pag = pdf_reader.pages[0]

In [None]:
pdf_writer = PyPDF2.PdfWriter()

In [None]:
pdf_writer.add_page(prim_pag)

{'/Type': '/Page',
 '/Contents': {},
 '/MediaBox': [0, 0, 612, 792],
 '/Resources': {'/Font': {'/F9': {'/Type': '/Font',
    '/Subtype': '/Type1',
    '/Name': '/F9',
    '/Encoding': '/WinAnsiEncoding',
    '/FirstChar': 31,
    '/LastChar': 255,
    '/Widths': [778,
     250,
     333,
     555,
     500,
     500,
     1000,
     833,
     278,
     333,
     333,
     500,
     570,
     250,
     333,
     250,
     278,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     333,
     333,
     570,
     570,
     570,
     500,
     930,
     722,
     667,
     722,
     722,
     667,
     611,
     778,
     778,
     389,
     500,
     778,
     667,
     944,
     722,
     778,
     611,
     778,
     722,
     556,
     667,
     722,
     722,
     1000,
     722,
     722,
     667,
     333,
     278,
     333,
     581,
     500,
     333,
     500,
     556,
     444,
     556,
     444,
     333,
     500,
     556,

In [None]:
pdf_out = open("Some_New_document.pdf", "wb")

In [None]:
pdf_writer.write(pdf_out)

(False, <_io.BufferedWriter name='Some_New_document.pdf'>)

In [None]:
pdf_out.close()
f.close()

Ahora ya copiamos una página y además añadimos otra a un nuevo documento!

___

## Ejemplo Simple

Intentemos tomar todo el texto de este archivo PDF:

In [None]:
f = open('US_Declaration.pdf', 'rb')
pdf_text=[]
pdf_reader = PyPDF2.PdfReader(f)
numPag = len(pdf_reader.pages)
for p in range(numPag):
  page = pdf_reader.pages[p]
  pdf_text.append(page.extract_text())
f.close()

# Lista del texto de cada página
# El índice corresponderá al número de página
  # El cero es un identificador que significa que la página 1 = index 1


In [None]:
texto_pdf = pdf_text[0]

In [None]:
lista_texto=texto_pdf.split()

In [None]:
set(lista_texto)

{'\x14Such',
 '\x14That',
 '1776.',
 '4,',
 'America,',
 'Assent',
 'But',
 'CONGRESS,',
 'Colonies;',
 'Course',
 'Creator',
 'Declaration',
 'Despotism,',
 'Facts',
 'Form',
 'God',
 'Government',
 'Government,',
 'Government.',
 'Governments',
 'Governors',
 'GreatBritain',
 'Guards',
 'Happiness.',
 'Happiness.—',
 'He',
 'IN',
 'Independence',
 'July',
 'King',
 'Laws',
 'Laws,',
 'Liberty',
 'Life,',
 'Men,',
 'Nature',
 "Nature's",
 'Object',
 'People',
 'Prudence,indeed,',
 'Records,',
 'Representation',
 'Right',
 'Rights,',
 'Safety',
 'States',
 'States.',
 'Systems',
 'The',
 'To',
 'Tyranny',
 'We',
 'When',
 'a',
 'abolish',
 'abolishing',
 'absolute',
 'abuses',
 'accommodation',
 'accordingly',
 'accustomed.',
 'all',
 'alter',
 'among',
 'an',
 'and',
 'andtransient',
 'another,',
 'any',
 'are',
 'as',
 'assume',
 'at',
 'attend',
 'bands',
 'be',
 'becomes',
 'been',
 'bodies',
 'by',
 'bytheir',
 'called',
 'candid',
 'causes;',
 'causeswhich',
 'certain',
 'changed

In [None]:
## Trabjando con JSON

In [None]:
import pandas as pd

In [None]:
df = pd.read_json('data.json', orient='split')

In [None]:
df


Unnamed: 0,_id,categories,isActive,imageUrl,barcode,isFmcg,itemName,mrp,_created_at,_updated_at
0,OzE5vaa3p7,"[{'__type': 'Pointer', 'className': 'Category'...",True,https://firebasestorage.googleapis.com/v0/b/sh...,8908001921015,True,Anil puttu flour 500g,58,2016-10-02 13:49:03.281000+00:00,2017-02-22 08:48:09.548000+00:00
1,ENPCL8ph1p,"[{'__type': 'Pointer', 'className': 'Category'...",True,https://firebasestorage.googleapis.com/v0/b/ki...,8901725181222,True,"Yippee Magic Masala Noodles, 70 G",12,2016-10-02 13:49:03.284000+00:00,2017-02-22 08:48:09.074000+00:00
