# Instalación e importación de librerías y módulos

https://www.youtube.com/watch?v=w2r2Bg42UPY&ab_channel=NeuralNine

## 1. Instalamos pdfminer.six

Abrimos terminal y ponemos: 
- PDF extracción en general: pip install pdfminer.six
- Para extraer imagenes:  
      - pip install PyMuPDF  
      - pip install pillow  
- Para extraer tablas: pip install tabula-py

## 2. Librerías (bibliotecas) y módulos

### - Texto

Este módulo lo utilizaremos para encontrar patrones en los strings o cadenas de texto.

In [2]:
import re

In [3]:
from pdfminer.high_level import extract_pages, extract_text

### - Imágenes 

**fitz (PyMuPDF):**  


*fitz* es una biblioteca de Python que se utiliza para trabajar con documentos PDF. Es parte de la suite de software PyMuPDF, que permite leer, modificar y extraer información de archivos PDF.  
Se utiliza para tareas como la extracción de texto e imágenes de PDF, la manipulación de anotaciones, la conversión de PDF a otros formatos y más.  
En tu código, la biblioteca fitz se importa para realizar tareas relacionadas con PDF, como la extracción de imágenes o texto de un PDF.  


**PIL.Image (Pillow):**  


*PIL* (Python Imaging Library) es una biblioteca de Python para procesamiento de imágenes. En realidad, es una bifurcación de PIL llamada Pillow que se utiliza ampliamente en Python para tareas relacionadas con imágenes.  
Pillow proporciona una amplia gama de funciones para abrir, manipular, crear y guardar imágenes en varios formatos.  
En tu código, la biblioteca PIL.Image se importa, lo que sugiere que es probable que se estén realizando operaciones relacionadas con imágenes, posiblemente para procesar imágenes extraídas de un documento PDF.  


**io (input/output):**  


*io* es un módulo en Python que proporciona clases para manejar la entrada y salida de datos, incluyendo operaciones de lectura y escritura en memoria, archivos y otros objetos de flujo.  
En tu código, io podría estar siendo utilizado para trabajar con datos binarios, especialmente para manipular datos que se encuentran en memoria, como bytes de una imagen extraída de un PDF.

In [10]:
import fitz #PyMuPDF
import PIL.Image #pillow
import io

### - Tablas

In [13]:
import tabula
import pandas as pd

# Extracción

Para ver que tipo de elementos se encuentran en el pdf podemos aplicar el siguiente bucle:

In [4]:
for page_layout in extract_pages('biodata.pdf'):
    for element in page_layout:
        print(element)

<LTTextBoxHorizontal(0) 93.968,613.304,141.326,631.304 'oPEN\n'>
<LTTextBoxHorizontal(1) 15.854,577.454,141.075,591.454 'Data DEScriPtor\n'>
<LTTextBoxHorizontal(2) 155.638,544.734,544.819,630.742 'a biomechanics dataset of healthy \nhuman walking at various speeds, \nstep lengths and step widths\n'>
<LTTextBoxHorizontal(3) 155.638,526.566,234.308,536.566 'tim J. van der Zee \n'>
<LTTextBoxHorizontal(4) 241.498,526.566,431.746,538.456 ' 1,2\u2009✉, Emily M. Mundinger2 & arthur D. Kuo1,2\n'>
<LTTextBoxHorizontal(5) 155.638,392.815,549.868,511.805 'the biomechanics of human walking are well documented for standard conditions such as for self-\nselected step length and preferred speed. However, humans can and do walk with a variety of other \nstep lengths and speeds during daily living. the variation of biomechanics across gait conditions \nmay be important for describing and determining the mechanics of locomotion. to address this, we \npresent an open biomechanics dataset of steady walk

KeyboardInterrupt: 

## Extracción de texto:

No hace falta ir página por página del pdf se puede extraer el texto entero de vez:

In [5]:
text = extract_text('biodata.pdf')

In [6]:
print(text)

oPEN

Data DEScriPtor

a biomechanics dataset of healthy 
human walking at various speeds, 
step lengths and step widths

tim J. van der Zee 

 1,2 ✉, Emily M. Mundinger2 & arthur D. Kuo1,2

the biomechanics of human walking are well documented for standard conditions such as for self-
selected step length and preferred speed. However, humans can and do walk with a variety of other 
step lengths and speeds during daily living. the variation of biomechanics across gait conditions 
may be important for describing and determining the mechanics of locomotion. to address this, we 
present an open biomechanics dataset of steady walking at a broad range of conditions, including 33 
experimentally-controlled combinations of speed (0.7–2.0 m·s−1), step length (0.5–1.1 m), and step 
width (0–0.4 m). The dataset contains ground reaction forces and motions from healthy young adults 
(N = 10), collected using split-belt instrumented treadmill and motion capture systems respectively. 
Most trials al

Por ejemplo, si queremos extraer palabras que siguen un patrón, en este caso aquellas palabras que tienen una coma y un espacio detrás, se podría hacer lo siguiente:

In [7]:
pattern = re.compile(r'[a-zA-Z]+,{1}\s{1}')
matches = pattern.findall(text)
print(matches)

['speeds, ', 'However, ', 'this, ', 'conditions, ', 'dynamics, ', 'positions, ', 'angles, ', 'powers, ', 'data, ', 'trial, ', 'environment, ', 'living, ', 'conditions, ', 'stones, ', 'Furthermore, ', 'occur, ', 'walking, ', 'positions, ', 'forces, ', 'angles, ', 'powers, ', 'years, ', 'kg, ', 'm, ', 'experiment, ', 'Michigan, ', 's, ', 'f, ', 'calgary, ', 'Program, ', 'calgary, ', 'calgary, ', 'Kinesiology, ', 'calgary, ', 'data, ', 'f, ', 's, ', 'f, ', 'cue, ', 'walking, ', 'imperfectly, ', 'lengths, ', 'frequencies, ', 'reference, ', 'Next, ', 'trials, ', 'Next, ', 'trials, ', 'trials, ', 'session, ', 'Bertec, ', 'Columbus, ', 'OH, ', 'Corporation, ', 'Rosa, ', 'CA, ', 'metatarsus, ', 'calcaneus, ', 'malleoli, ', 'epicondyles, ', 'trochanter, ', 'spin, ', 'sacrum, ', 'acromion, ', 'epicondyle, ', 'format, ', 'D, ', 'Motion, ', 'Germantown, ', 'MD, ', 'locations, ', 'respectively, ', 'Ankle, ', 'knee, ', 'malleoli, ', 'epicondyles, ', 'ground, ', 'variables, ', 'positions, ', 'forces,

Ahora quiero extraer los textos que se encuentran entre parentesis y la palabra anterior al paréntesis. En esta expresión regular:

- '(\w+)' captura una o más letras (palabra anterior al paréntesis) y la almacena en el primer grupo de captura.  
- '\s*' coincide con cero o más espacios en blanco.  
- '\ (' coincide con el paréntesis de apertura literal "(".  
- '(.*?)' captura cualquier texto dentro de los paréntesis y lo almacena en el segundo grupo de captura.  
- '\ )' coincide con el paréntesis de cierre literal ")".  
Luego, el bucle for itera a través de las coincidencias y extrae la palabra antes del paréntesis y el texto dentro del paréntesis, imprimiéndolos en cada iteración.

In [9]:
pattern = re.compile(r'(\w+)\s*\((.*?)\)')
matches = pattern.findall(text)
for match in matches:
    word_before_parenthesis = match[0]
    text_inside_parenthesis = match[1]
    print(f"Palabra anterior al paréntesis: {word_before_parenthesis}")
    print(f"Texto dentro del paréntesis: {text_inside_parenthesis}")

Palabra anterior al paréntesis: speed
Texto dentro del paréntesis: 0.7–2.0 m·s−1
Palabra anterior al paréntesis: length
Texto dentro del paréntesis: 0.5–1.1 m
Palabra anterior al paréntesis: width
Texto dentro del paréntesis: 0–0.4 m
Palabra anterior al paréntesis: adults
Texto dentro del paréntesis: N = 10
Palabra anterior al paréntesis: speed
Texto dentro del paréntesis: 0.7–2.0 m·s−1
Palabra anterior al paréntesis: length
Texto dentro del paréntesis: 0.5–1.1 m
Palabra anterior al paréntesis: width
Texto dentro del paréntesis: 0–0.4 m
Palabra anterior al paréntesis: adults
Texto dentro del paréntesis: N = 10, age = 23.5 ± 2.5
Palabra anterior al paréntesis: respectively
Texto dentro del paréntesis: for 60 s per trial
Palabra anterior al paréntesis: constraints
Texto dentro del paréntesis: see Table 2
Palabra anterior al paréntesis: varied
Texto dentro del paréntesis: “Variable”
Palabra anterior al paréntesis: fixed
Texto dentro del paréntesis: “Fixed”
Palabra anterior al paréntesis: 

## Extracción de imágenes:

Creamos el objeto llamado "pdf" para poder manipularlo con facilidad:

In [11]:
pdf = fitz.open('biodata.pdf')
counter = 1
# en cada pagina del pdf (len (pdf) cuenta el numero total de pags, es decir, la largura del pdf)
for i in range (len(pdf)):
    page = pdf[i] # Iteramos sobre cada pagina del pdf
    images = page.get_images()
    for image in images:
        base_img = pdf.extract_image(image[0])
        image_data = base_img['image']
        img = PIL.Image.open(io.BytesIO(image_data))
        extension = base_img["ext"]
        img.save(open(f"image{counter}.{extension}", "wb"))
        counter += 1

## Extracción de tablas:

In [15]:
tables = tabula.read_pdf('biodata.pdf', pages='all')
print(tables)

[  Unnamed: 0      Age Body\rmass  Height Leg\rlength Foot\rwidth  \
0         p1  25 yrs.    81.8 kg  1.73 m      0.89 m      0.13 m   
1         p2  21 yrs.    57.3 kg  1.64 m      0.94 m      0.09 m   
2         p3  23 yrs.    97.5 kg  1.90 m      1.04 m      0.11 m   
3         p4  21 yrs.    57.0 kg  1.73 m      0.88 m      0.10 m   
4         p5  21 yrs.    56.7 kg  1.63 m      0.86 m      0.09 m   
5         p6  24 yrs.    72.6 kg  1.83 m      0.94 m      0.10 m   
6         p7  28 yrs.    86.2 kg  1.89 m      0.99 m      0.10 m   
7         p8  27 yrs.    88.6 kg  1.85 m      0.99 m      0.10 m   
8         p9  22 yrs.    77.0 kg  1.78 m      0.94 m      0.10 m   
9        p10  23 yrs.    60.3 kg  1.60 m      0.86 m      0.10 m   

  Pref. step\rlength s* Pref. step\rfreq. f*  # Raw\rfiles  #5strides\rfiles  
0                0.71 m              1.77 Hz            33                28  
1                0.60 m              2.07 Hz            33                28  
2            

In [16]:
# Podemos ver que las tablas tienen formato df (por eso hemos importado pandas)
print(type(tables[0]))

<class 'pandas.core.frame.DataFrame'>


In [17]:
# Así que como las tablas son df podemos tratarlas como tal:
df = tables[0] #Guardamos en memoria la primera tabla
df

Unnamed: 0.1,Unnamed: 0,Age,Body\rmass,Height,Leg\rlength,Foot\rwidth,Pref. step\rlength s*,Pref. step\rfreq. f*,# Raw\rfiles,#5strides\rfiles
0,p1,25 yrs.,81.8 kg,1.73 m,0.89 m,0.13 m,0.71 m,1.77 Hz,33,28
1,p2,21 yrs.,57.3 kg,1.64 m,0.94 m,0.09 m,0.60 m,2.07 Hz,33,28
2,p3,23 yrs.,97.5 kg,1.90 m,1.04 m,0.11 m,0.71 m,1.77 Hz,33,27
3,p4,21 yrs.,57.0 kg,1.73 m,0.88 m,0.10 m,0.68 m,1.83 Hz,33,27
4,p5,21 yrs.,56.7 kg,1.63 m,0.86 m,0.09 m,0.65 m,1.93 Hz,33,28
5,p6,24 yrs.,72.6 kg,1.83 m,0.94 m,0.10 m,0.74 m,1.70 Hz,33,26
6,p7,28 yrs.,86.2 kg,1.89 m,0.99 m,0.10 m,0.74 m,1.70 Hz,32,27
7,p8,27 yrs.,88.6 kg,1.85 m,0.99 m,0.10 m,0.74 m,1.70 Hz,33,28
8,p9,22 yrs.,77.0 kg,1.78 m,0.94 m,0.10 m,0.68 m,1.83 Hz,33,27
9,p10,23 yrs.,60.3 kg,1.60 m,0.86 m,0.10 m,0.65 m,1.93 Hz,33,0
