## Hoy Aprenderan a como sacar info de tablas de Archivos PDF

1. Usé la Librería pdfplumber para leer los datos del PDF y poder identificar las tablas.
2. También utilicé pandas para manipular los datos y poder exportarlo según las tablas que quería trabajar..

In [15]:
import pdfplumber
import pandas as pd

tablas = pdfplumber.open("../Limpieza_Accidentes_Transito/pdf/RED VIAL DEPARTAMENTAL.pdf")

### Cómo acceder a una tabla en un DataFrame a partir de un índice

Para acceder a una tabla específica dentro de un conjunto de datos, necesitamos seleccionar el índice correspondiente. En este caso, queremos trabajar con la tabla ubicada en el índice 2. Sin embargo, como en programación los índices comienzan desde `0`, usamos `[2]` para acceder a la **segunda tabla**.

#### **Ejemplo:**

```python
tabla_seleccionada = tablas[0]  # Accedemos a la primera tabla

In [16]:
df = pd.DataFrame(tablas.pages[1].extract_table())
df

Unnamed: 0,0,1,2,3,4,5
0,,,,LONGITUD (KMS),,
1,,CODIGO,,,,
2,ID,,TRAYECTORIA,P.,N.P.,TOTAL
3,,(Mapa),,,,
4,,,,,,
5,1,AM-100,Emp. AM-101 (Bagua) - El Parco - La Peca.,0.0,14.3,14.3
6,2,AM-101,Emp. PE-5N C (El Milagro) - Bagua - Santa Fé -...,6.4,19.6,26.0
7,3,AM-102,Emp. PE-5N (Puerto Naranjitos) - Pte.Utcubamba...,0.0,41.0,41.0
8,4,AM-103,Emp. PE-5N (Corral Quemado) - Cumba - Tactago ...,0.7,133.2,133.9
9,5,AM-104,Emp. AM-103 (Dv. El Triunfo) - Emp. AM-103 (Ca...,0.0,11.4,11.4


### Cómo contar cuántas tablas hay en un PDF usando bucles

Cuando trabajamos con un PDF que contiene tablas, es importante saber cuántas de ellas existen. Para lograrlo, usaremos un **bucle `for`** para iterar sobre las tablas extraídas del PDF. 

#### **Pasos para contar las tablas:**

1. **Iterar sobre las tablas con `for`:**
   - Recorremos la lista de tablas para contarlas o procesarlas según sea necesario.

2. **Obtener el número total de tablas:**
   - Contamos la cantidad de iteraciones para saber cuántas tablas hay.

In [17]:
# Usamos el for de la forma más sencilla.

for i, tabla in enumerate(tablas.pages[1:]):
    print(f"Tabla {i+1}")  

Tabla 1
Tabla 2
Tabla 3
Tabla 4
Tabla 5
Tabla 6
Tabla 7
Tabla 8
Tabla 9
Tabla 10
Tabla 11
Tabla 12
Tabla 13
Tabla 14
Tabla 15
Tabla 16
Tabla 17
Tabla 18
Tabla 19
Tabla 20
Tabla 21
Tabla 22
Tabla 23
Tabla 24
Tabla 25
Tabla 26
Tabla 27
Tabla 28
Tabla 29


### Cómo convertir tablas de un PDF a un DataFrame y manipular los datos con pandas

Ahora que sabemos cómo iterar sobre todas las tablas extraídas de un PDF, podemos usar **pandas** para convertir cada tabla en un **DataFrame** y manipular los datos fácilmente. Además, podemos convertir los datos en un **diccionario** para un manejo más estructurado.

#### **Pasos:**
1. Iteramos sobre las tablas extraídas.
2. Convertimos cada tabla en un **DataFrame** con pandas.
3. Manipulamos los datos según sea necesario.
4. (Opcional) Guardamos las tablas en un diccionario para acceder a ellas fácilmente.

In [18]:
for i, tabla in enumerate(tablas.pages[1:]):
    df = pd.DataFrame(tabla.extract_table())
    print(f"tabla {i+1}")
    print(df)

tabla 1
       0       1                                                  2  \
0   None    None                                               None   
1         CODIGO                                                      
2     ID    None                                        TRAYECTORIA   
3   None  (Mapa)                                               None   
4           None                                                      
5      1  AM-100          Emp. AM-101 (Bagua) - El Parco - La Peca.   
6      2  AM-101  Emp. PE-5N C (El Milagro) - Bagua - Santa Fé -...   
7      3  AM-102  Emp. PE-5N (Puerto Naranjitos) - Pte.Utcubamba...   
8      4  AM-103  Emp. PE-5N (Corral Quemado) - Cumba - Tactago ...   
9      5  AM-104  Emp. AM-103 (Dv. El Triunfo) - Emp. AM-103 (Ca...   
10     6  AM-105  Emp. PE-5N (Dv. San Martín de Porras) - San Ma...   
11     7  AM-106  Emp. PE-5N (Balzapata) - Jumbilla - Dv. Recta ...   
12     8  AM-107  Emp. PE-08 B (Dv. Balzas) - Huanabamba - L.D. ...  

### Cómo obtener los nombres de las columnas en un DataFrame

Cuando trabajamos con tablas convertidas a **DataFrames** en pandas, podemos acceder a los nombres de las columnas usando el atributo **`columns.values`**. Esto nos devuelve los nombres o identificadores de las columnas. Si no hay encabezados definidos en la tabla original, pandas asignará números enteros (0, 1, 2, ...) como nombres de las columnas de forma predeterminada.

In [19]:
df.columns.values

array([0, 1, 2, 3, 4, 5], dtype=int64)

### Trabajando con una tabla específica: Tabla 3

Si tienes varias tablas extraídas de un PDF y necesitas trabajar con una en particular (por ejemplo, la **Tabla 3**), puedes seleccionarla usando su índice en la lista de tablas. En pandas, los índices comienzan desde `0`, por lo que la Tabla 3 corresponde al índice `2`.

In [20]:
df = pd.DataFrame(tablas.pages[2].extract_table())
df

Unnamed: 0,0,1,2,3,4,5
0,,,,LONGITUD (KMS),,
1,,CODIGO,,,,
2,ID,,TRAYECTORIA,P.,N.P.,TOTAL
3,,(Mapa),,,,
4,,,,,,
5,14,AN-100,Emp. PE-3N (Dv. Estación Quiroz) - Galgada - E...,50.3,2.0,52.3
6,15,AN-101,Emp. PE-3N (Huacaschuque) - Lacabamba - Conchu...,33.2,73.8,107.0
7,16,AN-103,Emp. PE-1N Q (Dv. Lacramarca) - La Aguada - La...,3.8,169.7,173.6
8,17,AN-104,Emp. PE-1N (Dv. Moro) - Dv. Nepeña - San Jacin...,143.8,0.0,143.8
9,18,AN-105,Emp. PE-12 A - Pasacancha - Andaymayo - Palose...,3.9,221.2,225.0


### Trabajar solo con 3 columnas en un DataFrame

Si necesitas trabajar únicamente con 3 columnas específicas en un DataFrame (que no tiene encabezados), puedes seleccionarlas utilizando sus índices.


In [21]:
df = df[[0, 1, 2]]
df

Unnamed: 0,0,1,2
0,,,
1,,CODIGO,
2,ID,,TRAYECTORIA
3,,(Mapa),
4,,,
5,14,AN-100,Emp. PE-3N (Dv. Estación Quiroz) - Galgada - E...
6,15,AN-101,Emp. PE-3N (Huacaschuque) - Lacabamba - Conchu...
7,16,AN-103,Emp. PE-1N Q (Dv. Lacramarca) - La Aguada - La...
8,17,AN-104,Emp. PE-1N (Dv. Moro) - Dv. Nepeña - San Jacin...
9,18,AN-105,Emp. PE-12 A - Pasacancha - Andaymayo - Palose...


### Eliminar filas hasta el índice 5 en un DataFrame

Si necesitas trabajar únicamente con la data que comienza a partir de la fila 5 en un DataFrame, puedes eliminar las filas desde el índice `0` hasta el `5` utilizando el método **`drop`**. Recuerda que en Python el rango especificado con **`range`** incluye el inicio, pero excluye el final, por lo que para eliminar hasta la fila 5, el rango debe ser `range(0, 5)`.

In [22]:
df = df.drop(index=range(0, 5))
df


Unnamed: 0,0,1,2
5,14.0,AN-100,Emp. PE-3N (Dv. Estación Quiroz) - Galgada - E...
6,15.0,AN-101,Emp. PE-3N (Huacaschuque) - Lacabamba - Conchu...
7,16.0,AN-103,Emp. PE-1N Q (Dv. Lacramarca) - La Aguada - La...
8,17.0,AN-104,Emp. PE-1N (Dv. Moro) - Dv. Nepeña - San Jacin...
9,18.0,AN-105,Emp. PE-12 A - Pasacancha - Andaymayo - Palose...
10,19.0,AN-106,Emp. PE-3N (Yungay) - Shillcop - Llanganuco - ...
11,20.0,AN-107,Emp. PE-3N (Carhuaz) - Pte. Pucarami - Shilla ...
12,21.0,AN-108,Emp. PE-14 A (Dv. Llamellin) - Yaracyacu - Acz...
13,22.0,AN-109,Emp. PE-1N (Huarmey) - Huamba - Huayup - Pte. ...
14,23.0,AN-110,Emp. PE-3N (Catac) - Buenos Aires - Tambillos ...


# Nota: Definición de Nombres de Columnas

Anteriormente, los nombres de las columnas estaban representados por números. Ahora procederemos a asignar nombres descriptivos y significativos a las columnas para mejorar la legibilidad y facilitar el manejo de los datos.

Por ejemplo:

- **Antes**:
  - Columna 1: Representada como `1`
  - Columna 2: Representada como `2`
  - Columna 3: Representada como `3`

- **Después**:
  - Columna 1: `Nombre1`
  - Columna 2: `Nombre2`
  - Columna 3: `Nombre3`

Esto mejora la claridad y hace que los datos sean más fáciles de entender y manipular.


In [23]:
df.columns = ["ID", "CÓDIGO", "TRAYECTORIA"]
df

Unnamed: 0,ID,CÓDIGO,TRAYECTORIA
5,14.0,AN-100,Emp. PE-3N (Dv. Estación Quiroz) - Galgada - E...
6,15.0,AN-101,Emp. PE-3N (Huacaschuque) - Lacabamba - Conchu...
7,16.0,AN-103,Emp. PE-1N Q (Dv. Lacramarca) - La Aguada - La...
8,17.0,AN-104,Emp. PE-1N (Dv. Moro) - Dv. Nepeña - San Jacin...
9,18.0,AN-105,Emp. PE-12 A - Pasacancha - Andaymayo - Palose...
10,19.0,AN-106,Emp. PE-3N (Yungay) - Shillcop - Llanganuco - ...
11,20.0,AN-107,Emp. PE-3N (Carhuaz) - Pte. Pucarami - Shilla ...
12,21.0,AN-108,Emp. PE-14 A (Dv. Llamellin) - Yaracyacu - Acz...
13,22.0,AN-109,Emp. PE-1N (Huarmey) - Huamba - Huayup - Pte. ...
14,23.0,AN-110,Emp. PE-3N (Catac) - Buenos Aires - Tambillos ...


### Nota: Eliminación de Filas Vacías

Aquí eliminamos las filas que no tienen datos, es decir, aquellas que están completamente vacías o contienen valores nulos (`NaN`). Esto nos ayuda a limpiar el conjunto de datos y asegurarnos de trabajar únicamente con información relevante.


In [24]:
df.dropna(inplace=True)
df

Unnamed: 0,ID,CÓDIGO,TRAYECTORIA
5,14,AN-100,Emp. PE-3N (Dv. Estación Quiroz) - Galgada - E...
6,15,AN-101,Emp. PE-3N (Huacaschuque) - Lacabamba - Conchu...
7,16,AN-103,Emp. PE-1N Q (Dv. Lacramarca) - La Aguada - La...
8,17,AN-104,Emp. PE-1N (Dv. Moro) - Dv. Nepeña - San Jacin...
9,18,AN-105,Emp. PE-12 A - Pasacancha - Andaymayo - Palose...
10,19,AN-106,Emp. PE-3N (Yungay) - Shillcop - Llanganuco - ...
11,20,AN-107,Emp. PE-3N (Carhuaz) - Pte. Pucarami - Shilla ...
12,21,AN-108,Emp. PE-14 A (Dv. Llamellin) - Yaracyacu - Acz...
13,22,AN-109,Emp. PE-1N (Huarmey) - Huamba - Huayup - Pte. ...
14,23,AN-110,Emp. PE-3N (Catac) - Buenos Aires - Tambillos ...


### Nota: Integración de Pasos en un Bucle

Aquí integramos los pasos anteriores dentro de un bucle `for` para aplicarlos a todas las tablas de un conjunto de datos. Al finalizar, exportamos los resultados procesados en un archivo `.xlsx`, lo que nos permitirá trabajar con ellos de manera más organizada.

Este enfoque es útil para procesar múltiples tablas automáticamente y consolidar los datos limpios en un único archivo Excel.


In [25]:
tablas_procesadas = []
for i, tabla in enumerate(tablas.pages[1:]):
    # Extraer tabla como lista de listas
    data = tabla.extract_table()
    
    if data:  # Asegurarse de que la tabla no esté vacía
        df = pd.DataFrame(data)
        
        # Verificar si hay al menos 3 columnas
        if df.shape[1] >= 3:
            df = df.iloc[:, [0, 1, 2]]  # Seleccionar solo las primeras 3 columnas
            
            # Verificar si hay al menos 5 filas antes de eliminar
            if df.shape[0] > 5:
                df.drop(index=range(0, 5), inplace=True)  # Eliminar las filas 0 a 4
                
                # Asignar nombres a las columnas
                df.columns = ["ID", "CÓDIGO", "TRAYECTORIA"]
                
                # Eliminar filas completamente vacías
                df.dropna(inplace=True)
                
                # Agregar tabla procesada a la lista
                tablas_procesadas.append(df)
                
                # Imprimir resultados
                print(f"Tabla {i+1} procesada:")
                print(df)
            else:
                print(f"Tabla {i+1} omitida: Menos de 6 filas después de extracción.")
        else:
            print(f"Tabla {i+1} omitida: Menos de 3 columnas.")
    else:
        print(f"Tabla {i+1} omitida: No se pudo extraer.")

# Combinar todas las tablas en un único DataFrame
if len(tablas_procesadas) > 0:
    df_final = pd.concat(tablas_procesadas, ignore_index=True)

    # Exportar todas las tablas combinadas a un archivo Excel
    output_file = "../Limpieza_Accidentes_Transito/excel/RED_VIAL_DEPARTAMENTAL_LIMPIO.xlsx"
    df_final.to_excel(output_file, index=False, engine='openpyxl')

    print(f"Archivo exportado exitosamente: {output_file}")
else:
    print("No se encontraron tablas válidas en el PDF.")


Tabla 1 procesada:
    ID  CÓDIGO                                        TRAYECTORIA
5    1  AM-100          Emp. AM-101 (Bagua) - El Parco - La Peca.
6    2  AM-101  Emp. PE-5N C (El Milagro) - Bagua - Santa Fé -...
7    3  AM-102  Emp. PE-5N (Puerto Naranjitos) - Pte.Utcubamba...
8    4  AM-103  Emp. PE-5N (Corral Quemado) - Cumba - Tactago ...
9    5  AM-104  Emp. AM-103 (Dv. El Triunfo) - Emp. AM-103 (Ca...
10   6  AM-105  Emp. PE-5N (Dv. San Martín de Porras) - San Ma...
11   7  AM-106  Emp. PE-5N (Balzapata) - Jumbilla - Dv. Recta ...
12   8  AM-107  Emp. PE-08 B (Dv. Balzas) - Huanabamba - L.D. ...
13   9  AM-108  Emp. PE-08 C - Paclas - Olto - Lamud - Luya - ...
14  10  AM-109           Emp. PE-08 B (Chachapoyas) - Aeropuerto.
15  11  AM-110  Emp. PE-08 B (Chachapoyas) - Levanto - Maino -...
16  12  AM-111  Emp. PE-08 B - Tingo - Longuita - María - Kuelap.
17  13  AM-112  Emp. L1-107 (San Vicente de Paúl) — Dv. Pusac ...
Tabla 2 procesada:
    ID  CÓDIGO                        

Tabla 5 procesada:
    ID  CÓDIGO                                        TRAYECTORIA
5   65  AY-100  Emp. PE-3S (Huanta) - Luricocha - Pte. Tarahua...
6   66  AY-101  Emp. PE-28 B (L.D. Cusco en San Francisco) - S...
7   67  AY-102  Emp. PE-28 B (Tambo) - San Miguel - Retama - N...
8   68  AY-103  Emp. AY-100 (Sivia) — Llochegua — Mayapo — Can...
9   69  AY-104  Emp. PE-32 A (Dv. Acomayopata) - Acomayopata -...
10  70  AY-105  Emp. AY-104 (Dv. Saurama) - Saurama - L.D. Apu...
11  71  AY-106  Emp. PE-32 A (Querobamba) - Huamaní Pata - Dv....
12  72  AY-107  Emp. PE-28 A (Dv. Occo) - Occo - Anjolla - Par...
13  73  AY-108  Emp. AY-107 (Catalinayocc) - Quimsa Cruz - Chu...
14  74  AY-110  Emp.PE-32A(Huancapi)-Huancaraylla-Circamarca -...
15  75  AY-111  Emp. AY-110 (Pucará) - Laramate - Ocaña - Moli...
16  76  AY-112  Emp. AY-111 (Ocaña) - Tiracanche - Sonconche -...
17  77  AY-113  Emp. PE-30 D (Camata) - Sayhua - Huac Huas - P...
18  78  AY-114  Emp.AY-110(Huanca Sancos)-Sacsamarca-Pamp