# Pasos a seguir

## Pasos para realizar el reto de extracción de información de facturas eléctricas

**1. Recopilación de recursos:**

* Asegúrate de tener instalado Python en tu ordenador.
* Descarga el dataset de entrenamiento que contiene las facturas PDF y sus correspondientes archivos JSON.
* Investiga y selecciona las librerías de Python adecuadas para:
    * Extraer texto de archivos PDF: Considera librerías como `PyPDF2`, `Poppler` o `pdfminer.six`.
    * Procesamiento de texto: Librerías como `re`, `string` o `nltk` pueden ser útiles para la limpieza y manipulación del texto extraído.
    * Aprendizaje automático: Si decides utilizar un modelo de aprendizaje automático para la extracción de información, necesitarás librerías como `scikit-learn` o `TensorFlow`.

**2. Preprocesamiento de datos:**

* Lee los archivos PDF y JSON del dataset de entrenamiento.
* Limpia el texto extraído de los PDF, eliminando caracteres irrelevantes, convirtiendo todo a minúsculas y manejando correctamente los caracteres con tilde.
* Estructura los datos de manera que se facilite su procesamiento, por ejemplo, creando un diccionario para cada factura que contenga los campos extraídos del PDF y su correspondiente valor del archivo JSON.

**3. Exploración y análisis de datos:**

* Analiza la estructura y el contenido de las facturas PDF y los archivos JSON para identificar patrones y características comunes.
* Identifica posibles variaciones en el formato y la disposición de la información dentro de las facturas.
* Segmenta los datos en diferentes grupos según sus características, por ejemplo, por tipo de comercializadora o formato de factura.

**4. Definición de la estrategia de extracción:**

* Decide si utilizar un enfoque basado en reglas o un modelo de aprendizaje automático para la extracción de información.
* **Enfoque basado en reglas:**
    * Define reglas manuales para identificar y extraer cada campo de información en base a su ubicación, formato y características dentro del PDF.
    * Considera el uso de expresiones regulares o técnicas de procesamiento del lenguaje natural para la extracción precisa de la información.
* **Enfoque basado en aprendizaje automático:**
    * Elige un algoritmo de aprendizaje automático adecuado para la tarea de extracción de información, como clasificación o aprendizaje supervisado.
    * Entrena el modelo utilizando los datos preprocesados del dataset de entrenamiento.
    * Evalúa el rendimiento del modelo en un conjunto de datos de validación para asegurar su generalización a nuevas facturas.

**5. Implementación de la solución:**

* Implementa el algoritmo de extracción de información, ya sea basado en reglas o en aprendizaje automático.
* Desarrolla la lógica para procesar cada factura PDF, extraer la información relevante y almacenarla en un formato estructurado.
* Maneja posibles casos de error o situaciones donde la información no se encuentre en el formato esperado.

**6. Evaluación y mejora:**

* Evalúa el rendimiento de la solución utilizando el script proporcionado para obtener el score de Levenshtein.
* Analiza los resultados obtenidos para identificar áreas de mejora y posibles errores en la extracción de información.
* Refina la estrategia de extracción, las reglas o el modelo de aprendizaje automático en base a los resultados de la evaluación.
* Repite el proceso de evaluación y mejora hasta obtener un score satisfactorio.

**7. Consideraciones adicionales:**

* Es importante tener en cuenta la diversidad de formatos y estructuras de las facturas para garantizar la generalización del método de extracción.
* La utilización de técnicas de procesamiento del lenguaje natural puede ser útil para mejorar la precisión de la extracción, especialmente en casos de ambigüedad o falta de información.
* Es recomendable implementar mecanismos para manejar errores y casos excepcionales, como la ausencia de campos o formatos de datos inesperados.
* La documentación del código y la estrategia de extracción es fundamental para facilitar su comprensión y mantenimiento.

Recuerda que este es un reto complejo que requiere habilidades en programación, procesamiento de texto, aprendizaje automático y análisis de datos. Es importante dedicar tiempo a la comprensión del problema, la exploración de los datos y la experimentación con diferentes enfoques para encontrar la solución más adecuada.


# Librerías

Para realizar la limpieza del texto extraído de los PDFs, te recomiendo utilizar las siguientes librerías de Python:

**re:** Módulo para expresiones regulares, que te permitirá identificar y eliminar patrones de caracteres irrelevantes.

**string:** Módulo que contiene funciones útiles para el manejo de cadenas de texto, como la conversión a minúsculas.

**unicodedata:** Módulo que proporciona funciones para trabajar con caracteres Unicode, incluyendo la normalización de caracteres con tilde.

In [1]:
import pandas as pd
import numpy as np

# Leer pdf
import PyPDF2
#import pdfplumber
import fitz  # PyMuPDF
#from pdfminer.high_level import extract_text
import PyPDF4
import slate3k as slate

# Procesamiento texto
import re
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import unicodedata

# Guardar archivos
import pickle

# Base de datos sql
import mysql.connector

# Buscar provincia a través de código postal
import pgeocode

# Datos a extraer:

- Nombre del cliente (nombre_cliente) **HECHO**
- DNI del cliente (dni_cliente) **HECHO**
- Calle del clilente (calle_cliente) **HECHO**
- Código postal del cliente (cp_cliente) **HECHO**
- Población del cliente (población_cliente) **HECHO**
- Provincia del cliente (provincia_cliente) **HECHO**
- Nombre de la empresa comercializadora (nombre_comercializadora)
- CIF de la comercializadora (cif_comercializadora) **HECHO MENOS FACTURA 631**
- Dirección de la comercializadora (dirección_comercializadora)
- Código postal de la comercializadora (cp_comercializadora)
- Población de la comercializadora (población_comercializadora)
- Provincia de la comercializadora (provincia_comercializadora)
- Número de factura (nümero_factura)
- Inicio del periodo de facturación (inicio_periodo)
- Fin del periodo de facturacón (fin_periodo)
- Importe de la factura (importe_factura)
- Fecha del cargo (fecha_cargo)
- Consumo en el periodo (consumo_periodo)
- Potencia contratada (potencia_contratada)

### Leer los archivos

In [None]:
# Abre el archivo PDF en modo lectura binaria
invoices = {}
errors = {}
count = 0

for i in range(1000):
    try:
        with open(f'./training/factura_{i}.pdf', 'rb') as file:
            print(f'./training/factura_{i}.pdf')
            reader = PyPDF2.PdfReader(file)
            # Obtén el número de páginas
            num_pages = len(reader.pages)
            content = {}
            for page_num in range(num_pages):
                page = reader.pages[page_num]
                text = page.extract_text()
                content[page_num] = text
            invoices[i] = content
    except:
        print("Error al leer la factura")
        errors[count] = f"factura_{i}"
        count += 1
    print(f"{i}")

In [None]:
# Función para leer una factura:
name = "nombre archivo sin extension"

def ft_readinvoice(name):
    invoices = {}
    errors = {}
    count = 0
    try:
        with open(f"./{name}.pdf", 'r') as file:
            print('name')
            reader = PyPDF2.PdfReader(file)
            # Obtén el número de páginas
            num_pages = len(reader.pages)
            content = {}
            for page_num in range(num_pages):
                page = reader.pages[page_num]
                text = page.extract_text()
                content[page_num] = text
            invoices[0] = content
        with open(f"{name}.pkl", 'wb') as file:
            pickle.dump(invoices, file)
    except:
        print("""Error al leer la factura. 
            Comprueba que el archivo esté en el mismo directorio, 
            que el nombre del archivo sea válido (sin la extensión) 
            y que el archivo sea formato pdf""")
        errors[count] = name
        count += 1
        
    return invoices

In [4]:
# Guardar el diccionario en un archivo
with open('facturas.pkl', 'wb') as file:
    pickle.dump(invoices, file)

# Procesamiento de datos

### Funciones necesarias

* **Eliminar caracteres irrelevantes:** Utiliza expresiones regulares para eliminar caracteres como tabuladores, retornos de carro, caracteres de control y cualquier otro símbolo que no sea relevante para la extracción de información.
* **Convertir a minúsculas:** Convierte todo el texto a minúsculas utilizando la función `lower()` del módulo `string`.
* **Manejar caracteres con tilde:** Normaliza los caracteres con tilde utilizando la función `normalize()` del módulo `unicodedata` con el argumento `'NFKD'`. Esto descompone los caracteres con tilde en dos caracteres: la letra base y el acento.

In [80]:
# Función normalización de factura
def ft_cleaner(text):
    # Eliminar saltos de línea y tabuladores
    text = re.sub(r'[\n\t]', ' ', text)
    
    # Normalizar el texto (NFKD) y eliminar diacríticos (acentos)
    normalize_text = unicodedata.normalize('NFKD', text)
    text_tilde = ''.join(c for c in normalize_text if not unicodedata.combining(c))
    
    # Eliminar caracteres especiales adicionales, dejando solo letras, dígitos, espacios, guiones, comillas simples y comas
    final_text = re.sub(r"[^A-Za-z0-9\s\',/.]", '', text_tilde)
    
    # Quitar espacios adicionales
    final_text = ' '.join(final_text.split())

    final_text = final_text.lower()
    
    return final_text

In [81]:
with open('facturas.pkl', 'rb') as file:
    invoices = pickle.load(file)

In [82]:
clean_invoices = {}

for tittle, pages in invoices.items():
    clean_pages = {}
    for num_pages, content in pages.items():
        clean_pages[num_pages] = ft_cleaner(content)
        #clean_pages[num_pages] = unicodedata.normalize('NFKD', content)
    clean_invoices[tittle] = clean_pages

In [83]:
# Guardar el diccionario en un archivo
with open('facturas_limpias.pkl', 'wb') as file:
    pickle.dump(clean_invoices, file)

In [20]:
# Función para obtener factura normalizada

def ft_normalize(name):
    
    pickle_file = f"{name}.pkl"
    with open(pickle_file, 'rb') as file:
        invoices = pickle.load(file)
        
    clean_invoices = {}

    for tittle, pages in invoices.items():
        clean_pages = {}
        for num_pages, content in pages.items():
            clean_pages[num_pages] = ft_cleaner(content)
            #clean_pages[num_pages] = unicodedata.normalize('NFKD', content)
        clean_invoices[tittle] = clean_pages

    # Guardar el diccionario en un archivo
    with open(f'{name}_clean.pkl', 'wb') as file:
        pickle.dump(clean_invoices, file)
    
    return clean_invoices

# Extracción:

- Nombre del cliente (nombre_cliente) **HECHO**
- DNI del cliente (dni_cliente) **HECHO**
- Calle del clilente (calle_cliente) **HECHO**
- Código postal del cliente (cp_cliente) **HECHO**
- Población del cliente (población_cliente) **HECHO**
- Provincia del cliente (provincia_cliente) **HECHO**
- Nombre de la empresa comercializadora (nombre_comercializadora)
- CIF de la comercializadora (cif_comercializadora) **HECHO MENOS FACTURA 631**
- Dirección de la comercializadora (dirección_comercializadora)
- Código postal de la comercializadora (cp_comercializadora)
- Población de la comercializadora (población_comercializadora)
- Provincia de la comercializadora (provincia_comercializadora)
- Número de factura (nümero_factura)
- Inicio del periodo de facturación (inicio_periodo)
- Fin del periodo de facturacón (fin_periodo)
- Importe de la factura (importe_factura)
- Fecha del cargo (fecha_cargo)
- Consumo en el periodo (consumo_periodo)
- Potencia contratada (potencia_contratada)

In [2]:
with open('facturas_limpias.pkl', 'rb') as file:
    clean_invoices = pickle.load(file)

In [3]:
def encontrar_provincia_por_cp(codigo_postal, pais='ES'):
    # Crear un objeto Nominatim para el país especificado (por defecto España)
    nomi = pgeocode.Nominatim(pais)
    
    # Obtener la información geográfica del código postal
    info = nomi.query_postal_code(codigo_postal)
    
    # Verificar si se encontró información válida
    if info.county_name:
        return info.county_name
    else:
        return "none"

#### Función Nombre / Titular del Contrato / Titular

In [61]:
result = {}

empty = {"dni_cliente": [], 
          "nombre_cliente": [], 
          "calle_cliente": [], 
          "población_cliente": [],
          "provincia_cliente": [],
          "cp_cliente": [],
          "nombre_comercializadora": [],
          "cif_comercializadora": [],
          "dirección_comercializadora": [],
          "cp_comercializadora": [],
          "provincia_comercializadora": [],
          "localidad_comercializadora": [],
          }

filler = {"dni_cliente": [], 
          "nombre_cliente": [], 
          "calle_cliente": [], 
          "población_cliente": [],
          "provincia_cliente": [],
          "cp_cliente": [],
          "nombre_comercializadora": [],
          "cif_comercializadora": [],
          "dirección_comercializadora": [],
          "cp_comercializadora": [],
          "provincia_comercializadora": [],
          "localidad_comercializadora": [],
          }

for invoice, pages in clean_invoices.items():

    print(f"Factura_{invoice}")

    invoices = {}
    client_name = []
    dni = []
    adress_street = []
    adress_city = []
    adress_province = []
    adress_cp = []
    distributor_name = []
    cif = []
    distributor_city = []
    distributor_street = []
    distributor_province = []
    distributor_cp = []

    for n_pages, content in pages.items():
    
        # -----------------------------------------------------------------------------------------------------------
        # Client name
        patron_cn_1 = r'nombre (.*?) direccion'
        matches_1 = re.findall(patron_cn_1, content, re.IGNORECASE)
        for match in matches_1:
            if match:
                client_name.extend(matches_1)
        
        patron_cn_2 = r'titular del contrato (.*?) nif'
        matches_2 = re.findall(patron_cn_2, content, re.IGNORECASE)
        for match in matches_2:
            if match not in client_name:  # Solo agregar si no está en matches_1
                client_name.append(match)
        patron_cn_3 = r'titular(?! del contrato)(.*?)nif'
        matches_3 = re.findall(patron_cn_3, content, re.IGNORECASE)
        for match in matches_3:
            if match not in client_name:  # Solo agregar si no está en matches_1
                client_name.append(match)
        invoices["nombre_cliente"] = client_name[:]
        
        # ----------------------------------------------------------------------------------------------------------------------------
        # DNI   
        patron_nif = r'nif (\d{8}[a-zA-Z])'
        nif_1 = re.findall(patron_nif, content, re.IGNORECASE)
        for match in nif_1:
            if match not in dni:
                dni.extend(nif_1)
        invoices["dni_cliente"] = dni[:]

        #-----------------------------------------------------------------------------------------------------------------------------
        # Adress, city, province, cp
        patron_adress_1 = r"direccion\sde\ssuministro\s(?P<calle>.+?),\s(?P<localidad>.+?),\s(?P<provincia>.+?)\snumero\sde\scontador"
        adress_1 = re.search(patron_adress_1, content)
        if adress_1:
            if "calle_cliente" not in invoices:
                adress_street.append(adress_1.group("calle"))
                invoices["calle_cliente"] = adress_street
            if "población_cliente" not in invoices:
                adress_city.append(adress_1.group("localidad"))
                invoices["población_cliente"] = adress_city
            if "provincia_cliente" not in invoices:
                adress_province.append(adress_1.group("provincia"))
                invoices["provincia_cliente"] = adress_province

            # Patrón para encontrar el código postal entre la calle y la localidad
            if (n_pages >= 1):
                # Looking for cp from street
                found_street = adress_1.group("calle")
                found_city = adress_1.group("localidad")
                # Crear un patrón que busque el código postal entre la calle y la localidad
                patron_cp = fr'{re.escape(found_street)}\s+(\d{{5}})\s+{re.escape(found_city)}'
                cp_match = re.search(patron_cp, pages[n_pages - 1])

                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp
            if (invoices["nombre_cliente"]):
                found_client_name = invoices["nombre_cliente"][0]  # Suponiendo que solo hay un nombre almacenado en la lista
                # Patrón para encontrar el código postal después del nombre del cliente
                patron_cp = fr'{re.escape(found_client_name)}.*?(\d{{5}})'
                cp_match = re.search(patron_cp, pages[n_pages])
                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp

        patron_adress_2 = r"direccion\s+suministro\s+(?P<calle>.+?)\s+(?P<codigo_postal>\d{5})\s+(?P<localidad>.+?)\b"
        adress_2 = re.search(patron_adress_2, content)
        if adress_2:
            if "calle_cliente" not in invoices:
                adress_street.append(adress_2.group("calle"))
                invoices["calle_cliente"] = adress_street
            if "cp_cliente" not in invoices:
                adress_cp.append(adress_2.group("codigo_postal"))
                invoices["cp_cliente"] = adress_cp
            if "población_cliente" not in invoices:
                adress_city.append(adress_2.group("localidad"))
                invoices["población_cliente"] = adress_city
            # Patrón para encontrar el código postal entre la calle y la localidad
            if (n_pages >= 1):
                # Looking for cp from street
                found_street = adress_2.group("calle")
                found_city = adress_2.group("localidad")
                # Crear un patrón que busque el código postal entre la calle y la localidad
                patron_cp = fr'{re.escape(found_street)}\s+(\d{{5}})\s+{re.escape(found_city)}'
                cp_match = re.search(patron_cp, content)

                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp
            if (invoices["nombre_cliente"]):
                found_client_name = invoices["nombre_cliente"][0]
                patron_cp = fr'{re.escape(found_client_name)}.*?(\d{{5}})'
                cp_match = re.search(patron_cp, pages[n_pages])
                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp

        patron_adress = r"direccion de suministro\s+(?P<calle>.+?),\s+(?P<poblacion>.+?),\s+(?P<provincia>\w+)\s+numero de contador"
        adress_match = re.search(patron_adress, content)

        if adress_match:
            if "calle_cliente" not in invoices:
                adress_street.append(adress_match.group("calle"))
                invoices["calle_cliente"] = adress_street

            poblacion = adress_match.group("poblacion")
            if "población_cliente" not in invoices:
                invoices["población_cliente"] = [poblacion]
            elif len(poblacion) < len(invoices["población_cliente"][0]):
                invoices["población_cliente"] = [poblacion]

            if "provincia_cliente" not in invoices:
                adress_province.append(adress_match.group("provincia"))
                invoices["provincia_cliente"] = adress_province

        patron_direccion = r"calle\s+(?P<calle>.+?)\s+(?P<cp>\d{5})\s+(?P<localidad>.+?)\s+(?P<provincia>\w+)$"
        direccion_match = re.match(patron_direccion, content)

        if direccion_match:
            if "calle_cliente" not in invoices:
                adress_street.append(direccion_match.group("calle"))
                invoices["calle_cliente"] = adress_street

            poblacion = direccion_match.group("localidad")
            if "población_cliente" not in invoices:
                invoices["población_cliente"] = [poblacion]
                
            elif len(poblacion) < len(invoices["población_cliente"][0]):
                invoices["población_cliente"] = [poblacion]

            if "provincia_cliente" not in invoices:
                adress_province.append(direccion_match.group("provincia"))
                invoices["provincia_cliente"] = adress_province

        patron_adress_3 = r"calle\s+(?P<calle>.+?)\s+(\d{5})\s+(?P<localidad>.+?)\s+forma\s+de\s+pago\s+domiciliada"
        adress_3 = re.search(patron_adress_3, content)
        if adress_3:
            if "calle_cliente" not in invoices:
                adress_street.append("calle" + adress_3.group("calle"))
                invoices["calle_cliente"] = adress_street
            if "cp_cliente" not in invoices:
                adress_cp.append(adress_3.group(2))
                invoices["cp_cliente"] = adress_cp
            if "población_cliente" not in invoices:
                adress_city.append(adress_3.group("localidad"))
                invoices["población_cliente"] = adress_city
            # Patrón para encontrar el código postal entre la calle y la localidad
            if (n_pages >= 1):
                # Looking for cp from street
                found_street = adress_3.group("calle")
                found_city = adress_3.group("localidad")
                # Crear un patrón que busque el código postal entre la calle y la localidad
                patron_cp = fr'{re.escape(found_street)}\s+(\d{{5}})\s+{re.escape(found_city)}'
                cp_match = re.search(patron_cp, content)

                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp
            if (invoices["nombre_cliente"]):
                found_client_name = invoices["nombre_cliente"][0]  # Suponiendo que solo hay un nombre almacenado en la lista
                # Patrón para encontrar el código postal después del nombre del cliente
                patron_cp = fr'{re.escape(found_client_name)}.*?(\d{{5}})'
                cp_match = re.search(patron_cp, pages[n_pages])
                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp

        patron_adress_4 = r"direccion\sde\ssuministro\s(?P<calle>.+?)\s+(?P<codigo_postal>\d{5})\s+(?P<localidad>\w+)"
        adress_4 = re.search(patron_adress_4, content)
        if adress_4:
            if "calle_cliente" not in invoices:
                adress_street.append(adress_4.group("calle"))
                invoices["calle_cliente"] = adress_street
            if "cp_cliente" not in invoices:
                adress_cp.append(adress_4.group("codigo_postal"))
                invoices["cp_cliente"] = adress_cp
            if "población_cliente" not in invoices:
                adress_city.append(adress_4.group("localidad"))
                invoices["población_cliente"] = adress_city

            # Patrón para encontrar el código postal entre la calle y la localidad
            if (n_pages >= 1):
                # Looking for cp from street
                found_street = adress_4.group("calle")
                found_city = adress_4.group("localidad")
                # Crear un patrón que busque el código postal entre la calle y la localidad
                patron_cp = fr'{re.escape(found_street)}\s+(\d{{5}})\s+{re.escape(found_city)}'
                cp_match = re.search(patron_cp, pages[n_pages - 1])

                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp[0]
            if (invoices["nombre_cliente"]):
                found_client_name = invoices["nombre_cliente"][0]  # Suponiendo que solo hay un nombre almacenado en la lista
                # Patrón para encontrar el código postal después del nombre del cliente
                patron_cp = fr'{re.escape(found_client_name)}.*?(\d{{5}})'
                cp_match = re.search(patron_cp, pages[n_pages])
                if cp_match:
                    if "cp_cliente" not in invoices:
                        adress_cp.append(cp_match.group(1))
                        invoices["cp_cliente"] = adress_cp
        
        #----------------------------------------------------------------------------------------------
        # CIF de la empresa comercializadora
        patron_cif_1 = r"cif\s+(?P<cif>[a-zA-Z]\d{8})\."
        cif_match = re.search(patron_cif_1, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif
        # CIF de la empresa comercializadora
        patron_cif_2 = r"cif\s+(?P<cif>[a-zA-Z]\d{8})\s*\."
        cif_match = re.search(patron_cif_2, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif
        
        # CIF de la empresa comercializadora
        patron_cif_3 = r"cif\s+(?P<cif>[a-zA-Z]\d{8})\b"
        cif_match = re.search(patron_cif_3, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif

        # CIF de la empresa comercializadora
        patron_cif_4 = r"cif\s+(?P<cif>[a-zA-Z]{1,2}\d{6,8})\s*\."
        cif_match = re.search(patron_cif_4, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif

        # CIF de la empresa comercializadora
        patron_cif_5 = r"cif\s+(?P<cif>[a-zA-Z]{1,2}\d{6,8})\b"
        cif_match = re.search(patron_cif_5, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif

        patron_cif_6 = r"cif\s+(?P<cif>[a-zA-Z]{1,2}\d{6,9})\b"
        cif_match = re.search(patron_cif_6, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif

        # CIF de la empresa comercializadora
        patron_cif_1 = r"cif\s+(?P<cif>[a-zA-Z]{1,3}\s?\d{3}(\.?\d{3}){1,2}|\d{3}'\d{3}|\d{9,10})[\s\.]*"
        cif_match = re.search(patron_cif_1, pages[n_pages])

        if cif_match:
            if "cif_comercializadora" not in invoices:
                cif.append(cif_match.group("cif"))
                invoices["cif_comercializadora"] = cif

        #-----------------------------------------------------------------------------------------------
        # Dirección de la empresa 
        if (invoices['nombre_cliente']):
            nombre = invoices['nombre_cliente'][0]
            if (invoices['cif_comercializadora']):
                cif = invoices['cif_comercializadora'][0]
                print(nombre)
                print(type(nombre))
                print(type(cif))
                patron_location_1 = r"(\.*\s*(?P<nombre_empresa>[^\d\.]+?)\s*\. cif\s*{}\s*\.\s*(?P<direccion>.*?)(?P<cp>\d{{5}})\s*(?P<localidad>[^\s]*)(?=\s*{}))".format(cif, re.escape(nombre))
                print(pages[n_pages])
                # Buscar la información en el texto
                location_match = re.findall(patron_location_1, pages[n_pages], re.IGNORECASE)
           
                # Si se encuentra, imprimir la información
                if location_match:
                
                    if "nombre_comercializadora" not in invoices:
                        distributor_name.append(location_match.group('nombre_empresa'))
                        invoices["nombre_comercializadora"] = distributor_name
                        print(distributor_name)
                    if "dirección_comercializadora" not in invoices:
                        distributor_street.append(location_match.group('direccion').strip())
                        invoices["dirección_comercializadora"] = distributor_street
                        print(distributor_street)
                    if "cp_comercializadora" not in invoices:
                        distributor_cp.append(location_match.group('cp'))
                        invoices["cp_comercializadora"] = distributor_cp
                        print(distributor_cp)
                    if "localidad_comercializadora" not in invoices:
                        distributor_city.append(location_match.group('localidad'))
                        invoices["localidad_comercializadora"] = distributor_city
                        print(distributor_city)

    """        
    if (len(adress_province) == 0):
        adress_province = [encontrar_provincia_por_cp(invoices["cp_cliente"][0], "ES")]
        invoices["provincia_cliente"] = adress_province
    """
    name = f"Factura_{invoice}"

    # Fill result
    result[f"{name}"] = invoices

    # ------------------------------------------------------------------------------------------------------------------
    
    # Check dirección_comercializadora
    if len(distributor_street) == 0:
        empty["dirección_comercializadora"].append(name)
    else:
        filler["dirección_comercializadora"].append(name)

    # Check nombre_comercializadora
    if len(distributor_name) == 0:
        empty["nombre_comercializadora"].append(name)
    else:
        filler["nombre_comercializadora"].append(name)
    
    # Check cp_comercializadora
    if len(distributor_cp) == 0:
        empty["cp_comercializadora"].append(name)
    else:
        filler["cp_comercializadora"].append(name)
    
    # Check localidad_comercializadora
    if len(distributor_city) == 0:
        empty["localidad_comercializadora"].append(name)
    else:
        filler["localidad_comercializadora"].append(name)
    """
    # Check distributor
    if len(cif) == 0:
        empty["cif_comercializadora"].append(name)
    else:
        filler["cif_comercializadora"].append(name)
    
    # Check cp_client
    if len(adress_cp) == 0:
        empty["cp_cliente"].append(name)
    else:
        filler["cp_cliente"].append(name)

    # Check calle_cliente
    if len(adress_street) == 0:
        empty["calle_cliente"].append(name)
    else:
        filler["calle_cliente"].append(name)

    # Check población_cliente
    if len(adress_city) == 0:
        empty["población_cliente"].append(name)
    else:
        filler["población_cliente"].append(name)

    # Check provincia_cliente
    if len(adress_province) == 0:
        empty["provincia_cliente"].append(name)
    else:
        filler["provincia_cliente"].append(name)

    # Check dni_cliente
    if len(dni) == 0:
        empty["dni_cliente"].append(name)
    else:
        filler["dni_cliente"].append(name)

    # Check nombre_cliente
    if len(client_name) == 0:
        empty["nombre_cliente"].append(name)
    else:
        filler["nombre_cliente"].append(name)
    """
    

Factura_0
conrado daniel iglesias
<class 'str'>
<class 'str'>
0,00 importe por energia consumida 0 kwh x 0,190557 eur/kwh datos del contrato titular del contrato conrado daniel iglesias nif 73635161v direccion de suministro calle la solana, la fueva, huesca numero de contador 983940623 su comercializadora iberdesa comercializadora sociedad limitada su distribuidora compania electrica de ferez sl referencia del contrato de acceso 425403666340 peaje de acceso 2.0dha fin de contrato de suministro 25/09/2018 renovacion anual automatica cups es2893009556690175wxao el destino del importe de su factura, 19,78 euros, es el siguiente luz importe por potencia contratada 4,80 kw x 0,116699 eur/kw x 30 dias 16,80 x,xx en dicho importe, facturacion por peaje de acceso 4,80 kw x 38,508730 eur/kw y ano x 30/365 dias 15,19 xx,xx 16,80 xx,xx en dicho importe, su facturacion por peaje de acceso ha sido consumo p1 0 kwh x 0,095991 eur/kwh 0,00 incentivos a las energias renovables, cogeneracion y residuos

KeyError: 'cif_comercializadora'

In [276]:
clean_invoices[0]

{0: 'datos de la factura no factura sv5043664894 referencia 591313314378/6522 fecha emision factura 27/09/2018 periodo de facturacion del 26/08/2018 a 25/09/2018 30 dias fecha de cargo 30 de septiembre de 2018 ............................................................................................................................. ....................................... iberdesa comercializadora sociedad limitada . cif b90393497 . crt.sevilla madrid, km 524, camino de la pastora s/n 41410 carmona conrado daniel iglesias calle la solana 22394 la fueva huesca forma de pago domiciliada potencia energia descuentos otros impuestos igic reducido 16,80 0,00 x,xx 0,80 0,86 1,24 fecha de cargo 30 de septiembre de 2018 iban es31873903585096496 cod.mandato e88656958265427260292185691 7 version 4779 igic normal 10 0,08 ............................................................................................................................. .............. su pago se justifica con el correspon

In [62]:
result

{'Factura_0': {'nombre_cliente': ['conrado daniel iglesias'],
  'dni_cliente': ['73635161v'],
  'calle_cliente': ['callela solana'],
  'cp_cliente': ['22394'],
  'población_cliente': ['la fueva'],
  'cif_comercializadora': ['b90393497'],
  'provincia_cliente': ['huesca']},
 'Factura_1': {'nombre_cliente': ['leonarda jaramillo baez'],
  'dni_cliente': ['90237166r'],
  'calle_cliente': ['camino de los pelendengues'],
  'cp_cliente': ['21830'],
  'población_cliente': ['bonares'],
  'cif_comercializadora': ['b88446406']},
 'Factura_2': {'nombre_cliente': ['benedicta gallegos aguilar'],
  'dni_cliente': ['74434368c'],
  'cif_comercializadora': ['a11508629'],
  'calle_cliente': ['travesia de las delicias'],
  'población_cliente': ['los barrios de luna'],
  'provincia_cliente': ['leon'],
  'cp_cliente': ['24149']},
 'Factura_3': {'nombre_cliente': ['belinda zetina mijares'],
  'dni_cliente': ['89901698b'],
  'calle_cliente': ['calledel zarzalejo'],
  'cp_cliente': ['25737'],
  'población_clie

In [74]:
clean_invoices[2][0]

'datos de la factura no factura h4623704265 referencia 329900282530/8181 fecha emision factura 15/12/1999 periodo de facturacion del 13/11/1999 a 13/12/1999 30 dias fecha de cargo 18 de diciembre de 1999 ............................................................................................................................. ....................................... epresa energia s.a. . cif a11508629 . c/ carretas, 5 11510 puerto real benedicta gallegos aguilar travesia de las delicias 24149 los barrios de luna leon forma de pago domiciliada potencia energia descuentos otros impuestos igic reducido 11,60 60,49 x,xx 2,75 3,69 1,52 fecha de cargo 18 de diciembre de 1999 iban es14901206936360888 cod.mandato e87442603666318178650688896 2 version 7728 igic normal 21 0,58 ............................................................................................................................. .............. su pago se justifica con el correspondiente apunte bancario detalle de la factur

In [82]:
nombre = 'benedicta gallegos aguilar'
cif = 'a11508629'
print(nombre)
print(cif)
patron_location_1 = r"(?P<nombre_empresa>.*?)\s*\. cif\s*{}\s*\.\s*(?P<direccion>.*?)\s*(?P<cp>\d{{5}})\s*(?P<localidad>.*?)\s*{}".format(cif, re.escape(nombre))

# Buscar la información en el texto
location_match = re.search(patron_location_1, clean_invoices[2][0], re.IGNORECASE)
if location_match:
   
    nombre_empresa = location_match.group('nombre_empresa')
    direccion = location_match.group('direccion').strip()
    cp = location_match.group('cp')
    localidad = location_match.group('localidad')
    print("Nombre de la empresa:", nombre_empresa)
    print("Dirección:", direccion)
    print("Código Postal:", cp)
    print("Localidad:", localidad)

benedicta gallegos aguilar
a11508629
Nombre de la empresa: datos de la factura no factura h4623704265 referencia 329900282530/8181 fecha emision factura 15/12/1999 periodo de facturacion del 13/11/1999 a 13/12/1999 30 dias fecha de cargo 18 de diciembre de 1999 ............................................................................................................................. ....................................... epresa energia s.a.
Dirección: c/ carretas, 5
Código Postal: 11510
Localidad: puerto real


In [49]:
location_match

<re.Match object; span=(331, 499), match='....................................... iberdesa >

In [9]:
# Patrón para extraer la información
nombre_cliente = "conrado daniel iglesias"
cif = "b90393497"
patron = r"(\.*\s*(?P<nombre_empresa>[^\d\.]+?)\s*\. cif\s*{}\s*\.\s*(?P<direccion>.*?)(?P<cp>\d{{5}})\s*(?P<localidad>[^\s]*)(?=\s*{}))".format(cif, re.escape(nombre_cliente))

# Buscar la información en el texto
resultado = re.search(patron, clean_invoices[0][0], re.IGNORECASE)

# Si se encuentra, imprimir la información
if resultado:
    nombre_empresa = resultado.group('nombre_empresa')
    direccion = resultado.group('direccion').strip()
    cp = resultado.group('cp')
    localidad = resultado.group('localidad')
    
    print("Nombre de la empresa:", nombre_empresa)
    print("Dirección:", direccion)
    print("Código Postal:", cp)
    print("Localidad:", localidad)

Nombre de la empresa: iberdesa comercializadora sociedad limitada
Dirección: crt.sevilla madrid, km 524, camino de la pastora s/n
Código Postal: 41410
Localidad: carmona


In [57]:
result["Factura_0"]

{'nombre_cliente': ['conrado daniel iglesias'],
 'dni_cliente': ['73635161v'],
 'calle_cliente': ['callela solana'],
 'cp_cliente': ['22394'],
 'población_cliente': ['la fueva'],
 'cif_comercializadora': ['b90393497'],
 'provincia_cliente': ['huesca']}

In [25]:
empty

{'dni_cliente': [],
 'nombre_cliente': [],
 'calle_cliente': [],
 'población_cliente': [],
 'provincia_cliente': [],
 'cp_cliente': [],
 'nombre_comercializadora': ['Factura_0',
  'Factura_1',
  'Factura_2',
  'Factura_3',
  'Factura_4',
  'Factura_5',
  'Factura_6',
  'Factura_7',
  'Factura_8',
  'Factura_9',
  'Factura_10',
  'Factura_11',
  'Factura_12',
  'Factura_13',
  'Factura_14',
  'Factura_15',
  'Factura_16',
  'Factura_17',
  'Factura_18',
  'Factura_19',
  'Factura_20',
  'Factura_21',
  'Factura_22',
  'Factura_23',
  'Factura_24',
  'Factura_25',
  'Factura_26',
  'Factura_27',
  'Factura_28',
  'Factura_29',
  'Factura_30',
  'Factura_31',
  'Factura_32',
  'Factura_33',
  'Factura_34',
  'Factura_35',
  'Factura_36',
  'Factura_37',
  'Factura_38',
  'Factura_39',
  'Factura_40',
  'Factura_41',
  'Factura_42',
  'Factura_43',
  'Factura_44',
  'Factura_45',
  'Factura_46',
  'Factura_47',
  'Factura_48',
  'Factura_49',
  'Factura_50',
  'Factura_51',
  'Factura_52',

In [216]:
# Comprobar vacíos
for key, value in result.items():
    for key_2, value_2 in  value.items():
        if (len(value[key_2]) == 0):
            print(key, key_2, len(value[key_2]))

In [255]:
# Comprobar faltantes
# Lista de claves que se esperan en el diccionario
expected_keys = ['dni_cliente', 'nombre_cliente', 'calle_cliente', 'población_cliente', 'provincia_cliente', 'cp_cliente', 'cif_comercializadora']
dic_fails = {}

# Iterar sobre las claves y valores del diccionario resultante
for factura, datos in result.items():
    missing_keys = []
     # Verificar si el valor asociado tiene menos de 6 claves
    if len(datos) < 6:
        # Encontrar las claves faltantes
        for key in expected_keys:
            if key not in datos:
                missing_keys.append(key)
    # Añadir las claves faltantes al diccionario
    if missing_keys:
        dic_fails[factura] = missing_keys

In [256]:
count = 0
for i in dic_fails.keys():
    if ("cif_comercializadora" in dic_fails[i]):
        count += 1
        print(i)
print(count)

Factura_433
Factura_527
Factura_631
Factura_692
Factura_742
Factura_780
Factura_796
Factura_855
Factura_970
9


In [6]:
# Función ft_client_name()

def ft_get_client_name(name):
    with open(f'{name}_clean.pkl', 'rb') as file:
        clean_invoices = pickle.load(file)
    result = {}
    empty = []
    filler = []

    for invoice, pages in clean_invoices.items():
        print(f"Factura_{invoice}")
        invoices = {}
        client_name = []
        for n_pages, content in pages.items():

            patron_1 = r'nombre (.*?) direccion'
            matches_1 = re.findall(patron_1, content, re.IGNORECASE)
            for match in matches_1:
                if match:
                    client_name.extend(matches_1)
            
            patron_2 = r'titular del contrato (.*?) nif'
            matches_2 = re.findall(patron_2, content, re.IGNORECASE)
            for match in matches_2:
                if match not in matches_1:  # Solo agregar si no está en matches_1
                    client_name.append(match)
            patron_3 = r'titular(?! del contrato)(.*?)nif'
            matches_3 = re.findall(patron_3, content, re.IGNORECASE)
            for match in matches_3:
                if match not in matches_1:  # Solo agregar si no está en matches_1
                    client_name.append(match)
            invoices["nombre_cliente"] = client_name[:]
            result[f"Factura_{invoice}"] = invoices
        if (len(client_name) == 1) & (client_name[0]== ""):
            name = f"Factura_{invoice}"
            empty.append(name)
        else:
            name = f"Factura_{invoice}"
            filler.append(name)
            
    return result

#### Función DNI

In [67]:
clean_invoices[0]

{0: 'datos de la factura no factura sv5043664894 referencia 591313314378/6522 fecha emision factura 27/09/2018 periodo de facturacion del 26/08/2018 a 25/09/2018 30 dias fecha de cargo 30 de septiembre de 2018 iberdesa comercializadora sociedad limitada cif b90393497 crtsevilla -madrid, km 524, camino de la pastora s/n 41410 - carmona conrado daniel iglesias calle la solana 22394 la fueva huesca forma de pago domiciliada potencia energia descuentos otros impuestos igic reducido 16,80 0,00 -x,xx 0,80 0,86 1,24 fecha de cargo 30 de septiembre de 2018 iban es31873903585096496 codmandato e88656958265427260292185691 7 version 4779 igic normal 10 0,08 su pago se justifica con el correspondiente apunte bancario detalle de la factura en el reverso consumo en el periodo punta consumo en el periodo valle kwh evolucion del consumo 770 de 12h a 22h de 22h a 12h lectura anterior 660 550 real 68818 kwh xxx kwh 26-agosto -2018 lectura actual 440 330 real 68818 kwh xxx kwh 220 25-septiembre -2018 cons

In [72]:
patron_nif = r'nif (\d{8}[a-zA-Z])'
nif = re.findall(patron_nif, clean_invoices[0][1])

In [73]:
nif

['73635161v']

In [31]:
# Expresión regular para buscar el número de factura
patron = r'no factura (bd\d{10,15})'
# Buscar todas las coincidencias
resultados = re.findall(patron, clean_invoices[0][0])

In [32]:
resultados

['bd9767921453']

In [25]:
# Buscar importe facturación
patron = r'importe facturación\s+([\d,]+\.\d+)'
resultado = re.search(patron, clean_invoices[0][0])

In [26]:
resultado

In [None]:
results = {}
array = []


for tittle, pages in invoices.items():
    for num_pages, content in pages.items():
        
        #clean_pages[num_pages] = unicodedata.normalize('NFKD', content)
    clean_invoices[tittle] = clean_pages

------------------------------------------------------------------------------------------------------------------

### SQL

In [None]:
# Cargar el diccionario de facturas desde el archivo pickle
with open('facturas.pkl', 'rb') as file:
    facturas = pickle.load(file)

# Conectar a la base de datos
conn = mysql.connector.connect(
    host='localhost',  # Cambia esto si tu base de datos está en un servidor diferente
    user='root',  # Reemplaza 'tu_usuario' con tu nombre de usuario de MySQL
    password='2JTovldO',  # Reemplaza 'tu_contraseña' con tu contraseña de MySQL
    database='decide'  # Asegúrate de que el nombre de la base de datos sea correcto
)

cursor = conn.cursor()

In [None]:
# Insertar las facturas y sus páginas en la base de datos
for titulo_factura, paginas in facturas.items():
    try:
        # Insertar la factura
        cursor.execute("INSERT INTO facturas (titulo) VALUES (%s)", (titulo_factura,))
        factura_id = cursor.lastrowid  # Obtener el ID de la factura recién insertada

        # Insertar las páginas de la factura
        for numero_pagina, texto in paginas.items():
            cursor.execute(
                "INSERT INTO paginas (factura_id, numero_pagina, texto) VALUES (%s, %s, %s)",
                (factura_id, numero_pagina, texto)
            )
    except mysql.connector.Error as err:
        print(f"Error insertando datos: {err}")
        conn.rollback()  # Revertir cambios en caso de error
    else:
        conn.commit()  # Confirmar los cambios si todo fue bien

# Cerrar la conexión
cursor.close()
conn.close()

print("Datos insertados exitosamente en la base de datos.")

In [21]:
with open(f'./training/factura_{i}.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    # Obtén el número de páginas
    num_pages = len(reader.pages)
    for page_num in range(num_pages):
        page = reader.pages[page_num]
        text = page.extract_text()

# --------------------------------------------------------

# Abre el archivo PDF
list_text = []
pdf_document = fitz.open('./training/factura_0.pdf')
for page_num in range(len(pdf_document)):
    page = pdf_document.load_page(page_num)
    text = page.get_text("text")
    list_text.append(text)
    print(f"Página {page_num + 1}:\n{text}")

# ---------------------------------------------------

# Abre el archivo PDF
with pdfplumber.open('./training/factura_0.pdf') as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

# -------------------------------------------------------

# Abre el archivo PDF en modo lectura binaria
with open('./training/factura_0.pdf', 'rb') as file:
    reader = PyPDF4.PdfFileReader(file)
    # Obtén el número de páginas
    num_pages = reader.numPages
    for page_num in range(num_pages):
        page = reader.getPage(page_num)
        #text = page.get_text()
        text = page.extractText()
        print(f"Página {page_num + 1}:\n{text}")
    
# ---------------------------------------------------------

# problemas de compatibilidad
with open('./training/factura_0.pdf', 'rb') as file:
    doc = slate.PDF(file)
    for page_num, page in enumerate(doc):
        print(f"Página {page_num + 1}:\n{page}")

# ----------------------------------------------------------

# Extrae el texto del archivo PDF
text = extract_text('./training/factura_0.pdf')
print(text)

Página 1:
DATOS
 
DE
 
LA
 
FACTURA
 
Nº
 
factura:
 
SV5043664894
 
Referencia:
 
591313314378/6522
 
Fecha
 
emisión
 
factura:
 
27/09/2018
 
Periodo
 
de
 
Facturación:
 
del
 
26/08/2018
 
a
 
25/09/2018
 
(30
 
días)
 
Fecha
 
de
 
cargo:
 
30 de septiembre de 2018
 
.............................................................................................................................
.......................................
 
IBERDESA COMERCIALIZADORA SOCIEDAD LIMITADA
.
 
CIF
 
B90393497
.
 
CRT.SEVILLA
-
MADRID, KM 524, CAMINO DE LA PASTORA S/N
 
41410
 
-
 
CARMONA
 
Conrado Daniel Iglesias
 
 
Calle la Solana
 
22394
 
La Fueva 
 
Huesca
 
Forma
 
de
 
pago:
 
Domiciliada
 
Potencia
 
Energía
 
Descuentos
 
Otros
 
Impuestos
 
IGIC
 
reducido
 
16,80
 

 
0,00
 

 
-
X
,
XX
 

 
0,80
 

 
0,86
 

 
1,24
 

 
Fecha
 
de
 
cargo:
 
30 de septiembre de 2018
 
IBAN:
 
ES31873903585096496*****
 
Cod.Mandato:
 
E88656958265427260292185691
 
(
 
7
%)
 
Versión:
 
4779
 
IGIC
 