In [84]:
import subprocess
import os
import shutil

import xml.etree.ElementTree as ET

In [48]:
path_xml_pm7 = 'data/raw/2025_04/IT00071630149_04PR7.xml.p7m'
path_xml = 'data/raw/2025_04/IT00071630149_04PR7_MT_001.xml'

file_estratto = 'file_estratto.xml'

## Utils

In [75]:
# def estrai_xml_da_p7m(file_p7m, output_xml):
#     comando = [
#         "openssl", "smime", "-verify",
#         "-in", file_p7m,
#         "-inform", "DER",
#         "-noverify",
#         "-out", output_xml
#     ]
#     subprocess.run(comando, check=True)



def estrai_xml_da_p7m(file_p7m, output_xml):
    try:
        # Primo tentativo con openssl
        subprocess.run([
            "openssl", "smime", "-verify",
            "-inform", "DER",
            "-noverify",
            "-in", file_p7m,
            "-out", output_xml
        ], check=True)
    except subprocess.CalledProcessError:
        print("[!] Primo tentativo fallito: provo a estrarre a mano il contenuto XML.")

        with open(file_p7m, "rb") as f:
            content = f.read()

        # Cerca l'inizio del tag <?xml e taglia da lì
        start = content.find(b"<?xml")
        if start == -1:
            raise ValueError("Contenuto XML non trovato nel file .p7m")

        end = content.find(b"</p:FatturaElettronica>")
        if end == -1:
            raise ValueError("Tag di chiusura </p:FatturaElettronica> non trovato nel file .p7m")

        xml_content = content[start:end]

        xml_content += b"</p:FatturaElettronica>"

        # Salva il contenuto su file
        with open(output_xml, "wb") as out:
            out.write(xml_content)

        print("[✓] Estrazione manuale completata.")

### Estrazione file .pm7 in file xml

In [82]:
# estrai_xml_da_p7m(path_xml_pm7, "file_estratto4.xml")

## Crea cartella in preprocessed

In [83]:
# Percorsi cartelle
input_dir = "data/raw/2025_04"
output_dir = "data/processed/2025_04"

# Crea la cartella di destinazione se non esiste
os.makedirs(output_dir, exist_ok=True)

# Scorri tutti i file nella cartella di input
for filename in os.listdir(input_dir):
    if "_MT_" in filename:
        continue  # Ignora i file metadati

    full_input_path = os.path.join(input_dir, filename)

    if filename.endswith(".xml.p7m"):
        # Rimuove .p7m per ottenere il nome del file XML di output
        output_filename = filename[:-4]  # Rimuove gli ultimi 4 caratteri: ".p7m"
        full_output_path = os.path.join(output_dir, output_filename)
        try:
            estrai_xml_da_p7m(full_input_path, full_output_path)
            print(f"✔ Estratto: {filename}")
        except subprocess.CalledProcessError:
            print(f"❌ Errore nell'estrazione di: {filename}")

    elif filename.endswith(".xml"):
        full_output_path = os.path.join(output_dir, filename)
        shutil.copy(full_input_path, full_output_path)
        print(f"📄 Copiato: {filename}")

print("✅ Processing completato.")

📄 Copiato: IT016417907022025p_04z1c.xml
[!] Primo tentativo fallito: provo a estrarre a mano il contenuto XML.
[✓] Estrazione manuale completata.
✔ Estratto: IT02046570426_buVVz.xml.p7m
✔ Estratto: IT04107060966_4New0.xml.p7m


Verification failure
C0ADD543F87F0000:error:02000068:rsa routines:ossl_rsa_verify:bad signature:crypto/rsa/rsa_sign.c:442:
C0ADD543F87F0000:error:1C880004:Provider routines:rsa_verify_directly:RSA lib:providers/implementations/signature/rsa_sig.c:1041:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_signatureVerify:signature failure:crypto/pkcs7/pk7_doit.c:1124:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_verify:signature failure:crypto/pkcs7/pk7_smime.c:349:
Verification successful
Verification successful


📄 Copiato: IT01533080675_8HFec.xml
📄 Copiato: IT07207660486_FvBck.xml
📄 Copiato: IT00950440149_000LM.xml
✔ Estratto: IT07614280969_016WL.xml.p7m
📄 Copiato: IT01533080675_8HFee.xml
📄 Copiato: IT016417907022025J_04xTj.xml
📄 Copiato: IT02313821007_N17W8.xml
📄 Copiato: IT07207660486_FtG7R.xml
✔ Estratto: IT01895030995X0001_FYQNA.xml.p7m
📄 Copiato: IT01533080675_8GgLv.xml
📄 Copiato: IT07207660486_FtG61.xml
📄 Copiato: IT016417907022025S_04BFy.xml
📄 Copiato: IT01378570350_l2zhP.xml
📄 Copiato: IT01378570350_ksOOY.xml


Verification successful
Verification successful
Verification successful
Verification successful


✔ Estratto: IT00712540145_00BZF.xml.p7m
📄 Copiato: IT01336610587_0fFgV.xml
📄 Copiato: ITTRBVNT91B45F712C_15060.xml
✔ Estratto: IT01895030995X0001_FS0H9.xml.p7m
📄 Copiato: IT02674600016_00FVD.xml
📄 Copiato: IT016417907022025e_03SPr.xml
📄 Copiato: IT00486780109_016E0.xml
📄 Copiato: IT01336610587_0fFgT.xml
✔ Estratto: IT0526289001425107_6M6AG.xml.p7m


Verification failure
C0ADD543F87F0000:error:02000068:rsa routines:ossl_rsa_verify:bad signature:crypto/rsa/rsa_sign.c:442:
C0ADD543F87F0000:error:1C880004:Provider routines:rsa_verify_directly:RSA lib:providers/implementations/signature/rsa_sig.c:1041:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_signatureVerify:signature failure:crypto/pkcs7/pk7_doit.c:1124:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_verify:signature failure:crypto/pkcs7/pk7_smime.c:349:
Verification successful


[!] Primo tentativo fallito: provo a estrarre a mano il contenuto XML.
[✓] Estrazione manuale completata.
✔ Estratto: IT0200275048300000_OZNED.xml.p7m
✔ Estratto: IT02355260981_ZSJVC.xml.p7m


Verification successful
Verification failure
C0ADD543F87F0000:error:02000068:rsa routines:ossl_rsa_verify:bad signature:crypto/rsa/rsa_sign.c:442:
C0ADD543F87F0000:error:1C880004:Provider routines:rsa_verify_directly:RSA lib:providers/implementations/signature/rsa_sig.c:1041:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_signatureVerify:signature failure:crypto/pkcs7/pk7_doit.c:1124:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_verify:signature failure:crypto/pkcs7/pk7_smime.c:349:
Verification failure
C0ADD543F87F0000:error:02000068:rsa routines:ossl_rsa_verify:bad signature:crypto/rsa/rsa_sign.c:442:
C0ADD543F87F0000:error:1C880004:Provider routines:rsa_verify_directly:RSA lib:providers/implementations/signature/rsa_sig.c:1041:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_signatureVerify:signature failure:crypto/pkcs7/pk7_doit.c:1124:
C0ADD543F87F0000:error:10800069:PKCS7 routines:PKCS7_verify:signature failure:crypto/pkcs7/pk7_smime.c:349:


✔ Estratto: IT01934790971_fkfed.xml.p7m
[!] Primo tentativo fallito: provo a estrarre a mano il contenuto XML.
[✓] Estrazione manuale completata.
✔ Estratto: IT02046570426_bw2aQ.xml.p7m
[!] Primo tentativo fallito: provo a estrarre a mano il contenuto XML.
[✓] Estrazione manuale completata.
✔ Estratto: IT02046570426_bqCdx.xml.p7m


Verification successful
Verification successful
Verification successful


✔ Estratto: IT01895030995X0001_FYR7W.xml.p7m
📄 Copiato: IT01378570350_kuuPu.xml
📄 Copiato: IT07031780484_1cQlg.xml
✔ Estratto: IT00071630149_04PR7.xml.p7m
✔ Estratto: IT01895030995X0001_FIC8R.xml.p7m


Verification successful
Verification successful
Verification successful
Verification successful


✔ Estratto: IT01895030995X0001_FOMCV.xml.p7m
✔ Estratto: IT03618500403_2Ddux.xml.p7m
📄 Copiato: IT016417907022025W_04zA8.xml
✔ Estratto: IT01934790971_ewxn7.xml.p7m
✔ Estratto: IT01895030995X0001_FIC8S.xml.p7m
📄 Copiato: IT08567210961_yZOg4.xml
📄 Copiato: IT01378570350_l0Vyz.xml
✔ Estratto: IT01895030995X0001_FYRFE.xml.p7m
✅ Processing completato.


Verification successful


# Crea df fatture

In [None]:
tree = ET.parse("file_estratto4.xml")
root = tree.getroot()

def strip_ns(tag):
    return tag.split('}')[-1] if '}' in tag else tag

# Trova il nodo Header
for elem in root.iter():
    if strip_ns(elem.tag) == "FatturaElettronicaHeader":

        # CedentePrestatore (mittente)
        cedente = elem.find(".//{*}CedentePrestatore")
        if cedente is not None:
            id_fiscale = cedente.find(".//{*}IdFiscaleIVA")
            denominazione = cedente.find(".//{*}Denominazione")
            if id_fiscale is not None:
                id_paese = id_fiscale.find(".//{*}IdPaese")
                id_codice = id_fiscale.find(".//{*}IdCodice")
                if id_paese is not None: print("IdPaese_Mittente", id_paese.text)
                if id_codice is not None: print("IdCodice_Mittente", id_codice.text)
            if denominazione is not None:
                print("Denominazione:", denominazione.text)

        # CessionarioCommittente (destinatario)
        cessionario = elem.find(".//{*}CessionarioCommittente")
        if cessionario is not None:
            id_fiscale = cessionario.find(".//{*}IdFiscaleIVA")
            denominazione = cessionario.find(".//{*}Denominazione")
            if id_fiscale is not None:
                id_paese = id_fiscale.find(".//{*}IdPaese")
                id_codice = id_fiscale.find(".//{*}IdCodice")
                if id_paese is not None: print("IdPaese_Destinatario", id_paese.text)
                if id_codice is not None: print("IdCodice_Destinatario", id_codice.text)
            if denominazione is not None:
                print("Denominazione:", denominazione.text)

# Trova il totale del documento
for elem in root.iter():
    if strip_ns(elem.tag) == "ImportoTotaleDocumento":
        print("Importo totale documento:", elem.text)


# Estrazione dei dati generali della fattura
dati_generali_doc = root.find(".//{*}DatiGeneraliDocumento")
data_fattura = None
nr_fattura = None

if dati_generali_doc is not None:
    data = dati_generali_doc.find(".//{*}Data")
    numero = dati_generali_doc.find(".//{*}Numero")
    if data is not None:
        data_fattura = data.text
    if numero is not None:
        nr_fattura = numero.text

print("Data Fattura:", data_fattura)
print("Numero Fattura:", nr_fattura)

IdPaese_Mittente IT
IdCodice_Mittente 00970560140
Denominazione: Alimentari Fazari Sas di Fazari Giuseppe e Daniele e C.
IdPaese_Destinatario IT
IdCodice_Destinatario 01087820146
Denominazione: biavaschi andrea
Importo totale documento: 537.63
Data Fattura: 2025-04-30
Numero Fattura: 128


In [44]:
# # Data e numero fattura
# dati_generali_doc = root.find(".//{*}DatiGeneraliDocumento")
# if dati_generali_doc is not None:
#     data = dati_generali_doc.find(".//{*}Data")
#     numero = dati_generali_doc.find(".//{*}Numero")
#     tipo_doc = dati_generali_doc.find(".//{*}TipoDocumento")
#     if data is not None: print("Data fattura:", data.text)
#     if numero is not None: print("Numero fattura:", numero.text)
#     if tipo_doc is not None: print("Tipo documento:", tipo_doc.text)

# # Linee della fattura
# for linea in root.findall(".//{*}DettaglioLinee"):
#     descrizione = linea.find(".//{*}Descrizione")
#     quantita = linea.find(".//{*}Quantita")
#     prezzo_unitario = linea.find(".//{*}PrezzoUnitario")
#     if descrizione is not None:
#         print(f"- Descrizione: {descrizione.text}")
#         if quantita is not None: print(f"  Quantità: {quantita.text}")
#         if prezzo_unitario is not None: print(f"  Prezzo unitario: {prezzo_unitario.text}")


In [79]:
import pandas as pd
import xml.etree.ElementTree as ET

tree = ET.parse("file_estratto4.xml")
root = tree.getroot()

# Estrazione dei dati generali della fattura
dati_generali_doc = root.find(".//{*}DatiGeneraliDocumento")
data_fattura = None
nr_fattura = None

if dati_generali_doc is not None:
    data = dati_generali_doc.find(".//{*}Data")
    numero = dati_generali_doc.find(".//{*}Numero")
    if data is not None:
        data_fattura = data.text
    if numero is not None:
        nr_fattura = numero.text

# Lista per raccogliere le righe della fattura
righe_fattura = []

# Estrazione delle linee della fattura
for linea in root.findall(".//{*}DettaglioLinee"):
    descrizione = linea.find(".//{*}Descrizione")
    quantita = linea.find(".//{*}Quantita")
    prezzo_unitario = linea.find(".//{*}PrezzoUnitario")
    prezzo_totale = linea.find(".//{*}PrezzoTotale") 
    iva = linea.find(".//{*}AliquotaIVA")

    riga = {
        "Data_Fattura": data_fattura,
        "Nr_Fattura": nr_fattura,
        "Descrizione": descrizione.text if descrizione is not None else None,
        "Quantita": float(quantita.text) if quantita is not None else None,
        "Prezzo_unit": float(prezzo_unitario.text) if prezzo_unitario is not None else None,
        "Prezzo_tot": float(prezzo_totale.text) if prezzo_totale is not None else None,
        "iva": float(iva.text) if iva is not None else None,

    }
    righe_fattura.append(riga)

# Creazione del DataFrame
df_fattura = pd.DataFrame(righe_fattura)

df_fattura['Prezzo_ivato'] = df_fattura['Prezzo_tot'] * (1 +  (df_fattura['iva'] / 100) )

In [80]:
df_fattura

Unnamed: 0,Data_Fattura,Nr_Fattura,Descrizione,Quantita,Prezzo_unit,Prezzo_tot,iva,Prezzo_ivato
0,2025-04-30,128,PUNTA D ANCA lotto 27 02 2025,7.2,25.0,180.0,10.0,198.0
1,2025-04-30,128,SOTTOFESA lotto 27 02 2025,9.0,25.0,225.0,10.0,247.5
2,2025-04-30,128,PUNTA D ANCA lotto 27 02 2025,3.35,25.0,83.75,10.0,92.125


In [81]:
# <ImportoTotaleDocumento>1233.69

df_fattura.Prezzo_ivato.sum()

np.float64(537.6250000000001)

In [38]:
import xml.etree.ElementTree as ET
import pandas as pd

# Carica e parse il file XML
tree = ET.parse("file_estratto.xml")  # Sostituisci con il tuo percorso
root = tree.getroot()

# Namespace usato nel file
ns = {'p': 'http://ivaservizi.agenziaentrate.gov.it/docs/xsd/fatture/v1.2'}

# Estrai i dati del CedentePrestatore
cedente_id = root.find('.//p:CedentePrestatore/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice', ns).text
cedente_den = root.find('.//p:CedentePrestatore/p:DatiAnagrafici/p:Anagrafica/p:Denominazione', ns).text

# Estrai i dati del CessionarioCommittente
cessionario_id = root.find('.//p:CessionarioCommittente/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice', ns).text
cessionario_den = root.find('.//p:CessionarioCommittente/p:DatiAnagrafici/p:Anagrafica/p:Denominazione', ns).text

# Crea un dizionario per la tabella
data = {
    'IdFiscaleIVA_Cedente': [cedente_id],
    'Denominazione_Cedente': [cedente_den],
    'IdFiscaleIVA_Cessionario': [cessionario_id],
    'Denominazione_Cessionario': [cessionario_den]
}

# Crea un DataFrame
df = pd.DataFrame(data)

df


AttributeError: 'NoneType' object has no attribute 'text'

In [41]:
import xml.etree.ElementTree as ET
import pandas as pd

# Carica il file XML
tree = ET.parse("file_estratto.xml")  # Sostituisci con il percorso corretto
root = tree.getroot()

# Definisci il namespace
ns = {'p': 'http://ivaservizi.agenziaentrate.gov.it/docs/xsd/fatture/v1.2'}

def get_text_or_none(path):
    el = root.find(path, ns)
    return el.text if el is not None else None

# Estrai i dati
cedente_id = get_text_or_none('.//p:CedentePrestatore/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice')
cedente_den = get_text_or_none('.//p:CedentePrestatore/p:DatiAnagrafici/p:Anagrafica/p:Denominazione')

cessionario_id = get_text_or_none('.//p:CessionarioCommittente/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice')
cessionario_den = get_text_or_none('.//p:CessionarioCommittente/p:DatiAnagrafici/p:Anagrafica/p:Denominazione')

# Verifica che tutti i dati siano presenti
if None in [cedente_id, cedente_den, cessionario_id, cessionario_den]:
    print("⚠️ Attenzione: alcuni elementi non sono stati trovati. Verifica la struttura XML.")
    print("Cedente ID:", cedente_id)
    print("Cedente Denominazione:", cedente_den)
    print("Cessionario ID:", cessionario_id)
    print("Cessionario Denominazione:", cessionario_den)

# Crea la tabella
df = pd.DataFrame([{
    'IdFiscaleIVA_Cedente': cedente_id,
    'Denominazione_Cedente': cedente_den,
    'IdFiscaleIVA_Cessionario': cessionario_id,
    'Denominazione_Cessionario': cessionario_den
}])

print(df)


⚠️ Attenzione: alcuni elementi non sono stati trovati. Verifica la struttura XML.
Cedente ID: None
Cedente Denominazione: None
Cessionario ID: None
Cessionario Denominazione: None
  IdFiscaleIVA_Cedente Denominazione_Cedente IdFiscaleIVA_Cessionario  \
0                 None                  None                     None   

  Denominazione_Cessionario  
0                      None  


In [42]:
import xml.etree.ElementTree as ET
import pandas as pd

# Carica il file XML
tree = ET.parse('file_estratto.xml')
root = tree.getroot()

# Namespace: nota che 'p' deve corrispondere a quello definito nel file
ns = {'p': 'http://ivaservizi.agenziaentrate.gov.it/docs/xsd/fatture/v1.2'}

def find_text(path):
    elem = root.find(path, ns)
    return elem.text if elem is not None else None

# Estrai dati cedente/prestatore
cedente_id = find_text('.//p:CedentePrestatore/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice')
cedente_den = find_text('.//p:CedentePrestatore/p:DatiAnagrafici/p:Anagrafica/p:Denominazione')

# Estrai dati cessionario/committente
cessionario_id = find_text('.//p:CessionarioCommittente/p:DatiAnagrafici/p:IdFiscaleIVA/p:IdCodice')
cessionario_den = find_text('.//p:CessionarioCommittente/p:DatiAnagrafici/p:Anagrafica/p:Denominazione')

# Stampa di controllo
print("Cedente ID:", cedente_id)
print("Cedente Denominazione:", cedente_den)
print("Cessionario ID:", cessionario_id)
print("Cessionario Denominazione:", cessionario_den)

# Crea DataFrame
df = pd.DataFrame([{
    'IdFiscaleIVA_Cedente': cedente_id,
    'Denominazione_Cedente': cedente_den,
    'IdFiscaleIVA_Cessionario': cessionario_id,
    'Denominazione_Cessionario': cessionario_den
}])

print(df)


Cedente ID: None
Cedente Denominazione: None
Cessionario ID: None
Cessionario Denominazione: None
  IdFiscaleIVA_Cedente Denominazione_Cedente IdFiscaleIVA_Cessionario  \
0                 None                  None                     None   

  Denominazione_Cessionario  
0                      None  
