In [None]:
from fpdf import FPDF

# Create instance of FPDF class
pdf = FPDF()

# Add a page
pdf.add_page()

# Set font
pdf.set_font("Arial", size=12)

# Add a cell
pdf.cell(200, 10, txt="Schema del Progetto di Software di Gestione", ln=True, align="C")

# Add introductory text
intro_text = """
Questo documento descrive i requisiti tecnici e il progetto di base per un software di gestione per una società B2B che si occupa di parti auto. Il software utilizzerà React, TypeScript e Bootstrap per il frontend, Node.js/Express.js per il backend, MongoDB per il database e Python per il motore statistico.
"""
pdf.multi_cell(0, 10, intro_text)

# Add section headers and content
sections = [
    (
        "Ruoli degli Utenti e Permessi",
        """
- **Amministratore:**
  - Accesso completo a tutte le funzionalità.
  - Gestione di utenti, prodotti e promozioni.
  - Visualizzazione e analisi di tutte le statistiche e gli avvisi.
  - Visualizzazione della progressione e delle promozioni attive per tutti i clienti.

- **Agente di Vendita:**
  - Gestione delle promozioni.
  - Visualizzazione delle statistiche dei clienti e degli avvisi per i clienti associati.
  - Visualizzazione delle promozioni relative ai clienti associati.

- **Cliente:**
  - Visualizzazione della propria cronologia degli acquisti e delle statistiche di spesa.
  - Visualizzazione delle promozioni disponibili.
  - Visualizzazione della progressione verso le promozioni.
    """,
    ),
    (
        "Funzionalità Principali",
        """
- **Gestione Clienti:**
  - Tracciare le abitudini di spesa e la cronologia degli acquisti.
  - Generare avvisi per clienti inattivi (visualizzabili solo da amministratori e agenti).
  - Assegnare i clienti agli agenti (un cliente per agente, più clienti per agente).

- **Gestione Promozioni:**
  - Creare, inviare e gestire promozioni via SMS/Email.
  - Tracciare la progressione verso le promozioni in base alla spesa.

- **Gestione Ordini:**
  - Importare ordini da file CSV.
  - Futuro: Integrare con l'API di e-commerce per ottenere gli ordini direttamente.

- **Statistiche e Avvisi:**
  - Generare e visualizzare statistiche sul comportamento dei clienti e sulle vendite.
  - Inviare avvisi per cambiamenti significativi nel comportamento dei clienti.
    """,
    ),
    (
        "Architettura di Alto Livello",
        """
1. **Frontend:**
   - **Framework:** React.js
   - **Linguaggio:** TypeScript
   - **Stile:** Bootstrap

2. **Backend:**
   - **Framework:** Node.js/Express.js
   - **Database:** MongoDB
   - **Autenticazione:** JWT, OAuth2
   - **Parsing CSV:** Utilizzare una libreria come `csv-parser` per gestire i file CSV.
   - **Integrazione API:** Predisposizione per l'integrazione con un'API di e-commerce.

3. **Motore Statistico:**
   - **Linguaggio:** Python
   - **Librerie:** Pandas, NumPy, Scikit-learn
   - **Comunicazione:** RabbitMQ per la coda dei messaggi

4. **Deployment:**
   - **Provider Cloud:** AWS, Azure, o Google Cloud
   - **CI/CD:** Jenkins, GitHub Actions, o GitLab CI
    """,
    ),
    (
        "Diagrammi Dettagliati",
        """
##### Diagramma dei Casi d'Uso

                   +---------------------+
                   |     Sistema di      |
                   |    Gestione         |
                   +---------------------+
                    /      |       /      //
                   /       |        /      //
                  /        |         /      //
                 /         |          /      //
      +---------+          |           /      +---------+
      | Amministratore |          |           /     | Cliente |
      +---------+          |            /    +---------+
           |               |             /       |
  +--------v--------+ +----v-------v----+   +-----v-----+
  | Gestione Utenti | | Gestione Promozioni | | Visualizza Statistiche |
  +-----------------+ +-----------------+   +-----------+
                           |
                     +-----v-----+
                     | Promozioni |
                     +-----------+
                           |
                     +-----v-----+
                     |  Ordini    |
                     +-----------+
    """,
    ),
    (
        "Component Diagram",
        """
##### Diagramma dei Componenti

 +-------------------+     +-------------------+
 |     Frontend      |     |      Backend      |
 | (React.js)        |<--> | (Node.js/Express) |
 +-------------------+     +-------------------+
            |                      |
            |                      |
            v                      v
    +--------------+        +-------------+
    |   MongoDB    |        |   Python    |
    +--------------+        +-------------+
            |                      |
            |                      |
            v                      v
        +---------+         +-------------+
        | RabbitMQ|<------->| Python Stats|
        +---------+         +-------------+
            |
            |
        +---------+
        | CSV/API |
        +---------+
    """,
    ),
    (
        "Entity-Relationship Diagram (ERD)",
        """
##### Diagramma Entità-Relazioni (ERD)

 +-------------+     +-------------+     +-------------+
 |  Cliente    |     |   Prodotto   |     | Promozione  |
 +-------------+     +-------------+     +-------------+
        |                   |                   |
        |                   |                   |
        +-------------------+-------------------+
                            |
                            |
                       +----------+
                       |  Ordine  |
                       +----------+
                            |
                       +----------+
                       | Statistiche|
                       +----------+
                            |
                       +----------+
                       |   Agente  |
                       +----------+
    """,
    ),
    (
        "Panoramica Funzionale",
        """
#### Componenti del Frontend

1. **Dashboard Amministratore:**
   - Gestione Utenti: Aggiungere, modificare, eliminare utenti.
   - Gestione Promozioni: Creare e inviare promozioni.
   - Visualizzare Statistiche Clienti: Analisi e report dettagliati.
   - Importazione Ordini: Caricare file CSV per importare ordini.
   - Visualizzare e Gestire Avvisi.
   - Visualizzare la progressione e le promozioni attive per tutti i clienti.

2. **Dashboard Agente di Vendita:**
   - Gestione Promozioni: Creare e inviare promozioni.
   - Visualizzare Statistiche Clienti: Informazioni sul comportamento dei clienti associati.
   - Visualizzare Avvisi: Notifiche per cambiamenti significativi nel comportamento dei clienti associati.
   - Visualizzare Promozioni: Relativi ai clienti associati.

3. **Dashboard Cliente:**
   - Visualizzare Statistiche Personali: Accesso alla cronologia degli acquisti personali e alle statistiche di spesa.
   - Visualizzare Promozioni: Accesso alle promozioni disponibili.
   - Visualizzare Progressione: Progressione verso le promozioni.

#### Servizi del Backend

1. **Gestione Utenti:**
   - Endpoint API per operazioni CRUD sugli utenti.
   - Autenticazione e autorizzazione tramite JWT.
   - Assegnare i clienti agli agenti.

2. **Gestione Promozioni:**
   - Endpoint API per creare e inviare promozioni via SMS/Email.
   - Tracciare la progressione dei clienti verso le promozioni.

3. **Gestione Ordini:**
   - Endpoint API per caricare e analizzare file CSV.
   - Servizio futuro per l'integrazione con l'API di e-commerce.

4. **Gestione Statistiche e Avvisi:**
   - Endpoint API per generare e recuperare statistiche.
   - Integrazione con Python per analisi avanzate.
    """,
    ),
    (
        "Prossimi Passi",
        """
1. **Definire gli Endpoint API:**
   - Elencare tutti gli endpoint necessari per la gestione di utenti, promozioni, ordini e statistiche.
   - Includere endpoint per il caricamento di file CSV e l'integrazione futura con l'API.

2. **Configurare l'Ambiente Iniziale:**
   - Configurare MongoDB, Node.js/Express, e le strutture del progetto React.
   - Configurare RabbitMQ e l'ambiente Python.

3. **Sviluppare le Funzionalità Core:**
   - Implementare le funzionalità principali come l'autenticazione degli utenti, la gestione delle promozioni e il tracciamento base degli ordini.
   - Assegnare i clienti agli agenti e gestire le associazioni.

4. **Integrare la Gestione dei CSV:**
   - Implementare la funzionalità di caricamento e analisi dei file CSV.

5. **Pianificare l'Integrazione Futura con l'API:**
   - Progettare il sistema in modo da poter passare facilmente dai caricamenti CSV alle chiamate API.
   - Implementare un servizio di placeholder per l'integrazione con l'API.

6. **Implementare il Frontend:**
   - Creare componenti React per le dashboard di amministratori, agenti di vendita e clienti.

7. **Test e Deployment:**
   - Eseguire test approfonditi di tutte le funzionalità.
   - Configurare una pipeline CI/CD per il deployment.
    """,
    ),
]

for title, content in sections:
    pdf.set_font("Arial", size=12, style="B")
    pdf.cell(0, 10, title, ln=True)
    pdf.set_font("Arial", size=12)
    pdf.multi_cell(0, 10, content)

# Save the PDF
pdf_output = "D:/coding/git-projects/rcs_management_stats/project_basis.pdf"
pdf.output(pdf_output)

pdf_output

  ("Diagrammi Dettagliati", """


'D:/coding/git-projects/rcs_management_stats/python.pdf'

In [None]:
from fpdf import FPDF


class PDF(FPDF):
    def header(self):
        self.set_font("Arial", "B", 12)
        self.cell(0, 10, "Piano di Implementazione", 0, 1, "C")
        self.ln(10)

    def chapter_title(self, title):
        self.set_font("Arial", "B", 12)
        self.cell(0, 10, title, 0, 1, "L")
        self.ln(4)

    def chapter_body(self, body):
        self.set_font("Arial", "", 12)
        self.multi_cell(0, 10, body)
        self.ln()

    def add_chapter(self, title, body):
        self.add_page()
        self.chapter_title(title)
        self.chapter_body(body)


pdf = PDF()

# Title
pdf.set_title("Piano di Implementazione")

# Content
content = """
1. Panoramica delle Pagine e Componenti
Costruiremo le seguenti pagine per agenti, amministratori e clienti:

Pagina Clienti
Pagina Visite
Pagina Statistiche (In Costruzione)
Pagina Promozioni
Pagina Avvisi
Pagina Ordini
Pagina Articoli
Pagina Crea Avviso
Pagina Rapporto Visita
Successivamente, creeremo i dashboard per amministratori e clienti:

Dashboard Amministratore
Dashboard Cliente

2. Struttura delle Pagine e Componenti

Pagina Clienti
Componenti:
Elenco Clienti: Visualizza un elenco di clienti.
Ricerca e Filtri Clienti: Funzionalità di ricerca per filtrare i clienti per vari criteri (data, agente, cliente).
Dettagli Cliente: Mostra informazioni dettagliate su un cliente selezionato.
Storico Visite: Visualizza le note delle visite relative al cliente selezionato.
Funzionalità:
Vista Agente: Vede solo i clienti associati all'agente.
Vista Amministratore: Vede tutti i clienti, con informazioni sugli agenti associati.
Vista Cliente: Vede informazioni dettagliate su se stesso e lo storico delle visite.

Pagina Visite
Componenti:
Elenco Visite: Visualizza un elenco paginato di visite (25 per pagina).
Dettagli Visita: Mostra informazioni dettagliate su una visita selezionata.
Modulo Rapporto Visita (Pagina Separata): Un modulo per agenti e clienti per riportare i dettagli sulla visita.
Funzionalità:
Vista Agente: Vede solo le visite relative all'agente. Le visite senza rapporti sono evidenziate.
Vista Amministratore: Vede tutte le visite. Monitora i rapporti di visita in ritardo.
Vista Cliente: Vede le visite relative al cliente. Può inviare un rapporto di visita.
Avvisi automatizzati per i rapporti di visita in ritardo (24 ore dopo la visita).
Visite modificabili: Gli agenti possono spostare o riprogrammare le visite. Questo genera un avviso per gli amministratori.
Modulo Rapporto Visita: Diviso in una parte pubblica (visibile ai clienti) e una parte privata (visibile solo agli agenti e amministratori).

Pagina Statistiche
Componenti:
In Costruzione: Segnaposto che indica che la pagina è in costruzione.

Pagina Promozioni
Componenti:
Elenco Promozioni: Visualizza un elenco di promozioni attuali e passate.
Dettagli Promozione: Mostra informazioni dettagliate su una promozione selezionata.
Modulo Crea Promozione: Un modulo per creare nuove promozioni.
Funzionalità:
Vista Agente: Vede le promozioni relative ai clienti dell'agente.
Vista Amministratore: Vede tutte le promozioni.
Vista Cliente: Vede le promozioni relative a se stesso, se ha raggiunto gli obiettivi.

Pagina Avvisi
Componenti:
Elenco Avvisi: Visualizza un elenco di avvisi (automatici e manuali).
Dettagli Avviso: Mostra informazioni dettagliate su un avviso selezionato.
Funzionalità:
Vista Agente: Vede gli avvisi relativi all'agente.
Vista Amministratore: Vede tutti gli avvisi. Crea e gestisce avvisi.
Vista Cliente: Vede gli avvisi relativi a se stesso.

Pagina Ordini
Componenti:
Elenco Ordini: Visualizza un elenco di ordini dei clienti.
Dettagli Ordine: Mostra informazioni dettagliate su un ordine selezionato.
Funzionalità:
Vista Agente: Vede solo gli ordini dei clienti associati all'agente.
Vista Amministratore: Vede tutti gli ordini dei clienti.
Vista Cliente: Vede solo i propri ordini.
Informazioni sugli articoli collegati agli ordini, comprese le promozioni utilizzate e lo stato dei debiti.

Pagina Articoli
Componenti:
Elenco Articoli: Visualizza un elenco di articoli.
Ricerca e Filtri Articoli: Funzionalità di ricerca e filtro per ordinare gli articoli (migliori vendite, ecc.).
Dettagli Articolo: Mostra informazioni dettagliate su un articolo selezionato.
Funzionalità:
Vista Agente: Vede solo gli articoli relativi agli ordini dei clienti associati all'agente.
Vista Amministratore: Vede tutti gli articoli.
Vista Cliente: Vede solo gli articoli relativi ai propri ordini, con un link all'ordine relativo.
Informazioni sugli articoli: numero OEM compatibile, ID del produttore, nome, descrizione, promozioni o coupon associati.
Collegamento automatico degli articoli con lo stesso numero OEM.

Pagina Crea Avviso
Componenti:
Modulo Crea Avviso: Un modulo per creare nuovi avvisi.
Funzionalità:
Vista Amministratore: Crea nuovi avvisi.

Pagina Rapporto Visita
Componenti:
Modulo Rapporto Visita: Un modulo per riportare i dettagli su una visita.
Funzionalità:
Vista Agente: Invia rapporti di visita.
Vista Cliente: Invia feedback su una visita.
Parte Pubblica: Visibile ai clienti.
Parte Privata: Visibile solo agli agenti e amministratori.

3. Dashboard

Dashboard Amministratore
Componenti:
Panoramica: Riepilogo delle metriche e delle statistiche chiave.
Gestione Utenti: Gestisce agenti e clienti.
Avvisi di Sistema: Visualizza avvisi e notifiche di sistema.
Funzionalità:
Visualizza statistiche generali del sistema.
Gestisce gli utenti (agenti e clienti).
Monitora avvisi e notifiche di sistema.
Interagisce con tutte le funzionalità degli agenti per la supervisione amministrativa.

Dashboard Cliente
Componenti:
Panoramica: Riepilogo dell'attività e delle statistiche del cliente.
Storico Acquisti: Visualizza uno storico degli ordini del cliente.
Promozioni Attive: Visualizza le promozioni attuali disponibili per il cliente.
Abitudini di Spesa: Rappresentazione visiva delle abitudini di spesa del cliente.
Funzionalità:
Visualizza attività e statistiche personali.
Accede allo storico degli acquisti.
Visualizza promozioni attive.
Monitora abitudini di spesa.
Interazione con Promozioni e Avvisi per dati personalizzati.

4. Tipi di Agenti
- Agenti di Vendita: Gestiscono le vendite e il rapporto con i clienti.
- Agenti di Vendita Tecnici: Forniscono supporto tecnico durante le vendite.
- Agenti di Supporto Tecnico: Offrono supporto tecnico post-vendita.
Nota: Tutti i tipi di agenti saranno trattati allo stesso modo all'interno dell'app. L'app verificherà il tipo di agente al momento del login e fornirà l'accesso alle funzioni richieste in base al loro ruolo.

5. Piano di Implementazione

Impostare le Rotte e i Componenti delle Pagine
Definire le rotte per ogni pagina nei dashboard dell'agente, dell'amministratore e del cliente.
Creare la struttura di base per ogni pagina.

Implementare le Funzionalità per Ogni Pagina
Pagina Clienti: Implementare ricerca clienti, filtri, dettagli e storico visite in base al tipo di utente loggato.
Pagina Visite: Implementare elenco visite, dettagli e funzionalità di reporting. Automatizzare avvisi per rapporti in ritardo.
Pagina Promozioni: Implementare elenco promozioni, dettagli e modulo di creazione con tracciamento dell'efficacia.
Pagina Avvisi: Sviluppare elenco avvisi, dettagli e modulo di creazione con tracciamento della risoluzione.
Pagina Ordini: Implementare elenco ordini, dettagli e informazioni sugli articoli.
Pagina Articoli: Implementare elenco articoli, ricerca, filtri, dettagli e collegamenti automatici.
Pagina Crea Avviso: Implementare il modulo per la creazione di nuovi avvisi da parte degli amministratori.
Pagina Rapporto Visita: Implementare il modulo per l'invio di rapporti di visita da parte di agenti e clienti.

Sviluppare i Dashboard
Impostare le rotte e la struttura di base per i dashboard di amministratori e clienti.
Implementare funzionalità specifiche e componenti per ogni dashboard.

Integrare e Testare
Assicurarsi che tutte le pagine e i componenti siano integrati e funzionali.
Condurre test approfonditi per identificare e risolvere problemi.

Esempio Dettagliato: Implementazione della Pagina Clienti
Componenti:
ClientsList.tsx: Visualizza un elenco di clienti.
ClientSearchFilters.tsx: Filtra i clienti per data, agente, cliente.
ClientDetails.tsx: Mostra informazioni dettagliate su un cliente selezionato.
VisitsHistory.tsx: Visualizza le note delle visite relative al cliente selezionato.

Interazione:
Filtrare per cliente o data aggiorna il componente VisitsHistory per mostrare le note di visita pertinenti.

Sommario del Piano Generale
Pagina Clienti: Creare e integrare componenti con filtri e interazione cliente-visita.
Pagina Visite: Implementare elenco visite, dettagli e funzionalità di reporting. Automatizzare avvisi per rapporti in ritardo.
Pagina Promozioni: Implementare elenco promozioni, dettagli e modulo di creazione con tracciamento dell'efficacia.
Pagina Avvisi: Sviluppare elenco avvisi, dettagli e modulo di creazione con tracciamento della risoluzione.
Pagina Ordini: Implementare elenco ordini, dettagli e informazioni sugli articoli.
Pagina Articoli: Implementare elenco articoli, ricerca, filtri, dettagli e collegamenti automatici.
Dashboard Amministratore e Cliente: Personalizzare i dashboard con funzionalità e dati rilevanti.
Pagina Crea Avviso: Implementare il modulo per la creazione di nuovi avvisi da parte degli amministratori.
Pagina Rapporto Visita: Implementare il modulo per l'invio di rapporti di visita da parte di agenti e clienti.

Seguendo questo piano strutturato, ci assicuriamo che tutte le funzionalità siano ben pensate e integrate senza problemi. Una volta che avremo un piano chiaro e comprensione, possiamo iniziare a codificare ogni componente passo dopo passo. Se hai domande specifiche o necessiti di ulteriori dettagli su qualsiasi parte, non esitare a chiedere!
"""

pdf.add_chapter("Piano di Implementazione", content)

# Save the PDF to a file
pdf.output("Piano_di_Implementazione.pdf")

''

In [10]:
import pandas as pd
import json
from numpyencoder import NumpyEncoder

# Load the dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024.xlsx"
df = pd.read_excel(file_path)

# Inspect the columns
print(df.columns)

# Group by 'Numero Documento Attuale' and 'Codice Cliente'
grouped = df.groupby(["Numero Documento Attuale", "Codice Cliente"])


# Function to sort within groups
def sort_within_group(group):
    return group.sort_values(by=["Numero Lista"])


# Apply sorting within each group
sorted_df = grouped.apply(sort_within_group).reset_index(drop=True)


# Convert the sorted DataFrame to a list of dictionaries
def convert_to_json(df):
    orders = []

    for (doc_num, client_code), group in df.groupby(
        ["Numero Documento Attuale", "Codice Cliente"]
    ):
        movements = group.to_dict(orient="records")
        order = {
            "documentNumber": doc_num,
            "clientCode": client_code,
            "movements": movements,
        }
        orders.append(order)

    return orders


# Convert to JSON-like structure
orders_json = convert_to_json(sorted_df)

# Save the orders JSON to a file
output_path = "X:/artor/Downloads/json.json"
with open(output_path, "w") as f:
    json.dump(orders_json, f, indent=4, cls=NumpyEncoder)

print("JSON file created successfully.")

Index(['Data Lista', 'Tipo Documento Attuale', 'Data Documento Attuale',
       'Numero Documento Attuale', 'Lettera Documento Attuale',
       'Tipo Documento Precedente', 'Data Documento Precedente',
       'Numero Documento Precedente', 'Lettera Documento Precedente',
       'Codice Cliente', 'Ragione Sociale Cliente', 'Codice Agente',
       'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo',
       'Descrizione Articolo', 'Quantita Articolo', 'Prezzo Articolo',
       'Valore', 'Mese', 'Anno', 'Costo', 'Gruppo Merceologico', 'Famiglia',
       'Categoria Sconto Vendita', 'Reparto', 'Numero Lista'],
      dtype='object')


  sorted_df = grouped.apply(sort_within_group).reset_index(drop=True)


JSON file created successfully.


In [11]:
import pandas as pd
import json
from numpyencoder import NumpyEncoder

# Load the dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024.xlsx"
df = pd.read_excel(file_path)

# Inspect the columns
print(df.columns)


# Function to sort within groups
def sort_within_group(group):
    return group.sort_values(by=["Numero Lista"])


# Apply sorting by 'Ragione Sociale Cliente' and then group by 'Data Documento Attuale'
df_sorted = df.sort_values(by=["Ragione Sociale Cliente", "Data Documento Attuale"])

# Group by 'Ragione Sociale Cliente' and 'Data Documento Attuale'
grouped = df_sorted.groupby(["Ragione Sociale Cliente", "Data Documento Attuale"])


# Convert the sorted DataFrame to a list of dictionaries
def convert_to_json(df):
    orders = []

    for (client_name, doc_date), group in df.groupby(
        ["Ragione Sociale Cliente", "Data Documento Attuale"]
    ):
        group_sorted = group.sort_values(by=["Numero Lista"])
        movements = group_sorted.to_dict(orient="records")
        order = {
            "clientName": client_name,
            "documentDate": doc_date,
            "movements": movements,
        }
        orders.append(order)

    return orders


# Convert to JSON-like structure
orders_json = convert_to_json(df_sorted)

# Save the orders JSON to a file
output_path = "X:/artor/Downloads/json.json"
with open(output_path, "w") as f:
    json.dump(orders_json, f, indent=4, cls=NumpyEncoder)

print("JSON file created successfully.")

Index(['Data Lista', 'Tipo Documento Attuale', 'Data Documento Attuale',
       'Numero Documento Attuale', 'Lettera Documento Attuale',
       'Tipo Documento Precedente', 'Data Documento Precedente',
       'Numero Documento Precedente', 'Lettera Documento Precedente',
       'Codice Cliente', 'Ragione Sociale Cliente', 'Codice Agente',
       'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo',
       'Descrizione Articolo', 'Quantita Articolo', 'Prezzo Articolo',
       'Valore', 'Mese', 'Anno', 'Costo', 'Gruppo Merceologico', 'Famiglia',
       'Categoria Sconto Vendita', 'Reparto', 'Numero Lista'],
      dtype='object')
JSON file created successfully.


In [15]:
import pandas as pd

# Load the dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=["Numero Lista"])

# Group by 'Ragione Sociale Cliente'
grouped = df_sorted.groupby(["Ragione Sociale Cliente"])

# Sort each group by 'Data Documento Attuale'
sorted_df = grouped.apply(
    lambda x: x.sort_values(by="Data Documento Precedente")
).reset_index(drop=True)

# Drop columns that are not useful for our purposes
columns_to_keep = [
    "Ragione Sociale Cliente",
    "Codice Cliente",
    "Codice Agente",
    "Identificativo Articolo",
    "Codice Articolo",
    "Marca Articolo",
    "Descrizione Articolo",
    "Valore",
    "Mese",
    "Anno",
    "Costo",
    "Numero Lista",
    "Codice Cliente",
    "Prezzo Articolo",
    "Valore",
    "Data Documento Precedente",
    "Categoria Sconto Vendita",
]

# Save the cleaned DataFrame to a new Excel file
output_path = "X:/artor/Downloads/cleaned_mov_ven_01_06_2024.xlsx"
cleaned_df.to_excel(output_path, index=False)

print("Dataset cleaned and saved successfully.")

  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)


Dataset cleaned and saved successfully.


Code to convert the dataframe.


In [16]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024_original.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=["Numero Lista"])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
grouped = df_sorted.groupby(["Ragione Sociale Cliente"])
sorted_df = grouped.apply(
    lambda x: x.sort_values(by="Data Documento Precedente")
).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df["Data Documento Precedente"].isna()
sorted_df.loc[missing_dates_mask, "Data Documento Precedente"] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, "Anno"].astype(str)
    + "-"
    + sorted_df.loc[missing_dates_mask, "Mese"].astype(str)
    + "-01"
)

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df["Codice Agente"] = sorted_df.groupby("Ragione Sociale Cliente")[
    "Codice Agente"
].fillna(method="ffill")

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    "Ragione Sociale Cliente",
    "Codice Cliente",
    "Codice Agente",
    "Identificativo Articolo",
    "Codice Articolo",
    "Marca Articolo",
    "Descrizione Articolo",
    "Valore",
    "Mese",
    "Anno",
    "Costo",
    "Numero Lista",
    "Prezzo Articolo",
    "Data Documento Precedente",
    "Categoria Sconto Vendita",
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df["Valore"] = cleaned_df["Valore"].str.replace(",", ".").astype(float)
cleaned_df["Costo"] = cleaned_df["Costo"].str.replace(",", ".").astype(float)
cleaned_df["Prezzo Articolo"] = (
    cleaned_df["Prezzo Articolo"].str.replace(",", ".").astype(float)
)

# Convert 'Data Documento Precedente' to datetime format
cleaned_df["Data Documento Precedente"] = pd.to_datetime(
    cleaned_df["Data Documento Precedente"], format="%Y%m%d", errors="coerce"
)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

cleaned_file_path

  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
[]
Length: 0, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  sorted_df.loc[missing_dates_mask, 'Data Documento Precedente'] = pd.to_datetime(
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] =

'X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx'

In [3]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024_original.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=["Numero Lista"])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
df_sorted["Data Documento Precedente"] = pd.to_datetime(
    df_sorted["Data Documento Precedente"], format="%Y%m%d", errors="coerce"
)
grouped = df_sorted.groupby(["Ragione Sociale Cliente"])
sorted_df = grouped.apply(
    lambda x: x.sort_values(by="Data Documento Precedente")
).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df["Data Documento Precedente"].isna()
sorted_df.loc[missing_dates_mask, "Data Documento Precedente"] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, "Anno"].astype(str)
    + "-"
    + sorted_df.loc[missing_dates_mask, "Mese"].astype(str)
    + "-01"
)

# Verify that no 'Data Documento Precedente' values are missing
missing_dates_after = sorted_df["Data Documento Precedente"].isna().sum()
print(f"Missing 'Data Documento Precedente' after filling: {missing_dates_after}")

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df["Codice Agente"] = sorted_df.groupby("Ragione Sociale Cliente")[
    "Codice Agente"
].fillna(method="ffill")

# Backward fill in case there are still missing values at the beginning of the groups
sorted_df["Codice Agente"] = sorted_df.groupby("Ragione Sociale Cliente")[
    "Codice Agente"
].fillna(method="bfill")

# Assign temporary Codice Agente for any remaining missing values
sorted_df["Codice Agente"].fillna(99, inplace=True)

# Verify that no 'Codice Agente' values are missing
missing_agente_after = sorted_df["Codice Agente"].isna().sum()
print(f"Missing 'Codice Agente' after filling: {missing_agente_after}")

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    "Data Documento Precedente",
    "Mese",
    "Anno",
    "Ragione Sociale Cliente",
    "Codice Cliente",
    "Codice Agente",
    "Identificativo Articolo",
    "Codice Articolo",
    "Marca Articolo",
    "Descrizione Articolo",
    "Valore",
    "Costo",
    "Numero Lista",
    "Prezzo Articolo",
    "Categoria Sconto Vendita",
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df["Valore"] = cleaned_df["Valore"].str.replace(",", ".").astype(float)
cleaned_df["Costo"] = cleaned_df["Costo"].str.replace(",", ".").astype(float)
cleaned_df["Prezzo Articolo"] = (
    cleaned_df["Prezzo Articolo"].str.replace(",", ".").astype(float)
)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

print("Cleaning process completed and saved to", cleaned_file_path)

  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sorted_df['Codice Agente'].fillna(99, inplac

Missing 'Data Documento Precedente' after filling: 0
Missing 'Codice Agente' after filling: 0
Cleaning process completed and saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx


In [20]:
# Load the cleaned dataset provided by the user
cleaned_user_file_path = "X:/artor/Downloads/movimenti01_2024_06_2024_cleaned.xlsx"
cleaned_user_df = pd.read_excel(cleaned_user_file_path)

# Load the cleaned dataset from our process
cleaned_our_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx"
cleaned_our_df = pd.read_excel(cleaned_our_file_path)

# Compare the two datasets
comparison_results = {
    "Shape Comparison": cleaned_user_df.shape == cleaned_our_df.shape,
    "Column Names Comparison": cleaned_user_df.columns.tolist()
    == cleaned_our_df.columns.tolist(),
    "First Few Rows Comparison": cleaned_user_df.head().equals(cleaned_our_df.head()),
}

comparison_results

{'Shape Comparison': False,
 'Column Names Comparison': False,
 'First Few Rows Comparison': False}

In [1]:
import json

input_file_path = "frontend\public\data\datasetsfrom01JANto12JUN.json"  # Path to your dataset JSON file
output_file_path = "frontend\public\data\datasetsfrom01JANto12JUN.min.json"  # Path for the minified JSON file

with open(input_file_path, "r", encoding="utf-8") as file:
    data = json.load(file)

minified_json = json.dumps(data, separators=(",", ":"))

with open(output_file_path, "w", encoding="utf-8") as file:
    file.write(minified_json)

print("Minified JSON file created successfully!")

  input_file_path = 'frontend\public\datasetsfrom01JANto12JUN.json'  # Path to your dataset JSON file
  output_file_path = 'frontend\public\datasetsfrom01JANto12JUN.min.json'  # Path for the minified JSON file


Minified JSON file created successfully!


In [2]:
import json

input_file_path = "frontend\public\data\clientdetailsdataset02072024.json"  # Path to your dataset JSON file
output_file_path = "frontend\public\data\clientdetailsdataset02072024.min.json"  # Path for the minified JSON file

with open(input_file_path, "r", encoding="utf-8") as file:
    data = json.load(file)

minified_json = json.dumps(data, separators=(",", ":"))

with open(output_file_path, "w", encoding="utf-8") as file:
    file.write(minified_json)

print("Minified JSON file created successfully!")

Minified JSON file created successfully!


  input_file_path = 'frontend\public\clientdetailsdataset02072024.json'  # Path to your dataset JSON file
  output_file_path = 'frontend\public\clientdetailsdataset02072024.min.json'  # Path for the minified JSON file


In [6]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/rcs/mov_ven_01_06_2024.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=["Numero Lista"])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
df_sorted["Data Documento Precedente"] = pd.to_datetime(
    df_sorted["Data Documento Precedente"], format="%Y%m%d", errors="coerce"
)
grouped = df_sorted.groupby(["Ragione Sociale Cliente"])
sorted_df = grouped.apply(
    lambda x: x.sort_values(by="Data Documento Precedente")
).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df["Data Documento Precedente"].isna()
sorted_df.loc[missing_dates_mask, "Data Documento Precedente"] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, "Anno"].astype(str)
    + "-"
    + sorted_df.loc[missing_dates_mask, "Mese"].astype(str)
    + "-01"
)

# Verify that no 'Data Documento Precedente' values are missing
missing_dates_after = sorted_df["Data Documento Precedente"].isna().sum()
print(f"Missing 'Data Documento Precedente' after filling: {missing_dates_after}")

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df["Codice Agente"] = sorted_df.groupby("Ragione Sociale Cliente")[
    "Codice Agente"
].fillna(method="ffill")

# Backward fill in case there are still missing values at the beginning of the groups
sorted_df["Codice Agente"] = sorted_df.groupby("Ragione Sociale Cliente")[
    "Codice Agente"
].fillna(method="bfill")

# Assign temporary Codice Agente for any remaining missing values
sorted_df["Codice Agente"].fillna(99, inplace=True)

# Verify that no 'Codice Agente' values are missing
missing_agente_after = sorted_df["Codice Agente"].isna().sum()
print(f"Missing 'Codice Agente' after filling: {missing_agente_after}")

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    "Data Documento Precedente",
    "Mese",
    "Anno",
    "Ragione Sociale Cliente",
    "Codice Cliente",
    "Codice Agente",
    "Identificativo Articolo",
    "Codice Articolo",
    "Marca Articolo",
    "Descrizione Articolo",
    "Valore",
    "Costo",
    "Numero Lista",
    "Prezzo Articolo",
    "Categoria Sconto Vendita",
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df["Valore"] = cleaned_df["Valore"].str.replace(",", ".").astype(float)
cleaned_df["Costo"] = cleaned_df["Costo"].str.replace(",", ".").astype(float)
cleaned_df["Prezzo Articolo"] = (
    cleaned_df["Prezzo Articolo"].str.replace(",", ".").astype(float)
)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

# Convert to JSON format
json_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.json"
cleaned_df.to_json(json_file_path, orient="records", date_format="iso")

print("Cleaning process completed and saved to", cleaned_file_path)
print("JSON file saved to", json_file_path)

  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sorted_df['Codice Agente'].fillna(99, inplac

Missing 'Data Documento Precedente' after filling: 0
Missing 'Codice Agente' after filling: 0
Cleaning process completed and saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx
JSON file saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.json


In [2]:
import pandas as pd

# Load the original dataset
file_path = "Z:/My Drive/rcs/mov_ven_01_06_2024.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=["Numero Lista"])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
df_sorted["Data Documento Precedente"] = pd.to_datetime(
    df_sorted["Data Documento Precedente"], format="%Y%m%d", errors="coerce"
)
grouped = df_sorted.groupby(["Ragione Sociale Cliente"])
sorted_df = grouped.apply(
    lambda x: x.sort_values(by="Data Documento Precedente", ascending=False)
).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df["Data Documento Precedente"].isna()
sorted_df.loc[missing_dates_mask, "Data Documento Precedente"] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, "Anno"].astype(str)
    + "-"
    + sorted_df.loc[missing_dates_mask, "Mese"].astype(str)
    + "-01"
)

# Verify that no 'Data Documento Precedente' values are missing
missing_dates_after = sorted_df["Data Documento Precedente"].isna().sum()
print(f"Missing 'Data Documento Precedente' after filling: {missing_dates_after}")


# Apply the Codice Agente in reverse order based on the latest entry
def fill_agente_reverse(group):
    group = group.sort_values(by="Data Documento Precedente", ascending=False)
    latest_agente = group["Codice Agente"].iloc[0]
    group["Codice Agente"].fillna(latest_agente, inplace=True)
    return group


sorted_df = (
    sorted_df.groupby("Ragione Sociale Cliente")
    .apply(fill_agente_reverse)
    .reset_index(drop=True)
)

# Assign temporary Codice Agente for any remaining missing values
sorted_df["Codice Agente"].fillna(100, inplace=True)

# Verify that no 'Codice Agente' values are missing
missing_agente_after = sorted_df["Codice Agente"].isna().sum()
print(f"Missing 'Codice Agente' after filling: {missing_agente_after}")

# Drop entries where 'Codice Articolo', 'Marca Articolo', or 'Categoria Sconto Vendita' are "NC"
filtered_df = sorted_df[
    (sorted_df["Codice Articolo"] != "NC")
    & (sorted_df["Marca Articolo"] != "NC")
    & (sorted_df["Categoria Sconto Vendita"] != "NC")
]

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    "Data Documento Precedente",
    "Mese",
    "Anno",
    "Ragione Sociale Cliente",
    "Codice Cliente",
    "Codice Agente",
    "Identificativo Articolo",
    "Codice Articolo",
    "Marca Articolo",
    "Descrizione Articolo",
    "Valore",
    "Costo",
    "Numero Lista",
    "Prezzo Articolo",
    "Categoria Sconto Vendita",
]
cleaned_df = filtered_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df["Valore"] = cleaned_df["Valore"].str.replace(",", ".").astype(float)
cleaned_df["Costo"] = cleaned_df["Costo"].str.replace(",", ".").astype(float)
cleaned_df["Prezzo Articolo"] = (
    cleaned_df["Prezzo Articolo"].str.replace(",", ".").astype(float)
)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "Z:/My Drive/rcs/mov_ven_01_06_2024_final.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

# Convert to JSON format
json_file_path = "Z:/My Drive/rcs/mov_ven_01_06_2024_final.json"
cleaned_df.to_json(json_file_path, orient="records", date_format="iso")

print("Cleaning process completed and saved to", cleaned_file_path)
print("JSON file saved to", json_file_path)

  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente', ascending=False)).reset_index(drop=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  group['Codice Agente'].fillna(latest_agente, inplace=True)


Missing 'Data Documento Precedente' after filling: 0


  sorted_df = sorted_df.groupby('Ragione Sociale Cliente').apply(fill_agente_reverse).reset_index(drop=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sorted_df['Codice Agente'].fillna(100, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = 

Missing 'Codice Agente' after filling: 0
Cleaning process completed and saved to Z:/My Drive/rcs/mov_ven_01_06_2024_final.xlsx
JSON file saved to Z:/My Drive/rcs/mov_ven_01_06_2024_final.json


In [9]:
import xlrd
import csv

xls_file = "X:/artor/Downloads/rcs/Estrapolo clienti con dettagli per Damiano.xls"
csv_output_file = (
    "X:/artor/Downloads/rcs/Estrapolo clienti con dettagli per Damiano_cleaned.csv"
)


# Function to clean and process each row from the XLS file
def process_xls(input_file, output_file):
    wb = xlrd.open_workbook(input_file)
    sheet = wb.sheet_by_index(0)

    with open(output_file, "w", newline="", encoding="utf-8") as csvout:
        csvwriter = csv.writer(csvout)

        # Write header row
        csvwriter.writerow(sheet.row_values(0))

        # Process each row starting from the second row (index 1)
        for row_idx in range(1, sheet.nrows):
            row = sheet.row_values(row_idx)

            # Convert row values to strings
            row = [str(val) for val in row]

            # Remove leading zeros from CODICE (assuming it's the first column, adjust if necessary)
            codice_cliente = row[0].lstrip("0")
            row[0] = codice_cliente

            # Assign placeholder AG code 100 if missing (assuming AG is the last column, adjust if necessary)
            ag_code = row[-1]
            if not ag_code.strip():
                row[-1] = "100"

            # Write cleaned row to CSV
            csvwriter.writerow(row)

    print(
        f"XLS file {input_file} successfully processed. Cleaned file saved to {output_file}."
    )


# Process the XLS file
process_xls(xls_file, csv_output_file)

XLS file X:/artor/Downloads/rcs/Estrapolo clienti con dettagli per Damiano.xls successfully processed. Cleaned file saved to X:/artor/Downloads/rcs/Estrapolo clienti con dettagli per Damiano_cleaned.csv.


In [15]:
import xlrd
import json

# Define the input and output file paths
xls_file = "Z:/My Drive/rcs/Estrapolo clienti con dettagli per Damiano.xls"
json_output_file = "D:/coding/rcs_management_project-1/frontend/public/data/clientdetailsdataset02072024.min.json"

# List of foreign "RAGIONE SOCIALE"
foreign_ragione_sociale = [
    "KOSSER JSC",
    "PRESTOLITE ELECTIRC LIMITED",
    "SHF TRADE TD LTD",
    "NEAT AUTOS LTD",
    "SUPERIORCARUSO SERVICE",
    "MOTOR & TRANSMISSIONSTEKNIK",
    "RAIN GROUP TRADING FZE",
    "LUCAS DIESEL Inyeccion Diesel",
    "SURIPE_x001a_S - IMPORTA_x001a_O E",
    "AOI SOLUTIONS GMBH",
    "MARIO SPITERI PARTS & SERVICE",
    "HOLSTEIN-HANDEL",
    "RAY CINI TRANS",
    "GAMMA TECHNICAL CORPORATION",
    "GOBITRADE LTD.",
    "CARPARTS IMPORT EXPORT KFT",
    "REMANTE GROUP S.R.O.",
    "PURIC D.O.O.",
    "FERDINAND BILSTEIN UK LTD",
    "ATLANTIC SPARE PARTS",
    "GEZAIRI CO. Attn: Mr. Halo",
    "RECANPRI, S.L.",
    "SPH - SPARE PARTS HOUSE LDA",
    "DELPHI DIESEL AFTERMARKET",
    "PRESTOLITE ELECTRIC LIMITED",
    "AVESA S.L.",
    "TECNODIESEL MURCIA S.L.",
    "MERLIN DIESEL SYSTEMS LTD",
    "MERLIN DIESEL SYSTEM LTD",
    "AMAZON EU S.A.R.L.",
    "JOHN'S DIESEL SERVICE'S SQAQ",
    "S.C DIESEL SOF S.R.L. STR",
    "ARROWTRONIC LTD-EMS",
    "HORIZON PROCUREMENTS",
    "SARL PROIETTI FARNESE",
    "TYRONE DIESEL SYSTEMS",
    "DIESELWELT BRENNER GMBH",
    "TURBOTECNIC AUTOMOCIO S.L.",
    "KUNSHAN POWER ASIA IMPORT &",
    "ORION PART OTOM.IC VE DIS",
    "GUANGZHOU BAISITE AUTO PARTS",
    "IPT OTOMOTIV DIS TICARET",
    "KONING TECHNISCH BEDRIJF B.V.",
    "PORTLAOISE DIESEL INJECTION",
    "CORCORANS ENGINEERING",
    "ZHENGZHOU LISERON OIL PUMP &",
    "LKV TEKNIK OTOMOTIV SANAYI IC",
    "GUANGDONG TOPWAY TECH CO LTD",
    "UNITED FUEL INJECTION",
    "LA CASA DEL DIESEL S.L.",
    "OTT-PUTIAN DIESEL SPARE PARTS",
    "AUTORAK SP. Z.O.O.",
    "IB TRADE",
    "FLOTA SUARDIAZ S.L.U.",
    "2T + M KFT",
    "KENDIESEL",
    "CASTY-ROMER S.L.",
    "DIESELSERVICE STOKKING B.V.",
    "SUPER ENGINEERING WORKS",
    "DIJITAL PARCA PLATFORMU SATIS",
    "GOODAPP",
    "INJECCIO DIESEL JORDA, S.L",
    "GUNEYBAGLILAR OTO YEDEK PAR.",
    "D. HAUPT GMBH",
    "ASIST OTO YEDEK PARCA SANAYI",
    "UHURU MAX LIMITED",
    "SYDNEY DIESEL CENTRE",
    "TALLERES RUFRE S.L.",
    "AB IMPORTS",
    "FACEWORKS LIMITED",
    "William Psaila",
    "EURO PARTS TRUCKS & BUSES",
    "PORTLAOISE DIESEL LTD",
    "SUARDIAZ MANAGEMENT SERVICES",
    "EAST HOI TRADING COMPANY FLAT",
    "Karadaglar group otomotiv",
    "KARCOM LTD",
    "ERB ITALY SRL",
    "A.F. BAEDER GES.M.B.H.",
    "DIESEL INJECTOR REPAIR Ltd",
    "FAHRENHEIT LOGISTICS LIMITED",
    "S T EARTHMOVING SERVICES",
    "GOLDFARB  and ASSOCIATES",
    "PANDIESEL AEBE",
    "ADF DIESEL",
    "AutoDieselPart LLC",
    "Goldfarb & Associates, Inc",
]


# Function to clean and process each row from the XLS file and convert to JSON
def process_xls_to_json(input_file, output_file):
    wb = xlrd.open_workbook(input_file)
    sheet = wb.sheet_by_index(0)

    data = []

    # Process each row starting from the second row (index 1)
    for row_idx in range(1, sheet.nrows):
        row = sheet.row_values(row_idx)

        # Convert row values to strings
        row = [str(val) for val in row]

        # Remove leading zeros from CODICE (assuming it's the first column, adjust if necessary)
        codice_cliente = row[0].lstrip("0")
        row[0] = codice_cliente

        # Assign placeholder AG code 100 if missing or if AG code is 0 (assuming AG is the last column, adjust if necessary)
        ag_code = row[-1]
        if not ag_code.strip() or ag_code == "0":
            row[-1] = "100"

        # Check for foreign "RAGIONE SOCIALE" and assign AG 50
        if row[1] in foreign_ragione_sociale:
            row[-1] = "50"

        # Check for "RAGIONE SOCIALE" exactly matching "CLIENTE DA WEB" and assign AG 60
        if row[1].strip().upper() == "CLIENTE DA WEB":
            row[-1] = "60"

        # Append cleaned row to data list as a dictionary
        data.append(dict(zip(sheet.row_values(0), row)))

    # Write data to JSON file
    with open(output_file, "w", encoding="utf-8") as jsonout:
        json.dump(data, jsonout, separators=(",", ":"), ensure_ascii=False)

    print(
        f"XLS file {input_file} successfully processed. Cleaned data saved to {output_file}."
    )


# Process the XLS file
process_xls_to_json(xls_file, json_output_file)

XLS file Z:/My Drive/rcs/Estrapolo clienti con dettagli per Damiano.xls successfully processed. Cleaned data saved to D:/coding/rcs_management_project-1/frontend/public/data/clientdetailsdataset02072024.min.json.


In [16]:
import json
from collections import defaultdict

# Define the paths to the input and output files
client_data_path = "Z:/My Drive/rcs/business analyst/clientdetailsdataset02072024.min.json"  # Path to the existing client data JSON file
agent_data_path = "Z:/My Drive/rcs/business analyst/agentDetailsYear2024-StatsSoFar-cleaned.min.json"  # Path to the new agent data JSON file

# Load client data
with open(client_data_path, "r", encoding="utf-8") as f:
    clients = json.load(f)

# Define a default dictionary to store agents and their clients
agents_dict = defaultdict(
    lambda: {"id": "", "name": "", "email": "", "phone": "", "clients": []}
)

# Define agent details (normally you would load this from a file or database)
agent_details = [
    {"id": "10", "name": "Fazio Adriano Salvatore"},
    {"id": "11", "name": "Salvatore Spinella"},
    {"id": "12", "name": "Riccardo Carpentiere"},
    {"id": "13", "name": "Vito D'Antonio"},
    {"id": "14", "name": "G.C."},
    {"id": "15", "name": "Luddeni Renato"},
    {"id": "16", "name": "Luca Scaffo"},
    {"id": "50", "name": "Marco Coppola"},
    {"id": "60", "name": "Web"},
    {"id": "90", "name": "Direzionale"},
    {"id": "91", "name": "Direzionale Diesel"},
    {"id": "92", "name": "Direzionale D"},
    {"id": "95", "name": "Cliente Agente"},
    {"id": "99", "name": "Seguito da Avvocato"},
    {"id": "100", "name": "Non Assegnato"},
]

# Initialize the agents dictionary with agent details
for agent in agent_details:
    agents_dict[agent["id"]]["id"] = agent["id"]
    agents_dict[agent["id"]]["name"] = agent["name"]

# Assign clients to their respective agents
for client in clients:
    agent_id = client["AG"]
    agents_dict[agent_id]["clients"].append(client)

# Convert the default dictionary to a list
agents_list = list(agents_dict.values())

# Write the output to a new JSON file
with open(agent_data_path, "w", encoding="utf-8") as f:
    json.dump(agents_list, f, separators=(",", ":"), ensure_ascii=False)

print("Agent data with nested clients has been written to", agent_data_path)

Agent data with nested clients has been written to Z:/My Drive/rcs/business analyst/agentDetailsYear2024-StatsSoFar-cleaned.min.json


In [2]:
import pandas as pd
import glob

# Define the path pattern for the monthly CSV files
file_pattern = 'Z:/My Drive/rcs/business analyst/Statistica_del_Venduto_e_Acquistato_2024_*.csv'
file_paths = glob.glob(file_pattern)

# Initialize lists to store dataframes
df_list = []
dropped_df_list = []

# Define the foreign "RAGIONE SOCIALE" list
foreign_ragione_sociale = [
    "KOSSER JSC", "PRESTOLITE ELECTIRC LIMITED", "SHF TRADE TD LTD", "NEAT AUTOS LTD", "SUPERIORCARUSO SERVICE",
    "MOTOR & TRANSMISSIONSTEKNIK", "RAIN GROUP TRADING FZE", "LUCAS DIESEL Inyeccion Diesel", 
    "SURIPE_x001a_S - IMPORTA_x001a_O E", "AOI SOLUTIONS GMBH", "MARIO SPITERI PARTS & SERVICE", "HOLSTEIN-HANDEL",
    "RAY CINI TRANS", "GAMMA TECHNICAL CORPORATION", "GOBITRADE LTD.", "CARPARTS IMPORT EXPORT KFT", 
    "REMANTE GROUP S.R.O.", "PURIC D.O.O.", "FERDINAND BILSTEIN UK LTD", "ATLANTIC SPARE PARTS", "GEZAIRI CO. Attn: Mr. Halo",
    "RECANPRI, S.L.", "SPH - SPARE PARTS HOUSE LDA", "DELPHI DIESEL AFTERMARKET", "PRESTOLITE ELECTRIC LIMITED", 
    "AVESA S.L.", "TECNODIESEL MURCIA S.L.", "MERLIN DIESEL SYSTEMS LTD", "MERLIN DIESEL SYSTEM LTD", "AMAZON EU S.A.R.L.",
    "JOHN'S DIESEL SERVICE'S SQAQ", "S.C DIESEL SOF S.R.L. STR", "ARROWTRONIC LTD-EMS", "HORIZON PROCUREMENTS",
    "SARL PROIETTI FARNESE", "TYRONE DIESEL SYSTEMS", "DIESELWELT BRENNER GMBH", "TURBOTECNIC AUTOMOCIO S.L.",
    "KUNSHAN POWER ASIA IMPORT &", "ORION PART OTOM.IC VE DIS", "GUANGZHOU BAISITE AUTO PARTS", "IPT OTOMOTIV DIS TICARET",
    "KONING TECHNISCH BEDRIJF B.V.", "PORTLAOISE DIESEL INJECTION", "CORCORANS ENGINEERING", 
    "ZHENGZHOU LISERON OIL PUMP &", "LKV TEKNIK OTOMOTIV SANAYI IC", "GUANGDONG TOPWAY TECH CO LTD", "UNITED FUEL INJECTION",
    "LA CASA DEL DIESEL S.L.", "OTT-PUTIAN DIESEL SPARE PARTS", "AUTORAK SP. Z.O.O.", "IB TRADE", "FLOTA SUARDIAZ S.L.U.",
    "2T + M KFT", "KENDIESEL", "CASTY-ROMER S.L.", "DIESELSERVICE STOKKING B.V.", "SUPER ENGINEERING WORKS",
    "DIJITAL PARCA PLATFORMU SATIS", "GOODAPP", "INJECCIO DIESEL JORDA, S.L", "GUNEYBAGLILAR OTO YEDEK PAR.",
    "D. HAUPT GMBH", "ASIST OTO YEDEK PARCA SANAYI", "UHURU MAX LIMITED", "SYDNEY DIESEL CENTRE", "TALLERES RUFRE S.L.",
    "AB IMPORTS", "FACEWORKS LIMITED", "William Psaila", "EURO PARTS TRUCKS & BUSES", "PORTLAOISE DIESEL LTD",
    "SUARDIAZ MANAGEMENT SERVICES", "EAST HOI TRADING COMPANY FLAT", "Karadaglar group otomotiv", "KARCOM LTD", "ERB ITALY SRL",
    "A.F. BAEDER GES.M.B.H.", "DIESEL INJECTOR REPAIR Ltd", "FAHRENHEIT LOGISTICS LIMITED", "S T EARTHMOVING SERVICES",
    "GOLDFARB and ASSOCIATES", "PANDIESEL AEBE", "ADF DIESEL", "AutoDieselPart LLC", "Goldfarb & Associates, Inc"
]

# Loop through each file and process it
for file_path in file_paths:
    # Load the CSV file
    df = pd.read_csv(file_path, encoding='ISO-8859-1')
    
    # If you're working with the 'LISTA' column before renaming
    df['LISTA'] = df['LISTA'].apply(lambda x: int(x.split('/')[1]) if '/' in x else int(x))
        
    # Fix warranty, trasporto, imballo, and eco friendly issues
    df['CODICE_ART'] = df['CODICE_ART'].str.upper()
    df.loc[df['DESCRIZIONE_ART'].str.contains('warranty', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc']), 'CODICE_ART'] = 'WARRANTY'
    df.loc[df['DESCRIZIONE_ART'].str.contains('trasporto', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc', 'SPESE']), 'CODICE_ART'] = 'TRASPORTO'
    df.loc[df['DESCRIZIONE_ART'].str.contains('imballo', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc']), 'CODICE_ART'] = 'IMBALLO'
    df.loc[df['DESCRIZIONE_ART'].str.contains('ECO FRIENDLY|ECO-FRIENDLY|INIZIATIVA ECO-FRIENDLY', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['SPESE', 'Aziendale']

    # Correct the IMBALLO logic
    df.loc[df['DESCRIZIONE_ART'].str.contains('IMBALLO', case=False, na=False), 'MARCA_ART'] = 'Aziendale'
    
    # Fix specific values in DESCRIZIONE_ART
    df.loc[df['DESCRIZIONE_ART'].str.contains('PREMIO FATTURATO', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['SPESE', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INSOLUTO|INSOLUTI', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['INSOLUTO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('spese', case=False, na=False), ['CODICE_ART', 'DESCRIZIONE_ART']] = ['SPESE', 'IMBALLO']
    df.loc[df['DESCRIZIONE_ART'].str.contains('accredito per err.applic.penale', case=False, na=False), 'CODICE_ART'] = 'SPESE'
    df.loc[df['DESCRIZIONE_ART'].str.contains('errato addeb. spese di incasso', case=False, na=False), 'CODICE_ART'] = 'SPESE'
    df.loc[df['DESCRIZIONE_ART'].str.contains('MANODOPERA STACCO/RIATT CON PRESSA', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['EXTRA', 'RCS']
    df.loc[df['DESCRIZIONE_ART'].str.contains('SBLOCCANTE WD40|WD-40 SBLOCCANTE|WD-40 SBLOCCANTE ', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['490040', 'WD-40']
    
    # Additional condition for SPESE URGENZA
    df.loc[df['CODICE_ART'] == 'SPESE URGENZA', ['CODICE_ART', 'DESCRIZIONE_ART']] = ['TRASPORTO', 'TRASPORTO URGENTE']

    # Fix specific values in CODICE_ART
    df.loc[df['CODICE_ART'].isin(['TBF1214035', 'TBF1414035']) & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'RCS'
    df.loc[(df['CODICE_ART'] == '26870') & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'FEBI'
    df.loc[(df['CODICE_ART'] == '3182654192') & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'SACHS'
    
    # Fix IMPOSTA OLIO in DESCRIZIONE_ART
    df.loc[df['DESCRIZIONE_ART'].str.contains('IMPOSTA OLIO', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['OILVAT', 'VAT']
    
    # Additional conditions
    df.loc[df['DESCRIZIONE_ART'].str.contains('BONUS15|BONUS_15|BONUS_25|BONUS-15', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['EXTRA', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('ASSICURAZIONE 6% CASCO|ASSICURAZIONE 4033195 6%|ASSICURAZIONE', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['ASSICURAZIONE', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('periodo q4/2023|PERIODO Q3/2023', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['BOSCHCORP', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('Kit tubaz/flessib Mercedes', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['Unknown', 'MERCEDES']
    df.loc[df['DESCRIZIONE_ART'].str.contains('PACKAGING', case=False, na=False), ['CODICE_ART', 'DESCRIZIONE_ART', 'MARCA_ART']] = ['SPESE', 'IMBALLO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('Urgenza Bosch', case=False, na=False), ['CODICE_ART', 'DESCRIZIONE_ART', 'MARCA_ART']] = ['SPESE', 'IMBALLO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('PROVA AL BANCO INIETT DENSO C.R.|PROVA AL BANCO INIETT DENSO', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['EXTRA', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INIETT 0445110351', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['0445110351', 'BOSCH']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INIETT 0445110351 REVIS.', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['0986435204', 'BOSCH']
    df.loc[df['DESCRIZIONE_ART'].str.contains('premio', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['SPESE', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('EUROTECH 95006227', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['95006227', 'EUROTEC']
    
    # Set ULTIMO_ACQ to 0 for specific DESCRIZIONE_ART values
    df.loc[df['DESCRIZIONE_ART'].str.contains('WD40|WD-40|WARRANTY|IMPOSTA OLIO|IMBALLO|TRASPORTO|PACKAGING|Urgenza Bosch', case=False, na=False), 'ULTIMO_ACQ'] = 0
    
    # Assign AGENTE value of 60 for 'CLIENTE DA WEB'
    df.loc[df['RAGIONE_SOCIALE'] == 'CLIENTE DA WEB', 'AGENTE'] = 60
    
    # Assign placeholder Codice Agente for any remaining missing or zero values
    df['AGENTE'] = df['AGENTE'].apply(lambda x: '100' if pd.isna(x) or x == 0 else x)
    
    # Assign AG 50 for foreign "RAGIONE SOCIALE"
    df['AGENTE'] = df.apply(lambda row: '50' if row['RAGIONE_SOCIALE'] in foreign_ragione_sociale else row['AGENTE'], axis=1)

    # Verify that no 'AGENTE' values are missing
    missing_agente_after = df['AGENTE'].isna().sum()
    print(f"Missing 'AGENTE' after filling: {missing_agente_after}")

    # Assign 'MARCA_ART' to 'Aziendale' for specific 'CODICE_ART' values
    df.loc[df['CODICE_ART'].str.contains('EXTRA|ASSICURAZIONE|PENALE|ABBONAM-TRASP-0001|OMAGGIO|SPESE|TRASPORTO|WARRANTY', case=False, na=False), 'MARCA_ART'] = 'Aziendale'
    
    # Separate the rows to be dropped
    dropped_df = df[df['MARCA_ART'].isin(['NC', '.', '', 'nc'])]
    dropped_df_list.append(dropped_df)
    
    # Drop entries where 'MARCA_ART' is 'NC' or '.' or empty
    filtered_df = df[~df['MARCA_ART'].isin(['NC', '.', '', 'nc'])]
    
    # Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
    filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
    grouped = filtered_df.groupby(['RAGIONE_SOCIALE'])
    sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)
    
    # Keep specific columns and rename them
    columns_to_keep = {
        'DATA_MOV': 'Data Documento Precedente', 
        'LISTA': 'Numero Lista', 
        'MESE': 'Mese', 
        'ANNO': 'Anno', 
        'RAGIONE_SOCIALE': 'Ragione Sociale Cliente', 
        'CLIENTE': 'Codice Cliente', 
        'AGENTE': 'Codice Agente', 
        'CODICE_ART': 'Codice Articolo', 
        'MARCA_ART': 'Marca Articolo', 
        'DESCRIZIONE_ART': 'Descrizione Articolo', 
        'QUANTITA': 'Quantita', 
        'VAL_MERCE': 'Valore', 
        'ULTIMO_ACQ': 'Costo',
        'PREZZO': 'Prezzo Articolo',
    }
    cleaned_df = filtered_df[columns_to_keep.keys()].rename(columns=columns_to_keep)
    
    # Update 'Costo' based on 'Prezzo Articolo'
    cleaned_df['Costo'] = cleaned_df.apply(
        lambda row: row['Prezzo Articolo'] * 0.9 if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] > 0 
        else 0 if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] == 0 
        else abs(row['Prezzo Articolo']) if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] < 0 
        else row['Costo'],
        axis=1
    )
    

    
    # Append the cleaned dataframe to the list
    df_list.append(cleaned_df)

# Concatenate all the dataframes
final_df = pd.concat(df_list, ignore_index=True)
dropped_final_df = pd.concat(dropped_df_list, ignore_index=True)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx'
final_df.to_excel(cleaned_file_path, index=False)

# Save the dropped dataset to a new CSV file
dropped_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv'
dropped_final_df.to_csv(dropped_file_path, index=False)

# Convert to JSON format
json_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json'
final_df.to_json(json_file_path, orient='records', date_format='iso')

print("Cleaning process completed and saved to", cleaned_file_path)
print("Dropped data saved to", dropped_file_path)
print("JSON file saved to", json_file_path)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Cleaning process completed and saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx
Dropped data saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv
JSON file saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json


In [1]:
import pandas as pd
import glob

# Define the path pattern for the monthly CSV files
file_pattern = 'Z:/My Drive/rcs/business analyst/Statistica_del_Venduto_e_Acquistato_2024_*.csv'
file_paths = glob.glob(file_pattern)

# Initialize lists to store dataframes
df_list = []
dropped_df_list = []

# Define the foreign "RAGIONE SOCIALE" list
foreign_ragione_sociale = [
    "KOSSER JSC", "PRESTOLITE ELECTIRC LIMITED", "SHF TRADE TD LTD", "NEAT AUTOS LTD", "SUPERIORCARUSO SERVICE",
    "MOTOR & TRANSMISSIONSTEKNIK", "RAIN GROUP TRADING FZE", "LUCAS DIESEL Inyeccion Diesel", 
    "SURIPE_x001a_S - IMPORTA_x001a_O E", "AOI SOLUTIONS GMBH", "MARIO SPITERI PARTS & SERVICE", "HOLSTEIN-HANDEL",
    "RAY CINI TRANS", "GAMMA TECHNICAL CORPORATION", "GOBITRADE LTD.", "CARPARTS IMPORT EXPORT KFT", 
    "REMANTE GROUP S.R.O.", "PURIC D.O.O.", "FERDINAND BILSTEIN UK LTD", "ATLANTIC SPARE PARTS", "GEZAIRI CO. Attn: Mr. Halo",
    "RECANPRI, S.L.", "SPH - SPARE PARTS HOUSE LDA", "DELPHI DIESEL AFTERMARKET", "PRESTOLITE ELECTRIC LIMITED", 
    "AVESA S.L.", "TECNODIESEL MURCIA S.L.", "MERLIN DIESEL SYSTEMS LTD", "MERLIN DIESEL SYSTEM LTD", "AMAZON EU S.A.R.L.",
    "JOHN'S DIESEL SERVICE'S SQAQ", "S.C DIESEL SOF S.R.L. STR", "ARROWTRONIC LTD-EMS", "HORIZON PROCUREMENTS",
    "SARL PROIETTI FARNESE", "TYRONE DIESEL SYSTEMS", "DIESELWELT BRENNER GMBH", "TURBOTECNIC AUTOMOCIO S.L.",
    "KUNSHAN POWER ASIA IMPORT &", "ORION PART OTOM.IC VE DIS", "GUANGZHOU BAISITE AUTO PARTS", "IPT OTOMOTIV DIS TICARET",
    "KONING TECHNISCH BEDRIJF B.V.", "PORTLAOISE DIESEL INJECTION", "CORCORANS ENGINEERING", 
    "ZHENGZHOU LISERON OIL PUMP &", "LKV TEKNIK OTOMOTIV SANAYI IC", "GUANGDONG TOPWAY TECH CO LTD", "UNITED FUEL INJECTION",
    "LA CASA DEL DIESEL S.L.", "OTT-PUTIAN DIESEL SPARE PARTS", "AUTORAK SP. Z.O.O.", "IB TRADE", "FLOTA SUARDIAZ S.L.U.",
    "2T + M KFT", "KENDIESEL", "CASTY-ROMER S.L.", "DIESELSERVICE STOKKING B.V.", "SUPER ENGINEERING WORKS",
    "DIJITAL PARCA PLATFORMU SATIS", "GOODAPP", "INJECCIO DIESEL JORDA, S.L", "GUNEYBAGLILAR OTO YEDEK PAR.",
    "D. HAUPT GMBH", "ASIST OTO YEDEK PARCA SANAYI", "UHURU MAX LIMITED", "SYDNEY DIESEL CENTRE", "TALLERES RUFRE S.L.",
    "AB IMPORTS", "FACEWORKS LIMITED", "William Psaila", "EURO PARTS TRUCKS & BUSES", "PORTLAOISE DIESEL LTD",
    "SUARDIAZ MANAGEMENT SERVICES", "EAST HOI TRADING COMPANY FLAT", "Karadaglar group otomotiv", "KARCOM LTD", "ERB ITALY SRL",
    "A.F. BAEDER GES.M.B.H.", "DIESEL INJECTOR REPAIR Ltd", "FAHRENHEIT LOGISTICS LIMITED", "S T EARTHMOVING SERVICES",
    "GOLDFARB and ASSOCIATES", "PANDIESEL AEBE", "ADF DIESEL", "AutoDieselPart LLC", "Goldfarb & Associates, Inc"
]

# Loop through each file and process it
for file_path in file_paths:
    # Load the CSV file
    df = pd.read_csv(file_path, encoding='ISO-8859-1')
    
    # If you're working with the 'LISTA' column before renaming
    df['LISTA'] = df['LISTA'].apply(lambda x: int(x.split('/')[1]) if '/' in x else int(x))
        
    # Fix warranty, trasporto, imballo, and eco friendly issues
    df['CODICE_ART'] = df['CODICE_ART'].str.upper()
    df.loc[df['DESCRIZIONE_ART'].str.contains('warranty', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc']), 'CODICE_ART'] = 'WARR01'
    df.loc[df['DESCRIZIONE_ART'].str.contains('trasporto', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc', 'SPESE']), 'CODICE_ART'] = 'EXPSHIPREGULAR'
    df.loc[df['DESCRIZIONE_ART'].str.contains('imballo', case=False, na=False) & 
           df['CODICE_ART'].isin(['', '.', 'NC', 'nc']), 'CODICE_ART'] = 'EXPPACK01'
    df.loc[df['DESCRIZIONE_ART'].str.contains('ECO FRIENDLY|ECO-FRIENDLY|INIZIATIVA ECO-FRIENDLY', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART', 'DESCRIZIONE_ART']] = ['EXPECO01', 'Aziendale', 'ECO FRIENDLY']

    # Correct the IMBALLO logic
    df.loc[df['DESCRIZIONE_ART'].str.contains('IMBALLO', case=False, na=False), 'MARCA_ART'] = 'Aziendale'
    
    # Fix specific values in DESCRIZIONE_ART
    df.loc[df['DESCRIZIONE_ART'].str.contains('PREMIO FATTURATO', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['ACCREWCONTRACT01', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INSOLUTO|INSOLUTI', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['INSOLUTO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('spese', case=False, na=False), 
           ['CODICE_ART', 'DESCRIZIONE_ART']] = ['SPESE', 'IMBALLO']
    df.loc[df['DESCRIZIONE_ART'] == 'accredito per err.applic.penale', 'CODICE_ART'] = 'ACCERR20240417'
    df.loc[df['DESCRIZIONE_ART'] == 'errato addeb. spese di incasso', 'CODICE_ART'] = 'EXPSHIPERR20240614'
    df.loc[df['DESCRIZIONE_ART'].str.contains('MANODOPERA STACCO/RIATT CON PRESSA', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['ACCMANODOP01', 'RCS']
    df.loc[df['DESCRIZIONE_ART'].str.contains('SBLOCCANTE WD40|WD-40 SBLOCCANTE|WD-40 SBLOCCANTE ', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['490040', 'WD-40']
    
    # Additional condition for SPESE URGENZA
    df.loc[df['CODICE_ART'] == 'SPESE URGENZA', ['CODICE_ART', 'DESCRIZIONE_ART']] = ['EXPSHIPURGENT', 'TRASPORTO URGENTE']

    # Fix specific values in CODICE_ART
    df.loc[df['CODICE_ART'].isin(['TBF1214035', 'TBF1414035']) & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'RCS'
    df.loc[(df['CODICE_ART'] == '26870') & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'FEBI'
    df.loc[(df['CODICE_ART'] == '3182654192') & df['MARCA_ART'].isin(['NC', '.', 'nc']), 'MARCA_ART'] = 'SACHS'
    
    # Fix IMPOSTA OLIO in DESCRIZIONE_ART
    df.loc[df['DESCRIZIONE_ART'].str.contains('IMPOSTA OLIO', case=False, na=False), ['CODICE_ART', 'MARCA_ART']] = ['OILVAT', 'VAT']
    
    # Additional conditions
    df.loc[df['DESCRIZIONE_ART'].str.contains('BONUS15|BONUS_15|BONUS_25|BONUS-15', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['EXTRA', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('ASSICURAZIONE 6% CASCO|ASSICURAZIONE 4033195 6%|ASSICURAZIONE', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['ASSICURAZIONE', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('periodo q4/2023|PERIODO Q3/2023', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['BOSCHCORP', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('Kit tubaz/flessib Mercedes', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['Unknown', 'MERCEDES']
    df.loc[df['DESCRIZIONE_ART'].str.contains('PACKAGING', case=False, na=False), 
           ['CODICE_ART', 'DESCRIZIONE_ART', 'MARCA_ART']] = ['EXPPACK01', 'IMBALLO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('Urgenza Bosch', case=False, na=False), 
           ['CODICE_ART', 'DESCRIZIONE_ART', 'MARCA_ART']] = ['EXPPACK01', 'IMBALLO', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('PROVA AL BANCO INIETT DENSO C.R.|PROVA AL BANCO INIETT DENSO', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['EXTRA', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INIETT 0445110351', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['0445110351', 'BOSCH']
    df.loc[df['DESCRIZIONE_ART'].str.contains('INIETT 0445110351 REVIS.', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['0986435204', 'BOSCH']
    df.loc[df['DESCRIZIONE_ART'].str.contains('premio', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['ACCREWCONTRACT01', 'Aziendale']
    df.loc[df['DESCRIZIONE_ART'].str.contains('EUROTECH 95006227', case=False, na=False), 
           ['CODICE_ART', 'MARCA_ART']] = ['95006227', 'EUROTEC']

    # Fix specific values in DESCRIZIONE_ART for unique conditions
    df.loc[df['DESCRIZIONE_ART'] == 'ASSEGNO IMPAGATO N 0214310167', 'CODICE_ART'] = 'ACC0214310167'
    df.loc[df['DESCRIZIONE_ART'] == 'ASSEGNO IMPAG N 100593023 DEL 07/06', 'CODICE_ART'] = 'ACC100593023'
    df.loc[df['DESCRIZIONE_ART'] == 'accredito per err.applic.penale', 'CODICE_ART'] = 'ACCERR20240417'
    df.loc[df['DESCRIZIONE_ART'] == 'INCASSO, VARIE', 'CODICE_ART'] = 'ACC20240318'
    df.loc[df['DESCRIZIONE_ART'] == 'INDICARE MOTIVAZIONE', 'CODICE_ART'] = 'ACCERRU'
    
    # Set ULTIMO_ACQ to 0 for specific DESCRIZIONE_ART values
    df.loc[df['DESCRIZIONE_ART'].str.contains('WD40|WD-40|WARRANTY|IMPOSTA OLIO|IMBALLO|TRASPORTO|PACKAGING|Urgenza Bosch', case=False, na=False), 'ULTIMO_ACQ'] = 0
    
    # Assign AGENTE value of 60 for 'CLIENTE DA WEB'
    df.loc[df['RAGIONE_SOCIALE'] == 'CLIENTE DA WEB', 'AGENTE'] = 60
    
    # Assign placeholder Codice Agente for any remaining missing or zero values
    df['AGENTE'] = df['AGENTE'].apply(lambda x: '100' if pd.isna(x) or x == 0 else x)
    
    # Assign AG 50 for foreign "RAGIONE SOCIALE"
    df['AGENTE'] = df.apply(lambda row: '50' if row['RAGIONE_SOCIALE'] in foreign_ragione_sociale else row['AGENTE'], axis=1)

    # Verify that no 'AGENTE' values are missing
    missing_agente_after = df['AGENTE'].isna().sum()
    print(f"Missing 'AGENTE' after filling: {missing_agente_after}")

    # Assign 'MARCA_ART' to 'Aziendale' for specific 'CODICE_ART' values
    df.loc[df['CODICE_ART'].str.contains('EXTRA|ASSICURAZIONE|PENALE|ABBONAM-TRASP-0001|OMAGGIO|SPESE|TRASPORTO|WARRANTY', case=False, na=False), 'MARCA_ART'] = 'Aziendale'
    
    # Separate the rows to be dropped
    dropped_df = df[df['MARCA_ART'].isin(['NC', '.', '', 'nc'])]
    dropped_df_list.append(dropped_df)
    
    # Drop entries where 'MARCA_ART' is 'NC' or '.' or empty
    filtered_df = df[~df['MARCA_ART'].isin(['NC', '.', '', 'nc'])]
    
    # Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
    filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
    grouped = filtered_df.groupby(['RAGIONE_SOCIALE'])
    sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)
    
    # Keep specific columns and rename them
    columns_to_keep = {
        'DATA_MOV': 'Data Documento Precedente', 
        'LISTA': 'Numero Lista', 
        'MESE': 'Mese', 
        'ANNO': 'Anno', 
        'RAGIONE_SOCIALE': 'Ragione Sociale Cliente', 
        'CLIENTE': 'Codice Cliente', 
        'AGENTE': 'Codice Agente', 
        'CODICE_ART': 'Codice Articolo', 
        'MARCA_ART': 'Marca Articolo', 
        'DESCRIZIONE_ART': 'Descrizione Articolo', 
        'QUANTITA': 'Quantita', 
        'VAL_MERCE': 'Valore', 
        'ULTIMO_ACQ': 'Costo',
        'PREZZO': 'Prezzo Articolo',
    }
    cleaned_df = filtered_df[columns_to_keep.keys()].rename(columns=columns_to_keep)
    
    # Update 'Costo' based on 'Prezzo Articolo'
    cleaned_df['Costo'] = cleaned_df.apply(
        lambda row: row['Prezzo Articolo'] * 0.9 if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] > 0 
        else 0 if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] == 0 
        else abs(row['Prezzo Articolo']) if pd.isna(row['Costo']) or row['Costo'] == 0 and row['Prezzo Articolo'] < 0 
        else row['Costo'],
        axis=1
    )
    

    
    # Append the cleaned dataframe to the list
    df_list.append(cleaned_df)

# Concatenate all the dataframes
final_df = pd.concat(df_list, ignore_index=True)
dropped_final_df = pd.concat(dropped_df_list, ignore_index=True)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx'
final_df.to_excel(cleaned_file_path, index=False)

# Save the dropped dataset to a new CSV file
dropped_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv'
dropped_final_df.to_csv(dropped_file_path, index=False)

# Convert to JSON format
json_file_path = 'Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json'
final_df.to_json(json_file_path, orient='records', date_format='iso')

print("Cleaning process completed and saved to", cleaned_file_path)
print("Dropped data saved to", dropped_file_path)
print("JSON file saved to", json_file_path)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['DATA_MOV'] = pd.to_datetime(filtered_df['DATA_MOV'], format='%d/%m/%Y', errors='coerce')
  sorted_df = grouped.apply(lambda x: x.sort_values(by='DATA_MOV', ascending=True)).reset_index(drop=True)


Cleaning process completed and saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx
Dropped data saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv
JSON file saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json


In [2]:
import pandas as pd
import glob

# Define the path pattern for the monthly CSV files
file_pattern = (
    "Z:/My Drive/rcs/business analyst/Statistica_del_Venduto_e_Acquistato_2024_*.csv"
)
file_paths = glob.glob(file_pattern)

# Initialize lists to store dataframes
df_list = []
dropped_df_list = []

# Define the foreign "RAGIONE SOCIALE" list
foreign_ragione_sociale = [
    "KOSSER JSC",
    "PRESTOLITE ELECTIRC LIMITED",
    "SHF TRADE TD LTD",
    "NEAT AUTOS LTD",
    "SUPERIORCARUSO SERVICE",
    "MOTOR & TRANSMISSIONSTEKNIK",
    "RAIN GROUP TRADING FZE",
    "LUCAS DIESEL Inyeccion Diesel",
    "SURIPE_x001a_S - IMPORTA_x001a_O E",
    "AOI SOLUTIONS GMBH",
    "MARIO SPITERI PARTS & SERVICE",
    "HOLSTEIN-HANDEL",
    "RAY CINI TRANS",
    "GAMMA TECHNICAL CORPORATION",
    "GOBITRADE LTD.",
    "CARPARTS IMPORT EXPORT KFT",
    "REMANTE GROUP S.R.O.",
    "PURIC D.O.O.",
    "FERDINAND BILSTEIN UK LTD",
    "ATLANTIC SPARE PARTS",
    "GEZAIRI CO. Attn: Mr. Halo",
    "RECANPRI, S.L.",
    "SPH - SPARE PARTS HOUSE LDA",
    "DELPHI DIESEL AFTERMARKET",
    "PRESTOLITE ELECTRIC LIMITED",
    "AVESA S.L.",
    "TECNODIESEL MURCIA S.L.",
    "MERLIN DIESEL SYSTEMS LTD",
    "MERLIN DIESEL SYSTEM LTD",
    "AMAZON EU S.A.R.L.",
    "JOHN'S DIESEL SERVICE'S SQAQ",
    "S.C DIESEL SOF S.R.L. STR",
    "ARROWTRONIC LTD-EMS",
    "HORIZON PROCUREMENTS",
    "SARL PROIETTI FARNESE",
    "TYRONE DIESEL SYSTEMS",
    "DIESELWELT BRENNER GMBH",
    "TURBOTECNIC AUTOMOCIO S.L.",
    "KUNSHAN POWER ASIA IMPORT &",
    "ORION PART OTOM.IC VE DIS",
    "GUANGZHOU BAISITE AUTO PARTS",
    "IPT OTOMOTIV DIS TICARET",
    "KONING TECHNISCH BEDRIJF B.V.",
    "PORTLAOISE DIESEL INJECTION",
    "CORCORANS ENGINEERING",
    "ZHENGZHOU LISERON OIL PUMP &",
    "LKV TEKNIK OTOMOTIV SANAYI IC",
    "GUANGDONG TOPWAY TECH CO LTD",
    "UNITED FUEL INJECTION",
    "LA CASA DEL DIESEL S.L.",
    "OTT-PUTIAN DIESEL SPARE PARTS",
    "AUTORAK SP. Z.O.O.",
    "IB TRADE",
    "FLOTA SUARDIAZ S.L.U.",
    "2T + M KFT",
    "KENDIESEL",
    "CASTY-ROMER S.L.",
    "DIESELSERVICE STOKKING B.V.",
    "SUPER ENGINEERING WORKS",
    "DIJITAL PARCA PLATFORMU SATIS",
    "GOODAPP",
    "INJECCIO DIESEL JORDA, S.L",
    "GUNEYBAGLILAR OTO YEDEK PAR.",
    "D. HAUPT GMBH",
    "ASIST OTO YEDEK PARCA SANAYI",
    "UHURU MAX LIMITED",
    "SYDNEY DIESEL CENTRE",
    "TALLERES RUFRE S.L.",
    "AB IMPORTS",
    "FACEWORKS LIMITED",
    "William Psaila",
    "EURO PARTS TRUCKS & BUSES",
    "PORTLAOISE DIESEL LTD",
    "SUARDIAZ MANAGEMENT SERVICES",
    "EAST HOI TRADING COMPANY FLAT",
    "Karadaglar group otomotiv",
    "KARCOM LTD",
    "ERB ITALY SRL",
    "A.F. BAEDER GES.M.B.H.",
    "DIESEL INJECTOR REPAIR Ltd",
    "FAHRENHEIT LOGISTICS LIMITED",
    "S T EARTHMOVING SERVICES",
    "GOLDFARB and ASSOCIATES",
    "PANDIESEL AEBE",
    "ADF DIESEL",
    "AutoDieselPart LLC",
    "Goldfarb & Associates, Inc",
]

# Loop through each file and process it
for file_path in file_paths:
    # Load the CSV file
    df = pd.read_csv(file_path, encoding="ISO-8859-1")

    # If you're working with the 'LISTA' column before renaming
    df["LISTA"] = df["LISTA"].apply(
        lambda x: int(x.split("/")[1]) if "/" in x else int(x)
    )

    # Fix warranty, trasporto, imballo, and eco friendly issues
    df["CODICE_ART"] = df["CODICE_ART"].str.upper()
    df.loc[
        df["DESCRIZIONE_ART"].str.contains("warranty", case=False, na=False)
        & df["CODICE_ART"].isin(["", ".", "NC", "nc"]),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["WARRANTY", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"].str.contains("trasporto|TRASPORTO", case=False, na=False)
        & df["CODICE_ART"].isin(["", ".", "NC", "nc", "SPESE", "EXTRA", "TRASPORTO"]),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPREGULAR", "Aziendale"]
    # Print rows before applying condition
    print("Before applying 'imballo' condition:")
    print(
        df[
            df["DESCRIZIONE_ART"].str.contains(
                r"\bimballo\b|\bIMBALLO\b", case=False, na=False
            )
        ][["DESCRIZIONE_ART", "CODICE_ART", "MARCA_ART"]]
    )

    # Apply the 'imballo' condition
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            r"\bimballo\b|\bIMBALLO\b", case=False, na=False
        )
        & df["CODICE_ART"].isin(["", ".", "NC", "nc", "EXTRA", "IMBALLO"]),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["PACKING01", "Aziendale"]

    # Print rows after applying condition
    print("After applying 'imballo' condition:")
    print(
        df[
            df["DESCRIZIONE_ART"].str.contains(
                r"\bimballo\b|\bIMBALLO\b", case=False, na=False
            )
        ][["DESCRIZIONE_ART", "CODICE_ART", "MARCA_ART"]]
    )

    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "ECO FRIENDLY|ECO-FRIENDLY|INIZIATIVA ECO-FRIENDLY|PROGETTO ECOFRIENDLY - TRASPORTO GR",
            case=False,
            na=False,
        ),
        ["CODICE_ART", "MARCA_ART", "DESCRIZIONE_ART"],
    ] = ["PROMOECO", "Aziendale", "ECO FRIENDLY"]

    # Fix specific values in DESCRIZIONE_ART
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "PREMIO FATTURATO|premio", case=False, na=False
        ),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["PROMOCONTRACT01", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"].str.contains("INSOLUTO|INSOLUTI", case=False, na=False),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["INSOLUTO", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "accredito per err.applic.penale",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACCERR20240417", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "errato addeb. spese di incasso",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["EXPSHIPERR20240614", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "MANODOPERA STACCO/RIATT CON PRESSA",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACCMANODOP01", "RCS"]
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "SBLOCCANTE WD40|WD-40 SBLOCCANTE|WD-40 SBLOCCANTE ", case=False, na=False
        ),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["490040", "WD-40"]

    # Additional condition for SPESE URGENZA
    df.loc[
        df["CODICE_ART"] == "SPESE URGENZA",
        ["CODICE_ART", "MARCA_ART", "DESCRIZIONE_ART"],
    ] = ["SHIPURGENT", "Aziendale", "TRASPORTO URGENTE"]

    # Fix specific values in CODICE_ART
    df.loc[
        df["CODICE_ART"].isin(["TBF1214035", "TBF1414035"])
        & df["MARCA_ART"].isin(["NC", ".", "nc"]),
        "MARCA_ART",
    ] = "RCS"
    df.loc[
        (df["CODICE_ART"] == "26870") & df["MARCA_ART"].isin(["NC", ".", "nc"]),
        "MARCA_ART",
    ] = "FEBI"
    df.loc[
        (df["CODICE_ART"] == "3182654192") & df["MARCA_ART"].isin(["NC", ".", "nc"]),
        "MARCA_ART",
    ] = "SACHS"

    # Fix IMPOSTA OLIO in DESCRIZIONE_ART
    df.loc[
        df["DESCRIZIONE_ART"].str.contains("IMPOSTA OLIO", case=False, na=False),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["OILVAT", "TAX"]

    # Additional conditions
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "BONUS15|BONUS_15|BONUS_25|BONUS-15", case=False, na=False
        ),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["PROMOBONUS01", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "ASSICURAZIONE 6% CASCO|ASSICURAZIONE 4033195 6%|ASSICURAZIONE",
            case=False,
            na=False,
        ),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ASSICURAZIONE", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "periodo q4/2023", ["CODICE_ART", "MARCA_ART"]] = [
        "BOSCCORPQ42023",
        "Aziendale",
    ]
    df.loc[df["DESCRIZIONE_ART"] == "PERIODO Q3/2023", ["CODICE_ART", "MARCA_ART"]] = [
        "BOSCCORPQ32023",
        "Aziendale",
    ]
    df.loc[df["DESCRIZIONE_ART"] == "PERIODO Q1/2024", ["CODICE_ART", "MARCA_ART"]] = [
        "BOSCORPQ12024",
        "Aziendale",
    ]

    df.loc[
        df["DESCRIZIONE_ART"] == "Kit tubaz/flessib Mercedes",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["Unknown", "MERCEDES"]
    df.loc[
        df["DESCRIZIONE_ART"] == "PACKAGING",
        ["CODICE_ART", "DESCRIZIONE_ART", "MARCA_ART"],
    ] = ["PACKING01", "IMBALLO", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Urgenza Bosch",
        ["CODICE_ART", "DESCRIZIONE_ART", "MARCA_ART"],
    ] = ["PACKING01", "IMBALLO", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "PROVA AL BANCO INIETT DENSO C.R.",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ORDMANO01", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "INIETT 0445110351", ["CODICE_ART", "MARCA_ART"]
    ] = ["0445110351", "BOSCH"]
    df.loc[
        df["DESCRIZIONE_ART"] == "INIETT 0445110351 REVIS.", ["CODICE_ART", "MARCA_ART"]
    ] = ["0986435204", "BOSCH"]
    df.loc[
        df["DESCRIZIONE_ART"] == "EUROTECH 95006227", ["CODICE_ART", "MARCA_ART"]
    ] = ["95006227", "EUROTEC"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SCONTO SU CONTEGGI", ["CODICE_ART", "MARCA_ART"]
    ] = ["PROMOCOUNT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "VENDITA BATTERIE ESAUSTE", ["CODICE_ART", "MARCA_ART"]
    ] = ["ORDEXIDE20240510", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "IMPORTO ADDEBITO", ["CODICE_ART", "MARCA_ART"]] = [
        "ACCPEN01",
        "Aziendale",
    ]

    # Fix specific values in DESCRIZIONE_ART for unique conditions
    df.loc[
        df["DESCRIZIONE_ART"] == "ASSEGNO IMPAGATO N 0214310167",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACC0214310167", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "ASSEGNO IMPAG N 100593023 DEL 07/06",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACC100593023", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "accredito per err.applic.penale",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACCERR20240417", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "INCASSO, VARIE", ["CODICE_ART", "MARCA_ART"]] = [
        "ACC20240318",
        "Aziendale",
    ]
    df.loc[
        df["DESCRIZIONE_ART"] == "INDICARE MOTIVAZIONE", ["CODICE_ART", "MARCA_ART"]
    ] = ["ACCERRU", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SCONTO NON INDICATO", ["CODICE_ART", "MARCA_ART"]
    ] = ["ACCERR", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPEDIZIONI ERRATE", ["CODICE_ART", "MARCA_ART"]
    ] = ["ACCERRSHIP", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "errato importo trasporto", ["CODICE_ART", "MARCA_ART"]
    ] = ["ACCERRSHIP", "Aziendale"]

    # SHIP conditions
    df.loc[
        df["DESCRIZIONE_ART"] == "1/2TRASPORTO INTERCONTIN.",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE ENGLAND",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE estero", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE ESTERO", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO DA ESTERO", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE GERMANY",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "DA E PER FORNITORE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO DA FORNITORE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO da fornitore", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO CON SPONDA", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPSPONDA", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "accredito per spese trasporto ",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACCSHIPERR", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "storno spese di trasporto",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["ACCSHIPERR", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "TRASPORTO BRT", ["CODICE_ART", "MARCA_ART"]] = [
        "SHIPBRT",
        "Aziendale",
    ]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO a destinatario", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPREGULAR", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE BH", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPBH", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "TRASPORTO BH", ["CODICE_ART", "MARCA_ART"]] = [
        "SHIPBH",
        "Aziendale",
    ]
    df.loc[
        df["DESCRIZIONE_ART"] == "trasporto  da BH",
        ["CODICE_ART", "MARCA_ART", "QUANTITA", "PREZZO", "VAL_MERCE", "ULTIMO_ACQ"],
    ] = ["SHIPBH", "Aziendale", 1, 25, 25, 20.5]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO DA E PER FORNITORE",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "trasporto da e per Fornitore",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[df["DESCRIZIONE_ART"] == "Trasporto delphi", ["CODICE_ART", "MARCA_ART"]] = [
        "SHIPSUPPLIER",
        "Aziendale",
    ]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO AEREO DA FORNITORE",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIERURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO 50 EURO ",
        ["CODICE_ART", "MARCA_ART", "VAL_MERCE", "ULTIMO_ACQ"],
    ] = ["SHIPURGENT", "Aziendale", 50, 45]

    df.loc[
        df["DESCRIZIONE_ART"] == "Servizi Extra Trasporto Vasca racco",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPREGULAR", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASFERTA PRESSO VS SEDE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPREGULAR", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASP. GLS RIF DDT 14 DEL 08/05/24",
        ["CODICE_ART", "MARCA_ART", "QUANTITA", "PREZZO", "VAL_MERCE", "ULTIMO_ACQ"],
    ] = ["SHIPBH", "Aziendale", 1, 37, 22, 37]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE 3,8%", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE 3.8%", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPESE TRASPORTO URGENZA ", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENZA ", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPESE TRASPORTO URGENTE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO SPESE URGENTI", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPESE TRASPORTO UREGENTE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE 2359.000",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "trasporto urgente",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE ",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Trasporto da Fornitore",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIER", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Trasporto Urgente", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE polv+ centralina",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO OMAGGIO", ["CODICE_ART", "MARCA_ART"]
    ] = ["PROMOSHIP", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO EXTRA URGENZA", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE 4%", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Trasporto urgente da Bosch",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIERURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE DA BOSCH",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIERURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE DA FORNITORE",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPSUPPLIERURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE DA ESTERO",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO DA FORNITORE ESTERO",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Trasporto da Fornitore Estero",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPESE TRASPORTO UREGENTI", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "SPESE TRASPORTO URGENTI", ["CODICE_ART", "MARCA_ART"]
    ] = ["SHIPURGENT", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "Trasporto da e per Fornitore",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"] == "TRASPORTO URGENTE ALBERO DA ESTERO",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPINTERNATIONAL", "Aziendale"]
    df.loc[
        df["DESCRIZIONE_ART"].str.contains("TRASPORTO DHL", case=False, na=False),
        ["CODICE_ART", "MARCA_ART"],
    ] = ["SHIPDHL", "Aziendale"]

    # More conditions
    df.loc[
        df["DESCRIZIONE_ART"] == "PROVA AL BANCO INIET DENSO",
        ["CODICE_ART", "MARCA_ART"],
    ] = ["RCSORDSCIAB20243001", "Aziendale"]

    df.loc[
        df["DESCRIZIONE_ART"].isin(
            [
                "SPESE TRASORTO URGENTE",
                "SPESE TRSPORTO URGENTI",
                "SPESE URGENTI",
                "SPESE TRSPORTO URGENTE",
            ]
        ),
        "CODICE_ART",
    ] = "SHIPURGENT"

    df.loc[df["DESCRIZIONE_ART"] == "spese", ["CODICE_ART", "MARCA_ART"]] = [
        "PACKING01",
        "Aziendale",
    ]

    df.loc[
        df["DESCRIZIONE_ART"] == "STORNO SPESE INCASSO", ["CODICE_ART", "MARCA_ART"]
    ] = ["ACC01", "Aziendale"]

    # One last logic pass to check for imballo and trasporto remnants

    df.loc[
        (df["CODICE_ART"] == "trasporto") & (df["DESCRIZIONE_ART"] == ""),
        ["CODICE_ART", "DESCRIZIONE_ART"],
    ] = ["SHIPREGULAR", "TRASPORTO"]
    df.loc[
        (df["CODICE_ART"] == "SPESE") & (df["DESCRIZIONE_ART"] == "IMBALLO"),
        ["CODICE_ART", "DESCRIZIONE_ART"],
    ] = ["PACKING01", "IMBALLO"]

    # Set ULTIMO_ACQ to 0 for specific DESCRIZIONE_ART values
    df.loc[
        df["DESCRIZIONE_ART"].str.contains(
            "WD40|WD-40|WARRANTY|IMPOSTA OLIO|IMBALLO|TRASPORTO|PACKAGING|Urgenza Bosch",
            case=False,
            na=False,
        ),
        "ULTIMO_ACQ",
    ] = 0

    # Assign AGENTE value of 60 for 'CLIENTE DA WEB'
    df.loc[df["RAGIONE_SOCIALE"] == "CLIENTE DA WEB", "AGENTE"] = 60

    # Assign placeholder Codice Agente for any remaining missing or zero values
    df["AGENTE"] = df["AGENTE"].apply(lambda x: "100" if pd.isna(x) or x == 0 else x)

    # Assign AG 50 for foreign "RAGIONE SOCIALE"
    df["AGENTE"] = df.apply(
        lambda row: "50"
        if row["RAGIONE_SOCIALE"] in foreign_ragione_sociale
        else row["AGENTE"],
        axis=1,
    )

    # Verify that no 'AGENTE' values are missing
    missing_agente_after = df["AGENTE"].isna().sum()
    print(f"Missing 'AGENTE' after filling: {missing_agente_after}")

    # Assign 'MARCA_ART' to 'Aziendale' for specific 'CODICE_ART' values
    df.loc[
        df["CODICE_ART"].str.contains(
            "EXTRA|ASSICURAZIONE|PENALE|ABBONAM-TRASP-0001|OMAGGIO|SPESE|TRASPORTO|WARRANTY",
            case=False,
            na=False,
        ),
        "MARCA_ART",
    ] = "Aziendale"

    # Separate the rows to be dropped
    dropped_df = df[df["MARCA_ART"].isin(["NC", ".", "", "nc"])]
    dropped_df_list.append(dropped_df)

    # Drop entries where 'MARCA_ART' is 'NC' or '.' or empty
    filtered_df = df[~df["MARCA_ART"].isin(["NC", ".", "", "nc"])]

    # Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
    filtered_df["DATA_MOV"] = pd.to_datetime(
        filtered_df["DATA_MOV"], format="%d/%m/%Y", errors="coerce"
    )
    grouped = filtered_df.groupby(["RAGIONE_SOCIALE"])
    sorted_df = grouped.apply(
        lambda x: x.sort_values(by="DATA_MOV", ascending=True)
    ).reset_index(drop=True)

    # Keep specific columns and rename them
    columns_to_keep = {
        "DATA_MOV": "Data Documento Precedente",
        "LISTA": "Numero Lista",
        "MESE": "Mese",
        "ANNO": "Anno",
        "RAGIONE_SOCIALE": "Ragione Sociale Cliente",
        "CLIENTE": "Codice Cliente",
        "AGENTE": "Codice Agente",
        "CODICE_ART": "Codice Articolo",
        "MARCA_ART": "Marca Articolo",
        "DESCRIZIONE_ART": "Descrizione Articolo",
        "QUANTITA": "Quantita",
        "VAL_MERCE": "Valore",
        "ULTIMO_ACQ": "Costo",
        "PREZZO": "Prezzo Articolo",
    }
    cleaned_df = filtered_df[columns_to_keep.keys()].rename(columns=columns_to_keep)

    # Update 'Costo' based on 'Prezzo Articolo'
    cleaned_df["Costo"] = cleaned_df.apply(
        lambda row: row["Prezzo Articolo"] * 0.9
        if pd.isna(row["Costo"]) or row["Costo"] == 0 and row["Prezzo Articolo"] > 0
        else 0
        if pd.isna(row["Costo"]) or row["Costo"] == 0 and row["Prezzo Articolo"] == 0
        else abs(row["Prezzo Articolo"])
        if pd.isna(row["Costo"]) or row["Costo"] == 0 and row["Prezzo Articolo"] < 0
        else row["Costo"],
        axis=1,
    )

    # Append the cleaned dataframe to the list
    df_list.append(cleaned_df)

# Concatenate all the dataframes
final_df = pd.concat(df_list, ignore_index=True)
dropped_final_df = pd.concat(dropped_df_list, ignore_index=True)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx"
final_df.to_excel(cleaned_file_path, index=False)

# Save the dropped dataset to a new CSV file
dropped_file_path = "Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv"
dropped_final_df.to_csv(dropped_file_path, index=False)

# Convert to JSON format
json_file_path = "Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json"
final_df.to_json(json_file_path, orient="records", date_format="iso")

print("Cleaning process completed and saved to", cleaned_file_path)
print("Dropped data saved to", dropped_file_path)
print("JSON file saved to", json_file_path)


Before applying 'imballo' condition:
                   DESCRIZIONE_ART   CODICE_ART  MARCA_ART
2444                       IMBALLO        EXTRA          .
2648  spese di trasporto e imballo  SHIPREGULAR  Aziendale
2650     spese trasporto e imballo  SHIPREGULAR  Aziendale
2948                       IMBALLO      IMBALLO          .
4690                       IMBALLO        EXTRA          .
4729                       IMBALLO      IMBALLO          .
6354                       IMBALLO      IMBALLO          .
8332                       IMBALLO      IMBALLO          .
After applying 'imballo' condition:
                   DESCRIZIONE_ART   CODICE_ART  MARCA_ART
2444                       IMBALLO    PACKING01  Aziendale
2648  spese di trasporto e imballo  SHIPREGULAR  Aziendale
2650     spese trasporto e imballo  SHIPREGULAR  Aziendale
2948                       IMBALLO    PACKING01  Aziendale
4690                       IMBALLO    PACKING01  Aziendale
4729                       IMBALLO    PACK

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
      DESCRIZIONE_ART CODICE_ART MARCA_ART
43            Imballo         NC        NC
527           IMBALLO         NC        NC
534           Imballo         NC        NC
539           Imballo         NC        NC
543           Imballo         NC        NC
552           Imballo         NC        NC
556           Imballo         NC        NC
561           Imballo         NC        NC
563           IMBALLO         NC        NC
655           Imballo         NC        NC
1040          Imballo         NC        NC
1042          Imballo         NC        NC
1045          Imballo         NC        NC
1050          Imballo         NC        NC
1066          Imballo         NC        NC
1075          Imballo         NC        NC
1080          Imballo         NC        NC
1874          IMBALLO         NC        NC
2444          Imballo         NC        NC
2449          Imballo         NC        NC
2455          Imballo         NC        NC
2463          Imb

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
           DESCRIZIONE_ART CODICE_ART MARCA_ART
1084  STORNO SPESE IMBALLO         NC        NC
1555               IMBALLO         NC        NC
1954               IMBALLO         NC        NC
3233               IMBALLO         NC        NC
3241              IMBALLO          NC        NC
4249               IMBALLO         NC        NC
4316               IMBALLO         NC        NC
4778               IMBALLO         NC        NC
5525               IMBALLO         NC        NC
6980               IMBALLO         NC        NC
9066              IMBALLO          NC        NC
After applying 'imballo' condition:
           DESCRIZIONE_ART CODICE_ART  MARCA_ART
1084  STORNO SPESE IMBALLO  PACKING01  Aziendale
1555               IMBALLO  PACKING01  Aziendale
1954               IMBALLO  PACKING01  Aziendale
3233               IMBALLO  PACKING01  Aziendale
3241              IMBALLO   PACKING01  Aziendale
4249               IMBALLO  PACKING01  Aziendale
4316    

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
     DESCRIZIONE_ART CODICE_ART MARCA_ART
470          IMBALLO          .         .
501          IMBALLO          .         .
1039         IMBALLO          .         .
3360         IMBALLO          .         .
6027        IMBALLO           .         .
8826         IMBALLO      SPESE         .
8872         IMBALLO      SPESE         .
After applying 'imballo' condition:
     DESCRIZIONE_ART CODICE_ART  MARCA_ART
470          IMBALLO  PACKING01  Aziendale
501          IMBALLO  PACKING01  Aziendale
1039         IMBALLO  PACKING01  Aziendale
3360         IMBALLO  PACKING01  Aziendale
6027        IMBALLO   PACKING01  Aziendale
8826         IMBALLO      SPESE          .
8872         IMBALLO      SPESE          .
Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
     DESCRIZIONE_ART CODICE_ART MARCA_ART
440          IMBALLO          .         .
5338         IMBALLO      SPESE         .
5352         IMBALLO      SPESE         .
5855         IMBALLO         NC        NC
5881         IMBALLO         NC        NC
6388         IMBALLO          .         .
9238         IMBALLO    IMBALLO         .
After applying 'imballo' condition:
     DESCRIZIONE_ART CODICE_ART  MARCA_ART
440          IMBALLO  PACKING01  Aziendale
5338         IMBALLO      SPESE          .
5352         IMBALLO      SPESE          .
5855         IMBALLO  PACKING01  Aziendale
5881         IMBALLO  PACKING01  Aziendale
6388         IMBALLO  PACKING01  Aziendale
9238         IMBALLO  PACKING01  Aziendale
Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
      DESCRIZIONE_ART CODICE_ART MARCA_ART
3892          IMBALLO    IMBALLO         .
3898          IMBALLO    IMBALLO         .
4984          IMBALLO    IMBALLO         .
5956          IMBALLO    IMBALLO         .
6927          IMBALLO    IMBALLO         .
7088          IMBALLO    IMBALLO         .
7464          IMBALLO    IMBALLO         .
9881          IMBALLO          .         .
10379         IMBALLO    IMBALLO         .
10842         IMBALLO    IMBALLO         .
After applying 'imballo' condition:
      DESCRIZIONE_ART CODICE_ART  MARCA_ART
3892          IMBALLO  PACKING01  Aziendale
3898          IMBALLO  PACKING01  Aziendale
4984          IMBALLO  PACKING01  Aziendale
5956          IMBALLO  PACKING01  Aziendale
6927          IMBALLO  PACKING01  Aziendale
7088          IMBALLO  PACKING01  Aziendale
7464          IMBALLO  PACKING01  Aziendale
9881          IMBALLO  PACKING01  Aziendale
10379         IMBALLO  PACKING01  Aziendale
10842         

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Before applying 'imballo' condition:
   DESCRIZIONE_ART CODICE_ART MARCA_ART
23         IMBALLO    IMBALLO         .
After applying 'imballo' condition:
   DESCRIZIONE_ART CODICE_ART  MARCA_ART
23         IMBALLO  PACKING01  Aziendale
Missing 'AGENTE' after filling: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["DATA_MOV"] = pd.to_datetime(
  sorted_df = grouped.apply(


Cleaning process completed and saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.xlsx
Dropped data saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-dropped.csv
JSON file saved to Z:/My Drive/rcs/business analyst/Year2024-StatsSoFar-cleaned.json
