In [None]:
from fpdf import FPDF

# Create instance of FPDF class
pdf = FPDF()

# Add a page
pdf.add_page()

# Set font
pdf.set_font("Arial", size = 12)

# Add a cell
pdf.cell(200, 10, txt = "Schema del Progetto di Software di Gestione", ln = True, align = 'C')

# Add introductory text
intro_text = """
Questo documento descrive i requisiti tecnici e il progetto di base per un software di gestione per una società B2B che si occupa di parti auto. Il software utilizzerà React, TypeScript e Bootstrap per il frontend, Node.js/Express.js per il backend, MongoDB per il database e Python per il motore statistico.
"""
pdf.multi_cell(0, 10, intro_text)

# Add section headers and content
sections = [
    ("Ruoli degli Utenti e Permessi", """
- **Amministratore:**
  - Accesso completo a tutte le funzionalità.
  - Gestione di utenti, prodotti e promozioni.
  - Visualizzazione e analisi di tutte le statistiche e gli avvisi.
  - Visualizzazione della progressione e delle promozioni attive per tutti i clienti.

- **Agente di Vendita:**
  - Gestione delle promozioni.
  - Visualizzazione delle statistiche dei clienti e degli avvisi per i clienti associati.
  - Visualizzazione delle promozioni relative ai clienti associati.

- **Cliente:**
  - Visualizzazione della propria cronologia degli acquisti e delle statistiche di spesa.
  - Visualizzazione delle promozioni disponibili.
  - Visualizzazione della progressione verso le promozioni.
    """),
    ("Funzionalità Principali", """
- **Gestione Clienti:**
  - Tracciare le abitudini di spesa e la cronologia degli acquisti.
  - Generare avvisi per clienti inattivi (visualizzabili solo da amministratori e agenti).
  - Assegnare i clienti agli agenti (un cliente per agente, più clienti per agente).

- **Gestione Promozioni:**
  - Creare, inviare e gestire promozioni via SMS/Email.
  - Tracciare la progressione verso le promozioni in base alla spesa.

- **Gestione Ordini:**
  - Importare ordini da file CSV.
  - Futuro: Integrare con l'API di e-commerce per ottenere gli ordini direttamente.

- **Statistiche e Avvisi:**
  - Generare e visualizzare statistiche sul comportamento dei clienti e sulle vendite.
  - Inviare avvisi per cambiamenti significativi nel comportamento dei clienti.
    """),
    ("Architettura di Alto Livello", """
1. **Frontend:**
   - **Framework:** React.js
   - **Linguaggio:** TypeScript
   - **Stile:** Bootstrap

2. **Backend:**
   - **Framework:** Node.js/Express.js
   - **Database:** MongoDB
   - **Autenticazione:** JWT, OAuth2
   - **Parsing CSV:** Utilizzare una libreria come `csv-parser` per gestire i file CSV.
   - **Integrazione API:** Predisposizione per l'integrazione con un'API di e-commerce.

3. **Motore Statistico:**
   - **Linguaggio:** Python
   - **Librerie:** Pandas, NumPy, Scikit-learn
   - **Comunicazione:** RabbitMQ per la coda dei messaggi

4. **Deployment:**
   - **Provider Cloud:** AWS, Azure, o Google Cloud
   - **CI/CD:** Jenkins, GitHub Actions, o GitLab CI
    """),
    ("Diagrammi Dettagliati", """
##### Diagramma dei Casi d'Uso

                   +---------------------+
                   |     Sistema di      |
                   |    Gestione         |
                   +---------------------+
                    /      |       /      //
                   /       |        /      //
                  /        |         /      //
                 /         |          /      //
      +---------+          |           /      +---------+
      | Amministratore |          |           /     | Cliente |
      +---------+          |            /    +---------+
           |               |             /       |
  +--------v--------+ +----v-------v----+   +-----v-----+
  | Gestione Utenti | | Gestione Promozioni | | Visualizza Statistiche |
  +-----------------+ +-----------------+   +-----------+
                           |
                     +-----v-----+
                     | Promozioni |
                     +-----------+
                           |
                     +-----v-----+
                     |  Ordini    |
                     +-----------+
    """),
    ("Component Diagram", """
##### Diagramma dei Componenti

 +-------------------+     +-------------------+
 |     Frontend      |     |      Backend      |
 | (React.js)        |<--> | (Node.js/Express) |
 +-------------------+     +-------------------+
            |                      |
            |                      |
            v                      v
    +--------------+        +-------------+
    |   MongoDB    |        |   Python    |
    +--------------+        +-------------+
            |                      |
            |                      |
            v                      v
        +---------+         +-------------+
        | RabbitMQ|<------->| Python Stats|
        +---------+         +-------------+
            |
            |
        +---------+
        | CSV/API |
        +---------+
    """),
    ("Entity-Relationship Diagram (ERD)", """
##### Diagramma Entità-Relazioni (ERD)

 +-------------+     +-------------+     +-------------+
 |  Cliente    |     |   Prodotto   |     | Promozione  |
 +-------------+     +-------------+     +-------------+
        |                   |                   |
        |                   |                   |
        +-------------------+-------------------+
                            |
                            |
                       +----------+
                       |  Ordine  |
                       +----------+
                            |
                       +----------+
                       | Statistiche|
                       +----------+
                            |
                       +----------+
                       |   Agente  |
                       +----------+
    """),
    ("Panoramica Funzionale", """
#### Componenti del Frontend

1. **Dashboard Amministratore:**
   - Gestione Utenti: Aggiungere, modificare, eliminare utenti.
   - Gestione Promozioni: Creare e inviare promozioni.
   - Visualizzare Statistiche Clienti: Analisi e report dettagliati.
   - Importazione Ordini: Caricare file CSV per importare ordini.
   - Visualizzare e Gestire Avvisi.
   - Visualizzare la progressione e le promozioni attive per tutti i clienti.

2. **Dashboard Agente di Vendita:**
   - Gestione Promozioni: Creare e inviare promozioni.
   - Visualizzare Statistiche Clienti: Informazioni sul comportamento dei clienti associati.
   - Visualizzare Avvisi: Notifiche per cambiamenti significativi nel comportamento dei clienti associati.
   - Visualizzare Promozioni: Relativi ai clienti associati.

3. **Dashboard Cliente:**
   - Visualizzare Statistiche Personali: Accesso alla cronologia degli acquisti personali e alle statistiche di spesa.
   - Visualizzare Promozioni: Accesso alle promozioni disponibili.
   - Visualizzare Progressione: Progressione verso le promozioni.

#### Servizi del Backend

1. **Gestione Utenti:**
   - Endpoint API per operazioni CRUD sugli utenti.
   - Autenticazione e autorizzazione tramite JWT.
   - Assegnare i clienti agli agenti.

2. **Gestione Promozioni:**
   - Endpoint API per creare e inviare promozioni via SMS/Email.
   - Tracciare la progressione dei clienti verso le promozioni.

3. **Gestione Ordini:**
   - Endpoint API per caricare e analizzare file CSV.
   - Servizio futuro per l'integrazione con l'API di e-commerce.

4. **Gestione Statistiche e Avvisi:**
   - Endpoint API per generare e recuperare statistiche.
   - Integrazione con Python per analisi avanzate.
    """),
    ("Prossimi Passi", """
1. **Definire gli Endpoint API:**
   - Elencare tutti gli endpoint necessari per la gestione di utenti, promozioni, ordini e statistiche.
   - Includere endpoint per il caricamento di file CSV e l'integrazione futura con l'API.

2. **Configurare l'Ambiente Iniziale:**
   - Configurare MongoDB, Node.js/Express, e le strutture del progetto React.
   - Configurare RabbitMQ e l'ambiente Python.

3. **Sviluppare le Funzionalità Core:**
   - Implementare le funzionalità principali come l'autenticazione degli utenti, la gestione delle promozioni e il tracciamento base degli ordini.
   - Assegnare i clienti agli agenti e gestire le associazioni.

4. **Integrare la Gestione dei CSV:**
   - Implementare la funzionalità di caricamento e analisi dei file CSV.

5. **Pianificare l'Integrazione Futura con l'API:**
   - Progettare il sistema in modo da poter passare facilmente dai caricamenti CSV alle chiamate API.
   - Implementare un servizio di placeholder per l'integrazione con l'API.

6. **Implementare il Frontend:**
   - Creare componenti React per le dashboard di amministratori, agenti di vendita e clienti.

7. **Test e Deployment:**
   - Eseguire test approfonditi di tutte le funzionalità.
   - Configurare una pipeline CI/CD per il deployment.
    """)
]

for title, content in sections:
    pdf.set_font("Arial", size=12, style='B')
    pdf.cell(0, 10, title, ln=True)
    pdf.set_font("Arial", size=12)
    pdf.multi_cell(0, 10, content)

# Save the PDF
pdf_output = "D:/coding/git-projects/rcs_management_stats/project_basis.pdf"
pdf.output(pdf_output)

pdf_output

  ("Diagrammi Dettagliati", """


'D:/coding/git-projects/rcs_management_stats/python.pdf'

In [None]:
from fpdf import FPDF

class PDF(FPDF):
    def header(self):
        self.set_font('Arial', 'B', 12)
        self.cell(0, 10, 'Piano di Implementazione', 0, 1, 'C')
        self.ln(10)

    def chapter_title(self, title):
        self.set_font('Arial', 'B', 12)
        self.cell(0, 10, title, 0, 1, 'L')
        self.ln(4)

    def chapter_body(self, body):
        self.set_font('Arial', '', 12)
        self.multi_cell(0, 10, body)
        self.ln()

    def add_chapter(self, title, body):
        self.add_page()
        self.chapter_title(title)
        self.chapter_body(body)

pdf = PDF()

# Title
pdf.set_title('Piano di Implementazione')

# Content
content = """
1. Panoramica delle Pagine e Componenti
Costruiremo le seguenti pagine per agenti, amministratori e clienti:

Pagina Clienti
Pagina Visite
Pagina Statistiche (In Costruzione)
Pagina Promozioni
Pagina Avvisi
Pagina Ordini
Pagina Articoli
Pagina Crea Avviso
Pagina Rapporto Visita
Successivamente, creeremo i dashboard per amministratori e clienti:

Dashboard Amministratore
Dashboard Cliente

2. Struttura delle Pagine e Componenti

Pagina Clienti
Componenti:
Elenco Clienti: Visualizza un elenco di clienti.
Ricerca e Filtri Clienti: Funzionalità di ricerca per filtrare i clienti per vari criteri (data, agente, cliente).
Dettagli Cliente: Mostra informazioni dettagliate su un cliente selezionato.
Storico Visite: Visualizza le note delle visite relative al cliente selezionato.
Funzionalità:
Vista Agente: Vede solo i clienti associati all'agente.
Vista Amministratore: Vede tutti i clienti, con informazioni sugli agenti associati.
Vista Cliente: Vede informazioni dettagliate su se stesso e lo storico delle visite.

Pagina Visite
Componenti:
Elenco Visite: Visualizza un elenco paginato di visite (25 per pagina).
Dettagli Visita: Mostra informazioni dettagliate su una visita selezionata.
Modulo Rapporto Visita (Pagina Separata): Un modulo per agenti e clienti per riportare i dettagli sulla visita.
Funzionalità:
Vista Agente: Vede solo le visite relative all'agente. Le visite senza rapporti sono evidenziate.
Vista Amministratore: Vede tutte le visite. Monitora i rapporti di visita in ritardo.
Vista Cliente: Vede le visite relative al cliente. Può inviare un rapporto di visita.
Avvisi automatizzati per i rapporti di visita in ritardo (24 ore dopo la visita).
Visite modificabili: Gli agenti possono spostare o riprogrammare le visite. Questo genera un avviso per gli amministratori.
Modulo Rapporto Visita: Diviso in una parte pubblica (visibile ai clienti) e una parte privata (visibile solo agli agenti e amministratori).

Pagina Statistiche
Componenti:
In Costruzione: Segnaposto che indica che la pagina è in costruzione.

Pagina Promozioni
Componenti:
Elenco Promozioni: Visualizza un elenco di promozioni attuali e passate.
Dettagli Promozione: Mostra informazioni dettagliate su una promozione selezionata.
Modulo Crea Promozione: Un modulo per creare nuove promozioni.
Funzionalità:
Vista Agente: Vede le promozioni relative ai clienti dell'agente.
Vista Amministratore: Vede tutte le promozioni.
Vista Cliente: Vede le promozioni relative a se stesso, se ha raggiunto gli obiettivi.

Pagina Avvisi
Componenti:
Elenco Avvisi: Visualizza un elenco di avvisi (automatici e manuali).
Dettagli Avviso: Mostra informazioni dettagliate su un avviso selezionato.
Funzionalità:
Vista Agente: Vede gli avvisi relativi all'agente.
Vista Amministratore: Vede tutti gli avvisi. Crea e gestisce avvisi.
Vista Cliente: Vede gli avvisi relativi a se stesso.

Pagina Ordini
Componenti:
Elenco Ordini: Visualizza un elenco di ordini dei clienti.
Dettagli Ordine: Mostra informazioni dettagliate su un ordine selezionato.
Funzionalità:
Vista Agente: Vede solo gli ordini dei clienti associati all'agente.
Vista Amministratore: Vede tutti gli ordini dei clienti.
Vista Cliente: Vede solo i propri ordini.
Informazioni sugli articoli collegati agli ordini, comprese le promozioni utilizzate e lo stato dei debiti.

Pagina Articoli
Componenti:
Elenco Articoli: Visualizza un elenco di articoli.
Ricerca e Filtri Articoli: Funzionalità di ricerca e filtro per ordinare gli articoli (migliori vendite, ecc.).
Dettagli Articolo: Mostra informazioni dettagliate su un articolo selezionato.
Funzionalità:
Vista Agente: Vede solo gli articoli relativi agli ordini dei clienti associati all'agente.
Vista Amministratore: Vede tutti gli articoli.
Vista Cliente: Vede solo gli articoli relativi ai propri ordini, con un link all'ordine relativo.
Informazioni sugli articoli: numero OEM compatibile, ID del produttore, nome, descrizione, promozioni o coupon associati.
Collegamento automatico degli articoli con lo stesso numero OEM.

Pagina Crea Avviso
Componenti:
Modulo Crea Avviso: Un modulo per creare nuovi avvisi.
Funzionalità:
Vista Amministratore: Crea nuovi avvisi.

Pagina Rapporto Visita
Componenti:
Modulo Rapporto Visita: Un modulo per riportare i dettagli su una visita.
Funzionalità:
Vista Agente: Invia rapporti di visita.
Vista Cliente: Invia feedback su una visita.
Parte Pubblica: Visibile ai clienti.
Parte Privata: Visibile solo agli agenti e amministratori.

3. Dashboard

Dashboard Amministratore
Componenti:
Panoramica: Riepilogo delle metriche e delle statistiche chiave.
Gestione Utenti: Gestisce agenti e clienti.
Avvisi di Sistema: Visualizza avvisi e notifiche di sistema.
Funzionalità:
Visualizza statistiche generali del sistema.
Gestisce gli utenti (agenti e clienti).
Monitora avvisi e notifiche di sistema.
Interagisce con tutte le funzionalità degli agenti per la supervisione amministrativa.

Dashboard Cliente
Componenti:
Panoramica: Riepilogo dell'attività e delle statistiche del cliente.
Storico Acquisti: Visualizza uno storico degli ordini del cliente.
Promozioni Attive: Visualizza le promozioni attuali disponibili per il cliente.
Abitudini di Spesa: Rappresentazione visiva delle abitudini di spesa del cliente.
Funzionalità:
Visualizza attività e statistiche personali.
Accede allo storico degli acquisti.
Visualizza promozioni attive.
Monitora abitudini di spesa.
Interazione con Promozioni e Avvisi per dati personalizzati.

4. Tipi di Agenti
- Agenti di Vendita: Gestiscono le vendite e il rapporto con i clienti.
- Agenti di Vendita Tecnici: Forniscono supporto tecnico durante le vendite.
- Agenti di Supporto Tecnico: Offrono supporto tecnico post-vendita.
Nota: Tutti i tipi di agenti saranno trattati allo stesso modo all'interno dell'app. L'app verificherà il tipo di agente al momento del login e fornirà l'accesso alle funzioni richieste in base al loro ruolo.

5. Piano di Implementazione

Impostare le Rotte e i Componenti delle Pagine
Definire le rotte per ogni pagina nei dashboard dell'agente, dell'amministratore e del cliente.
Creare la struttura di base per ogni pagina.

Implementare le Funzionalità per Ogni Pagina
Pagina Clienti: Implementare ricerca clienti, filtri, dettagli e storico visite in base al tipo di utente loggato.
Pagina Visite: Implementare elenco visite, dettagli e funzionalità di reporting. Automatizzare avvisi per rapporti in ritardo.
Pagina Promozioni: Implementare elenco promozioni, dettagli e modulo di creazione con tracciamento dell'efficacia.
Pagina Avvisi: Sviluppare elenco avvisi, dettagli e modulo di creazione con tracciamento della risoluzione.
Pagina Ordini: Implementare elenco ordini, dettagli e informazioni sugli articoli.
Pagina Articoli: Implementare elenco articoli, ricerca, filtri, dettagli e collegamenti automatici.
Pagina Crea Avviso: Implementare il modulo per la creazione di nuovi avvisi da parte degli amministratori.
Pagina Rapporto Visita: Implementare il modulo per l'invio di rapporti di visita da parte di agenti e clienti.

Sviluppare i Dashboard
Impostare le rotte e la struttura di base per i dashboard di amministratori e clienti.
Implementare funzionalità specifiche e componenti per ogni dashboard.

Integrare e Testare
Assicurarsi che tutte le pagine e i componenti siano integrati e funzionali.
Condurre test approfonditi per identificare e risolvere problemi.

Esempio Dettagliato: Implementazione della Pagina Clienti
Componenti:
ClientsList.tsx: Visualizza un elenco di clienti.
ClientSearchFilters.tsx: Filtra i clienti per data, agente, cliente.
ClientDetails.tsx: Mostra informazioni dettagliate su un cliente selezionato.
VisitsHistory.tsx: Visualizza le note delle visite relative al cliente selezionato.

Interazione:
Filtrare per cliente o data aggiorna il componente VisitsHistory per mostrare le note di visita pertinenti.

Sommario del Piano Generale
Pagina Clienti: Creare e integrare componenti con filtri e interazione cliente-visita.
Pagina Visite: Implementare elenco visite, dettagli e funzionalità di reporting. Automatizzare avvisi per rapporti in ritardo.
Pagina Promozioni: Implementare elenco promozioni, dettagli e modulo di creazione con tracciamento dell'efficacia.
Pagina Avvisi: Sviluppare elenco avvisi, dettagli e modulo di creazione con tracciamento della risoluzione.
Pagina Ordini: Implementare elenco ordini, dettagli e informazioni sugli articoli.
Pagina Articoli: Implementare elenco articoli, ricerca, filtri, dettagli e collegamenti automatici.
Dashboard Amministratore e Cliente: Personalizzare i dashboard con funzionalità e dati rilevanti.
Pagina Crea Avviso: Implementare il modulo per la creazione di nuovi avvisi da parte degli amministratori.
Pagina Rapporto Visita: Implementare il modulo per l'invio di rapporti di visita da parte di agenti e clienti.

Seguendo questo piano strutturato, ci assicuriamo che tutte le funzionalità siano ben pensate e integrate senza problemi. Una volta che avremo un piano chiaro e comprensione, possiamo iniziare a codificare ogni componente passo dopo passo. Se hai domande specifiche o necessiti di ulteriori dettagli su qualsiasi parte, non esitare a chiedere!
"""

pdf.add_chapter('Piano di Implementazione', content)

# Save the PDF to a file
pdf.output('Piano_di_Implementazione.pdf')


''

In [10]:
import pandas as pd
import json
from numpyencoder import NumpyEncoder

# Load the dataset
file_path = 'X:/artor/Downloads/mov_ven_01_06_2024.xlsx'
df = pd.read_excel(file_path)

# Inspect the columns
print(df.columns)

# Group by 'Numero Documento Attuale' and 'Codice Cliente'
grouped = df.groupby(['Numero Documento Attuale', 'Codice Cliente'])

# Function to sort within groups
def sort_within_group(group):
    return group.sort_values(by=['Numero Lista'])

# Apply sorting within each group
sorted_df = grouped.apply(sort_within_group).reset_index(drop=True)

# Convert the sorted DataFrame to a list of dictionaries
def convert_to_json(df):
    orders = []
    
    for (doc_num, client_code), group in df.groupby(['Numero Documento Attuale', 'Codice Cliente']):
        movements = group.to_dict(orient='records')
        order = {
            'documentNumber': doc_num,
            'clientCode': client_code,
            'movements': movements
        }
        orders.append(order)
    
    return orders

# Convert to JSON-like structure
orders_json = convert_to_json(sorted_df)

# Save the orders JSON to a file
output_path = 'X:/artor/Downloads/json.json'
with open(output_path, 'w') as f:
    json.dump(orders_json, f, indent=4, cls=NumpyEncoder)

print("JSON file created successfully.")



Index(['Data Lista', 'Tipo Documento Attuale', 'Data Documento Attuale',
       'Numero Documento Attuale', 'Lettera Documento Attuale',
       'Tipo Documento Precedente', 'Data Documento Precedente',
       'Numero Documento Precedente', 'Lettera Documento Precedente',
       'Codice Cliente', 'Ragione Sociale Cliente', 'Codice Agente',
       'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo',
       'Descrizione Articolo', 'Quantita Articolo', 'Prezzo Articolo',
       'Valore', 'Mese', 'Anno', 'Costo', 'Gruppo Merceologico', 'Famiglia',
       'Categoria Sconto Vendita', 'Reparto', 'Numero Lista'],
      dtype='object')


  sorted_df = grouped.apply(sort_within_group).reset_index(drop=True)


JSON file created successfully.


In [11]:
import pandas as pd
import json
from numpyencoder import NumpyEncoder

# Load the dataset
file_path = 'X:/artor/Downloads/mov_ven_01_06_2024.xlsx'
df = pd.read_excel(file_path)

# Inspect the columns
print(df.columns)

# Function to sort within groups
def sort_within_group(group):
    return group.sort_values(by=['Numero Lista'])

# Apply sorting by 'Ragione Sociale Cliente' and then group by 'Data Documento Attuale'
df_sorted = df.sort_values(by=['Ragione Sociale Cliente', 'Data Documento Attuale'])

# Group by 'Ragione Sociale Cliente' and 'Data Documento Attuale'
grouped = df_sorted.groupby(['Ragione Sociale Cliente', 'Data Documento Attuale'])

# Convert the sorted DataFrame to a list of dictionaries
def convert_to_json(df):
    orders = []
    
    for (client_name, doc_date), group in df.groupby(['Ragione Sociale Cliente', 'Data Documento Attuale']):
        group_sorted = group.sort_values(by=['Numero Lista'])
        movements = group_sorted.to_dict(orient='records')
        order = {
            'clientName': client_name,
            'documentDate': doc_date,
            'movements': movements
        }
        orders.append(order)
    
    return orders

# Convert to JSON-like structure
orders_json = convert_to_json(df_sorted)

# Save the orders JSON to a file
output_path = 'X:/artor/Downloads/json.json'
with open(output_path, 'w') as f:
    json.dump(orders_json, f, indent=4, cls=NumpyEncoder)

print("JSON file created successfully.")


Index(['Data Lista', 'Tipo Documento Attuale', 'Data Documento Attuale',
       'Numero Documento Attuale', 'Lettera Documento Attuale',
       'Tipo Documento Precedente', 'Data Documento Precedente',
       'Numero Documento Precedente', 'Lettera Documento Precedente',
       'Codice Cliente', 'Ragione Sociale Cliente', 'Codice Agente',
       'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo',
       'Descrizione Articolo', 'Quantita Articolo', 'Prezzo Articolo',
       'Valore', 'Mese', 'Anno', 'Costo', 'Gruppo Merceologico', 'Famiglia',
       'Categoria Sconto Vendita', 'Reparto', 'Numero Lista'],
      dtype='object')
JSON file created successfully.


In [15]:
import pandas as pd

# Load the dataset
file_path = 'X:/artor/Downloads/mov_ven_01_06_2024.xlsx'
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=['Numero Lista'])

# Group by 'Ragione Sociale Cliente'
grouped = df_sorted.groupby(['Ragione Sociale Cliente'])

# Sort each group by 'Data Documento Attuale'
sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)

# Drop columns that are not useful for our purposes
columns_to_keep = [
    'Ragione Sociale Cliente', 'Codice Cliente','Codice Agente', 'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo', 'Descrizione Articolo', 'Valore' , 'Mese', 'Anno', 'Costo', 'Numero Lista',
    'Codice Cliente', 'Prezzo Articolo', 'Valore', 'Data Documento Precedente', 'Categoria Sconto Vendita'
]

# Save the cleaned DataFrame to a new Excel file
output_path = 'X:/artor/Downloads/cleaned_mov_ven_01_06_2024.xlsx'
cleaned_df.to_excel(output_path, index=False)

print("Dataset cleaned and saved successfully.")


  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)


Dataset cleaned and saved successfully.


Code to convert the dataframe.

In [16]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024_original.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=['Numero Lista'])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
grouped = df_sorted.groupby(['Ragione Sociale Cliente'])
sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df['Data Documento Precedente'].isna()
sorted_df.loc[missing_dates_mask, 'Data Documento Precedente'] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, 'Anno'].astype(str) + '-' +
    sorted_df.loc[missing_dates_mask, 'Mese'].astype(str) + '-01'
)

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    'Ragione Sociale Cliente', 'Codice Cliente','Codice Agente', 'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo', 'Descrizione Articolo', 'Valore' , 'Mese', 'Anno', 'Costo', 'Numero Lista',
    'Prezzo Articolo', 'Data Documento Precedente', 'Categoria Sconto Vendita'
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
cleaned_df['Costo'] = cleaned_df['Costo'].str.replace(',', '.').astype(float)
cleaned_df['Prezzo Articolo'] = cleaned_df['Prezzo Articolo'].str.replace(',', '.').astype(float)

# Convert 'Data Documento Precedente' to datetime format
cleaned_df['Data Documento Precedente'] = pd.to_datetime(cleaned_df['Data Documento Precedente'], format='%Y%m%d', errors='coerce')

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

cleaned_file_path


  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
[]
Length: 0, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  sorted_df.loc[missing_dates_mask, 'Data Documento Precedente'] = pd.to_datetime(
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] =

'X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx'

In [3]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024_original.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=['Numero Lista'])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
df_sorted['Data Documento Precedente'] = pd.to_datetime(df_sorted['Data Documento Precedente'], format='%Y%m%d', errors='coerce')
grouped = df_sorted.groupby(['Ragione Sociale Cliente'])
sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df['Data Documento Precedente'].isna()
sorted_df.loc[missing_dates_mask, 'Data Documento Precedente'] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, 'Anno'].astype(str) + '-' +
    sorted_df.loc[missing_dates_mask, 'Mese'].astype(str) + '-01'
)

# Verify that no 'Data Documento Precedente' values are missing
missing_dates_after = sorted_df['Data Documento Precedente'].isna().sum()
print(f"Missing 'Data Documento Precedente' after filling: {missing_dates_after}")

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')

# Backward fill in case there are still missing values at the beginning of the groups
sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')

# Assign temporary Codice Agente for any remaining missing values
sorted_df['Codice Agente'].fillna(99, inplace=True)

# Verify that no 'Codice Agente' values are missing
missing_agente_after = sorted_df['Codice Agente'].isna().sum()
print(f"Missing 'Codice Agente' after filling: {missing_agente_after}")

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    'Data Documento Precedente', 'Mese', 'Anno', 'Ragione Sociale Cliente', 'Codice Cliente', 'Codice Agente',
    'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo', 'Descrizione Articolo', 'Valore', 'Costo', 
    'Numero Lista', 'Prezzo Articolo', 'Categoria Sconto Vendita'
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
cleaned_df['Costo'] = cleaned_df['Costo'].str.replace(',', '.').astype(float)
cleaned_df['Prezzo Articolo'] = cleaned_df['Prezzo Articolo'].str.replace(',', '.').astype(float)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

print("Cleaning process completed and saved to", cleaned_file_path)


  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sorted_df['Codice Agente'].fillna(99, inplac

Missing 'Data Documento Precedente' after filling: 0
Missing 'Codice Agente' after filling: 0
Cleaning process completed and saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx


In [20]:
# Load the cleaned dataset provided by the user
cleaned_user_file_path = "X:/artor/Downloads/movimenti01_2024_06_2024_cleaned.xlsx"
cleaned_user_df = pd.read_excel(cleaned_user_file_path)

# Load the cleaned dataset from our process
cleaned_our_file_path = 'X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.xlsx'
cleaned_our_df = pd.read_excel(cleaned_our_file_path)

# Compare the two datasets
comparison_results = {
    'Shape Comparison': cleaned_user_df.shape == cleaned_our_df.shape,
    'Column Names Comparison': cleaned_user_df.columns.tolist() == cleaned_our_df.columns.tolist(),
    'First Few Rows Comparison': cleaned_user_df.head().equals(cleaned_our_df.head())
}

comparison_results


{'Shape Comparison': False,
 'Column Names Comparison': False,
 'First Few Rows Comparison': False}

In [6]:
import pandas as pd

# Load the original dataset
file_path = "X:/artor/Downloads/mov_ven_01_06_2024_original.xlsx"
df = pd.read_excel(file_path)

# Sort by 'Numero Lista'
df_sorted = df.sort_values(by=['Numero Lista'])

# Group by 'Ragione Sociale Cliente' and sort each group by 'Data Documento Precedente'
df_sorted['Data Documento Precedente'] = pd.to_datetime(df_sorted['Data Documento Precedente'], format='%Y%m%d', errors='coerce')
grouped = df_sorted.groupby(['Ragione Sociale Cliente'])
sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)

# Fill missing 'Data Documento Precedente' using 'Mese' and 'Anno'
missing_dates_mask = sorted_df['Data Documento Precedente'].isna()
sorted_df.loc[missing_dates_mask, 'Data Documento Precedente'] = pd.to_datetime(
    sorted_df.loc[missing_dates_mask, 'Anno'].astype(str) + '-' +
    sorted_df.loc[missing_dates_mask, 'Mese'].astype(str) + '-01'
)

# Verify that no 'Data Documento Precedente' values are missing
missing_dates_after = sorted_df['Data Documento Precedente'].isna().sum()
print(f"Missing 'Data Documento Precedente' after filling: {missing_dates_after}")

# Forward fill the 'Codice Agente' based on the most recent known value for each 'Ragione Sociale Cliente'
sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')

# Backward fill in case there are still missing values at the beginning of the groups
sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')

# Assign temporary Codice Agente for any remaining missing values
sorted_df['Codice Agente'].fillna(99, inplace=True)

# Verify that no 'Codice Agente' values are missing
missing_agente_after = sorted_df['Codice Agente'].isna().sum()
print(f"Missing 'Codice Agente' after filling: {missing_agente_after}")

# Drop unnecessary columns, keep 'Categoria Sconto Vendita'
columns_to_keep = [
    'Data Documento Precedente', 'Mese', 'Anno', 'Ragione Sociale Cliente', 'Codice Cliente', 'Codice Agente',
    'Identificativo Articolo', 'Codice Articolo', 'Marca Articolo', 'Descrizione Articolo', 'Valore', 'Costo', 
    'Numero Lista', 'Prezzo Articolo', 'Categoria Sconto Vendita'
]
cleaned_df = sorted_df[columns_to_keep]

# Convert numeric columns to appropriate data types
cleaned_df['Valore'] = cleaned_df['Valore'].str.replace(',', '.').astype(float)
cleaned_df['Costo'] = cleaned_df['Costo'].str.replace(',', '.').astype(float)
cleaned_df['Prezzo Articolo'] = cleaned_df['Prezzo Articolo'].str.replace(',', '.').astype(float)

# Save the cleaned dataset to a new Excel file
cleaned_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx"
cleaned_df.to_excel(cleaned_file_path, index=False)

# Convert to JSON format
json_file_path = "X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.json"
cleaned_df.to_json(json_file_path, orient='records', date_format='iso')

print("Cleaning process completed and saved to", cleaned_file_path)
print("JSON file saved to", json_file_path)


  sorted_df = grouped.apply(lambda x: x.sort_values(by='Data Documento Precedente')).reset_index(drop=True)
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='ffill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
  sorted_df['Codice Agente'] = sorted_df.groupby('Ragione Sociale Cliente')['Codice Agente'].fillna(method='bfill')
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sorted_df['Codice Agente'].fillna(99, inplac

Missing 'Data Documento Precedente' after filling: 0
Missing 'Codice Agente' after filling: 0
Cleaning process completed and saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_finalv3.xlsx
JSON file saved to X:/artor/Downloads/mov_01-01-2024_to_12-06-2024_final.json


In [6]:
import pandas as pd

# Load the Excel file
file_path = 'C:/Users/artor/Downloads/estrapolo articoli al 26-06-2024 con upa.xlsx'
excel_data = pd.ExcelFile(file_path)

# Load the specific sheets into DataFrames
df_brand_rcs = excel_data.parse('Brand RCS')
df_brand_tecdoc = excel_data.parse('Brand TecDoc')
df_estrapolo_rcs = excel_data.parse('Estrapolo codici RCS')

# Clean up the column names for easier access
df_brand_tecdoc.columns = ['Brand ID', 'Brand Name']
df_brand_rcs.columns = ['Brand RCS', 'Brand TecDoc', 'ID Brand TecDoc']

# Initialize the new columns
df_brand_rcs['Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
df_brand_rcs['ID Brand TecDoc'] = None

# Create a dictionary to map the Brand Name from TecDoc to Brand ID
tecdoc_brand_dict = pd.Series(df_brand_tecdoc['Brand ID'].values, index=df_brand_tecdoc['Brand Name']).to_dict()

# Function to match the brands and update the dataframe
def match_brands(df_brand_rcs):
    for i, row in df_brand_rcs.iterrows():
        brand_rcs_partial = row['Brand RCS'][:5]
        match_found = False
        for brand_tecdoc, brand_id in tecdoc_brand_dict.items():
            if brand_tecdoc.startswith(brand_rcs_partial):
                df_brand_rcs.at[i, 'Brand TecDoc'] = brand_tecdoc
                df_brand_rcs.at[i, 'ID Brand TecDoc'] = brand_id
                match_found = True
                break
        if not match_found:
            df_brand_rcs.at[i, 'Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
            df_brand_rcs.at[i, 'ID Brand TecDoc'] = None

# Apply the matching function
match_brands(df_brand_rcs)

# Create a dictionary for quick lookup from the updated Brand RCS data
tecdoc_dict = pd.Series(df_brand_rcs['Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()
brand_rcs_dict = pd.Series(df_brand_rcs['ID Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()

# Initialize the new columns in the Estrapolo codici RCS sheet
df_estrapolo_rcs['Brand TecDoc'] = df_estrapolo_rcs['MARCA']
df_estrapolo_rcs['ID Brand TecDoc'] = 'MISSING ID'

# Function to update the Estrapolo codici RCS sheet
def update_estrapolo_rcs(df_estrapolo_rcs):
    for i, row in df_estrapolo_rcs.iterrows():
        brand_rcs_partial = row['MARCA'][:5]
        if brand_rcs_partial in tecdoc_dict:
            tecdoc_brand = tecdoc_dict[brand_rcs_partial]
            df_estrapolo_rcs.at[i, 'Brand TecDoc'] = tecdoc_brand
            if tecdoc_brand != 'NON PRESENTE IN TECDOC':
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = brand_rcs_dict[brand_rcs_partial]
            else:
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'
        else:
            df_estrapolo_rcs.at[i, 'Brand TecDoc'] = row['MARCA']
            df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'

# Apply the update function
update_estrapolo_rcs(df_estrapolo_rcs)

# Convert the 'GIACENZA' and 'PRZ. ULT. ACQ.' columns to appropriate numeric types
df_estrapolo_rcs['GIACENZA'] = pd.to_numeric(df_estrapolo_rcs['GIACENZA'].str.replace(',', '.'), errors='coerce')
df_estrapolo_rcs['PRZ. ULT. ACQ.'] = pd.to_numeric(df_estrapolo_rcs['PRZ. ULT. ACQ.'].str.replace(',', '.'), errors='coerce')
# Clean the Estrapolo codici RCS data
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['GIACENZA'] > 0]
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['PRZ. ULT. ACQ.'].notna()]

# Reorder the columns
df_estrapolo_rcs = df_estrapolo_rcs[['CODICE', 'MARCA', 'Brand TecDoc', 'ID Brand TecDoc', 'DESCRIZIONE', 'GIACENZA', 'PRZ. ULT. ACQ.']]

# Save the updated data to a new Excel file
updated_file_path = 'C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx'
with pd.ExcelWriter(updated_file_path) as writer:
    df_brand_rcs.to_excel(writer, sheet_name='Brand RCS', index=False)
    df_brand_tecdoc.to_excel(writer, sheet_name='Brand TecDoc', index=False)
    df_estrapolo_rcs.to_excel(writer, sheet_name='Estrapolo codici RCS', index=False)

updated_file_path


'C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx'

In [7]:
import pandas as pd

# Load the Excel file
file_path = 'C:/Users/artor/Downloads/estrapolo articoli al 26-06-2024 con upa.xlsx'
excel_data = pd.ExcelFile(file_path)

# Load the specific sheets into DataFrames
df_brand_rcs = excel_data.parse('Brand RCS')
df_brand_tecdoc = excel_data.parse('Brand TecDoc')
df_estrapolo_rcs = excel_data.parse('Estrapolo codici RCS')

# Clean up the column names for easier access
df_brand_tecdoc.columns = ['Brand ID', 'Brand Name']
df_brand_rcs.columns = ['Brand RCS', 'Brand TecDoc', 'ID Brand TecDoc']

# Rename MITSUBOSHI to MITSUBISHI in Brand TecDoc
df_brand_tecdoc['Brand Name'] = df_brand_tecdoc['Brand Name'].replace({'MITSUBOSHI': 'MITSUBISHI'})

# Rename specified brands in Brand RCS
brand_replacements = {
    'MERC': 'MERCEDES',
    'NISSA': 'NISSAN',
    'PEUGE': 'PEUGEOUT',
    'PIAGG': 'PIAGGIO',
    'RENAU': 'RENAULT',
    'SCANI': 'SCANIA',
    'TOYOT': 'TOYOTA',
    'VW': 'VOLKSWAGEN'
}
df_brand_rcs['Brand RCS'] = df_brand_rcs['Brand RCS'].replace(brand_replacements)

# Force certain brands to be 'NON PRESENTE IN TECDOC'
force_non_presente = ['CONTI', 'FRA', 'LEMA', 'MAX', 'MIRA', 'NOVOC', 'STAR', 'TEKNO', 'TURBO']
for brand in force_non_presente:
    df_brand_rcs.loc[df_brand_rcs['Brand RCS'].str.startswith(brand), ['Brand TecDoc', 'ID Brand TecDoc']] = ['NON PRESENTE IN TECDOC', 'MISSING ID']

# Handle METAL and MOTO conflicts
df_brand_rcs.loc[df_brand_rcs['Brand RCS'].str.startswith('METAL'), 'Brand RCS'] = 'METALCAUCHO'
df_brand_rcs.loc[df_brand_rcs['Brand RCS'].str.startswith('MOTO'), 'Brand RCS'] = 'MOTORCRAFT'

# Initialize the new columns
df_brand_rcs['Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
df_brand_rcs['ID Brand TecDoc'] = None

# Create a dictionary to map the Brand Name from TecDoc to Brand ID
tecdoc_brand_dict = pd.Series(df_brand_tecdoc['Brand ID'].values, index=df_brand_tecdoc['Brand Name']).to_dict()

# Function to match the brands and update the dataframe
def match_brands(df_brand_rcs):
    for i, row in df_brand_rcs.iterrows():
        brand_rcs_partial = row['Brand RCS'][:5]
        match_found = False
        for brand_tecdoc, brand_id in tecdoc_brand_dict.items():
            if brand_tecdoc.startswith(brand_rcs_partial):
                df_brand_rcs.at[i, 'Brand TecDoc'] = brand_tecdoc
                df_brand_rcs.at[i, 'ID Brand TecDoc'] = brand_id
                match_found = True
                break
        if not match_found:
            df_brand_rcs.at[i, 'Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
            df_brand_rcs.at[i, 'ID Brand TecDoc'] = None

# Apply the matching function
match_brands(df_brand_rcs)

# Create a dictionary for quick lookup from the updated Brand RCS data
tecdoc_dict = pd.Series(df_brand_rcs['Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()
brand_rcs_dict = pd.Series(df_brand_rcs['ID Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()

# Function to update the Estrapolo codici RCS sheet
def update_estrapolo_rcs(df_estrapolo_rcs):
    for i, row in df_estrapolo_rcs.iterrows():
        brand_rcs_partial = row['MARCA'][:5]
        if brand_rcs_partial in tecdoc_dict:
            tecdoc_brand = tecdoc_dict[brand_rcs_partial]
            if tecdoc_brand != 'NON PRESENTE IN TECDOC':
                df_estrapolo_rcs.at[i, 'MARCA'] = tecdoc_brand
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = brand_rcs_dict[brand_rcs_partial]
            else:
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'
        else:
            df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'

# Apply the update function
update_estrapolo_rcs(df_estrapolo_rcs)

# Convert the 'GIACENZA' and 'PRZ. ULT. ACQ.' columns to appropriate numeric types
df_estrapolo_rcs['GIACENZA'] = pd.to_numeric(df_estrapolo_rcs['GIACENZA'].str.replace(',', '.'), errors='coerce')
df_estrapolo_rcs['PRZ. ULT. ACQ.'] = pd.to_numeric(df_estrapolo_rcs['PRZ. ULT. ACQ.'].str.replace(',', '.'), errors='coerce')

# Clean the Estrapolo codici RCS data
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['GIACENZA'] > 0]
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['PRZ. ULT. ACQ.'].notna()]

# Rename columns and add empty columns
df_estrapolo_rcs.rename(columns={
    'CODICE': 'ID',
    'MARCA': 'BRAND',
    'GIACENZA': 'QUANTITÀ'
}, inplace=True)
df_estrapolo_rcs['PREZZO ITALIA'] = ''
df_estrapolo_rcs['PREZZO GERMANIA'] = ''
df_estrapolo_rcs['BRAND TYPE'] = df_estrapolo_rcs['BRAND'].apply(lambda x: 'ORIGINAL' if x in [
    'FIAT', 'IVECO', 'MAN', 'RENAULT', 'ASTRA', 'AUDI', 'BPW', 'DAF', 'FORD',
    'ISUZU', 'JEEP', 'MERCEDES', 'MITSUBISHI', 'NISSAN', 'PEUGEOUT', 'PIAGGIO',
    'PSA', 'SAF', 'SCANIA', 'TOYOTA', 'VOLVO', 'VOLKSWAGEN'
] else 'AFTERMARKET')

# Reorder the columns
df_estrapolo_rcs = df_estrapolo_rcs[['ID', 'BRAND', 'ID Brand TecDoc', 'DESCRIZIONE', 'QUANTITÀ', 'PRZ. ULT. ACQ.', 'PREZZO ITALIA', 'PREZZO GERMANIA', 'BRAND TYPE']]

# Save the updated data to a new Excel file
updated_file_path = 'C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx'
with pd.ExcelWriter(updated_file_path) as writer:
    df_brand_rcs.to_excel(writer, sheet_name='Brand RCS', index=False)
    df_brand_tecdoc.to_excel(writer, sheet_name='Brand TecDoc', index=False)
    df_estrapolo_rcs.to_excel(writer, sheet_name='Estrapolo codici RCS', index=False)

print(f"Updated file saved to {updated_file_path}")


  df_brand_rcs.loc[df_brand_rcs['Brand RCS'].str.startswith(brand), ['Brand TecDoc', 'ID Brand TecDoc']] = ['NON PRESENTE IN TECDOC', 'MISSING ID']


Updated file saved to C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx


In [9]:
import pandas as pd

# Load the Excel file
file_path = 'C:/Users/artor/Downloads/estrapolo articoli al 26-06-2024 con upa.xlsx'
excel_data = pd.ExcelFile(file_path)

# Load the specific sheets into DataFrames
df_brand_rcs = excel_data.parse('Brand RCS')
df_brand_tecdoc = excel_data.parse('Brand TecDoc')
df_estrapolo_rcs = excel_data.parse('Estrapolo codici RCS')

# Clean up the column names for easier access
df_brand_tecdoc.columns = ['Brand ID', 'Brand Name']
df_brand_rcs.columns = ['Brand RCS', 'Brand TecDoc', 'ID Brand TecDoc']

# Brands to ignore during matching
brands_to_ignore = ['CONTI', 'FRA', 'LEMA', 'MAX', 'MIRA', 'NOVOC', 'STAR', 'TEKNO', 'TURBO']

# Manual mapping for specific brand conflicts
manual_mapping = {'METAL': 'METALCAUCHO', 'MOTO': 'MOTORCRAFT'}

# Initialize the new columns
df_brand_rcs['Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
df_brand_rcs['ID Brand TecDoc'] = None

# Create a dictionary to map the Brand Name from TecDoc to Brand ID
tecdoc_brand_dict = pd.Series(df_brand_tecdoc['Brand ID'].values, index=df_brand_tecdoc['Brand Name']).to_dict()

# Function to match the brands and update the dataframe
def match_brands(df_brand_rcs):
    for i, row in df_brand_rcs.iterrows():
        brand_rcs_partial = row['Brand RCS'][:5]
        if brand_rcs_partial in brands_to_ignore:
            df_brand_rcs.at[i, 'Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
            df_brand_rcs.at[i, 'ID Brand TecDoc'] = None
        elif brand_rcs_partial in manual_mapping:
            tecdoc_brand = manual_mapping[brand_rcs_partial]
            df_brand_rcs.at[i, 'Brand TecDoc'] = tecdoc_brand
            df_brand_rcs.at[i, 'ID Brand TecDoc'] = tecdoc_brand_dict.get(tecdoc_brand, None)
        else:
            match_found = False
            for brand_tecdoc, brand_id in tecdoc_brand_dict.items():
                if brand_tecdoc.startswith(brand_rcs_partial):
                    df_brand_rcs.at[i, 'Brand TecDoc'] = brand_tecdoc
                    df_brand_rcs.at[i, 'ID Brand TecDoc'] = brand_id
                    match_found = True
                    break
            if not match_found:
                df_brand_rcs.at[i, 'Brand TecDoc'] = 'NON PRESENTE IN TECDOC'
                df_brand_rcs.at[i, 'ID Brand TecDoc'] = None

# Apply the matching function
match_brands(df_brand_rcs)

# Create a dictionary for quick lookup from the updated Brand RCS data
tecdoc_dict = pd.Series(df_brand_rcs['Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()
brand_rcs_dict = pd.Series(df_brand_rcs['ID Brand TecDoc'].values, index=df_brand_rcs['Brand RCS']).to_dict()

# Update the Estrapolo codici RCS sheet
def update_estrapolo_rcs(df_estrapolo_rcs):
    for i, row in df_estrapolo_rcs.iterrows():
        brand_rcs_partial = row['MARCA'][:5]
        if brand_rcs_partial in tecdoc_dict:
            tecdoc_brand = tecdoc_dict[brand_rcs_partial]
            if tecdoc_brand != 'NON PRESENTE IN TECDOC':
                df_estrapolo_rcs.at[i, 'MARCA'] = tecdoc_brand
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = brand_rcs_dict[brand_rcs_partial]
            else:
                df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'
        else:
            df_estrapolo_rcs.at[i, 'ID Brand TecDoc'] = 'MISSING ID'

# Apply the update function
update_estrapolo_rcs(df_estrapolo_rcs)

# Filter out specific brands
df_estrapolo_rcs = df_estrapolo_rcs[~df_estrapolo_rcs['MARCA'].isin(['BEX', 'RESO'])]

# Rename specific brands
rename_dict = {
    'MERC': 'MERCEDES', 'NISSA': 'NISSAN', 'PEUGE': 'PEUGEOUT', 'PIAGG': 'PIAGGIO',
    'RENAU': 'RENAULT', 'SCANI': 'SCANIA', 'TOYOT': 'TOYOTA', 'VW': 'VOLKSWAGEN',
    'AREXO': 'AREXONS', 'COSIB': 'COSIBO', 'COSPE': 'COSPEL', 'EMMER': 'EMMERRE',
    'ERREV': 'ERREVI', 'PARTE': 'PARTEX', 'URANI': 'URANIA', 'MITSUBOSHI': 'MITSUBISHI'
}
df_estrapolo_rcs['MARCA'] = df_estrapolo_rcs['MARCA'].replace(rename_dict)

# Convert the 'GIACENZA' and 'PRZ. ULT. ACQ.' columns to appropriate numeric types
df_estrapolo_rcs['GIACENZA'] = pd.to_numeric(df_estrapolo_rcs['GIACENZA'].str.replace(',', '.'), errors='coerce')
df_estrapolo_rcs['PRZ. ULT. ACQ.'] = pd.to_numeric(df_estrapolo_rcs['PRZ. ULT. ACQ.'].str.replace(',', '.'), errors='coerce')

# Clean the Estrapolo codici RCS data
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['GIACENZA'] > 0]
df_estrapolo_rcs = df_estrapolo_rcs[df_estrapolo_rcs['PRZ. ULT. ACQ.'].notna()]

# Reorder the columns and add new ones
df_estrapolo_rcs.rename(columns={
    'CODICE': 'ID',
    'MARCA': 'BRAND',
    'GIACENZA': 'QUANTITÀ',
    'PRZ. ULT. ACQ.': 'PRZ. ULT. ACQ.'
}, inplace=True)

df_estrapolo_rcs = df_estrapolo_rcs[['ID', 'BRAND', 'ID Brand TecDoc', 'DESCRIZIONE', 'QUANTITÀ', 'PRZ. ULT. ACQ.']]
df_estrapolo_rcs['PREZZO ITALIA'] = ''
df_estrapolo_rcs['PREZZO GERMANIA'] = ''
df_estrapolo_rcs['BRAND TYPE'] = df_estrapolo_rcs['BRAND'].apply(lambda x: 'ORIGINAL' if x in [
    'FIAT', 'IVECO', 'MAN', 'RENAULT', 'ASTRA', 'AUDI', 'BPW', 'DAF', 'FORD',
    'ISUZU', 'JEEP', 'MERCEDES', 'MITSUBISHI', 'NISSAN', 'PEUGEOUT', 'PIAGGIO',
    'PSA', 'SAF', 'SCANIA', 'TOYOTA', 'VOLVO', 'VOLKSWAGEN'
] else 'AFTERMARKET')

# Save the updated data to a new Excel file
updated_file_path = 'C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx'
with pd.ExcelWriter(updated_file_path) as writer:
    df_brand_rcs.to_excel(writer, sheet_name='Brand RCS', index=False)
    df_brand_tecdoc.to_excel(writer, sheet_name='Brand TecDoc', index=False)
    df_estrapolo_rcs.to_excel(writer, sheet_name='Estrapolo codici RCS', index=False)

updated_file_path


'C:/Users/artor/Downloads/FILTRATOestrapolo articoli al 26-06-2024 filtrato.xlsx'