In [2]:
modello_per_analisi = "Opel_Corsa"
comune_per_analisi = "Sant'Agata Bolognese"
prezzo_minimo = 3000
prezzo_massimo = 30000
km_minimi = 0
km_massimi = 0
immatricolazione_minima = 2020
immatricolazione_massima = 2025

## 0. Import funzioni e librerie

In [3]:
import pandas as pd
import numpy as np
from geopy.distance import geodesic
import requests
import os
import re
import importlib
from pathlib import Path
import sys
import time

In [4]:
project_root = Path.cwd().parents[0]

# Percorsi delle cartelle contenenti i moduli
datapreparation_dir = project_root / 'Source' / '2_Data_Preparation' / 'Utils'
scraping_dir = project_root / 'Source' / '1_Scraping' / 'Utils'
config_path = project_root / 'Data'/ 'config'

# Aggiungi al sys.path
sys.path.extend([str(datapreparation_dir), str(scraping_dir), str(config_path)])

In [5]:
#Scraping
from Url_builders import build_automobile_url, build_subito_url, build_autosupermarket_url, build_autotorino_url, bild_autoscout_urls
from Scraping_Functions import autoscout_scraper, autosupermarket_scraper, automobile_it_scraper, subito_scraper
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import random

In [6]:
datapreparation_dir

PosixPath('/Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Source/2_Data_Preparation/Utils')

In [7]:
#Data preparation
from dataset_cleaning import clean_data_AS,clean_data_AT,clean_data_AR,clean_data_ASM, clean_data_SU
from dataset_formatting import get_data_dummy, data_formatting

# --- Import dinamico del modulo di configurazione in base al modello ---
modulo_config = f"config_{modello_per_analisi}"  # esempio: config_Mercedes_Classe_A
try:
    config = importlib.import_module(modulo_config)
    print(f"✅ Modulo di configurazione '{modulo_config}' caricato.")
except ModuleNotFoundError:
    print(f"❌ Modulo di configurazione '{modulo_config}' non trovato.")
    sys.exit(1)
# --- Accesso ai parametri di configurazione ---
#allestimenti = config.allestimenti
allestimento_performance = config.allestimento_performance
allestimento_sport = config.allestimento_sport
allestimento_middle = config.allestimento_middle
allestimento_base = config.allestimento_base
motorizzazioni_norm = config.motorizzazioni_norm
modelli_ord = config.modelli_ord
mappa_cv = config.mappa_cv
mappa_allestimenti = config.mappa_allestimenti

✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/distanza.csv (7978 righe, 3 colonne)
✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/only_cap_per_comune.csv (7890 righe, 5 colonne)
✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/only_comune_per_cap.csv (4657 righe, 5 colonne)
✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/distanza.csv (7978 righe, 3 colonne)
✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/only_cap_per_comune.csv (7890 righe, 5 colonne)
✅ File caricato: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/0_Località/only_comune_per_cap.csv (4657 righe, 5 colonne)
✅ Modulo di configurazione 'config_Opel_Corsa' caricato.


## 1. Creazione e importazione URLs

In [8]:
marca, modello = [p.lower() for p in modello_per_analisi.split("_")]

In [9]:
# ------------------- USO DELLE FUNZIONI: Urls_building -------------------
url_asm = build_autosupermarket_url(marca, modello, prezzo_minimo, prezzo_massimo,
                                    km_minimi, km_massimi, immatricolazione_minima, immatricolazione_massima)

url_at = build_automobile_url(marca, modello, prezzo_minimo, prezzo_massimo,
                              km_minimi, km_massimi, immatricolazione_minima, immatricolazione_massima)

url_su = build_subito_url(marca, modello, prezzo_minimo, prezzo_massimo,
                              km_minimi, km_massimi, immatricolazione_minima, immatricolazione_massima)

url_ar = build_autotorino_url(marca_sito = 818, #codice di autotorino per Opel
                              modello_sito = 1028, #codice di autotorino per Corsa
                              prezzo_minimo=prezzo_minimo,prezzo_massimo=prezzo_massimo,km_minimi=km_minimi,km_massimi=km_massimi,
                              anno_min=immatricolazione_minima,anno_max=immatricolazione_massima)

urls_as = bild_autoscout_urls (marca, modello, prezzo_minimo, prezzo_massimo,
                              km_minimi, km_massimi, immatricolazione_minima, immatricolazione_massima)

# ------------------- STAMPA DEGLI URL -------------------
print("Automobile.it URL:", url_at)
print("Autosupermarket URL:", url_asm)
print("Subito.it URL:", url_su)
print("Autotorino URL:", url_ar)
print("Autoscout URLs:", urls_as)

Automobile.it URL: https://www.automobile.it/opel-corsa-30000?anno_fino_a=2025&immatricolazione=2020&prezzo_da=3000
Autosupermarket URL: https://autosupermarket.it/ricerca/opel/corsa?prezzo-da-3000&prezzo-a=30000&anno-da=2020&anno-a=2025
Subito.it URL: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?ps=3000&pe=30000&ys=2020&ye=2025
Autotorino URL: https://www.autotorino.it/veicoli/auto?immatricolazione_anno=2020-2025&marca_sito=818&modello_sito=1028&price=3000-30000
Autoscout URLs: ['https://www.autoscout24.it/lst/opel/corsa?atype=C&cy=I&damaged_listing=exclude&desc=1&fregfrom=2020&fregto=2025&powertype=kw&pricefrom=3000&priceto=4000&search_id=2bu1025n5if&sort=standard&source=homepage_search-mask&ustate=N%2CU', 'https://www.autoscout24.it/lst/opel/corsa?atype=C&cy=I&damaged_listing=exclude&desc=1&fregfrom=2020&fregto=2025&powertype=kw&pricefrom=4000&priceto=5000&search_id=2bu1025n5if&sort=standard&source=homepage_search-mask&ustate=N%2CU', 'https://www.autoscout24.it/lst/

## 2. Scraping dei dati

### 2.1. Scraping - Autoscout

In [9]:
# Lista per raccogliere tutti i DataFrame
all_dataframes = []

# Ciclo su tutti gli URL
for i, url in enumerate(urls_as, start=1):
    print(f"\n🔍 Scraping URL {i}/{len(urls_as)}: {url}")
    try:
        df_temp = autoscout_scraper(url_template=url + "&page={}", max_pages=20)
        if df_temp is not None and not df_temp.empty:
            df_temp['Categoria'] = f'URL_{i}'  # colonna per sapere da quale URL proviene
            all_dataframes.append(df_temp)
        else:
            print(f"⚠ Nessun dato trovato per URL {i}")
    except Exception as e:
        print(f"❌ Errore durante lo scraping dell'URL {i}: {e}")
        continue  # passa al prossimo URL anche se c'è un errore

# Concatenazione dei tutti i DataFrame in uno solo
if all_dataframes:
    df_as = pd.concat(all_dataframes, ignore_index=True)
    print("\n✅ Raccolti tutti i dati!")
    print(df_as.head())
else:
    print("❌ Nessun dato trovato da nessun URL.")


🔍 Scraping URL 1/27: https://www.autoscout24.it/lst/opel/corsa?atype=C&cy=I&damaged_listing=exclude&desc=1&fregfrom=2020&fregto=2025&powertype=kw&pricefrom=3000&priceto=4000&search_id=2bu1025n5if&sort=standard&source=homepage_search-mask&ustate=N%2CU
Scraping page 1...
Nessun annuncio trovato nella pagina 1. Terminando.
❌ Errore durante lo scraping dell'URL 1: 'Prezzo'

🔍 Scraping URL 2/27: https://www.autoscout24.it/lst/opel/corsa?atype=C&cy=I&damaged_listing=exclude&desc=1&fregfrom=2020&fregto=2025&powertype=kw&pricefrom=4000&priceto=5000&search_id=2bu1025n5if&sort=standard&source=homepage_search-mask&ustate=N%2CU
Scraping page 1...
Scraping page 2...
Nessun annuncio trovato nella pagina 2. Terminando.

🔍 Scraping URL 3/27: https://www.autoscout24.it/lst/opel/corsa?atype=C&cy=I&damaged_listing=exclude&desc=1&fregfrom=2020&fregto=2025&powertype=kw&pricefrom=5000&priceto=6000&search_id=2bu1025n5if&sort=standard&source=homepage_search-mask&ustate=N%2CU
Scraping page 1...
Scraping page 

In [None]:
"""
# Lista per raccogliere tutti i DataFrame
all_dataframes = []

# Ciclo su tutti gli URL
for i, url in enumerate(urls_as, start=1):
    print(f"\n🔍 Scraping URL {i}/{len(urls_as)}...")
    df_temp = autoscout_scraper(url_template=url + "&page={}", max_pages=20)
    if df_temp is not None and not df_temp.empty:
        df_temp['Categoria'] = f'URL_{i}'  #colonna per sapere da quale URL proviene
        all_dataframes.append(df_temp)
    else:
        print(f"⚠ Nessun dato trovato per URL {i}")

# Concatenazione dei tutti i DataFrame in uno solo
if all_dataframes:
    df_as = pd.concat(all_dataframes, ignore_index=True)
    print("\n✅ Raccolti tutti i dati!")
    print(df_as.head())
else:
    print("❌ Nessun dato trovato da nessun URL.")
    
"""

In [10]:
print(df_as.info())
df_as.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2469 entries, 0 to 2468
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Annuncio           2469 non-null   object 
 1   Link               2469 non-null   object 
 2   Marca              2469 non-null   object 
 3   Modello            2469 non-null   object 
 4   Modello_plus_info  2459 non-null   object 
 5   Prezzo             2386 non-null   float64
 6   Chilometraggio     2469 non-null   int64  
 7   Cambio             2469 non-null   object 
 8   Immatricolazione   2469 non-null   object 
 9   Carburante         2469 non-null   object 
 10  CV                 2469 non-null   object 
 11  Località           2469 non-null   object 
 12  Venditore          2469 non-null   object 
 13  Categoria          2469 non-null   object 
dtypes: float64(1), int64(1), object(12)
memory usage: 270.2+ KB
None


Unnamed: 0,Annuncio,Link,Marca,Modello,Modello_plus_info,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,CV,Località,Venditore,Categoria
0,Opel Corsa 1.5 Diesel Start/Stop Elegance PREZ...,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,1.5 Diesel Start/Stop Elegance PREZZO +IVA,4111.0,150000,Manuale,01/2021,Diesel,75 kW (102 CV),Elena • IT-38017 Mezzolombardo - Trento,Rivenditore,URL_2
1,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,Corsa 1.2 Blitz Edition s,6200.0,6000,Manuale,03/2022,Benzina,55 kW (75 CV),Steven Mazzucco • IT-36016 Thiene,Rivenditore,URL_3
2,Opel Corsa 1.5 GS Line s&s 100cv,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,1.5 GS Line s&s 100cv,7990.0,200000,Manuale,11/2020,Diesel,74 kW (101 CV),"Privato,IT-81039 villa literno",Privato,URL_4
3,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,Corsa 1.2 Blitz Edition s,6200.0,6000,Manuale,03/2022,Benzina,55 kW (75 CV),Steven Mazzucco • IT-36016 Thiene,Rivenditore,URL_4
4,Opel Corsa 1.4 Turbo Start/Stop On,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,1.4 Turbo Start/Stop On,7990.0,146000,Manuale,07/2025,Benzina,74 kW (101 CV),"Privato,IT-06124 Perugia",Privato,URL_4


### 2.2. Scraping - Automobili.it

In [None]:
df_at = automobile_it_scraper(url_at)

In [None]:
df_at

In [None]:
df_at.info()

### 2.3. Scraping - Autosupermarket

In [None]:
df_asm = autosupermarket_scraper(url_asm)

In [None]:
df_asm['Prezzo'] = df_asm['Prezzo'].apply(lambda x: x.split('\n')[-1] if '%' in x else x)

In [None]:
df_asm

In [None]:
for col in df_asm.columns:
    #print(f"{col}: {df_asm[col].isnull().sum()} valori mancanti")
    #print(f"{col}: {df_asm[col].unique()} valori unici")
    print(f"- {col}: {(df_asm[col] == '').sum()} somma dei valori vuoti")

In [None]:
df_asm.replace('', np.nan, inplace=True)
df_asm.replace('Prezzo riservato', np.nan, inplace=True)

In [None]:
df_asm.info()

In [None]:
df_asm.dropna(inplace=True)    

### 2.4. Scraping - Subito.it

In [12]:
df_su = subito_scraper(url_su)


Caricamento pagina 1: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?ps=3000&ys=2020&ye=2025
✅ Cookie accettati
✅ Trovati 33 annunci nella pagina 1

Caricamento pagina 2: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=2&ps=3000&ys=2020&ye=2025
✅ Trovati 33 annunci nella pagina 2

Caricamento pagina 3: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=3&ps=3000&ys=2020&ye=2025
✅ Trovati 33 annunci nella pagina 3

Caricamento pagina 4: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=4&ps=3000&ys=2020&ye=2025
✅ Trovati 33 annunci nella pagina 4

Caricamento pagina 5: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=5&ps=3000&ys=2020&ye=2025
✅ Trovati 33 annunci nella pagina 5

Caricamento pagina 6: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=6&ps=3000&ys=2020&ye=2025
✅ Trovati 33 annunci nella pagina 6

Caricamento pagina 7: https://www.subito.it/annunci-italia/vendita/auto/opel/corsa/?o=7&ps

In [13]:
for col in df_su.columns:
    print(f"- {col}: {(df_su[col] == '').sum()} somma dei valori vuoti")

- Annuncio: 0 somma dei valori vuoti
- Prezzo: 0 somma dei valori vuoti
- Tipologia: 0 somma dei valori vuoti
- Immatricolazione: 0 somma dei valori vuoti
- Chilometraggio: 0 somma dei valori vuoti
- Carburante: 0 somma dei valori vuoti
- Cambio: 0 somma dei valori vuoti
- Classe Euro: 0 somma dei valori vuoti
- Località: 0 somma dei valori vuoti
- Provincia: 0 somma dei valori vuoti
- Rivenditore: 0 somma dei valori vuoti
- Link: 0 somma dei valori vuoti


In [14]:
df_su.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2069 entries, 0 to 2068
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Annuncio          2069 non-null   object
 1   Prezzo            2069 non-null   object
 2   Tipologia         2069 non-null   object
 3   Immatricolazione  2069 non-null   object
 4   Chilometraggio    1901 non-null   object
 5   Carburante        2062 non-null   object
 6   Cambio            2037 non-null   object
 7   Classe Euro       1760 non-null   object
 8   Località          2069 non-null   object
 9   Provincia         2069 non-null   object
 10  Rivenditore       2069 non-null   object
 11  Link              2069 non-null   object
dtypes: object(12)
memory usage: 194.1+ KB


In [15]:
df_su

Unnamed: 0,Annuncio,Prezzo,Tipologia,Immatricolazione,Chilometraggio,Carburante,Cambio,Classe Euro,Località,Provincia,Rivenditore,Link
0,Opel Corsa 1.2 Elegance OK NEOPATENTATI,9.400 €,Usato,12/2021,135000 Km,Benzina,Manuale,Euro 6,Pistoia,PT,Privato,https://www.subito.it/auto/opel-corsa-1-2-eleg...
1,OPEL Corsa 6ª serie - Corsa 1.5 D 100 CV Edition,14.800 €,Usato,12/2022,57171 Km,Diesel,Manuale,Euro 6,Villafranca di Verona,VR,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...
2,Opel Corsa VI 2023 1.2 GS s&s 75cv,13.500 €,Usato,03/2024,22658 Km,Benzina,Manuale,Euro 6,Erba,CO,Privato,https://www.subito.it/auto/opel-corsa-vi-2023-...
3,Opel corsa 1.2,14.800 €,Usato,03/2024,12000 Km,Benzina,Manuale,Euro 6,Viterbo,VT,Privato,https://www.subito.it/auto/opel-corsa-1-2-vite...
4,Opel Corsa 6 Serie Corsa 1.2 Edition,13.900 €,Usato,06/2021,41338 Km,Benzina,Manuale,Euro 6,San Fior,TV,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...
...,...,...,...,...,...,...,...,...,...,...,...,...
2064,Opel Corsa 6 Serie 1.2,12.000 €,Usato,09/2020,90000 Km,Benzina,Manuale,Euro 6,Brescia,BS,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...
2065,Opel Corsa 6 Serie 2023,12.300 €,Usato,05/2023,36219 Km,Benzina,Manuale,,Casalnuovo di Napoli,,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...
2066,Opel Corsa F 2022,13.600 €,Usato,02/2022,39000 Km,Benzina,Manuale,Euro 6,Guidonia Montecelio,RM,Privato,https://www.subito.it/auto/opel-corsa-f-2022-r...
2067,Opel Corsa 1.2 100CV Elegance,14.982 €,Usato,06/2022,31679 Km,Benzina,Manuale,Euro 6,Meda,MB,Privato,https://www.subito.it/auto/opel-corsa-1-2-100c...


### 2.5. Scraping Autotorino (da realizzare)

### 2.6. Export dei dati

In [None]:
# Percorsi delle cartelle contenenti i moduli
output_folder_df_grezzi = project_root / 'Data' / 'Raw_data' / modello_per_analisi

# Aggiungi al sys.path
sys.path.extend(str(output_folder_df_grezzi))

#Verifica se la cartella esiste, se no la crea
output_folder_df_grezzi.mkdir(parents=True, exist_ok=True)

In [12]:
def salva_df(df, output_path, modello):
    if df is not None and not df.empty:
        df.to_csv(output_path, index=False)
        print(f"""💾 File salvato, del modello {modello},
    nel percorso: {output_path}""")
    else:
        print(f"⚠️ Nessun dato da salvare per il modello {modello} in {output_path}.")

In [None]:
try:
    salva_df(df_as.drop(columns='Categoria', errors='ignore'), output_folder_df_grezzi / "data_autoscout.csv", modello_per_analisi)
except Exception as e:
    print(f"⚠️ Errore con df_as: {e}")

try:
    salva_df(df_at, output_folder_df_grezzi / "data_automobile_it.csv", modello_per_analisi)
except Exception as e:
    print(f"⚠️ Errore con df_at: {e}")

try:
    salva_df(df_asm, output_folder_df_grezzi / "data_autosupermarket.csv", modello_per_analisi)
except Exception as e:
    print(f"⚠️ Errore con df_asm: {e}")

try:
    salva_df(df_su, output_folder_df_grezzi / "data_subito_it.csv", modello_per_analisi)
except Exception as e:
    print(f"⚠️ Errore con df_su: {e}")

'''
try:
    salva_df(df_ar, output_folder_df_grezzi / "data_autotorino.csv", modello_per_analisi)
except Exception as e:
    print(f"⚠️ Errore con df_ar: {e}")
    
'''


💾 File salvato, del modello Opel_Corsa,
    nel percorso: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Materiali/Dataset_grezzi/Opel_Corsa/data_autoscout.csv
⚠️ Errore con df_at: name 'df_at' is not defined
⚠️ Errore con df_asm: name 'df_asm' is not defined
⚠️ Errore con df_su: name 'df_su' is not defined
⚠️ Errore con df_ar: name 'df_ar' is not defined


## 3. Data Preparation

### 3.1. Import dei dataframe

In [10]:
#Import dati relativi ai comuni e alla distanza
distanza = pd.read_csv(f'{project_root}/Data/Processed_data/0_Località/distanza.csv')
only_cap_per_comune = pd.read_csv(f'{project_root}/Data/Processed_data/0_Località/only_cap_per_comune.csv')
only_comune_per_cap = pd.read_csv(f'{project_root}/Data/Processed_data/0_Località/only_comune_per_cap.csv')

In [11]:
# Import dati grezzi
data_at = pd.read_csv(f'{project_root}/Data/Raw_data/{modello_per_analisi}/data_automobile_it.csv')
data_as = pd.read_csv(f'{project_root}/Data/Raw_data/{modello_per_analisi}/data_autoscout.csv')
data_asm = pd.read_csv(f'{project_root}/Data/Raw_data/{modello_per_analisi}/data_autosupermarket.csv')
data_su = pd.read_csv(f'{project_root}/Data/Raw_data/{modello_per_analisi}/data_subito_it.csv')

### 3.2. Pulizia singoli DF

#### 3.2.1. Autoscout

In [15]:
#Pre pulizia
print(data_as.info())
data_as.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2469 entries, 0 to 2468
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Annuncio           2469 non-null   object 
 1   Link               2469 non-null   object 
 2   Marca              2469 non-null   object 
 3   Modello            2469 non-null   object 
 4   Modello_plus_info  2459 non-null   object 
 5   Prezzo             2386 non-null   float64
 6   Chilometraggio     2469 non-null   int64  
 7   Cambio             2469 non-null   object 
 8   Immatricolazione   2469 non-null   object 
 9   Carburante         2469 non-null   object 
 10  CV                 2469 non-null   object 
 11  Località           2469 non-null   object 
 12  Venditore          2469 non-null   object 
dtypes: float64(1), int64(1), object(11)
memory usage: 250.9+ KB
None


Unnamed: 0,Annuncio,Link,Marca,Modello,Modello_plus_info,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,CV,Località,Venditore
0,Opel Corsa 1.5 Diesel Start/Stop Elegance PREZ...,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,1.5 Diesel Start/Stop Elegance PREZZO +IVA,4111.0,150000,Manuale,01/2021,Diesel,75 kW (102 CV),Elena • IT-38017 Mezzolombardo - Trento,Rivenditore
1,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,Corsa 1.2 Blitz Edition s,6200.0,6000,Manuale,03/2022,Benzina,55 kW (75 CV),Steven Mazzucco • IT-36016 Thiene,Rivenditore
2,Opel Corsa 1.5 GS Line s&s 100cv,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,1.5 GS Line s&s 100cv,7990.0,200000,Manuale,11/2020,Diesel,74 kW (101 CV),"Privato,IT-81039 villa literno",Privato
3,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,Opel,Corsa,Corsa 1.2 Blitz Edition s,6200.0,6000,Manuale,03/2022,Benzina,55 kW (75 CV),Steven Mazzucco • IT-36016 Thiene,Rivenditore


In [16]:
data_AS = clean_data_AS(data_as, only_comune_per_cap, motorizzazioni_norm, modelli_ord, mappa_cv)
print(data_AS.info())
data_AS.head(15)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2469 entries, 0 to 2468
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Annuncio          2469 non-null   object 
 1   Link              2469 non-null   object 
 2   Modello           2304 non-null   object 
 3   Prezzo            2386 non-null   float64
 4   Chilometraggio    2469 non-null   Int64  
 5   Cambio            2469 non-null   object 
 6   Immatricolazione  2469 non-null   Int64  
 7   Carburante        2469 non-null   object 
 8   CV                2469 non-null   int64  
 9   Venditore         2469 non-null   object 
 10  CAP               2467 non-null   Int64  
 11  Comune            2428 non-null   object 
dtypes: Int64(3), float64(1), int64(1), object(7)
memory usage: 238.8+ KB
None


Unnamed: 0,Annuncio,Link,Modello,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,CV,Venditore,CAP,Comune
0,Opel Corsa 1.5 Diesel Start/Stop Elegance PREZ...,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,4111.0,150000,manuale,2021,Diesel,102,Rivenditore,38017,mezzolombardo
1,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,6200.0,6000,manuale,2022,Benzina,102,Rivenditore,36016,thiene
2,Opel Corsa 1.5 GS Line s&s 100cv,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,7990.0,200000,manuale,2020,Diesel,102,Privato,81039,villa literno
3,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,6200.0,6000,manuale,2022,Benzina,102,Rivenditore,36016,thiene
4,Opel Corsa 1.4 Turbo Start/Stop On,https://www.autoscout24.it/annunci/opel-corsa-...,,7990.0,146000,manuale,2025,Benzina,102,Privato,6124,perugia
5,Opel Corsa Corsa 1.5 Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,8000.0,118000,manuale,2020,Diesel,102,Privato,20100,
6,Opel Corsa 1.5 GS Line s&s 100cv,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,7990.0,200000,manuale,2020,Diesel,102,Privato,81039,villa literno
7,Opel Corsa 1.4 Turbo Start/Stop On,https://www.autoscout24.it/annunci/opel-corsa-...,,7990.0,146000,manuale,2025,Benzina,102,Privato,6124,perugia
8,Opel Corsa Corsa 1.2 s&s 75cv * SUPER PROMO,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,7900.0,65000,manuale,2022,Benzina,102,Rivenditore,10040,almese
9,Opel Corsa Corsa 1.2 Edition s&s 75cv * SUPER ...,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,7900.0,75000,manuale,2021,Benzina,102,Rivenditore,10040,almese


#### 3.2.2. Automobile.it

In [17]:
print(data_at.info())
data_at.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1686 entries, 0 to 1685
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Annuncio            1686 non-null   object
 1   Link                1686 non-null   object
 2   Prezzo              1686 non-null   Int64 
 3   Tipologia           1686 non-null   object
 4   Immatricolazione    1550 non-null   Int64 
 5   Chilometraggio      1646 non-null   Int64 
 6   Carburante          1686 non-null   object
 7   Cambio              1686 non-null   object
 8   Unico_Proprietario  360 non-null    object
 9   Località            1686 non-null   object
 10  Modello             1616 non-null   object
dtypes: Int64(3), object(8)
memory usage: 150.0+ KB
None


Unnamed: 0,Annuncio,Link,Prezzo,Tipologia,Immatricolazione,Chilometraggio,Carburante,Cambio,Unico_Proprietario,Località,Modello
0,Opel Corsa 1.2 Design & Tech,https://www.automobile.it/latiano-opel-corsa-1...,11699,Usato,2022,69000,Benzina,manuale,,Latiano (BR),1.2 75cv
1,Opel Corsa 1.2,https://www.automobile.it/san-cipriano-d-avers...,9500,Usato,2020,103000,Benzina,manuale,,San Cipriano d'Aversa (CE),1.2 75cv
2,OPEL Corsa 1.2 100 CV Edition CAR PLAY,https://www.automobile.it/bernalda-opel-corsa-...,12899,Usato,2022,43300,Benzina,manuale,,Bernalda (MT),1.2 100cv
3,OPEL Corsa 1.2 Elegance,https://www.automobile.it/savona-opel-corsa-1-...,12900,Usato,2020,42689,Benzina,manuale,Unico proprietario,Savona (SV),1.2 75cv


In [18]:
data_AT = clean_data_AT(data_at, only_cap_per_comune, motorizzazioni_norm, modelli_ord, mappa_cv)
print(data_AT.info())
data_AT.head(4)

AttributeError: Can only use .str accessor with string values!

In [None]:
print(data_asm.info())
data_asm.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Annuncio          864 non-null    object
 1   Modello           864 non-null    object
 2   Link              864 non-null    object
 3   Prezzo            864 non-null    object
 4   Chilometraggio    864 non-null    object
 5   Cambio            864 non-null    object
 6   Immatricolazione  864 non-null    object
 7   Carburante        864 non-null    object
 8   Tipologia         864 non-null    object
 9   CV                864 non-null    object
 10  Località          864 non-null    object
dtypes: object(11)
memory usage: 74.4+ KB
None


Unnamed: 0,Annuncio,Modello,Link,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,Tipologia,CV,Località
0,Opel Corsa 1.2 Edition NEOPATENTATI PROMO!!,1.2 Edition NEOPATENTATI PROMO!!,https://autosupermarket.it/annunci/opel-corsa-...,8.900 €,69.000 km,Man. 5 marce,"Ott, 2022",Benzina,Usata,55kW (75CV),35042 Este (PD)
1,Opel Corsa 100 CV GS Line,100 CV GS Line,https://autosupermarket.it/annunci/opel-corsa-...,11.500 €,130.000 km,Man.,"Giu, 2020",Diesel,Usata,75kW (102CV),51018 Pieve a Nievole (PT)
2,Opel Corsa 1.2 Edition,1.2 Edition,https://autosupermarket.it/annunci/opel-corsa-...,13.200 €,38.800 km,Man. 5 marce,"Mar, 2021",Benzina,Usata,55kW (75CV),54100 Massa (MS)
3,Opel Corsa 1.2 75CV GS #VARI COLORI,1.2 75CV GS #VARI COLORI,https://autosupermarket.it/annunci/opel-corsa-...,15.400 €,15.000 km,Man. 6 marce,"Feb, 2024",Benzina,Usata,55kW (75CV),30030 Martellago (VE)


#### 3.2.3. Autosupermarket

In [None]:
data_ASM = clean_data_ASM(data_asm, motorizzazioni_norm, modelli_ord)
print(data_ASM.info())
data_ASM.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Annuncio          864 non-null    object 
 1   Modello           841 non-null    object 
 2   Link              864 non-null    object 
 3   Prezzo            864 non-null    int64  
 4   Chilometraggio    864 non-null    Int64  
 5   Cambio            864 non-null    object 
 6   Immatricolazione  864 non-null    Int64  
 7   Carburante        864 non-null    object 
 8   CV                864 non-null    float64
 9   CAP               864 non-null    object 
 10  Comune            864 non-null    object 
dtypes: Int64(2), float64(1), int64(1), object(7)
memory usage: 76.1+ KB
None


Unnamed: 0,Annuncio,Modello,Link,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,CV,CAP,Comune
0,Opel Corsa 1.2 Edition NEOPATENTATI PROMO!!,1.2 75cv,https://autosupermarket.it/annunci/opel-corsa-...,8900,69,manuale,2022,Benzina,75.0,35042,este
1,Opel Corsa 100 CV GS Line,1.5 Diesel,https://autosupermarket.it/annunci/opel-corsa-...,11500,130,manuale,2020,Diesel,102.0,51018,pieve a nievole
2,Opel Corsa 1.2 Edition,1.2 75cv,https://autosupermarket.it/annunci/opel-corsa-...,13200,38,manuale,2021,Benzina,75.0,54100,massa
3,Opel Corsa 1.2 75CV GS #VARI COLORI,1.2 75cv,https://autosupermarket.it/annunci/opel-corsa-...,15400,15,manuale,2024,Benzina,75.0,30030,martellago


In [None]:
print(data_su.info())
data_su.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2069 entries, 0 to 2068
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Annuncio          2069 non-null   object
 1   Prezzo            2069 non-null   object
 2   Tipologia         2069 non-null   object
 3   Immatricolazione  2069 non-null   object
 4   Chilometraggio    1901 non-null   object
 5   Carburante        2062 non-null   object
 6   Cambio            2037 non-null   object
 7   Classe Euro       1760 non-null   object
 8   Località          2069 non-null   object
 9   Provincia         1919 non-null   object
 10  Venditore         2069 non-null   object
 11  Link              2069 non-null   object
dtypes: object(12)
memory usage: 194.1+ KB
None


Unnamed: 0,Annuncio,Prezzo,Tipologia,Immatricolazione,Chilometraggio,Carburante,Cambio,Classe Euro,Località,Provincia,Venditore,Link
0,Opel Corsa 1.2 Elegance OK NEOPATENTATI,9.400 €,Usato,12/2021,135000 Km,Benzina,Manuale,Euro 6,Pistoia,PT,Privato,https://www.subito.it/auto/opel-corsa-1-2-eleg...
1,OPEL Corsa 6ª serie - Corsa 1.5 D 100 CV Edition,14.800 €,Usato,12/2022,57171 Km,Diesel,Manuale,Euro 6,Villafranca di Verona,VR,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...
2,Opel Corsa VI 2023 1.2 GS s&s 75cv,13.500 €,Usato,03/2024,22658 Km,Benzina,Manuale,Euro 6,Erba,CO,Privato,https://www.subito.it/auto/opel-corsa-vi-2023-...
3,Opel corsa 1.2,14.800 €,Usato,03/2024,12000 Km,Benzina,Manuale,Euro 6,Viterbo,VT,Privato,https://www.subito.it/auto/opel-corsa-1-2-vite...


#### 3.2.4. Subito.it

In [None]:
data_SU = clean_data_SU(data_su, only_cap_per_comune, motorizzazioni_norm, modelli_ord, mappa_cv)
print(data_SU.info())
data_SU.head(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2069 entries, 0 to 2068
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Annuncio          2069 non-null   object 
 1   Prezzo            2069 non-null   int64  
 2   Immatricolazione  2069 non-null   int32  
 3   Chilometraggio    2069 non-null   Int64  
 4   Carburante        2069 non-null   object 
 5   Cambio            2069 non-null   object 
 6   Venditore         2069 non-null   object 
 7   Link              2069 non-null   object 
 8   Modello           1564 non-null   object 
 9   CV                1564 non-null   float64
 10  Comune            2069 non-null   object 
 11  CAP               2069 non-null   int64  
dtypes: Int64(1), float64(1), int32(1), int64(2), object(7)
memory usage: 188.0+ KB
None


  data_SU['Immatricolazione'] = pd.to_datetime(data_SU['Immatricolazione'], errors='coerce').dt.year


Unnamed: 0,Annuncio,Prezzo,Immatricolazione,Chilometraggio,Carburante,Cambio,Venditore,Link,Modello,CV,Comune,CAP
0,Opel Corsa 1.2 Elegance OK NEOPATENTATI,9400,2021,135000,Benzina,manuale,Privato,https://www.subito.it/auto/opel-corsa-1-2-eleg...,1.2 75cv,75.0,pistoia,51100
1,OPEL Corsa 6ª serie - Corsa 1.5 D 100 CV Edition,14800,2022,57171,Diesel,manuale,Privato,https://www.subito.it/auto/opel-corsa-6-serie-...,1.5 Diesel,100.0,villafranca verona,37069
2,Opel Corsa VI 2023 1.2 GS s&s 75cv,13500,2024,22658,Benzina,manuale,Privato,https://www.subito.it/auto/opel-corsa-vi-2023-...,1.2 75cv,75.0,erba,22036
3,Opel corsa 1.2,14800,2024,12000,Benzina,manuale,Privato,https://www.subito.it/auto/opel-corsa-1-2-vite...,1.2 75cv,75.0,viterbo,1100


### 3.3. Formattazione Dataset finale

In [19]:
data = pd.concat([data_AS, data_AT, data_ASM, data_SU
                  #data_AR
                  ], ignore_index=True)
# Output diagnostico per verificare l'unione
print("\n✅ Dataset unificato caricato correttamente.")
print(f"Numero di righe: {data.shape[0]}")
print(f"Numero di colonne: {data.shape[1]}")
print("\n📋 Informazioni dettagliate per il dataframe NON FORMATTATO:")
data.info()
print()

NameError: name 'data_ASM' is not defined

In [None]:
data['Venditore']=data['Venditore'].fillna("Rivenditore")

In [None]:
data.head()

Unnamed: 0,Annuncio,Link,Modello,Prezzo,Chilometraggio,Cambio,Immatricolazione,Carburante,CV,Venditore,CAP,Comune
0,Opel Corsa 1.5 Diesel Start/Stop Elegance PREZ...,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,4111.0,150000,manuale,2021,Diesel,102.0,Rivenditore,38017,mezzolombardo
1,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,6200.0,6000,manuale,2022,Benzina,102.0,Rivenditore,36016,thiene
2,Opel Corsa 1.5 GS Line s&s 100cv,https://www.autoscout24.it/annunci/opel-corsa-...,1.5 Diesel,7990.0,200000,manuale,2020,Diesel,102.0,Privato,81039,villa literno
3,Opel Corsa Corsa 1.2 Blitz Edition s,https://www.autoscout24.it/annunci/opel-corsa-...,1.2 75cv,6200.0,6000,manuale,2022,Benzina,102.0,Rivenditore,36016,thiene
4,Opel Corsa 1.4 Turbo Start/Stop On,https://www.autoscout24.it/annunci/opel-corsa-...,,7990.0,146000,manuale,2025,Benzina,102.0,Privato,6124,perugia


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7088 entries, 0 to 7087
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Annuncio          7088 non-null   object 
 1   Link              7088 non-null   object 
 2   Modello           6325 non-null   object 
 3   Prezzo            7005 non-null   Float64
 4   Chilometraggio    7048 non-null   Int64  
 5   Cambio            7088 non-null   object 
 6   Immatricolazione  6952 non-null   Int64  
 7   Carburante        7088 non-null   object 
 8   CV                6513 non-null   float64
 9   Venditore         7088 non-null   object 
 10  CAP               7084 non-null   object 
 11  Comune            7047 non-null   object 
dtypes: Float64(1), Int64(2), float64(1), object(8)
memory usage: 685.4+ KB


In [None]:
data_formattato = data_formatting(data, only_cap_per_comune, distanza, comune_per_analisi, mappa_allestimenti, allestimento_performance, allestimento_sport, allestimento_middle, allestimento_base)
print("\n📋 Informazioni dettagliate per il dataframe FORMATTATO:")
data_formattato.info()


Ci sono dei valori doppi? True
Se si quanti ce ne sono? 661, su un totale di 7088
Valori doppi rimossi

📋 Informazioni dettagliate per il dataframe FORMATTATO:
<class 'pandas.core.frame.DataFrame'>
Index: 4821 entries, 0 to 6427
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Annuncio                4821 non-null   object
 1   Link                    4821 non-null   object
 2   Prezzo                  4821 non-null   int64 
 3   Anni                    4821 non-null   int64 
 4   Immatricolazione        4821 non-null   int64 
 5   Chilometraggio          4821 non-null   int64 
 6   Cambio                  4821 non-null   object
 7   Carburante              4821 non-null   object
 8   CV                      4821 non-null   int64 
 9   Allestimento            4821 non-null   object
 10  Allestimento_unificato  4821 non-null   object
 11  Modello                 4718 non-null   object
 12  Vend

In [None]:
data_formattato[data_formattato['Chilometraggio']>200000]

Unnamed: 0,Annuncio,Link,Prezzo,Anni,Immatricolazione,Chilometraggio,Cambio,Carburante,CV,Allestimento,Allestimento_unificato,Modello,Venditore,Distanza,Comune,CAP,Regione,Area
4942,Opel Corsa 1.5 D 100 CV Gs Line,https://www.subito.it/auto/opel-corsa-1-5-d-10...,8999,4,2021,205933,manuale,Diesel,100,GS,Sport,1.5 Diesel,Privato,484,giugliano campania,80014,Campania,Sud


In [None]:
# Visualizzazione dei valori unici delle colonne categoriali (escluse alcune colonne informative)
exclude_columns = ["località", "CAP", "Comune", "Annuncio", "Link", "Regione"]
object_columns = [
    col for col in data_formattato.select_dtypes(include='object').columns 
    if col not in exclude_columns]
for column in object_columns:
    print("\nValori unici delle variabili Categoriali, riferite ai veicoli:")
    print(f"Colonna: {column}: {data_formattato[column].unique()}")
    print("-" * 40)


Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Cambio: ['manuale' 'automatico']
----------------------------------------

Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Carburante: ['Diesel' 'Benzina' 'GPL' 'Ibrido' 'Elettrico']
----------------------------------------

Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Allestimento: ['Elegance' 'Edition' 'GS' 'Desing & Tech' 'Ultimate' '40 Anniversario']
----------------------------------------

Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Allestimento_unificato: ['Middle' 'Base' 'Sport' 'Altro']
----------------------------------------

Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Modello: ['1.5 Diesel' '1.2 75cv' None '1.2 100cv' '1.2 130cv']
----------------------------------------

Valori unici delle variabili Categoriali, riferite ai veicoli:
Colonna: Venditore: ['Rivenditore' 'Privato']
------------------

### 3.4. Dataset dummy

In [20]:
# --- 6. CREAZIONE DF DUMMY X ANALISI ---
data_dummy = get_data_dummy(data_formattato, allestimento_performance, allestimento_sport, allestimento_middle)
print("\n📋 Informazioni per il dataframe DUMMY:")
data_dummy.info()

NameError: name 'data_formattato' is not defined

### 3.5. Salvataggio dei dati

In [22]:
output_folder_df = project_root / 'Data' / 'Processed_data' / modello_per_analisi
sys.path.extend(str(output_folder_df))
output_folder_df.mkdir(parents=True, exist_ok=True)

print("Cartella di salvataggio:", output_folder_df)
data.to_csv(os.path.join(output_folder_df, f"data_NF_{modello_per_analisi}NF.csv"), index=False)
data_formattato.to_csv(os.path.join(output_folder_df, f"data_{modello_per_analisi}.csv"), index=False)
data_dummy.to_csv(os.path.join(output_folder_df, f"data_dummy_{modello_per_analisi}.csv"), index=False)
print("\n✅ Programma completato con successo! I dataset sono stati salvati nella cartella:\n", output_folder_df)

Cartella di salvataggio: /Users/federicogamberini/VS Code/Vehicle_Price_Monitor/Data/Processed_data/Opel_Corsa


NameError: name 'data' is not defined