# Analisi del dataset Amazon

In questo notebook esploreremo i dati delle vendite Amazon. L'obiettivo è capire la struttura del dataset, pulire i dati mancanti e anomali, analizzare prezzi, sconti e recensioni dei prodotti.

## Obiettivi

- Analizzare la struttura del dataset
- Identificare valori nulli e duplicati
- Pulire i dati numerici e di testo
- Analizzare distribuzioni di prezzo e sconti
- Esplorare le valutazioni dei prodotti
- Creare visualizzazioni significative

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Caricamento dataset
df = pd.read_csv("../data/amazon.csv")

# Controllo base
print(df.shape)
print(df.dtypes)
print(df.head())

In [None]:
## Task 1: Analisi iniziale
- Numero di righe e colonne
- Tipi di dati
- Valori nulli
- Valori unici

In [None]:
# Valori nulli
print(df.isnull().sum())

# Valori unici
print(df.nunique())

## Task 2: Pulizia dei dati
- Riempire valori mancanti
- Rimuovere simboli dai prezzi e convertire in numeri

In [None]:
# Riempimento valori mancanti
df["rating_count"].fillna(0, inplace=True)

# Conversione prezzi in numeri
df["actual_price"] = df["actual_price"].replace("[₹,]", "", regex=True).astype(float)
df["discounted_price"] = df["discounted_price"].replace("[₹,]", "", regex=True).astype(float)

# Salvataggio dataset pulito
df.to_csv("../data/amazon_clean.csv", index=False)

## Task 3: Visualizzazioni

- Distribuzione prezzi originali e scontati
- Distribuzione percentuali di sconto
- Analisi media prezzi per categoria
- Distribuzione rating

In [None]:
# Distribuzione prezzi
plt.figure(figsize=(8,5))
plt.hist(df["actual_price"], bins=30, edgecolor="black")
plt.title("Distribuzione dei prezzi originali")
plt.xlabel("Prezzo (€)")
plt.ylabel("Numero di prodotti")
plt.show()

plt.figure(figsize=(8,5))
plt.hist(df["discounted_price"], bins=30, color="orange", edgecolor="black")
plt.title("Distribuzione dei prezzi scontati")
plt.xlabel("Prezzo scontato (€)")
plt.ylabel("Numero di prodotti")
plt.show()

# Prezzo medio per categoria
categoria_media_sconti = df.groupby("category")[["actual_price", "discounted_price"]].mean().sort_values(by="actual_price", ascending=False)
categoria_media_sconti.head(10).plot(kind="bar", figsize=(10,5))
plt.title("Top 10 categorie per prezzo medio")
plt.ylabel("Prezzo medio (₹)")
plt.xlabel("Categoria")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Distribuzione rating
rating_counts = df["rating"].value_counts().sort_index()
rating_counts.plot(kind="bar", figsize=(8,5), color="skyblue", edgecolor="black")
plt.title("Distribuzione valutazioni dei prodotti")
plt.xlabel("Valutazioni (stelle)")
plt.ylabel("Numero di recensioni")
plt.show()