## Mini-esercizio: Pandas + SQLAlchemy + PostgreSQL (senza CSV)
Lo scopo è mostrare l’intero ciclo DataFrame → PostgreSQL → Pandas → analisi impiegando SQLAlchemy, senza leggere o scrivere file esterni: il dataset viene costruito direttamente in codice.

#### 1  Costruzione del DataFrame in memoria

In [15]:
import pandas as pd
from datetime import date

# Dati d’esempio (potete modificarli o ampliarli)
vendite_data = [
    {"id_vendita": 1, "data_vendita": date(2025, 1, 2), "titolo": "Il Nome della Rosa",    "autore": "Umberto Eco",   "quantita": 2, "prezzo_unitario": 12.90},
    {"id_vendita": 2, "data_vendita": date(2025, 1, 3), "titolo": "1984",                  "autore": "George Orwell", "quantita": 1, "prezzo_unitario": 10.50},
    {"id_vendita": 3, "data_vendita": date(2025, 1, 3), "titolo": "Il barone rampante",    "autore": "Italo Calvino", "quantita": 3, "prezzo_unitario": 11.20},
    {"id_vendita": 4, "data_vendita": date(2025, 1, 5), "titolo": "Il Nome della Rosa",    "autore": "Umberto Eco",   "quantita": 1, "prezzo_unitario": 12.90},
    {"id_vendita": 5, "data_vendita": date(2025, 1, 6), "titolo": "Il barone rampante",    "autore": "Italo Calvino", "quantita": 2, "prezzo_unitario": 11.20},
    {"id_vendita": 6, "data_vendita": date(2025, 1, 7), "titolo": "1984",                  "autore": "George Orwell", "quantita": 4, "prezzo_unitario": 10.50},
    {"id_vendita": 7, "data_vendita": date(2025, 1, 8), "titolo": "Il Nome della Rosa",    "autore": "Umberto Eco",   "quantita": 3, "prezzo_unitario": 12.90},
    {"id_vendita": 8, "data_vendita": date(2025, 1, 8), "titolo": "Il barone rampante",    "autore": "Italo Calvino", "quantita": 1, "prezzo_unitario": 11.20},
    {"id_vendita": 9, "data_vendita": date(2025, 1, 8), "titolo": "1984",                 "autore": "George Orwell", "quantita": 2, "prezzo_unitario": 10.50},
    {"id_vendita": 10, "data_vendita": date(2025, 1, 11), "titolo": "Il Nome della Rosa",   "autore": "Umberto Eco",   "quantita": 1, "prezzo_unitario": 12.90},
    {"id_vendita": 11, "data_vendita": date(2025, 1, 15), "titolo": "Il barone rampante",   "autore": "Italo Calvino", "quantita": 2, "prezzo_unitario": 11.20},
    {"id_vendita": 12, "data_vendita": date(2025, 1, 15), "titolo": "1984",                 "autore": "George Orwell", "quantita": 3, "prezzo_unitario": 10.50},
    # …aggiungete altre righe a piacere…
]

df = pd.DataFrame(vendite_data)
df

Unnamed: 0,id_vendita,data_vendita,titolo,autore,quantita,prezzo_unitario
0,1,2025-01-02,Il Nome della Rosa,Umberto Eco,2,12.9
1,2,2025-01-03,1984,George Orwell,1,10.5
2,3,2025-01-03,Il barone rampante,Italo Calvino,3,11.2
3,4,2025-01-05,Il Nome della Rosa,Umberto Eco,1,12.9
4,5,2025-01-06,Il barone rampante,Italo Calvino,2,11.2
5,6,2025-01-07,1984,George Orwell,4,10.5
6,7,2025-01-08,Il Nome della Rosa,Umberto Eco,3,12.9
7,8,2025-01-08,Il barone rampante,Italo Calvino,1,11.2
8,9,2025-01-08,1984,George Orwell,2,10.5
9,10,2025-01-11,Il Nome della Rosa,Umberto Eco,1,12.9


#### 2  Connessione a PostgreSQL e salvataggio

In [16]:
from sqlalchemy import create_engine, text

engine = create_engine(
    "postgresql+psycopg2://postgres:mypassword@localhost:5432/esercizio",
    echo=False   # True per loggare l’SQL generato
)

# Scrive (o sovrascrive) la tabella "vendite"
df.to_sql("vendite", engine, if_exists="replace", index=False)

12

#### 3  Query di esempio (SQL “puro”)

In [17]:
query = text("""  -- triple quotes escaped inside python string
    SELECT autore,
           SUM(quantita) AS copie_totali,
           ROUND(SUM(quantita * prezzo_unitario)::numeric, 2) AS ricavo_totale
    FROM vendite
    GROUP BY autore
    ORDER BY ricavo_totale DESC;
""")

risultato = pd.read_sql(query, engine)
risultato

Unnamed: 0,autore,copie_totali,ricavo_totale
0,George Orwell,10.0,105.0
1,Umberto Eco,7.0,90.3
2,Italo Calvino,8.0,89.6


#### 4  Compiti da svolgere
1. Top 5 autori per copie vendute
    - Suggerimento: ORDER BY copie_totali DESC LIMIT 5.

2. Ricavo mensile

    - In Pandas: df['mese'] = df['data_vendita'].dt.to_period('M') e poi groupby('mese').
    - In SQL: DATE_TRUNC('month', data_vendita).

3. Margine medio per titolo

    - Supponendo un costo fisso di € 5 a copia: margine = prezzo_unitario - 5, quindi calcolare il margine totale per titolo.

4. Indice e performance

    - Create un indice su data_vendita (CREATE INDEX ...) e confrontate i piani di esecuzione con EXPLAIN ANALYZE prima e dopo l’indice per una query di intervallo date.

In [18]:
# top 2 autori per copie vendute
query = text("""  -- triple quotes escaped inside python string
    SELECT autore,
           SUM(quantita) AS copie_totali
    FROM vendite
    GROUP BY autore
    ORDER BY copie_totali DESC
    LIMIT 2;
""")

top_autori = pd.read_sql(query, engine)
top_autori

Unnamed: 0,autore,copie_totali
0,George Orwell,10.0
1,Italo Calvino,8.0


In [19]:
# ricavo mensile
query = text("""  -- triple quotes escaped inside python string
    SELECT DATE_TRUNC('month', data_vendita) AS mese,
           SUM(quantita * prezzo_unitario) AS ricavo_mensile
    FROM vendite
    GROUP BY mese
    ORDER BY mese;
""")

ricavo_mensile = pd.read_sql(query, engine)
ricavo_mensile

Unnamed: 0,mese,ricavo_mensile
0,2025-01-01 00:00:00+00:00,284.9


In [20]:
# ricavo settimanale
query = text("""  -- triple quotes escaped inside python string
    SELECT DATE_TRUNC('week', data_vendita) AS settimana,
           SUM(quantita * prezzo_unitario) AS ricavo_settimanale
    FROM vendite
    GROUP BY settimana
    ORDER BY settimana;
""")

ricavo_settimanale = pd.read_sql(query, engine)
# formatta la colonna settimana come numero di settimana dell'anno
ricavo_settimanale['settimana'] = ricavo_settimanale['settimana'].dt.isocalendar().week
ricavo_settimanale

Unnamed: 0,settimana,ricavo_settimanale
0,1,82.8
1,2,148.2
2,3,53.9


In [21]:
# Supponendo un costo fisso di € 5 a copia: margine = prezzo_unitario - 5, quindi calcolare il margine totale per titolo.
query = text("""  -- triple quotes escaped inside python string
    SELECT titolo,
           SUM(quantita * (prezzo_unitario - 5)) AS margine_totale
    FROM vendite
    GROUP BY titolo
    ORDER BY margine_totale DESC;
""")

margine_per_titolo = pd.read_sql(query, engine)
margine_per_titolo

Unnamed: 0,titolo,margine_totale
0,Il Nome della Rosa,55.3
1,1984,55.0
2,Il barone rampante,49.6


In [22]:
# Create un indice su data_vendita (CREATE INDEX ...) e confrontate i piani di esecuzione con EXPLAIN ANALYZE prima e dopo l’indice per una query di intervallo date.
query = text("""  -- triple quotes escaped inside python string
    EXPLAIN ANALYZE
    SELECT *
    FROM vendite
    WHERE data_vendita BETWEEN '2025-01-01' AND '2025-01-31';
""")

piano_esecuzione = pd.read_sql(query, engine)
piano_esecuzione

Unnamed: 0,QUERY PLAN
0,Seq Scan on vendite (cost=0.00..20.20 rows=3 ...
1,Filter: ((data_vendita >= '2025-01-01'::date...
2,Planning Time: 0.079 ms
3,Execution Time: 0.041 ms
