In [1]:
import pandas as pd

# Percorso corretto con raw string o /
path = "dati/datasets/altri_dataset/Mappa-dei-pub-circoli-locali-in-Italia.csv"

# Carica il file CSV
df = pd.read_csv(path, sep=';', encoding='latin1')

# Mostra le prime 5 righe
print(df.head())

         Comune                       Provincia   Regione             Nome  \
0         ALTRO                           ALTRO     ALTRO              NaN   
1         ALTRO                           ALTRO     ALTRO      Lenny's Pub   
2         ALTRO                           ALTRO     ALTRO  Murrayfield Pub   
3         ALTRO                           ALTRO     ALTRO           Snop?e   
4  ALA DI STURA  CITTA' METROPOLITANA DI TORINO  Piemonte              NaN   

   Anno inserimento Data e ora inserimento  Identificatore in OpenStreetMap  \
0              2011   2011-06-25T23:17:43Z                       1339088150   
1              2011   2011-07-29T17:22:56Z                       1375887295   
2              2015   2015-10-24T09:28:06Z                       3323888102   
3              2010   2010-09-22T08:32:52Z                        921157802   
4              2012   2012-05-21T14:28:45Z                       1760949034   

   Longitudine  Latitudine  
0    13.733257   45.575830 

In [2]:
#cerchiamo il path giusto dato che facendo a copia del path era sbagliato
from pathlib import Path

# Cerca il file nella cartella corrente e sottocartelle
file_name = "Mappa-dei-pub-circoli-locali-in-Italia.csv"
base_path = Path(".")  # o "." o qualunque directory superiore

found_files = list(base_path.rglob(file_name))

if found_files:
    for file in found_files:
        print(f"✅ Trovato: {file}")
else:
    print("❌ Nessun file trovato con questo nome.")

✅ Trovato: Mappa-dei-pub-circoli-locali-in-Italia.csv
✅ Trovato: dati\datasets\altri_dataset\Mappa-dei-pub-circoli-locali-in-Italia.csv


In [3]:
df.shape

(2635, 9)

In [4]:
df.columns #quali sono i metadati

Index(['Comune', 'Provincia', 'Regione', 'Nome', 'Anno inserimento',
       'Data e ora inserimento', 'Identificatore in OpenStreetMap',
       'Longitudine', 'Latitudine'],
      dtype='object')

In [5]:
df.size

23715

In [6]:
print(df.iloc[1])

Comune                                            ALTRO
Provincia                                         ALTRO
Regione                                           ALTRO
Nome                                        Lenny's Pub
Anno inserimento                                   2011
Data e ora inserimento             2011-07-29T17:22:56Z
Identificatore in OpenStreetMap              1375887295
Longitudine                                   12.418681
Latitudine                                    46.747584
Name: 1, dtype: object


In [7]:
print(df.tail(1))

     Comune              Provincia Regione          Nome  Anno inserimento  \
2634  TRANI  BARLETTA-ANDRIA-TRANI  Puglia  Well's Fargo              2009   

     Data e ora inserimento  Identificatore in OpenStreetMap  Longitudine  \
2634   2009-08-10T12:44:03Z                        387223648    16.436765   

      Latitudine  
2634   41.267264  


In [8]:
print(df.sample())

    Comune                       Provincia   Regione  \
76  TORINO  CITTA' METROPOLITANA DI TORINO  Piemonte   

                        Nome  Anno inserimento Data e ora inserimento  \
76  Pout Pourrì Vintage Cafè              2015   2015-06-05T15:32:25Z   

    Identificatore in OpenStreetMap  Longitudine  Latitudine  
76                       3574898270      7.63253    45.03351  


In [9]:
print(sorted(df["Anno inserimento"].unique()))

[2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016]


In [10]:
#quando uso | o & ogni condizione deve essere chiusa tra parentesi
filtro_longitudine= (df["Longitudine"]>= 9) & (df["Longitudine"] <= 10)
filtro_latitudine= (df["Latitudine"]>= 45) & (df["Latitudine"] <= 46)
filtro = (filtro_longitudine) & (filtro_latitudine)
numero_attivita= df[filtro].shape[0]
print("Il numero di attività filtrate per longitudine è: ", numero_attivita)

Il numero di attività filtrate per longitudine è:  306


In [11]:
colonne = ['Nome', 'Comune', 'Provincia', 'Regione', 'Anno inserimento', 'Longitudine', 'Latitudine']

# Applica il filtro e prendi 10 righe a caso
sample_df = df[filtro][colonne].sample(10, random_state=42)

# Mostra la tabella formattata
print(sample_df.to_string(index=False))

         Nome      Comune                      Provincia   Regione  Anno inserimento  Longitudine  Latitudine
   Bier Stube      ALBINO                        BERGAMO Lombardia              2015     9.801001   45.759829
The Manhattan      MILANO CITTA' METROPOLITANA DI MILANO Lombardia              2015     9.184134   45.479087
  La Pazzeria      MILANO CITTA' METROPOLITANA DI MILANO Lombardia              2015     9.138048   45.461598
          900 PONTE NOSSA                        BERGAMO Lombardia              2012     9.884032   45.866801
  Bar Magenta      MILANO CITTA' METROPOLITANA DI MILANO Lombardia              2012     9.175656   45.465692
    Tri Basei      CARUGO                           COMO Lombardia              2015     9.196545   45.707603
    Mary Rose      MILANO CITTA' METROPOLITANA DI MILANO Lombardia              2012     9.224783   45.490367
  Tin Whistle      MILANO CITTA' METROPOLITANA DI MILANO Lombardia              2011     9.144719   45.445193
   Zhizun 

In [12]:
#quante attività ci sono nella provincia di Vicenza
contatore = df["Provincia"] == "VICENZA"
print("Numero di attività a Vicenza:", df[contatore].shape[0])


Numero di attività a Vicenza: 73


In [13]:
print(df["Provincia"].unique())

['ALTRO' "CITTA' METROPOLITANA DI TORINO" 'VERCELLI' 'NOVARA' 'CUNEO'
 'ASTI' 'ALESSANDRIA' 'AOSTA' 'IMPERIA' 'SAVONA'
 "CITTA' METROPOLITANA DI GENOVA" 'LA SPEZIA' 'VARESE' 'COMO' 'SONDRIO'
 "CITTA' METROPOLITANA DI MILANO" 'BERGAMO' 'BRESCIA' 'PAVIA' 'CREMONA'
 'MANTOVA' 'BOLZANO' 'TRENTO' 'VERONA' 'VICENZA' 'BELLUNO' 'TREVISO'
 "CITTA' METROPOLITANA DI VENEZIA" 'PADOVA' 'ROVIGO' 'UDINE' 'GORIZIA'
 'TRIESTE' 'PIACENZA' 'PARMA' 'REGGIO EMILIA' 'MODENA'
 "CITTA' METROPOLITANA DI BOLOGNA" 'FERRARA' 'RAVENNA' "FORLI'"
 'PESARO E URBINO' 'ANCONA' 'MACERATA' 'ASCOLI PICENO' 'MASSA-CARRARA'
 'LUCCA' 'PISTOIA' "CITTA' METROPOLITANA DI FIRENZE" 'LIVORNO' 'PISA'
 'AREZZO' 'SIENA' 'GROSSETO' 'PERUGIA' 'TERNI' 'VITERBO' 'RIETI'
 "CITTA' METROPOLITANA DI ROMA CAPITALE" 'LATINA' 'FROSINONE' 'CASERTA'
 'BENEVENTO' "CITTA' METROPOLITANA DI NAPOLI" 'AVELLINO' 'SALERNO'
 "L'AQUILA" 'TERAMO' 'PESCARA' 'CHIETI' 'CAMPOBASSO' 'FOGGIA'
 "CITTA' METROPOLITANA DI BARI" 'TARANTO' 'BRINDISI' 'LECCE' 'POTENZA'


In [14]:
# Filtra le righe in cui il nome contiene la parola "enoteca", ignorando maiuscole/minuscole
filtro_enoteca = df["Nome"].str.contains("enoteca", case = False, na= False) #na mi serve per evitare errori nel caso in cui ci siano vlori nulli, mentre case mi serve per ignorare maiuscole  e miuscole.
numero_enoteche = df[filtro_enoteca].shape[0]#conta il numero di righe df.count non è adatto in caso di valor nulli
print(f"numero enoteche: {numero_enoteche}")

numero enoteche: 6


In [15]:
#mostra i nomi e dove si trovano
print(df[filtro_enoteca][["Nome", "Comune", "Provincia", "Regione"]].to_string(index=False))

                         Nome              Comune                      Provincia        Regione
Enoteca con Cucina""Tirolin""              TORINO CITTA' METROPOLITANA DI TORINO       Piemonte
            Concordia Enoteca              MILANO CITTA' METROPOLITANA DI MILANO      Lombardia
              Enoteca Umberto                MALO                        VICENZA         Veneto
      Enoteca ""Al Brindisi""             FERRARA                        FERRARA Emilia-Romagna
       Enoteca ""da Massimo""             FERRARA                        FERRARA Emilia-Romagna
     Enoteca Il Violino Rosso CASCIANA TERME LARI                           PISA        Toscana


In [16]:
filtro_lazio = df["Regione"] == "Lazio"
filtro_abruzzo = df["Regione"] =="Abruzzo"
filtro_al = (filtro_lazio) & (filtro_abruzzo)
numero_attivita = df[filtro_al].shape[0]
print(numero_attivita)

0


In [17]:
#cerchiamo il path giusto dato che facendo a copia del path era sbagliato
from pathlib import Path

# Cerca il file nella cartella corrente e sottocartelle
file_name = "insurance.csv"
base_path = Path(".")  # o "." o qualunque directory superiore

found_files = list(base_path.rglob(file_name))

if found_files:
    for file in found_files:
        print(f"✅ Trovato: {file}")
else:
    print("❌ Nessun file trovato con questo nome.")

✅ Trovato: dati\datasets\beginner_datasets\insurance.csv


In [25]:
import pandas as pd

# Percorso corretto con raw string o /
path = "dati/datasets/beginner_datasets/insurance.csv"

# Carica il file CSV
df = pd.read_csv(path, sep=',', encoding='latin1')

# Mostra le prime 5 righe
print(df.head())

   age     sex     bmi  children smoker     region      charges
0   19  female  27.900         0    yes  southwest  16884.92400
1   18    male  33.770         1     no  southeast   1725.55230
2   28    male  33.000         3     no  southeast   4449.46200
3   33    male  22.705         0     no  northwest  21984.47061
4   32    male  28.880         0     no  northwest   3866.85520


In [31]:
df.shape

(1338, 7)

In [20]:
df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [21]:
df.groupby("region")["charges"].mean().round(2)

region
northeast    13406.38
northwest    12417.58
southeast    14735.41
southwest    12346.94
Name: charges, dtype: float64

In [22]:
df.groupby("smoker")["charges"].mean().round(2)

smoker
no      8434.27
yes    32050.23
Name: charges, dtype: float64

In [23]:
df.groupby("sex")["charges"].mean().round(2)

sex
female    12569.58
male      13956.75
Name: charges, dtype: float64

In [32]:
descrittori_bmi = df["bmi"].describe().round(2)
print(descrittori_bmi)

count    1338.00
mean       30.66
std         6.10
min        15.96
25%        26.30
50%        30.40
75%        34.69
max        53.13
Name: bmi, dtype: float64


In [41]:
#con la funzione qcut di pandas andiamo a dividere la colonna bmi in 4 quantili
df["bmi_quartile"] = pd.qcut(df["bmi"], q = 4, labels = ["Q1", "Q2", "Q3", "Q4"])
statistiche_quartile = (
    df.groupby("bmi_quartile", observed=False)["charges"]
      .agg(min="min", mean="mean", max="max")
      .round(2)
)
print(f"Charges per quartile di bmi: {statistiche_quartile}")

Charges per quartile di bmi:                   min      mean       max
bmi_quartile                             
Q1            1121.87  10360.66  38245.59
Q2            1131.51  11407.83  62592.87
Q3            1135.94  14358.17  60021.40
Q4            1141.45  16987.94  63770.43


In [43]:
##stampare una tabella ordinata tramite tabulate
from tabulate import tabulate
print(tabulate(statistiche_quartile, headers=["Min", "Media", "Max"], tablefmt="plain")) #plain è il formato con il quale vogliamo stampare

        Min    Media      Max
Q1  1121.87  10360.7  38245.6
Q2  1131.51  11407.8  62592.9
Q3  1135.94  14358.2  60021.4
Q4  1141.45  16987.9  63770.4


In [44]:
#cerchiamo il path giusto dato che facendo a copia del path era sbagliato
from pathlib import Path

# Cerca il file nella cartella corrente e sottocartelle
file_name = "iris.csv"
base_path = Path(".")  # o "." o qualunque directory superiore

found_files = list(base_path.rglob(file_name))

if found_files:
    for file in found_files:
        print(f"✅ Trovato: {file}")
else:
    print("❌ Nessun file trovato con questo nome.")

✅ Trovato: dati\datasets\beginner_datasets\iris.csv
✅ Trovato: dati\datasets\seaborn_datasets\iris.csv


In [46]:
import pandas as pd

# Percorso corretto con raw string o /
path = "dati\\datasets\\seaborn_datasets\\iris.csv"

# Carica il file CSV
df = pd.read_csv(path, sep=',', encoding='latin1')

# Mostra le prime 5 righe
print(df.head())

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [50]:
#scopriamo la lunghezza media dei petali di tutto il dataset
df["petal_length"].mean().round(2)

3.7580000000000005

In [53]:
#La media della lunghezza dei petali per ogni specie di Iris, utilizzando il metodo .groupby()
df.groupby("species")["petal_length"].mean()

species
setosa        1.462
versicolor    4.260
virginica     5.552
Name: petal_length, dtype: float64

In [54]:
#Media, minimo e massimo della larghezza dei sepali per ogni specie, utilizzando .groupby() e .agg()
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [55]:
df.groupby("species")["petal_width"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
setosa,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [60]:
#adesso utilizziamo.agg(che ricordiamo non aggiunge colonne al dataframe iniziale)
df.groupby("species")["petal_width"].agg(min = "min", max = "max", mean = "mean").round(2)

Unnamed: 0_level_0,min,max,mean
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,0.1,0.6,0.25
versicolor,1.0,1.8,1.33
virginica,1.4,2.5,2.03


In [61]:
from pathlib import Path #dalla libreria pathlib iportiamo il modulo path
# Cerca il file nella cartella corrente e sottocartelle
file_name = "wine.csv"
base_path = Path(".")  # o "." o qualunque directory superiore

found_files = list(base_path.rglob(file_name))

if found_files:
    for file in found_files:
        print(f"✅ Trovato: {file}")
else:
    print("❌ Nessun file trovato con questo nome.")

✅ Trovato: dati\datasets\beginner_datasets\wine.csv


In [62]:
import pandas as pd
path = "dati\\datasets\\beginner_datasets\\wine.csv"
df = pd.read_csv(path, sep =",", encoding = "latin1")
df.head(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,type
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


In [65]:
#Qual è la media di concentrazione alcolica per ogni qualità? Ci sono differenze? E rispetto alla media totale?
df.groupby("quality")["alcohol"].agg(mean = "mean").round(2)

Unnamed: 0_level_0,mean
quality,Unnamed: 1_level_1
3,10.22
4,10.18
5,9.84
6,10.59
7,11.39
8,11.68
9,12.18


In [67]:
#calcoliamo la media di concentrazione alcol totale
df["alcohol"].mean().round(2)

10.49

In [71]:
#confrontiamo
media_quality = df.groupby("quality") ["alcohol"].mean().round(2)
media_totale = df["alcohol"].mean().round(2)
confronto = media_quality.to_frame(name = "media_alcohol") #.to_frame ci serve per convertire una series in un dataframe
confronto["diff_dalla_media_totale"] = (confronto["media_alcohol"]-media_totale).round(2) #stiamo aggiungendo una colonna che ci fa vedere il confronto
print(confronto)

         media_alcohol  diff_dalla_media_totale
quality                                        
3                10.22                    -0.27
4                10.18                    -0.31
5                 9.84                    -0.65
6                10.59                     0.10
7                11.39                     0.90
8                11.68                     1.19
9                12.18                     1.69


In [78]:
#C'è differenza nella concentrazione alcolica per vini bianchi e vini rossi?
df.groupby("type")[["alcohol"]].mean().round(2)

Unnamed: 0_level_0,alcohol
type,Unnamed: 1_level_1
red,10.42
white,10.51


In [77]:
#Rifacendo le analisi dei due punti precedenti ma per il pH, cambia qualcosa?
df.groupby("type")[["pH"]].mean().round(2)

Unnamed: 0_level_0,pH
type,Unnamed: 1_level_1
red,3.31
white,3.19


In [76]:
df.groupby("quality")[["pH"]].mean().round(2) #ho messo doppie parentesi quadre su ph perchè volevo si vedesse la descrizione per oni colonna

Unnamed: 0_level_0,pH
quality,Unnamed: 1_level_1
3,3.26
4,3.23
5,3.21
6,3.22
7,3.23
8,3.22
9,3.31


In [79]:
#E per i solfati?
df.groupby("quality")[["sulphates"]].mean().round(2)

Unnamed: 0_level_0,sulphates
quality,Unnamed: 1_level_1
3,0.51
4,0.51
5,0.53
6,0.53
7,0.55
8,0.51
9,0.47


In [80]:
df.groupby("type")[["sulphates"]].mean().round(2)

Unnamed: 0_level_0,sulphates
type,Unnamed: 1_level_1
red,0.66
white,0.49


In [6]:
#datset boston csv
from pathlib import Path #dalla libreria pathlib iportiamo il modulo path
# Cerca il file nella cartella corrente e sottocartelle
file_name = "boston.csv"
base_path = Path(".")  # o "." o qualunque directory superiore

found_files = list(base_path.rglob(file_name))

if found_files:
    for file in found_files:
        print(f"✅ Trovato: {file}")
else:
    print("❌ Nessun file trovato con questo nome.")

✅ Trovato: dati\datasets\beginner_datasets\boston.csv


In [2]:
import pandas as pd
path = "dati/datasets/beginner_datasets/boston.csv"
df = pd.read_csv(path, sep =",", encoding="latin1")
df.head(5)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [None]:
#contiene il Boston Housing Dataset, che deriva dalle informazioni raccolte dal Census Service degli Stati Uniti sulle abitazioni nell'area di Boston. Di seguito vengono descritte le colonne del dataset:
#• CRIM -tasso di criminalità pro capite per città 
#• ZN - proporzione di terreni residenziali suddivisi in zone per lotti superiori a 25.000 piedi quadrati.
# • INDUS - percentuale di acri di attività commerciali non al dettaglio per città.
#• CHAS -variabile dummy del fiume Charles (1 se il tratto costeggia il fiume; 0 altrimenti)

In [None]:
#NOX -concentrazione di ossidi di azoto (parti per 10 milioni). 
#• RM -numero medio di stanze per abitazione
#• AGE -proporzione di unità abitative occupate da proprietari costruite prima del 1940 
#• DIS - distanze ponderate da cinque centri occupazionali di Boston 
#• RAD -indice di accessibilità alle autostrade radiali 
#• TAX -aliquota dell'imposta fondiaria sul valore pieno per 10.000 dollari 
#• PTRATIO - rapporto alunni-insegnanti per città 
#• BLACK -la percentuale di neri per città 
#• LSTAT - % di popolazione di condizione più bassa 8
#• MEDV -Valore mediano delle case, espresso in migliaia di dollari

In [19]:
#La media del prezzo delle case cambia a seconda della distanza dal fiume Charles?
df.groupby("chas")[["medv"]].mean().round(2)

Unnamed: 0_level_0,medv
chas,Unnamed: 1_level_1
0,22.09
1,28.44


In [25]:
#adesso utilizzaimo replace per un output più chiaro:
df.groupby(df["chas"].replace({0: "non costeggiato dal fiume", 1: "costeggiato dal fiume"}))[["medv"]].mean().round(2)

Unnamed: 0_level_0,medv
chas,Unnamed: 1_level_1
costeggiato dal fiume,28.44
non costeggiato dal fiume,22.09


In [17]:
#Si nota una correlazione tra il tasso di criminalità e il valore delle abitazioni? Come si può spiegare il risultato?

# Trova gli indici delle righe con prezzo minimo e massimo
idx_min = df["medv"].idxmin()
idx_max = df["medv"].idxmax()

# Estrai le righe corrispondenti con solo le colonne 'medv' e 'crim'
result = df.loc[[idx_min, idx_max], ["medv", "crim"]]
print("all'aumentare del prezzo dell'abitazione diminuisce quello della criminalità. Questo perchè la poverta è una delle cause principali per cui si commettono crimini")
print(result)


all'aumentare del prezzo dell'abitazione diminuisce quello della criminalità. Questo perchè la poverta è una delle cause principali per cui si commettono crimini
     medv      crim
398   5.0  38.35180
161  50.0   1.46336


In [23]:
#Qual è la media del numero di stanze rispetto al rapporto alunni-insegnanti? 
#E del valore delle case? Appare esserci una qualche correlazione? Come si può spiegare il risultato?
df.groupby("ptratio")[["rm"]].mean().round(2)

Unnamed: 0_level_0,rm
ptratio,Unnamed: 1_level_1
12.6,7.22
13.0,7.41
13.6,7.92
14.4,7.88
14.7,6.25
14.8,6.75
14.9,7.31
15.1,6.82
15.2,6.42
15.3,6.71


In [18]:
df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [10]:
#Rispetto all'accessibilità alle autostrade, cambia qualcosa la media delle età delle abitazioni? E del numero di stanze? E delle tasse?
accessibilita_autostrade = df.groupby("rad")[["medv"]].mean().round(2)
print("il prezzo delle abitazioni sembra non fare più di tanto riferimento all'accessibilità alle autostrade radiali.")
print(accessibilita_autostrade)

il prezzo delle abitazioni sembra non fare più di tanto riferimento all'accessibilità alle autostrade radiali.
      medv
rad       
1    24.36
2    26.83
3    27.93
4    21.39
5    25.71
6    20.98
7    27.11
8    30.36
24   16.40


In [17]:
eta_abitazioni = df.groupby("age")[["medv"]].mean().round(2)
print(eta_abitazioni)
print("All'aumenatre dell'eta dell'abitazione il presso scende")


        medv
age         
2.9    26.60
6.0    24.10
6.2    23.40
6.5    24.70
6.6    24.75
...      ...
98.8   14.50
98.9   13.07
99.1   10.90
99.3   17.80
100.0  16.92

[356 rows x 1 columns]
All'aumenatre dell'eta dell'abitazione il presso scende


In [15]:
# Trova gli indici delle righe con prezzo minimo e massimo
idx_min = df["age"].idxmin()
idx_max =df["age"].idxmax()

result = df.loc[[idx_min, idx_max], ["age", "medv"]]
print(result)

      age  medv
41    2.9  26.6
8   100.0  16.5


In [26]:
#numero di stanze in relazione al prezzo
stanze_prezzo = df.groupby("rm")[["medv"]].mean().round(2)
print(stanze_prezzo)
print("All'aumentare del numero di stanze sale il prezzo dell'abitazione")

        medv
rm          
3.561  27.50
3.863  23.10
4.138  12.85
4.368   8.80
4.519   7.00
...      ...
8.375  50.00
8.398  48.80
8.704  50.00
8.725  50.00
8.780  21.90

[446 rows x 1 columns]
All'aumentare del numero di stanze sale il prezzo dell'abitazione


In [30]:
#tasse_prezzo
tasse_prezzo = df.groupby("medv")[["tax"]].mean().round(2)
print(tasse_prezzo)
print("all'aumentare del prezzo dell'abitazione diminuiscono le tasse")

         tax
medv        
5.0   666.00
5.6   666.00
6.3   666.00
7.0   688.50
7.2   666.00
...      ...
46.7  307.00
48.3  307.00
48.5  224.00
48.8  264.00
50.0  415.44

[229 rows x 1 columns]
all'aumentare del prezzo dell'abitazione diminuiscono le tasse


In [31]:
#abbiamo un DataFrame dipendenti e un Dataframe dipartimenti
#Unire questi DataFrame in base alla colonna comune department_id, in modo da avere nel risultato informazioni sia sui dipendenti che sui dipartimenti, usando la funzione .merge()
#• Per ogni DataFrame, trasformare la colonna department_id nell'indice, facendo in modo che la modifica sia permanente; poi unire i due dataset mediante il metodo .join() 
#• Ci sono differenze nel risultato? Quali? Perché?
employees_df = pd.DataFrame(
    { 'employee_id': [101, 102, 103, 104, 105],
      'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
      'department_id': [1, 2, 1, 2, 3] })
departments_df = pd.DataFrame(
    { 'department_id': [1, 2, 3],
      'department_name': ['HR', 'IT', 'Finance'],
      'location': ['New York', 'San Francisco', 'Chicago'] })
employees_merge = employees_df.merge(departments_df, how = "inner", on = "department_id")
print(employees_merge)

   employee_id     name  department_id department_name       location
0          101    Alice              1              HR       New York
1          102      Bob              2              IT  San Francisco
2          103  Charlie              1              HR       New York
3          104    David              2              IT  San Francisco
4          105     Emma              3         Finance        Chicago


In [40]:
#impostiamo department_id per entrambe le colonne come indice facendo in modo che sia ua modifica permanente
employees_df = employees_df.set_index("department_id") #potevamo usare pure inplace =True per memorizzarlo in maniera permanente
departments_df = departments_df.set_index("department_id")
print(employees_df)
print(departments_df)

               level_0  index  employee_id     name
department_id                                      
1                    0      0          101    Alice
2                    1      1          102      Bob
1                    2      2          103  Charlie
2                    3      3          104    David
3                    4      4          105     Emma
               level_0  index department_name       location
department_id                                               
1                    0      0              HR       New York
2                    1      1              IT  San Francisco
3                    2      2         Finance        Chicago


In [66]:
#La differenza sostanziale tra merge e join è che merge unisce le tabelle tramite le colonne mentre join tramite gli indici


import sqlalchemy
import pandas as pd
from urllib.parse import quote_plus
from sqlalchemy import text
from dotenv import load_dotenv
import os

# ✅ Carica variabili dal file .env
load_dotenv("cred.env")

# ✅ Leggi e verifica le credenziali
username = os.getenv("DB_USER")
raw_password = os.getenv("DB_PASS")
host = os.getenv("DB_HOST")
dbname = os.getenv("DB_NAME")

# ✅ Controllo per evitare errori di tipo
if not all([username, raw_password, host, dbname]):
    raise ValueError("❌ Una o più variabili ambiente non sono state caricate. Controlla il file cred.env.")

# ✅ Codifica la password per sicurezza (quote_plus accetta solo stringhe non None)
password = quote_plus(raw_password)

# ✅ Crea la stringa di connessione
connection_string = f"mysql+pymysql://{username}:{password}@{host}/{dbname}"
print("🔗 Connection string:", connection_string)

# ✅ Connessione e test
try:
    db_engine = sqlalchemy.create_engine(connection_string)
    with db_engine.connect() as conn:
        print("✅ Connessione al database riuscita!")

        # Query di test
        result = conn.execute(text("SHOW TABLES"))
        print("📋 Tabelle presenti nel database:")
        for row in result:
            print(" -", row[0])

except Exception as e:
    print(f"❌ Errore durante la connessione: {e}")


🔗 Connection string: mysql+pymysql://root:Giorginho02%21@localhost/adventurworksdb
✅ Connessione al database riuscita!
📋 Tabelle presenti nel database:
 - adventureworksdwbuildversion
 - dimaccount
 - dimcurrency
 - dimcustomer
 - dimdate
 - dimdepartmentgroup
 - dimemployee
 - dimemployeesalesterritory
 - dimgeography
 - dimorganization
 - dimproduct
 - dimproductcategory
 - dimproductsubcategory
 - dimpromotion
 - dimreseller
 - dimsalesreason
 - dimsalesterritory
 - dimscenario
 - factcurrencyrate
 - factfinance
 - factinternetsales
 - factinternetsalesreason
 - factproductinventory
 - factresellersales
 - factsales
 - region
 - sysdiagrams


In [68]:
#importiamo le tabelle dimemployee e dimemployeesalesterritory come DataFrame
query = "SELECT * FROM dimemployee"
dimemployee = pd.read_sql(query, db_engine)#pd.read_sql → è una funzione di pandas che esegue una query SQL e restituisce i risultati come DataFrame.
dimemployee= dimemployee.reset_index()
dimemployee.head(5)


Unnamed: 0,index,EmployeeKey,ParentEmployeeKey,EmployeeNationalIDAlternateKey,ParentEmployeeNationalIDAlternateKey,FirstName,LastName,MiddleName,NameStyle,Title,...,Gender,PayFrequency,BaseRate,VacationHours,SickLeaveHours,CurrentFlag,SalesPersonFlag,DepartmentName,EmployeePhoto,Position
0,0,1,18.0,14417807,446466105.0,Guy,Gilbert,R,0,Production Technician - WC60,...,M,1,12.45,21,30,1,0,Production,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
1,1,2,7.0,253022876,24756624.0,Kevin,Brown,F,0,Marketing Assistant,...,M,2,13.4615,42,41,1,0,Marketing,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
2,2,3,14.0,509647174,245797967.0,Roberto,Tamburello,,0,Engineering Manager,...,M,2,43.2692,2,21,1,0,Engineering,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
3,3,4,3.0,112457891,509647174.0,Rob,Walters,,0,Senior Tool Designer,...,M,2,29.8462,48,80,1,0,Tool Design,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
4,4,5,3.0,112457891,509647174.0,Rob,Walters,,0,Senior Tool Designer,...,M,2,29.8462,48,80,1,0,Tool Design,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,


In [51]:
type(dimemployee)

pandas.core.frame.DataFrame

In [69]:
query = "SELECT * FROM dimemployeesalesterritory"
dimemployeesalesterritory = pd.read_sql(query, db_engine)
dimemloyeesalesterritory = dimemployeesalesterritory.reset_index()
dimemployee.head(5)

Unnamed: 0,index,EmployeeKey,ParentEmployeeKey,EmployeeNationalIDAlternateKey,ParentEmployeeNationalIDAlternateKey,FirstName,LastName,MiddleName,NameStyle,Title,...,Gender,PayFrequency,BaseRate,VacationHours,SickLeaveHours,CurrentFlag,SalesPersonFlag,DepartmentName,EmployeePhoto,Position
0,0,1,18.0,14417807,446466105.0,Guy,Gilbert,R,0,Production Technician - WC60,...,M,1,12.45,21,30,1,0,Production,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
1,1,2,7.0,253022876,24756624.0,Kevin,Brown,F,0,Marketing Assistant,...,M,2,13.4615,42,41,1,0,Marketing,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
2,2,3,14.0,509647174,245797967.0,Roberto,Tamburello,,0,Engineering Manager,...,M,2,43.2692,2,21,1,0,Engineering,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
3,3,4,3.0,112457891,509647174.0,Rob,Walters,,0,Senior Tool Designer,...,M,2,29.8462,48,80,1,0,Tool Design,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,
4,4,5,3.0,112457891,509647174.0,Rob,Walters,,0,Senior Tool Designer,...,M,2,29.8462,48,80,1,0,Tool Design,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,


In [70]:


#dimemployee = dimemployee.join(dimemployeesalesterritory, on = "EmployeeKey", how = "inner")
#print(dimemployee)
#facendo diretteamente cosi avremmo un problema perchè avremmo 2 colonne con lo stesso nome
#aggiungiamo i suffissi alle colonne sulle quali facciamo merge
dimemployeesalesterritory = dimemployeesalesterritory.set_index("EmployeeKey")
dimemployee = dimemployee.join(
    dimemployeesalesterritory,
    on="EmployeeKey",
    how="inner",
    lsuffix="_emp",
    rsuffix="_territory"
)
dimemployee.head(15)


Unnamed: 0,index,EmployeeKey,ParentEmployeeKey,EmployeeNationalIDAlternateKey,ParentEmployeeNationalIDAlternateKey,FirstName,LastName,MiddleName,NameStyle,Title,...,PayFrequency,BaseRate,VacationHours,SickLeaveHours,CurrentFlag,SalesPersonFlag,DepartmentName,EmployeePhoto,Position,SalesTerritoryKey
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,1
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,2
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,3
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,4
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,5
271,271,272,277.0,502097814,112432117.0,Stephen,Jiang,Y,0,North American Sales Manager,...,2,48.101,14,27,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Manager,6
276,276,277,277.0,112432117,112432117.0,Brian,Welcker,S,0,Director of Sales,...,2,72.1154,10,25,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Director,1
276,276,277,277.0,112432117,112432117.0,Brian,Welcker,S,0,Director of Sales,...,2,72.1154,10,25,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Director,2
276,276,277,277.0,112432117,112432117.0,Brian,Welcker,S,0,Director of Sales,...,2,72.1154,10,25,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Director,3
276,276,277,277.0,112432117,112432117.0,Brian,Welcker,S,0,Director of Sales,...,2,72.1154,10,25,1,1,Sales,b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01...,Sales Director,4


In [72]:
#Importiamo ora la tabella dimsalesterritory ed effettuiamo un join tra questa e il DataFrame risultante della join precedente, usando le colonne SalesTerritoryKey
query = "SELECT * FROM dimsalesterritory"
dimsalesterritory = pd.read_sql(query, db_engine)

dimemployee = dimemployee.set_index("SalesTerritoryKey")

dimemployee_merge = dimsalesterritory.join(
    dimemployee,
    on="SalesTerritoryKey",
    how="inner",
    lsuffix="_territory",
    rsuffix="_employee"
)

In [73]:
dimemployee_merge.columns

Index(['SalesTerritoryKey', 'SalesTerritoryAlternateKey',
       'SalesTerritoryRegion', 'SalesTerritoryCountry', 'SalesTerritoryGroup',
       'SalesTerritoryImage', 'index', 'EmployeeKey', 'ParentEmployeeKey',
       'EmployeeNationalIDAlternateKey',
       'ParentEmployeeNationalIDAlternateKey', 'FirstName', 'LastName',
       'MiddleName', 'NameStyle', 'Title', 'HireDate', 'BirthDate', 'LoginID',
       'EmailAddress', 'Phone', 'MaritalStatus', 'EmergencyContactName',
       'EmergencyContactPhone', 'SalariedFlag', 'Gender', 'PayFrequency',
       'BaseRate', 'VacationHours', 'SickLeaveHours', 'CurrentFlag',
       'SalesPersonFlag', 'DepartmentName', 'EmployeePhoto', 'Position'],
      dtype='object')