In [2]:
import sqlalchemy
import pandas as pd
from urllib.parse import quote_plus
from sqlalchemy import text
from dotenv import load_dotenv
import os

# ✅ Carica variabili dal file .env
load_dotenv("cred.env")

# ✅ Leggi e verifica le credenziali
username = os.getenv("DB_USER")
raw_password = os.getenv("DB_PASS")
host = os.getenv("DB_HOST")
dbname = os.getenv("DB_NAME")

# ✅ Controllo per evitare errori di tipo
if not all([username, raw_password, host, dbname]):
    raise ValueError("❌ Una o più variabili ambiente non sono state caricate. Controlla il file cred.env.")

# ✅ Codifica la password per sicurezza (quote_plus accetta solo stringhe non None)
password = quote_plus(raw_password)

# ✅ Crea la stringa di connessione
connection_string = f"mysql+pymysql://{username}:{password}@{host}/{dbname}"
print("🔗 Connection string:", connection_string)

# ✅ Connessione e test
try:
    db_engine = sqlalchemy.create_engine(connection_string)
    with db_engine.connect() as conn:
        print("✅ Connessione al database riuscita!")

        # Query di test
        result = conn.execute(text("SHOW TABLES"))
        print("📋 Tabelle presenti nel database:")
        for row in result:
            print(" -", row[0])

except Exception as e:
    print(f"❌ Errore durante la connessione: {e}")

🔗 Connection string: mysql+pymysql://root:Giorginho02%21@localhost/adventurworksdb
✅ Connessione al database riuscita!
📋 Tabelle presenti nel database:
 - adventureworksdwbuildversion
 - dimaccount
 - dimcurrency
 - dimcustomer
 - dimdate
 - dimdepartmentgroup
 - dimemployee
 - dimemployeesalesterritory
 - dimgeography
 - dimorganization
 - dimproduct
 - dimproductcategory
 - dimproductsubcategory
 - dimpromotion
 - dimreseller
 - dimsalesreason
 - dimsalesterritory
 - dimscenario
 - factcurrencyrate
 - factfinance
 - factinternetsales
 - factinternetsalesreason
 - factproductinventory
 - factresellersales
 - factsales
 - region
 - sysdiagrams


In [6]:
query = "SELECT * FROM dimproduct"
dimproduct = pd.read_sql(query, db_engine)
dimproduct.columns



Index(['ProductKey', 'ProductAlternateKey', 'ProductSubcategoryKey',
       'WeightUnitMeasureCode', 'SizeUnitMeasureCode', 'EnglishProductName',
       'SpanishProductName', 'FrenchProductName', 'StandardCost',
       'FinishedGoodsFlag', 'Color', 'SafetyStockLevel', 'ReorderPoint',
       'ListPrice', 'Size', 'SizeRange', 'Weight', 'DaysToManufacture',
       'ProductLine', 'DealerPrice', 'Class', 'Style', 'ModelName',
       'LargePhoto', 'EnglishDescription', 'FrenchDescription',
       'ChineseDescription', 'ArabicDescription', 'HebrewDescription',
       'ThaiDescription', 'GermanDescription', 'JapaneseDescription',
       'TurkishDescription', 'StartDate', 'EndDate', 'Status'],
      dtype='object')

In [19]:
#Sulla colonna DealerPrice, utilizzando il metodo .round(), arrotondiamo i valori alle due cifre decimali, e poi al valore intero più vicino
dimproduct["DealerPrice"] = (
    pd.to_numeric(dimproduct["DealerPrice"], errors='coerce') #to numeric converte i valori della colonna DealerPrice in non numerici, quelli che non posso essere convertiti errors = "coerce" li trasforma in null
    .round(2)
    .round(0)
    .fillna(0)  #sostiuisce i valori null con zero            
    .astype(int) #converte in intero
)
print(dimproduct.loc[:, ["DealerPrice", "ProductKey"]])

     DealerPrice  ProductKey
0              0           1
1              0           2
2              0           3
3              0           4
4              0           5
..           ...         ...
601           61         602
602           73         603
603          324         604
604          324         605
605          324         606

[606 rows x 2 columns]


In [23]:
#Utilizzando il metodo .clip(), facciamo in modo che i valori siano compresi tra un minimo di 0 e un massimo di 1000
#con .clip stabiliamo un range per limitre i valori di una colonna. stabilendo il massimo e il minimo, tutti i valori sopra il massimo diventeranno il massimo e tutti i valori sotto il minimo diventeranno il minimo e vedremmo solo i valori compresi nel range insieme ai due estremi.
dimproduct["DealerPrice"].clip(lower = 0, upper = 1000)

0        0
1        0
2        0
3        0
4        0
      ... 
601     61
602     73
603    324
604    324
605    324
Name: DealerPrice, Length: 606, dtype: int32

In [31]:
#Creiamo un DataFrame sintetico, che contiene i guadagni mensili di diverse annate, con il seguente codice:
import numpy as np
years = 5
guadagni = pd.DataFrame({
    "Mese": list("GFMAMGLASOND"*years), #le lettere sono le iniziali dei mesi
    "Anno": np.repeat(list(range(years)), 12),
    "Valore": np.random.randint(800, 5000, 12*years)})
#Calcola la somma cumulativa dei guadagni utilizzando il metodo .cumsum() 
#Come sopra, ma raggruppato per ogni anno usando prima un .groupby()

#somma cumulativa seenza raggruppamento
guadagni["cumulativa_globale"] = guadagni["Valore"].cumsum()
print(guadagni.head(15))

   Mese  Anno  Valore  cumulativa_globale
0     G     0    1252                1252
1     F     0    4515                5767
2     M     0    3819                9586
3     A     0    3438               13024
4     M     0    2682               15706
5     G     0    1534               17240
6     L     0     938               18178
7     A     0    3906               22084
8     S     0    2480               24564
9     O     0    1986               26550
10    N     0    2815               29365
11    D     0    2548               31913
12    G     1    2276               34189
13    F     1    2849               37038
14    M     1    1968               39006


In [30]:
# Somma cumulativa per ogni anno
guadagni["Cumulativo_annuale"] = guadagni.groupby("Anno")["Valore"].cumsum()
print(guadagni.head(15))
#nella somma cumulativa per ogni anno, la somma si resetta ogni anno

   Mese  Anno  Valore  cumulativa_globale  Cumulativo_annuale
0     G     0    1623                1623                1623
1     F     0    1070                2693                2693
2     M     0    2318                5011                5011
3     A     0    1408                6419                6419
4     M     0    4481               10900               10900
5     G     0    1260               12160               12160
6     L     0    3069               15229               15229
7     A     0    2690               17919               17919
8     S     0    2218               20137               20137
9     O     0    1625               21762               21762
10    N     0    1615               23377               23377
11    D     0    1590               24967               24967
12    G     1    4827               29794                4827
13    F     1    4772               34566                9599
14    M     1    1207               35773               10806


In [35]:
query = "SELECT * FROM dimcustomer"
dimcustomer = pd.read_sql(query, db_engine)
dimcustomer.head(5)

Unnamed: 0,CustomerKey,GeographyKey,CustomerAlternateKey,Title,FirstName,MiddleName,LastName,NameStyle,BirthDate,MaritalStatus,...,EnglishOccupation,SpanishOccupation,FrenchOccupation,HouseOwnerFlag,NumberCarsOwned,AddressLine1,AddressLine2,Phone,DateFirstPurchase,CommuteDistance
0,11000,26,AW00011000,,Jon,V,Yang,0,1971-10-06,M,...,Professional,Profesional,Cadre,1,0,3761 N. 14th St,,1 (11) 500 555-0162,2011-01-19,1-2 Miles
1,11001,37,AW00011001,,Eugene,L,Huang,0,1976-05-10,S,...,Professional,Profesional,Cadre,0,1,2243 W St.,,1 (11) 500 555-0110,2011-01-15,0-1 Miles
2,11002,31,AW00011002,,Ruben,,Torres,0,1971-02-09,M,...,Professional,Profesional,Cadre,1,1,5844 Linden Land,,1 (11) 500 555-0184,2011-01-07,2-5 Miles
3,11003,11,AW00011003,,Christy,,Zhu,0,1973-08-14,S,...,Professional,Profesional,Cadre,0,1,1825 Village Pl.,,1 (11) 500 555-0162,2010-12-29,5-10 Miles
4,11004,19,AW00011004,,Elizabeth,,Johnson,0,1979-08-05,S,...,Professional,Profesional,Cadre,1,4,7553 Harness Circle,,1 (11) 500 555-0131,2011-01-23,1-2 Miles


In [40]:
#Trasformiamo i nomi dei clienti in modo che abbiano solo lettere minuscole, e i cognomi in modo che abbiano solo lettere maiuscole
# Applichiamo le trasformazioni e aggiorniamo le colonne
dimcustomer["FirstName"] = dimcustomer["FirstName"].str.lower()
dimcustomer["LastName"] = dimcustomer["LastName"].str.upper()

# Visualizziamo le colonne trasformate
print(dimcustomer.loc[:, ["FirstName", "LastName"]].head()) #loc[righe, colonne], mettendo i due punti è come se gli avessimo detto seleziona tutte le righe

   FirstName LastName
0        jon     YANG
1     eugene    HUANG
2      ruben   TORRES
3    christy      ZHU
4  elizabeth  JOHNSON


In [42]:
dimcustomer["EmailAddress"].head()

0         jon24@adventure-works.com
1      eugene10@adventure-works.com
2       ruben35@adventure-works.com
3     christy12@adventure-works.com
4    elizabeth5@adventure-works.com
Name: EmailAddress, dtype: object

In [44]:
#Sulla colonna EmailAddress, utilizzando il metodo .str.split(), estraiamo nome utente e dominio
#dividiamo la stringa in base alla chiocciola
split_email = dimcustomer["EmailAddress"].str.split("@", expand = True) #expand = true ci permette di vedere i risultati in due colonne distinte anzi che vederli in una sola in formato lista
dimcustomer["Nome_utente"] = split_email[0]
dimcustomer["Dominio"] = split_email[1]
print(dimcustomer[["EmailAddress", "Nome_utente", "Dominio"]].head(5))

                     EmailAddress Nome_utente              Dominio
0       jon24@adventure-works.com       jon24  adventure-works.com
1    eugene10@adventure-works.com    eugene10  adventure-works.com
2     ruben35@adventure-works.com     ruben35  adventure-works.com
3   christy12@adventure-works.com   christy12  adventure-works.com
4  elizabeth5@adventure-works.com  elizabeth5  adventure-works.com


In [50]:
#Sulla colonna Phone, estraiamo ogni parte del numero (ad es. da "1 (11) 500 555-0162" a ["1", "(11)", "500", "555-0162"])

# Dividi la colonna "Phone" in più colonne
split_cols = dimcustomer["Phone"].str.split(" ", expand=True)

# Dai nomi alle nuove colonne
split_cols.columns = ["CountryCode", "AreaCode", "Prefix", "LineNumber"]

# Rimuovi eventuali colonne duplicate già presenti
dimcustomer = dimcustomer.drop(columns=["CountryCode", "AreaCode", "Prefix", "LineNumber"], errors='ignore')

# Aggiungi le nuove colonne al dataframe originale
dimcustomer = pd.concat([dimcustomer, split_cols], axis=1) #axis = 1 concatena le colonne mentre axis = 0 concatena le righe

# Stampa per verificare
print(dimcustomer[["Phone", "CountryCode", "AreaCode", "Prefix", "LineNumber"]].head())

                 Phone CountryCode AreaCode Prefix LineNumber
0  1 (11) 500 555-0162           1     (11)    500   555-0162
1  1 (11) 500 555-0110           1     (11)    500   555-0110
2  1 (11) 500 555-0184           1     (11)    500   555-0184
3  1 (11) 500 555-0162           1     (11)    500   555-0162
4  1 (11) 500 555-0131           1     (11)    500   555-0131


In [61]:
#stampiamo le emil che hanno il numero 21 al loro interno.
filtro_21 = dimcustomer[dimcustomer["EmailAddress"].str.contains("21", na =False)]#na = false serve per escludere eventuali vlori nulli.
print(filtro_21["EmailAddress"].head(5))

64        chase21@adventure-works.com
118       alvin21@adventure-works.com
130    caroline21@adventure-works.com
163     gabriel21@adventure-works.com
203        luis21@adventure-works.com
Name: EmailAddress, dtype: object


In [67]:
#stampiamo le mail che hanno 20 o 10 al loro interno
filtro = dimcustomer[
    (dimcustomer["EmailAddress"].str.contains("20", na=False)) |
    (dimcustomer["EmailAddress"].str.contains("10", na=False))
]
print(filtro["EmailAddress"].head(5))

1        eugene10@adventure-works.com
10    jacquelyn20@adventure-works.com
22        ethan20@adventure-works.com
30      bethany10@adventure-works.com
32       denise10@adventure-works.com
Name: EmailAddress, dtype: object


In [70]:
#Modificare il dominio degli indirizzi e-mail da "adventure-works.com" a "aw-db.com" mediante il metodo .str.replace()
sostituzione = dimcustomer["EmailAddress"].str.replace("adventure-works.com" , "aw-db.com", regex=False)
print(dimcustomer["EmailAddress"].head(5))

0         jon24@adventure-works.com
1      eugene10@adventure-works.com
2       ruben35@adventure-works.com
3     christy12@adventure-works.com
4    elizabeth5@adventure-works.com
Name: EmailAddress, dtype: object


In [73]:
#Dalla colonna AddressLine1 estraiamo tutti gli indirizzi che contengono la sottostringa "Street"
filtro_address = dimcustomer["AddressLine1"].str.contains("street", na = False)
print(dimcustomer["AddressLine1"].head(5))

0        3761 N. 14th St
1             2243 W St.
2       5844 Linden Land
3       1825 Village Pl.
4    7553 Harness Circle
Name: AddressLine1, dtype: object
