In [404]:
# Dal database AdventureWorks estraggo la tabella dimproduct

In [2]:
import dotenv #una libreria che useremo per gestire le credenziali di accesso al database in modo sicuro
import os #Per parlare con il sistema operativo
import sqlalchemy #un driver che permette di connettersi a MySQL tramite Python
import pandas as pd
import numpy as np

#Dopo aver create un file di testo e averlo rinominato con l'estensione .env 
#Nel file vanno scritte le credenzioli del server

#andiamo a collegarci al file con le credenziali tramite dotenv
dotenv.load_dotenv(dotenv_path="cred.env", override=True)
username = os.getenv("username")
password = os.getenv("password")
host = os.getenv("host")
dbname = os.getenv("dbname")

# questa sarà la nostra connection string
# è buona norma stamparla per vedere che è andato tutto okay e non ci siano errori
connection_string = f"mysql+pymysql://{username}:{password}@{host}/{dbname}"
print(connection_string)

db_engine = sqlalchemy.create_engine(connection_string)

mysql+pymysql://studente_dapt:Ep1c0d3!!D4t4**4n4lys1s@epicode-data-pt-mysql.cvetyjye2qbl.eu-central-1.rds.amazonaws.com/AdventureWorksDW


In [406]:
query = "SELECT * FROM dimproduct"
dim = pd.read_sql(query, db_engine)

In [3]:
pd.set_option('display.max_columns', None)

In [408]:
dim = dim.loc[:,[
    "ProductKey",
    "ProductSubcategoryKey",
    "WeightUnitMeasureCode",
    "SizeUnitMeasureCode",
    "EnglishProductName",
    "StandardCost",
    "FinishedGoodsFlag",
    "Color",
    "SafetyStockLevel",
    "ReorderPoint",
    "ListPrice",
    "Size",
    "SizeRange",
    "Weight",
    "DaysToManufacture",
    "ProductLine",
    "DealerPrice",
    "Class",
    "Style",
    "ModelName",
    "StartDate",
    "EndDate",
    "Status"
]]


In [409]:
# Sulla colonna DealerPrice, utilizzando il metodo .round(), arrotondiamo i valori alle due cifre decimali, e poi al valore intero più vicino

In [410]:
#arrotondo a due decimali la colonna DealerPrice
dim["DealerPrice"] = dim["DealerPrice"].round(2)

In [411]:
#arrotondo al valore intero più vicino
dim["DealerPrice"] = dim["DealerPrice"].round()

In [412]:
# Utilizzando il metodo .clip(), facciamo in modo che i valori siano compresi tra un minimo di 0 e un massimo di 1000

In [413]:
dim["DealerPrice"] = dim["DealerPrice"].clip(lower=0, upper=1000)

In [414]:
#Creiamo un DataFrame sintetico, che contiene i guadagni mensili di diverse annate
years = 5 
guadagni = pd.DataFrame({"Mese": list("GFMAMGLASOND"*years), "Anno": np.repeat(list(range(years)), 12), "Valore": np.random.randint(800, 5000, 12*years)})

In [415]:
guadagno_totale = guadagni["Valore"].cumsum().max()
guadagno_totale

177534

In [416]:
# Come sopra, ma raggruppato per ogni anno usando prima un .groupby()

In [417]:
guadagno_per_anno = guadagni.groupby("Anno")["Valore"].sum()
guadagno_per_anno

Anno
0    39130
1    36333
2    34921
3    36634
4    30516
Name: Valore, dtype: int32

In [418]:
guadagno_per_anno.cumsum()

Anno
0     39130
1     75463
2    110384
3    147018
4    177534
Name: Valore, dtype: int32

In [419]:
# Dal database AdventureWorks estraggo la tabella dimcustomer

In [420]:
query = "SELECT * FROM dimcustomer"
dimcustomer = pd.read_sql(query, db_engine)
dimcustomer = dimcustomer.loc[:,['CustomerKey', 'GeographyKey', 'Title',
       'FirstName', 'MiddleName', 'LastName', 'NameStyle', 'BirthDate',
       'MaritalStatus', 'Suffix', 'Gender', 'EmailAddress', 'YearlyIncome',
       'TotalChildren', 'NumberChildrenAtHome', 'EnglishEducation', 'EnglishOccupation','HouseOwnerFlag',
       'NumberCarsOwned', 'AddressLine1', 'AddressLine2', 'Phone',
       'DateFirstPurchase', 'CommuteDistance']]

In [421]:
# Trasformiamo i nomi dei clienti in modo che abbiano solo lettere minuscole, e i cognomi in modo che abbiano solo lettere maiuscole

In [422]:
dimcustomer["FirstName"] = dimcustomer["FirstName"].str.lower()

In [423]:
dimcustomer["LastName"] = dimcustomer["LastName"].str.upper()

In [424]:
# Sulla colonna EmailAddress, utilizzando il metodo .str.split(), estraiamo nome utente e dominio

In [425]:
customer_email = dimcustomer["EmailAddress"].str.split(r"@", expand=True)
#Esport il file per un eventuale utilizzo successivo 
customer_email.to_csv("customer_email.csv", index=True)

In [426]:
# Sulla colonna Phone, estraiamo ogni parte del numero (ad es. da "1 (11) 500 555-0162" a ["1", "(11)", "500", "555-0162"])

In [427]:
dimcustomer["Phone"].str.split(r" ", expand=True)

Unnamed: 0,0,1,2,3
0,1,(11),500,555-0162
1,1,(11),500,555-0110
2,1,(11),500,555-0184
3,1,(11),500,555-0162
4,1,(11),500,555-0131
...,...,...,...,...
18479,1,(11),500,555-0136
18480,1,(11),500,555-0146
18481,1,(11),500,555-0144
18482,1,(11),500,555-0137


In [428]:
#Estraiamo tutti gli indirizzi e-mail che contengono il numero "21"

In [429]:
dimcustomer["EmailAddress"].str.contains("21")

0        False
1        False
2        False
3        False
4        False
         ...  
18479    False
18480     True
18481    False
18482    False
18483    False
Name: EmailAddress, Length: 18484, dtype: bool

In [430]:
#faccio la controprova sull'indice 18480
dimcustomer["EmailAddress"].iloc[18480]

'nina21@adventure-works.com'

In [431]:
#stampo a video solo gli indirizzi email contenenti "21"
#utilizzo .loc() specificando che voglio vedere solo le righe per la quale la condizione "21" in Email è True, chiaramente nella colonna EmailAddress
dimcustomer.loc[ dimcustomer["EmailAddress"].str.contains("21") , "EmailAddress" ]

64          chase21@adventure-works.com
118         alvin21@adventure-works.com
130      caroline21@adventure-works.com
163       gabriel21@adventure-works.com
203          luis21@adventure-works.com
                      ...              
18337      hector21@adventure-works.com
18365      cheryl21@adventure-works.com
18435     stanley21@adventure-works.com
18440      rafael21@adventure-works.com
18480        nina21@adventure-works.com
Name: EmailAddress, Length: 431, dtype: object

In [432]:
#Estraiamo tutti gli indirizzi e-mail che contengono il numero "20" oppure il numero "10"

In [433]:
#In questo caso ho usato il classico metodo filtro per stampare a video gli indirizzi desiderati
filtro = ((dimcustomer["EmailAddress"].str.contains("20")) | (dimcustomer["EmailAddress"].str.contains("10")))
dimcustomer[filtro]["EmailAddress"]

1            eugene10@adventure-works.com
10        jacquelyn20@adventure-works.com
22            ethan20@adventure-works.com
30          bethany10@adventure-works.com
32           denise10@adventure-works.com
                       ...               
18395         lydia10@adventure-works.com
18397        walter10@adventure-works.com
18415         oscar20@adventure-works.com
18418       lindsey10@adventure-works.com
18428    kristopher20@adventure-works.com
Name: EmailAddress, Length: 1042, dtype: object

In [434]:
# Calcolare la lunghezza di ogni indirizzo e-mail ed estrarre i cinque più lunghi e i cinque più corti

In [435]:
#aggiungo una colonna contenente la lunghezza di ogni indirizzo email
dimcustomer["email_lenght"] = dimcustomer["EmailAddress"].apply(len)

#riordino la colonna "email_lenght" in ordine crescente ed estraggo i 5 più lunghi
top5_longest = dimcustomer.sort_values("email_length", ascending=False).head(5)

# Estraggo i 5 indirizzi più corti
top5_shortest = dimcustomer.sort_values("email_length", ascending=True).head(5)

# stampo i risultati
print("I 5 indirizzi email più lunghi:")
print(top5_longest[["EmailAddress", "email_length"]])

print("\nI 5 indirizzi email più corti:")
print(top5_shortest[["EmailAddress", "email_length"]])

KeyError: 'email_length'

In [None]:
# Modificare il dominio degli indirizzi e-mail da "adventure-works.com" a "aw-db.com"

In [None]:
dimcustomer["EmailAddress"] = dimcustomer["EmailAddress"].str.replace("adventure-works.com", "aw-db.com")
dimcustomer["EmailAddress"]

In [None]:
# Dalla colonna AddressLine1 estraiamo tutti gli indirizzi che contengono la sottostringa "Street"

In [None]:
dimcustomer["AddressLine1"][dimcustomer["AddressLine1"].str.contains("Street")]

In [None]:
# Importo il file Facebook.csv
path = "datasets/beginner_datasets/facebook.csv"
fb = pd.read_csv(path)
fb.columns

In [None]:
# Con la funzione pd.to_datetime() convertiamo la colonna status_published in formato Timestamp

In [None]:
fb["status_published"] = pd.to_datetime(fb["status_published"])

In [None]:
# Utilizzando gli attributi .dt.year , .dt.month , .dt.day , .dt.dayofweek , .dt.dayofyear, 
# ottieniamo informazioni specifiche sulle date delle transazioni, come l'anno, il mese, il giorno della settimana, il giorno dell'anno

In [None]:
fb["year"] = fb["status_published"].dt.year
fb["year"]

In [None]:
fb["month"] = fb["status_published"].dt.month
fb["month"]

In [None]:
fb["day"] = fb["status_published"].dt.day
fb["day"]

In [None]:
fb["status_published"].dt.dayofweek

In [None]:
fb["status_published"].dt.dayofyear

In [None]:
# Estraiamo solo i post relativi al 2012

In [None]:
fb[fb["year"] ==  2012]

In [None]:
# Estraiamo solo i post relativi a maggio 2018

In [None]:
fb[(fb["year"] == 2018) & (fb["month"] == 5)]

In [None]:
# Confrontiamo il numero di post pubblicati nei weekend rispetto al numero di post pubblicati nel resto della settimana

In [None]:
#conto tutti i post del weekend
post_weekend = fb[(fb["status_published"].dt.dayofweek == 6) | (fb["status_published"].dt.dayofweek == 5)].shape[0]
post_weekend

In [None]:
post_workday = fb[(fb["status_published"].dt.dayofweek != 6) & (fb["status_published"].dt.dayofweek != 5)].shape[0]
post_workday

In [None]:
print(f"Post nel weekend: {post_weekend}, pari al {post_weekend/7050*100:.0f} % del totale")
print(f"Post nei giorni lavorativi: {post_workday}, pari al {post_workday/7050*100:.0f} % del totale")

In [None]:
# Troviamo il primo e ultimo post pubblicati in ogni anno

In [None]:
#quali sono gli anni?
anni = fb["year"].sort_values().unique()
anni

In [None]:
#Innanzitutto ordino i post per data di pubblicazione 
fb.sort_values("status_published", ascending=True)

# Gruppo per anno e prendo il primo e l’ultimo post
primi_post = fb.groupby("year").first().reset_index()
ultimi_post = fb.groupby("year").last().reset_index()

In [None]:
primi_post

In [None]:
ultimi_post

In [None]:
# Quanti tipi di post ci sono? E quanti per ogni tipo?

In [None]:
fb["status_type"].unique()

In [None]:
#gruppo per status type e conto quanti ce ne sono per ogni tipo
status = fb.groupby("status_type").count()
status["status_id"].plot(kind="barh")

In [None]:
# il file pokemon.csv
poke = pd.read_csv("datasets/beginner_datasets/pokemon.csv", index_col=0)
poke

In [None]:
#Tramite i metodi .isnull() e .sum() controlliamo se ci sono valori nulli nel dataset e contiamo quanti valori nulli ci sono in ogni colonna

In [None]:
poke.isnull().sum()

In [None]:
#una volta capito quanti e dove sono i valori nulli, voglio sapere quali sono
# poke[poke["Type 2"].isnull()].to_csv("pokemon_Type2_NaN.csv", index=True)
poke[poke["Type 2"].isnull()]

In [None]:
# si, ci sono 386 valori nulli. Tutti all'interno della colonna 'Type 1'
# Per la finalità dell'analisi non ha senso cercare di riempire i valori nulli.

In [None]:
# Eliminiamo le righe che contengono valori nulli

In [None]:
poke.dropna()

In [None]:
# Importo il file automobile.csv
auto = pd.read_csv("datasets/beginner_datasets/automobile.csv")
auto

In [None]:
# Ci sono valori nulli? Dove? Quanti?
auto_null = auto.isnull().sum()
auto_null[auto_null > 0]

In [None]:
# Nella cololla "normalized-losses" ci sono 37 valori nulli
# Nella colonna "num-of-doors" ci sono 37 valori nulli

In [None]:
# Quali righe hanno un valore nullo nella colonna num-of-doors?

In [None]:
auto[auto["num-of-doors"].isnull()]

In [None]:
# Esaminando i dati nel dataset, cerchiamo una logica per sostituire i valori nulli nella colonna num-of-doors

In [None]:
#innanzitutto voglio capire di dati statistici della colonna 'num-of-doors'
auto.groupby("num-of-doors")["symboling"].count()

In [None]:
#Vedendo questi dati mi viene in mente di sostituire i due valori nulli con la media delle porte ovvero 3.
#Inoltre c'è da considerare che 2 valori nulli su 202 record significa avere l' 1% di valori nulli, 
#anche un eventuale drop non alterebbe l'analisi in modo significativo

In [437]:
auto["num-of-doors"] = auto["num-of-doors"].dropna()

0       two
1       two
2       two
3      four
4      four
       ... 
197    four
198    four
199    four
200    four
201    four
Name: num-of-doors, Length: 202, dtype: object

In [14]:
import numpy as np
temp = pd.DataFrame({
    "Giorno": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 
    "Temperature": [18, 19, 18, np.nan, 21, 20, 20, np.nan, 21, 23, np.nan, 23, 24]
})
temp

Unnamed: 0,Giorno,Temperature
0,0,18.0
1,1,19.0
2,2,18.0
3,3,
4,4,21.0
5,5,20.0
6,6,20.0
7,7,
8,8,21.0
9,9,23.0


In [17]:
temp.isnull().sum()
#da questo comprendo che sono 3 le temperature che sono nulle
# che su 13 valori rappresentano il 23.07%
#Eliminarli significherebbe incidere molto sull'analisi finale quindi ha senso a mio parer sostituire i valori nulli con la media delle 
# altre temperature misurate 

Giorno         0
Temperature    3
dtype: int64

In [445]:
#calcolo la media delle temperature presenti
temp["Temperature"].mean()

20.7

In [450]:
#sostituisco ai valori nulli la media
temp["Temperature"] = temp["Temperature"].replace(np.nan, 20.7)

In [452]:
temp["Temperature"].mean().round(1)

20.7

In [8]:
file_csv = os.listdir("datasets/beginner_datasets/")

In [7]:
# Nella directory dei beginner_datasets, quali sono i dataset che contengono dati nulli?

In [47]:
for file in file_csv:
    if ".csv" in file:
        path = "datasets/beginner_datasets/"+file
        df = pd.read_csv(path)
        valori_nulli = df.isna().sum().sum()
        if valori_nulli != 0:
            nome_file = file
            print(f"Il file {file} contiene {valori_nulli} valori nulli")

Il file automobile.csv contiene 39 valori nulli
Il file elections.csv contiene 52 valori nulli
Il file france.csv contiene 66 valori nulli
Il file hepatitis.csv contiene 153 valori nulli
Il file house.csv contiene 7829 valori nulli
Il file income.csv contiene 4262 valori nulli
Il file mice.csv contiene 1396 valori nulli
Il file nba.csv contiene 11 valori nulli
Il file pokemon.csv contiene 386 valori nulli
Il file population.csv contiene 12 valori nulli
Il file seeds.csv contiene 4 valori nulli
Il file traffic.csv contiene 48143 valori nulli
Il file wikipedia.csv contiene 68 valori nulli
