In [1]:
import dotenv
import os
from sqlalchemy import create_engine
import pandas as pd

dotenv.load_dotenv(override= True)

username = os.getenv("username")
password = os.getenv("password")
host = os.getenv("host")
dbname = os.getenv("dbname")

conn_string = f"mysql+pymysql://{username}:{password}@{host}/{dbname}"
db_engine = create_engine(conn_string)
query = "SELECT * FROM dimproduct"
df = pd.read_sql(query,db_engine)

db_engine.dispose()

In [2]:
"""
    Esercizio 1/3 Estraiamo la tabella dimproduct dal database AdventureWorks, e valutiamo quanto segue: 
        • Quanti dati ci sono in totale? 
        • Quali sono i metadati? 
        • Stampiamo il primo elemento 
        • Stampiamo l'ultimo elemento
        • Riusciamo a stampare cinque elementi a caso? 
        • Quali sono i colori disponibili?
"""        
print(f"Totale righe: {df.shape[0]}, colonne: {df.shape[1]}")

Totale righe: 606, colonne: 36


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 606 entries, 0 to 605
Data columns (total 36 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ProductKey             606 non-null    int64         
 1   ProductAlternateKey    606 non-null    object        
 2   ProductSubcategoryKey  397 non-null    float64       
 3   WeightUnitMeasureCode  282 non-null    object        
 4   SizeUnitMeasureCode    253 non-null    object        
 5   EnglishProductName     606 non-null    object        
 6   SpanishProductName     606 non-null    object        
 7   FrenchProductName      606 non-null    object        
 8   StandardCost           397 non-null    float64       
 9   FinishedGoodsFlag      606 non-null    int64         
 10  Color                  606 non-null    object        
 11  SafetyStockLevel       606 non-null    int64         
 12  ReorderPoint           606 non-null    int64         
 13  ListP

In [6]:
print("Primo elemento:\n", df.head(1))
print("Ultimo elemento:\n",df.tail(1))
print("Sample 5 elementi:\n",df.sample(n= 5))
print("Colori disponibili:\n", df["Color"].unique())

Primo elemento:
    ProductKey ProductAlternateKey  ProductSubcategoryKey  \
0           1             AR-5381                    NaN   

  WeightUnitMeasureCode SizeUnitMeasureCode EnglishProductName  \
0                  None                None    Adjustable Race   

  SpanishProductName FrenchProductName  StandardCost  FinishedGoodsFlag  ...  \
0                                                NaN                  0  ...   

  ChineseDescription  ArabicDescription  HebrewDescription  ThaiDescription  \
0               None               None               None             None   

  GermanDescription JapaneseDescription  TurkishDescription  StartDate  \
0              None                None                None 2003-07-01   

  EndDate   Status  
0     NaT  Current  

[1 rows x 36 columns]
Ultimo elemento:
      ProductKey ProductAlternateKey  ProductSubcategoryKey  \
605         606          BK-R19B-52                    2.0   

    WeightUnitMeasureCode SizeUnitMeasureCode  Engli

In [7]:
"""
    • In media quanto pesano i prodotti? 
    • Quanto pesa il più leggero? 
    • Quanto pesa il più pesante? 
    • Quanti prodotti pesano più di 100 Kg? 
    • Quanto costano in media i prodotti (colonna DealerPrice)? 
    • Se prendiamo un quarto di tutti i prodotti, in modo che siano i più costosi, 
      quale sarà il loro range di prezzo?
"""

print(f"peso medio prodotti: {df['Weight'].mean():.2f}")
print(f"peso maggiore: {df['Weight'].max()}")
print(f"peso minore: {df['Weight'].min()}")
print(f"Costo medio prodotti: {df['DealerPrice'].mean():.2f}")
perc75 = df["DealerPrice"].quantile(0.75)

magg_perc75 = df[df["DealerPrice"] >= perc75]
range_start= magg_perc75["DealerPrice"].min()
range_end = magg_perc75["DealerPrice"].max()

print(f"Il range va da {range_start} a {range_end}")


peso medio prodotti: 56.19
peso maggiore: 1050.0
peso minore: 2.12
Costo medio prodotti: 448.60
Il range va da 722.5949 a 2146.962


In [12]:
"""
    • Qual è il prezzo medio per i prodotti di colore blu?  
    • Qual è il prezzo medio per i prodotti di colore rosso o nero? 
"""
print("Media prezzo prodotti di colore blu: ",df[df["Color"] == "Blue"]["DealerPrice"].mean())
print("Media prezzo prodotti di colore rosso o nero: ", df[(df["Color"] == "Red") | (df["Color"] == "Black")]["DealerPrice"].mean())

Media prezzo prodotti di colore blu:  516.0631785714286
Media prezzo prodotti di colore rosso o nero:  550.2481873684211


In [15]:
"""
    • Qual è il nome inglese e il costo di produzione (StandardCost) di tutti i prodotti di taglia 42, 
      peso oltre i 10 Kg e colore argento? 
"""
print(df[(df["Size"] == "42") & (df["Weight"] <=10) & (df["Color"] == "Silver")][["EnglishProductName", "StandardCost"]])


                   EnglishProductName  StandardCost
287    HL Mountain Frame - Silver, 42        623.84
288    HL Mountain Frame - Silver, 42        660.91
289    HL Mountain Frame - Silver, 42        747.20
511  ML Mountain Frame-W - Silver, 42        199.38
523    LL Mountain Frame - Silver, 42        144.59


In [19]:
new_df = pd.read_csv("amazon.csv")
"""
    • Valutiamo la dimensione del dataset 
    • Visualizziamo dieci righe a caso; 
    • Osserviamo quali sono i nomi di colonna; 
    • Il dataset è bilanciato, ovvero, il numero di 
      recensioni positive è uguale a quello delle negative, oppure no?
"""

print(f"dimensione dataset: {new_df.shape[0]} colonne, {new_df.shape[1]} righe")

dimensione dataset: 20000 colonne, 2 righe


In [20]:
print(f"Samples:\n {new_df.sample(n=10)}\n\n")


Samples:
                                               reviewText  Positive
3624   it keep force closing it sucks o my god it suc...         0
5565   This was a silly app to use,  It isn't user fr...         0
10625  Very beautiful, I don't use it because I found...         1
8877   Its nice to have an app that calculates &amp; ...         1
9634   Great application! Interfered with my keyboard...         1
13640  it is so cool I can name this app 4 ways awsom...         1
1926   I did not order this item from here.  I have n...         1
18626  Have just started to play sudoku and this help...         1
3137   Very entertaining and challenging way to spend...         1
19519  Feedly is a good app and I love how easy I can...         1




In [21]:
print(f"Colonne: {new_df.columns}")


Colonne: Index(['reviewText', 'Positive'], dtype='object')


In [24]:
positive = new_df[new_df["Positive"] == True].count()
negative = new_df[new_df["Positive"] != True].count()

print(positive, negative, positive - negative)


reviewText    15233
Positive      15233
dtype: int64 reviewText    4767
Positive      4767
dtype: int64 reviewText    10466
Positive      10466
dtype: int64


In [38]:
diabetes = pd.read_csv("diabetes.csv")



"""
    Il dataset diabetes.csv raccoglie persone con diabete o meno, e il valore di diverse variabili 
    fisiologiche dei pazienti. 
        • Osserviamone le dimensioni e un'anteprima di cinque righe; 
        • Prendiamoci un po' di tempo per dare un'occhiata ai metadati delle colonne; 
        • Stampiamo dei descrittori statistici del dataset; 
        • Selezioniamo i dati relativi a diverse fasce di età: <20, 20-30, 30-40, 40-50, >50; 
        • Qual è la media della pressione sanguigna diastolica per le diverse fasce di età? 
        • Qual è la media della pressione per ogni singolo anno di età?
"""

print(diabetes.shape)

(768, 9)


In [39]:
diabetes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                                                                    Non-Null Count  Dtype  
---  ------                                                                    --------------  -----  
 0   Number of times pregnant                                                  768 non-null    int64  
 1   Plasma glucose concentration a 2 hours in an oral glucose tolerance test  768 non-null    int64  
 2   Diastolic blood pressure (mm Hg)                                          768 non-null    int64  
 3   Triceps skin fold thickness (mm)                                          768 non-null    int64  
 4   2-Hour serum insulin (mu U/ml)                                            768 non-null    int64  
 5   Body mass index (weight in kg/(height in m)^2)                            768 non-null    float64
 6   Diabetes pedigree function                                         

In [45]:
ranges = [0, 20, 30, 40, 50, 100]

data_collection = []

for index, num in enumerate(ranges[:-1]):
    
    data = diabetes[(diabetes["Age (years)"] > num) & (diabetes["Age (years)"] <= ranges[index + 1])][ "Diastolic blood pressure (mm Hg)"]
    data_collection.append(data)
    mean_for_range = data.mean()
    
    if num == 50:
        print(f"Media pressione diastolica in soggetti > 50 anni: {mean_for_range:.2f}")
        break
    
    print(f"Media pressione diastolica in fasce età tra {num} e {ranges[index + 1]}: {mean_for_range:.2f}\n")
    


Media pressione diastolica in fasce età tra 0 e 20: nan

Media pressione diastolica in fasce età tra 20 e 30: 65.32

Media pressione diastolica in fasce età tra 30 e 40: 70.27

Media pressione diastolica in fasce età tra 40 e 50: 74.79

Media pressione diastolica in soggetti > 50 anni: 78.38


In [46]:
start =diabetes["Age (years)"].min()
stop =diabetes["Age (years)"].max() + 1

for age in range(start, stop):
    
    pressure_mean = diabetes[diabetes['Age (years)'] == age][ 'Diastolic blood pressure (mm Hg)'].mean()
    print(f"Età {age}, Pressione Diastolica {pressure_mean:.2f}")

Età 21, Pressione Diastolica 65.94
Età 22, Pressione Diastolica 63.72
Età 23, Pressione Diastolica 64.32
Età 24, Pressione Diastolica 64.96
Età 25, Pressione Diastolica 59.67
Età 26, Pressione Diastolica 64.18
Età 27, Pressione Diastolica 73.50
Età 28, Pressione Diastolica 68.31
Età 29, Pressione Diastolica 68.24
Età 30, Pressione Diastolica 64.86
Età 31, Pressione Diastolica 64.38
Età 32, Pressione Diastolica 70.06
Età 33, Pressione Diastolica 65.65
Età 34, Pressione Diastolica 74.00
Età 35, Pressione Diastolica 75.60
Età 36, Pressione Diastolica 69.12
Età 37, Pressione Diastolica 75.95
Età 38, Pressione Diastolica 71.12
Età 39, Pressione Diastolica 72.67
Età 40, Pressione Diastolica 69.23
Età 41, Pressione Diastolica 67.59
Età 42, Pressione Diastolica 73.39
Età 43, Pressione Diastolica 78.46
Età 44, Pressione Diastolica 61.75
Età 45, Pressione Diastolica 83.07
Età 46, Pressione Diastolica 76.00
Età 47, Pressione Diastolica 78.33
Età 48, Pressione Diastolica 78.40
Età 49, Pressione Di

In [47]:
insurance = pd.read_csv("insurance.csv")



"""
    Il dataset insurance.csv contiene dati rispetto a caratteristiche e abitudini delle persone,
     e della zona in cui vivono, rispetto ai costi individuali per le cure mediche come premio per 
     le assicurazioni sulla salute. 
        • Visualizziamone le dimensioni, un'anteprima, e osserviamo i nomi di colonna; 
        • Quali sono le medie di charges rispetto a region? Ci sono differenze significative? 
        • E rispetto a smoker? E a sex? 
"""
print(insurance.shape)
print(insurance.sample(2))
insurance.info()

print(insurance.groupby("region")["charges"].mean())
print(insurance.groupby("smoker")["charges"].mean())
print(insurance.groupby("sex")["charges"].mean())



(1338, 7)
    age     sex   bmi  children smoker     region    charges
71   31    male  28.5         5     no  northeast   6799.458
87   56  female  27.2         0     no  southwest  11073.176
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB
region
northeast    13406.384516
northwest    12417.575374
southeast    14735.411438
southwest    12346.937377
Name: charges, dtype: float64
smoker
no      8434.268298
yes    32050.231832
Name: charges, dtype: float64
sex
female    12569.578844
male      13956.751178
Name: charges, dtyp

In [49]:
pokemon = pd.read_csv("pokemon.csv")
"""
    Verifichiamo la dimensione, un'anteprima e osserviamo i nomi di colonna;
    • È verosimile che la prima colonna dovrebbe essere un indice? 
    • Confrontiamolo con l'indice messo automaticamente da Pandas: combaciano? 
    • Se no, settare la prima colonna come indice.
"""

print(pokemon.shape)

(800, 13)


In [66]:
pokemon.sample(3)
pokemon.tail(5)
#la prima colonna non può essere un indice in quanto contiene duplicati

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


In [64]:
pokemon.columns


Index(['Name', 'Type 1', 'Type 2', 'Total', 'HP', 'Attack', 'Defense',
       'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

In [67]:
"""
    • Quali sono i Pokémon leggendari? 
"""

print(pokemon[pokemon["Legendary"]])

                    Name    Type 1    Type 2  Total   HP  Attack  Defense  \
#                                                                           
144             Articuno       Ice    Flying    580   90      85      100   
145               Zapdos  Electric    Flying    580   90      90       85   
146              Moltres      Fire    Flying    580   90     100       90   
150               Mewtwo   Psychic       NaN    680  106     110       90   
150  MewtwoMega Mewtwo X   Psychic  Fighting    780  106     190      100   
..                   ...       ...       ...    ...  ...     ...      ...   
719              Diancie      Rock     Fairy    600   50     100      150   
719  DiancieMega Diancie      Rock     Fairy    700   50     160      110   
720  HoopaHoopa Confined   Psychic     Ghost    600   80     110       60   
720   HoopaHoopa Unbound   Psychic      Dark    680   80     160       60   
721            Volcanion      Fire     Water    600   80     110      120   

In [71]:
"""
    E quali sono i leggendari di tipo 1 Grass? 
"""

print(pokemon[(pokemon["Legendary"]) & (pokemon["Type 1"] == "Grass")])


                  Name Type 1    Type 2  Total   HP  Attack  Defense  Sp. Atk  \
#                                                                               
492  ShayminLand Forme  Grass       NaN    600  100     100      100      100   
492   ShayminSky Forme  Grass    Flying    600  100     103       75      120   
640           Virizion  Grass  Fighting    580   91      90       72       90   

     Sp. Def  Speed  Generation  Legendary  
#                                           
492      100    100           4       True  
492       75    127           4       True  
640      129    108           5       True  


In [70]:
"""
    E leggendari di tipo 1 Ice o Fire?
"""

print(pokemon[(pokemon["Legendary"]) & (pokemon["Type 1"] == "Ice") | (pokemon["Type 1"] == "Fire")])


                          Name Type 1    Type 2  Total   HP  Attack  Defense  \
#                                                                              
4                   Charmander   Fire       NaN    309   39      52       43   
5                   Charmeleon   Fire       NaN    405   58      64       58   
6                    Charizard   Fire    Flying    534   78      84       78   
6    CharizardMega Charizard X   Fire    Dragon    634   78     130      111   
6    CharizardMega Charizard Y   Fire    Flying    634   78     104       78   
37                      Vulpix   Fire       NaN    299   38      41       40   
38                   Ninetales   Fire       NaN    505   73      76       75   
58                   Growlithe   Fire       NaN    350   55      70       45   
59                    Arcanine   Fire       NaN    555   90     110       80   
77                      Ponyta   Fire       NaN    410   50      85       55   
78                    Rapidash   Fire   

In [76]:
"""
    •Ordiniamo il dataset per la colonna Name; 
"""
pokemon = pokemon.sort_values(by="Name", ascending= True)

print(pokemon)

                          Type 1  Type 2  Total   HP  Attack  Defense  \
Name                                                                    
Abomasnow                  Grass     Ice    494   90      92       75   
AbomasnowMega Abomasnow    Grass     Ice    594   90     132      105   
Abra                     Psychic     NaN    310   25      20       15   
Absol                       Dark     NaN    465   65     130       60   
AbsolMega Absol             Dark     NaN    565   65     150       60   
...                          ...     ...    ...  ...     ...      ...   
Zoroark                     Dark     NaN    510   60     105       60   
Zorua                       Dark     NaN    330   40      65       40   
Zubat                     Poison  Flying    245   40      45       35   
Zweilous                    Dark  Dragon    420   72      85       70   
Zygarde50% Forme          Dragon  Ground    600  108     100      121   

                         Sp. Atk  Sp. Def  Speed  

In [75]:
"""
    Trasformiamo Name nell'indice;
"""
pokemon.set_index("Name", inplace= True)

print(pokemon)

                          Type 1  Type 2  Total   HP  Attack  Defense  \
Name                                                                    
Abomasnow                  Grass     Ice    494   90      92       75   
AbomasnowMega Abomasnow    Grass     Ice    594   90     132      105   
Abra                     Psychic     NaN    310   25      20       15   
Absol                       Dark     NaN    465   65     130       60   
AbsolMega Absol             Dark     NaN    565   65     150       60   
...                          ...     ...    ...  ...     ...      ...   
Zoroark                     Dark     NaN    510   60     105       60   
Zorua                       Dark     NaN    330   40      65       40   
Zubat                     Poison  Flying    245   40      45       35   
Zweilous                    Dark  Dragon    420   72      85       70   
Zygarde50% Forme          Dragon  Ground    600  108     100      121   

                         Sp. Atk  Sp. Def  Speed  

In [79]:
"""
    Quali sono i Pokémon della prima generazione con attacco > 50 e HP < 60?
"""
pokemon =pokemon[(pokemon["Attack"] > 50) & (pokemon["HP"] < 60) & (pokemon["Generation"] == 1)]

print(pokemon)

              Type 1  Type 2  Total  HP  Attack  Defense  Sp. Atk  Sp. Def  \
Name                                                                         
Bellsprout     Grass  Poison    300  50      75       35       70       30   
Charmander      Fire     NaN    309  39      52       43       60       50   
Charmeleon      Fire     NaN    405  58      64       58       80       65   
Cloyster       Water     Ice    525  50      95      180       85       45   
Diglett       Ground     NaN    265  10      55       25       35       45   
Doduo         Normal  Flying    310  35      85       45       35       35   
Dratini       Dragon     NaN    300  41      64       45       50       50   
Dugtrio       Ground     NaN    405  35      80       50       50       70   
Eevee         Normal     NaN    325  55      55       50       45       65   
Ekans         Poison     NaN    288  35      60       44       40       54   
Farfetch'd    Normal  Flying    352  52      65       55       5