In [6]:
# Importiamo le librerie necessarie: Pandas per gestire i dati, MinMaxScaler per la normalizzazione, e matplotlib per grafici.
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt

# Creiamo un DataFrame di esempio con dati su scale diverse.
data = {'Feature1': [100, 200, 300, 400], 'Feature2': [0.1, 0.5, 0.2, 0.8], 'Feature3': [1000, 800, 1200, 1500]}
df = pd.DataFrame(data)

# Mostra il DataFrame prima della normalizzazione per dare un'idea dei dati originali.
print("DataFrame prima dello scaling:")
print(df)

# Usiamo MinMaxScaler per normalizzare i dati tra 0 e 1, affinché tutte le feature abbiano la stessa scala.
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(df)

# Convertiamo i dati normalizzati in un nuovo DataFrame per facilitarne la manipolazione e visualizzazione.
scaled_df = pd.DataFrame(scaled_data, columns=df.columns)

# Mostriamo il risultato finale della normalizzazione.
print("\nDataFrame dopo lo scaling:")
print(scaled_df)


DataFrame prima dello scaling:
   Feature1  Feature2  Feature3
0       100       0.1      1000
1       200       0.5       800
2       300       0.2      1200
3       400       0.8      1500

DataFrame dopo lo scaling:
   Feature1  Feature2  Feature3
0  0.000000  0.000000  0.285714
1  0.333333  0.571429  0.000000
2  0.666667  0.142857  0.571429
3  1.000000  1.000000  1.000000


In [7]:
# Importiamo le librerie necessarie per manipolare i dati e per normalizzarli.
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Definiamo un set di dati di esempio con tre diverse caratteristiche.
data = {
    'Feature1': [100, 200, 300, 400],  # Per esempio, potrebbero essere prezzi.
    'Feature2': [0.1, 0.5, 0.2, 0.8],   # Questi potrebbero rappresentare percentuali.
    'Feature3': [1000, 800, 1200, 1500] # E qui abbiamo quantità, magari visualizzazioni.
}
df = pd.DataFrame(data)

# Osserviamo il DataFrame originale per capire la struttura dei dati iniziali.
print("DataFrame prima dello scaling:")
print(df)

# Applichiamo il Min-Max scaling per normalizzare i dati tra 0 e 1.
min_max_scaler = MinMaxScaler()
min_max_scaled_data = min_max_scaler.fit_transform(df)
min_max_scaled_df = pd.DataFrame(min_max_scaled_data, columns=df.columns)

# Utilizziamo lo Z-score scaling per standardizzare i dati.
standard_scaler = StandardScaler()
standard_scaled_data = standard_scaler.fit_transform(df)
standard_scaled_df = pd.DataFrame(standard_scaled_data, columns=df.columns)

# Visualizziamo i risultati delle due tecniche di normalizzazione.
print("\nDataFrame dopo Min-Max scaling:")
print(min_max_scaled_df)
print("\nDataFrame dopo Z-score scaling:")
print(standard_scaled_df)


DataFrame prima dello scaling:
   Feature1  Feature2  Feature3
0       100       0.1      1000
1       200       0.5       800
2       300       0.2      1200
3       400       0.8      1500

DataFrame dopo Min-Max scaling:
   Feature1  Feature2  Feature3
0  0.000000  0.000000  0.285714
1  0.333333  0.571429  0.000000
2  0.666667  0.142857  0.571429
3  1.000000  1.000000  1.000000

DataFrame dopo Z-score scaling:
   Feature1  Feature2  Feature3
0 -1.341641 -1.095445 -0.483368
1 -0.447214  0.365148 -1.256757
2  0.447214 -0.730297  0.290021
3  1.341641  1.460593  1.450105


In [8]:
# Importiamo le librerie necessarie.
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler

# Prepariamo un DataFrame di esempio con diverse features.
data = {
    'Feature1': [100, 200, 300, 400],
    'Feature2': [0.1, 0.5, 0.2, 0.8],
    'Feature3': [1000, 800, 1200, 1500]
}
df = pd.DataFrame(data)

# Mostriamo i dati originali per avere un punto di partenza.
print("DataFrame prima dello scaling:")
print(df)

# Applichiamo il Min-Max scaling per portare i valori tra 0 e 1.
min_max_scaler = MinMaxScaler()
min_max_scaled_data = min_max_scaler.fit_transform(df)
min_max_scaled_df = pd.DataFrame(min_max_scaled_data, columns=df.columns)

# Procediamo con lo Z-score scaling per normalizzare i dati intorno a media 0 e deviazione standard 1.
standard_scaler = StandardScaler()
standard_scaled_data = standard_scaler.fit_transform(df)
standard_scaled_df = pd.DataFrame(standard_scaled_data, columns=df.columns)

# Infine, usiamo il Robust scaling, che è meno sensibile agli outlier, basandosi su mediana e quartili.
robust_scaler = RobustScaler()
robust_scaled_data = robust_scaler.fit_transform(df)
robust_scaled_df = pd.DataFrame(robust_scaled_data, columns=df.columns)

# Visualizziamo i risultati degli scaling per confrontare gli effetti sul DataFrame.
print("\nDataFrame dopo Min-Max scaling:")
print(min_max_scaled_df)

print("\nDataFrame dopo Z-score scaling:")
print(standard_scaled_df)

print("\nDataFrame dopo Robust scaling:")
print(robust_scaled_df)


DataFrame prima dello scaling:
   Feature1  Feature2  Feature3
0       100       0.1      1000
1       200       0.5       800
2       300       0.2      1200
3       400       0.8      1500

DataFrame dopo Min-Max scaling:
   Feature1  Feature2  Feature3
0  0.000000  0.000000  0.285714
1  0.333333  0.571429  0.000000
2  0.666667  0.142857  0.571429
3  1.000000  1.000000  1.000000

DataFrame dopo Z-score scaling:
   Feature1  Feature2  Feature3
0 -1.341641 -1.095445 -0.483368
1 -0.447214  0.365148 -1.256757
2  0.447214 -0.730297  0.290021
3  1.341641  1.460593  1.450105

DataFrame dopo Robust scaling:
   Feature1  Feature2  Feature3
0 -1.000000    -0.625 -0.307692
1 -0.333333     0.375 -0.923077
2  0.333333    -0.375  0.307692
3  1.000000     1.125  1.230769


In [30]:
import pandas as pd

# Creiamo un DataFrame di esempio con una variabile categorica
data = {'Colore preferito': ['Rosso', 'Blu', 'Verde', 'Rosso','Rosso', 'Blu', 'Verde', 'Rosso']}
df = pd.DataFrame(data)

# Applichiamo l'encoding One-Hot
df_encoded = pd.get_dummies(df, columns=['Colore preferito'])
df_encoded = df_encoded.astype(int)

# Visualizziamo il DataFrame dopo l'encoding
print(df_encoded)


   Colore preferito_Blu  Colore preferito_Rosso  Colore preferito_Verde
0                     0                       1                       0
1                     1                       0                       0
2                     0                       0                       1
3                     0                       1                       0
4                     0                       1                       0
5                     1                       0                       0
6                     0                       0                       1
7                     0                       1                       0


In [19]:
import pandas as pd

# Creiamo un DataFrame di esempio con una variabile categorica ordinale
data = {'Livello_Istruzione': ['Scuola elementare', 'Scuola media', 'Diploma', 'Scuola elementare','Scuola elementare', 'Scuola media',]}
df = pd.DataFrame(data)

# Definiamo l'ordine delle categorie
livelli_istruzione_ordine = {'Scuola elementare': 1, 'Scuola media': 2, 'Diploma': 3}

# Applichiamo l'encoding ordinale
df['Livello_Istruzione_Ordinale'] = df['Livello_Istruzione'].map(livelli_istruzione_ordine)

# Visualizziamo il DataFrame dopo l'encoding
print(df)

  Livello_Istruzione  Livello_Istruzione_Ordinale
0  Scuola elementare                            1
1       Scuola media                            2
2            Diploma                            3
3  Scuola elementare                            1
4  Scuola elementare                            1
5       Scuola media                            2


In [28]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OrdinalEncoder

# Creiamo un DataFrame di esempio
data = {'Livello_Istruzione': ['Scuola elementare', 'Scuola media', 'Diploma', 'Laurea'],
        'Colore_Preferito': ['Rosso', 'Blu', 'Verde', 'Rosso'],
        'Età': [25, 30, 22, 35],
        'Punteggio': [85, 92, 78, 96]}

df = pd.DataFrame(data)

# Visualizziamo il DataFrame originale
print("DataFrame originale:")
print(df)

colonne_numeriche = df.select_dtypes(include='number')
# Min-Max scaling
min_max_scaler = MinMaxScaler()
min_max_scaled_data = min_max_scaler.fit_transform(colonne_numeriche)
df[colonne_numeriche.columns] = pd.DataFrame(min_max_scaled_data, columns=colonne_numeriche.columns)



# Trattamento variabili categoriche ordinali
livelli_istruzione_ordine = {'Scuola elementare': 1, 'Scuola media': 2, 'Diploma': 3, 'Laurea': 4}
df['Livello_Istruzione_Ordinale'] = df['Livello_Istruzione'].map(livelli_istruzione_ordine)



# Trattamento variabili categoriche semplici (Encoding One-Hot)
df_encoded = pd.get_dummies(df, columns=['Colore_Preferito'], prefix='Colore')



# Visualizziamo il DataFrame dopo il trattamento
print("\nDataFrame dopo il trattamento:")
print(df_encoded)

DataFrame originale:
  Livello_Istruzione Colore_Preferito  Età  Punteggio
0  Scuola elementare            Rosso   25         85
1       Scuola media              Blu   30         92
2            Diploma            Verde   22         78
3             Laurea            Rosso   35         96

DataFrame dopo il trattamento:
  Livello_Istruzione       Età  Punteggio  Livello_Istruzione_Ordinale  \
0  Scuola elementare  0.230769   0.388889                            1   
1       Scuola media  0.615385   0.777778                            2   
2            Diploma  0.000000   0.000000                            3   
3             Laurea  1.000000   1.000000                            4   

   Colore_Blu  Colore_Rosso  Colore_Verde  
0       False          True         False  
1        True         False         False  
2       False         False          True  
3       False          True         False  


In [24]:
df = df_encoded.drop(columns='Livello_Istruzione')
df

Unnamed: 0,Età,Punteggio,Livello_Istruzione_Ordinale,Colore_Blu,Colore_Rosso,Colore_Verde
0,0.230769,0.388889,1,False,True,False
1,0.615385,0.777778,2,True,False,False
2,0.0,0.0,3,False,False,True
3,1.0,1.0,4,False,True,False
