# Notebook di introduzione a Numpy, Pandas

## 1. Installazione librerie

In [None]:
!pip install -r requirements.txt



## 2. Import delle librerie

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly 
import sklearn # scikit-learn
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import openpyxl

# Impostiamo alcune opzioni grafiche per una visualizzazione più chiara
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (8, 5)

%matplotlib inline
''' utile per i notebook Jupyter:
senza %matplotlib inline, il grafico potrebbe non apparire nel notebook (oppure aprirsi in un’altra finestra, a seconda del backend di Matplotlib).
Con %matplotlib inline, invece, il grafico viene renderizzato subito sotto la cella di codice, come immagine statica.
'''

' utile per i notebook Jupyter:\nsenza %matplotlib inline, il grafico potrebbe non apparire nel notebook (oppure aprirsi in un’altra finestra, a seconda del backend di Matplotlib).\nCon %matplotlib inline, invece, il grafico viene renderizzato subito sotto la cella di codice, come immagine statica.\n'

## Numpy

In [None]:
# ----------------------------------------------------
# 🧮 NUMPY: Creazione e manipolazione di array
# ----------------------------------------------------

# Creazione di array
l = [1, 2, 3, 4, 5]
a = np.array(l) # array 1D
print(a)

[1 2 3 4 5]


In [None]:
b = np.arange(0, 10, 2) # array con valori da 0 a 10 con passo 2
b

array([0, 2, 4, 6, 8])

In [None]:
c = np.linspace(0, 1, 5) # array con 5 valori equidistanti tra 0 e 1
c

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [None]:
Z = np.zeros((2, 3), dtype="int") # matrice 2x3 di zeri
print(Z)

[[0 0 0]
 [0 0 0]]


In [None]:
O = np.ones((3, 3)) # matrice 3x3 di uni
O

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [None]:
# Creazione di un array NumPy
arr = np.array([1, 2, 3, 4, 5])
print("Array base:", arr)

# Operazioni matematiche elementari (vettorizzate)
print("Array + 10:", arr + 10)
print("Array al quadrato:", arr ** 2)

Array base: [1 2 3 4 5]
Array + 10: [11 12 13 14 15]
Array al quadrato: [ 1  4  9 16 25]


In [None]:
# Statistiche di base
print("Media:", np.mean(arr))
print("Deviazione standard:", np.std(arr))
print("Somma:", np.sum(a))
print("Valore massimo:", np.max(a))

print(np.median(a))     # mediana
print(np.min(a))        # minimo
print(np.argmax(a))     # indice del massimo
print(np.cumsum(a))     # somma cumulativa
print(np.argmin(a))

Media: 3.0
Deviazione standard: 1.4142135623730951
Somma: 15
Valore massimo: 5
3.0
1
4
[ 1  3  6 10 15]
0


In [None]:
R = np.random.rand(2, 3) # matrice 2x3 di valori casuali
R

array([[0.16306796, 0.69198349, 0.65543461],
       [0.70915589, 0.29968242, 0.63431029]])

In [None]:
# Array multidimensionale (matrice)
mat = np.array([[1, 2, 3], [4, 5, 6]])
print("Matrice 2x3:\n", mat)

Matrice 2x3:
 [[1 2 3]
 [4 5 6]]


In [None]:
mat.size #numero di elementi

6

In [None]:
mat.shape #la forma della matrice (quanti elementi sulle varie dimensioni)

(2, 3)

In [None]:
mat.dtype #tipo di dato degli elementi della matrice

dtype('int64')

In [None]:
R.dtype

dtype('float64')

In [None]:
# Selezione di elementi
print("Elemento (0,1):", mat[0, 1])  # riga 0, colonna 1

Elemento (0,1): 2


In [None]:
# Operazioni tra array
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])
print("\nSomma elemento per elemento:", x + y)


Somma elemento per elemento: [5 7 9]


In [None]:
print("Prodotto elemento per elemento:", x * y)

Prodotto elemento per elemento: [ 4 10 18]


In [None]:
print("Prodotto scalare:", np.dot(x, y))

Prodotto scalare: 32


In [None]:
# Manipolazione array
M = np.array([[1, 2], [3, 4], [5, 6]])
print("\nArray originale:\n", M)
print("Forma:", M.shape)
print("Trasposto:\n", M.T) # trasposta (righe ↔ colonne)
print("Appiattito:", M.flatten()) # “appiattisce” l’array in 1D


Array originale:
 [[1 2]
 [3 4]
 [5 6]]
Forma: (3, 2)
Trasposto:
 [[1 3 5]
 [2 4 6]]
Appiattito: [1 2 3 4 5 6]


In [None]:
M_reshaped=M.reshape(2,3)   # cambia forma (senza cambiare i dati) 
print(M_reshaped)
print(M_reshaped.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


In [None]:
M.flatten().reshape((1,6))

array([[1, 2, 3, 4, 5, 6]])

In [None]:
np.rot90(M)

array([[2, 4, 6],
       [1, 3, 5]])

In [None]:
matrice_quadrata = np.concatenate((mat, y.reshape(1,3)))
#np.linalg.inv(matrice_quadrata) dà errore perchè la matrice è singolare

In [None]:
np.linalg.det(matrice_quadrata)

np.float64(0.0)

In [None]:
matrice_quadrata = np.concatenate((mat, y.reshape(1,3)+x.reshape(1,3)))
np.linalg.inv(matrice_quadrata)

array([[ 1.12589991e+15,  1.12589991e+15, -1.12589991e+15],
       [-2.25179981e+15, -2.25179981e+15,  2.25179981e+15],
       [ 1.12589991e+15,  1.12589991e+15, -1.12589991e+15]])

In [None]:
np.linalg.det(matrice_quadrata)

np.float64(2.664535259100367e-15)

In [None]:
print(a)
print(b)
print(np.concatenate([a, b]))  # concatena array

[1 2 3 4 5]
[0 2 4 6 8]
[1 2 3 4 5 0 2 4 6 8]


In [None]:
Z

array([[0, 0, 0],
       [0, 0, 0]])

In [None]:
print(np.unique(Z))      # valori unici

print(np.unique(a))      # valori unici

[0]
[1 2 3 4 5]


Operatori di slicing: **a[start:stop:step]**

Funzionano come per np.arange, quindi start (incluso):stop(escluso):step(passo)

In [None]:
c=np.concatenate([a, b])
print(c)
np.unique(c[2:])

[1 2 3 4 5 0 2 4 6 8]


array([0, 2, 3, 4, 5, 6, 8])

In [None]:
c[2:6]

array([3, 4, 5, 0])

In [None]:
c[2:6:2]

array([3, 5])

## Pandas

Libreria per l'elaborazione di dati tabellari

In [None]:
# =============================================================================
# PANDAS: lavorare con DataFrame e Series
# =============================================================================

# Creiamo un DataFrame di esempio
data = {
    "Nome": ["Anna", "Luca", "Marco", "Sara", "Giulia"],
    "Età": [23, 29, 31, 25, 22],
     "Sesso": ["F", "M", "M", "F", "F"],
    "Città": ["Roma", "Milano", "Torino", "Firenze", "Torino"]
}
data

{'Nome': ['Anna', 'Luca', 'Marco', 'Sara', 'Giulia'],
 'Età': [23, 29, 31, 25, 22],
 'Sesso': ['F', 'M', 'M', 'F', 'F'],
 'Città': ['Roma', 'Milano', 'Torino', 'Firenze', 'Torino']}

In [None]:
df = pd.DataFrame(data, index=["Studente1", "Studente2", "Studente3", "Studente4", "Studente5"])
print(df)

             Nome  Età Sesso    Città
Studente1    Anna   23     F     Roma
Studente2    Luca   29     M   Milano
Studente3   Marco   31     M   Torino
Studente4    Sara   25     F  Firenze
Studente5  Giulia   22     F   Torino


In [None]:
# Informazioni di base
print("\nInfo sul DataFrame:")
print(df.info())


Info sul DataFrame:
<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Studente1 to Studente5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    5 non-null      object
 1   Età     5 non-null      int64 
 2   Sesso   5 non-null      object
 3   Città   5 non-null      object
dtypes: int64(1), object(3)
memory usage: 200.0+ bytes
None


In [None]:
print("\nStatistiche descrittive:")
df.describe()


Statistiche descrittive:


Unnamed: 0,Età
count,5.0
mean,26.0
std,3.872983
min,22.0
25%,23.0
50%,25.0
75%,29.0
max,31.0


In [None]:
df.describe(include=['object'])

Unnamed: 0,Nome,Sesso,Città
count,5,5,5
unique,5,2,4
top,Anna,F,Torino
freq,1,3,2


In [None]:
# Selezione di colonne e righe
print(df["Età"])

Studente1    23
Studente2    29
Studente3    31
Studente4    25
Studente5    22
Name: Età, dtype: int64


In [None]:
df['Età'].values

array([23, 29, 31, 25, 22])

In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città
Studente1,Anna,23,F,Roma
Studente2,Luca,29,M,Milano
Studente3,Marco,31,M,Torino
Studente4,Sara,25,F,Firenze
Studente5,Giulia,22,F,Torino


In [None]:
print("\nPrima riga:")
print(df.iloc[0])


Prima riga:
Nome     Anna
Età        23
Sesso       F
Città    Roma
Name: Studente1, dtype: object


In [None]:
df.loc["Studente5"]

Nome     Giulia
Età          22
Sesso         F
Città    Torino
Name: Studente5, dtype: object

In [None]:
# Aggiunta di una nuova colonna
df["Età_2"] = df["Età"] * 2
print("\nDataFrame con nuova colonna:")
print(df)


DataFrame con nuova colonna:
             Nome  Età Sesso    Città  Età_2
Studente1    Anna   23     F     Roma     46
Studente2    Luca   29     M   Milano     58
Studente3   Marco   31     M   Torino     62
Studente4    Sara   25     F  Firenze     50
Studente5  Giulia   22     F   Torino     44


In [None]:
# Filtraggio
print("\nPersone con età > 25:")
print(df["Età"] > 25)
print(df[df["Età"] > 25])


Persone con età > 25:
Studente1    False
Studente2     True
Studente3     True
Studente4    False
Studente5    False
Name: Età, dtype: bool
            Nome  Età Sesso   Città  Età_2
Studente2   Luca   29     M  Milano     58
Studente3  Marco   31     M  Torino     62


In [None]:
df_grande=pd.concat([df,df,df,df,df], ignore_index=True)
df_grande.head() #testa=primi 5 (di default) elementi
df_grande.tail(10) #coda=ultimi 10 elementi

Unnamed: 0,Nome,Età,Sesso,Città,Età_2
15,Anna,23,F,Roma,46
16,Luca,29,M,Milano,58
17,Marco,31,M,Torino,62
18,Sara,25,F,Firenze,50
19,Giulia,22,F,Torino,44
20,Anna,23,F,Roma,46
21,Luca,29,M,Milano,58
22,Marco,31,M,Torino,62
23,Sara,25,F,Firenze,50
24,Giulia,22,F,Torino,44


In [None]:
df.index #indice del dataframe

Index(['Studente1', 'Studente2', 'Studente3', 'Studente4', 'Studente5'], dtype='object')

In [None]:
serie=pd.Series([3000, 4500, 4000, 4200, 1800], index=df.index)
serie

Studente1    3000
Studente2    4500
Studente3    4000
Studente4    4200
Studente5    1800
dtype: int64

In [None]:
df['stipendio']=serie
df.head()

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio
Studente1,Anna,23,F,Roma,46,3000
Studente2,Luca,29,M,Milano,58,4500
Studente3,Marco,31,M,Torino,62,4000
Studente4,Sara,25,F,Firenze,50,4200
Studente5,Giulia,22,F,Torino,44,1800


In [None]:
df.columns

Index(['Nome', 'Età', 'Sesso', 'Città', 'Età_2', 'stipendio'], dtype='object')

In [None]:
df['bonus'] = df['stipendio'] * 0.1
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus
Studente1,Anna,23,F,Roma,46,3000,300.0
Studente2,Luca,29,M,Milano,58,4500,450.0
Studente3,Marco,31,M,Torino,62,4000,400.0
Studente4,Sara,25,F,Firenze,50,4200,420.0
Studente5,Giulia,22,F,Torino,44,1800,180.0


In [None]:
df['nome_upper'] = df['Nome'].str.upper()
print("\nCon nuove colonne:\n", df)


Con nuove colonne:
              Nome  Età Sesso    Città  Età_2  stipendio  bonus nome_upper
Studente1    Anna   23     F     Roma     46       3000  300.0       ANNA
Studente2    Luca   29     M   Milano     58       4500  450.0       LUCA
Studente3   Marco   31     M   Torino     62       4000  400.0      MARCO
Studente4    Sara   25     F  Firenze     50       4200  420.0       SARA
Studente5  Giulia   22     F   Torino     44       1800  180.0     GIULIA


In [None]:
# Ordinamento e valori mancanti
df_sorted = df.sort_values(by='stipendio', ascending=False)
print("\nOrdinato per stipendio:\n", df_sorted)


Ordinato per stipendio:
              Nome  Età Sesso    Città  Età_2  stipendio  bonus nome_upper
Studente2    Luca   29     M   Milano     58       4500  450.0       LUCA
Studente4    Sara   25     F  Firenze     50       4200  420.0       SARA
Studente3   Marco   31     M   Torino     62       4000  400.0      MARCO
Studente1    Anna   23     F     Roma     46       3000  300.0       ANNA
Studente5  Giulia   22     F   Torino     44       1800  180.0     GIULIA


In [None]:
serie

Studente1    3000
Studente2    4500
Studente3    4000
Studente4    4200
Studente5    1800
dtype: int64

In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper
Studente1,Anna,23,F,Roma,46,3000,300.0,ANNA
Studente2,Luca,29,M,Milano,58,4500,450.0,LUCA
Studente3,Marco,31,M,Torino,62,4000,400.0,MARCO
Studente4,Sara,25,F,Firenze,50,4200,420.0,SARA
Studente5,Giulia,22,F,Torino,44,1800,180.0,GIULIA


In [None]:
df.loc['Studente6']=pd.Series(["Luca", 25, "M", "Roma", 50, 1500, 150, "LUCA"], index=df.columns)

In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper
Studente1,Anna,23,F,Roma,46,3000,300.0,ANNA
Studente2,Luca,29,M,Milano,58,4500,450.0,LUCA
Studente3,Marco,31,M,Torino,62,4000,400.0,MARCO
Studente4,Sara,25,F,Firenze,50,4200,420.0,SARA
Studente5,Giulia,22,F,Torino,44,1800,180.0,GIULIA
Studente6,Luca,25,M,Roma,50,1500,150.0,LUCA


In [None]:
df.index.values[0:5]

array(['Studente1', 'Studente2', 'Studente3', 'Studente4', 'Studente5'],
      dtype=object)

In [None]:
df['Anno']=pd.Series([2002, 2000, 2005, 1998, 1996], index=df.index.values[0:5])

In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper,Anno
Studente1,Anna,23,F,Roma,46,3000,300.0,ANNA,2002.0
Studente2,Luca,29,M,Milano,58,4500,450.0,LUCA,2000.0
Studente3,Marco,31,M,Torino,62,4000,400.0,MARCO,2005.0
Studente4,Sara,25,F,Firenze,50,4200,420.0,SARA,1998.0
Studente5,Giulia,22,F,Torino,44,1800,180.0,GIULIA,1996.0
Studente6,Luca,25,M,Roma,50,1500,150.0,LUCA,


In [None]:
df_grande['stipendio']=serie
df_grande

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio
0,Anna,23,F,Roma,46,
1,Luca,29,M,Milano,58,
2,Marco,31,M,Torino,62,
3,Sara,25,F,Firenze,50,
4,Giulia,22,F,Torino,44,
5,Anna,23,F,Roma,46,
6,Luca,29,M,Milano,58,
7,Marco,31,M,Torino,62,
8,Sara,25,F,Firenze,50,
9,Giulia,22,F,Torino,44,


In [None]:
# Raggruppamento e aggregazione
grouped = df.groupby('Nome').agg({'Età': 'mean', 'stipendio': 'sum'})
print("\nRaggruppamento per nome:\n", grouped)


Raggruppamento per nome:
          Età  stipendio
Nome                   
Anna    23.0       3000
Giulia  22.0       1800
Luca    27.0       6000
Marco   31.0       4000
Sara    25.0       4200


In [None]:
# Simuliamo un valore mancante
df.loc["Studente1", 'stipendio'] = np.nan
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper,Anno
Studente1,Anna,23,F,Roma,46,,300.0,ANNA,2002.0
Studente2,Luca,29,M,Milano,58,4500.0,450.0,LUCA,2000.0
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO,2005.0
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA,1998.0
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA,1996.0
Studente6,Luca,25,M,Roma,50,1500.0,150.0,LUCA,


In [None]:
df.isnull().sum() #conteggio valori null

Nome          0
Età           0
Sesso         0
Città         0
Età_2         0
stipendio     1
bonus         0
nome_upper    0
Anno          1
dtype: int64

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Studente1 to Studente6
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Nome        6 non-null      object 
 1   Età         6 non-null      int64  
 2   Sesso       6 non-null      object 
 3   Città       6 non-null      object 
 4   Età_2       6 non-null      int64  
 5   stipendio   5 non-null      float64
 6   bonus       6 non-null      float64
 7   nome_upper  6 non-null      object 
 8   Anno        5 non-null      float64
dtypes: float64(3), int64(2), object(4)
memory usage: 652.0+ bytes


In [None]:
df.drop("Anno", axis=1, inplace=True)
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper
Studente1,Anna,23,F,Roma,46,,300.0,ANNA
Studente2,Luca,29,M,Milano,58,4500.0,450.0,LUCA
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA
Studente6,Luca,25,M,Roma,50,1500.0,150.0,LUCA


In [None]:
df.drop("Studente2", inplace=True)
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper
Studente1,Anna,23,F,Roma,46,,300.0,ANNA
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA
Studente6,Luca,25,M,Roma,50,1500.0,150.0,LUCA


In [None]:
df_filled = df.fillna(0)
print("\nDopo fillna(0):\n", df_filled)


Dopo fillna(0):
              Nome  Età Sesso    Città  Età_2  stipendio  bonus nome_upper
Studente1    Anna   23     F     Roma     46        0.0  300.0       ANNA
Studente3   Marco   31     M   Torino     62     4000.0  400.0      MARCO
Studente4    Sara   25     F  Firenze     50     4200.0  420.0       SARA
Studente5  Giulia   22     F   Torino     44     1800.0  180.0     GIULIA
Studente6    Luca   25     M     Roma     50     1500.0  150.0       LUCA


In [None]:
df.loc["Studente1", 'stipendio'] = np.nan
df.fillna(df['stipendio'].mean(), inplace=True)
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper
Studente1,Anna,23,F,Roma,46,2875.0,300.0,ANNA
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA
Studente6,Luca,25,M,Roma,50,1500.0,150.0,LUCA


In [None]:
le = LabelEncoder()
df["sesso_numerico"] = le.fit_transform(df["Sesso"])
df["citta_num"] = le.fit_transform(df["Città"])
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome_upper,sesso_numerico,citta_num
Studente1,Anna,23,F,Roma,46,2875.0,300.0,ANNA,0,1
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO,1,2
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA,0,0
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA,0,2
Studente6,Luca,25,M,Roma,50,1500.0,150.0,LUCA,1,1


In [None]:
df_encoded = pd.get_dummies(df, columns=["Città"])

print("\n✅ DataFrame dopo One-Hot Encoding (pandas.get_dummies):")
print(df_encoded)


✅ DataFrame dopo One-Hot Encoding (pandas.get_dummies):
             Nome  Età Sesso  Età_2  stipendio  bonus nome_upper  \
Studente1    Anna   23     F     46     2875.0  300.0       ANNA   
Studente3   Marco   31     M     62     4000.0  400.0      MARCO   
Studente4    Sara   25     F     50     4200.0  420.0       SARA   
Studente5  Giulia   22     F     44     1800.0  180.0     GIULIA   
Studente6    Luca   25     M     50     1500.0  150.0       LUCA   

           sesso_numerico  citta_num  Città_Firenze  Città_Roma  Città_Torino  
Studente1               0          1          False        True         False  
Studente3               1          2          False       False          True  
Studente4               0          0           True       False         False  
Studente5               0          2          False       False          True  
Studente6               1          1          False        True         False  


In [None]:
# Con sklearn
encoder = OneHotEncoder(sparse_output=False)  # ritorna un array denso

# Applichiamo l'encoder solo alle colonne categoriche
encoded_array = encoder.fit_transform(df[["Città"]])

# Recuperiamo i nomi delle nuove colonne
encoded_columns = encoder.get_feature_names_out(["Città"])

# Creiamo un DataFrame con i risultati
df_encoded_sklearn = pd.DataFrame(encoded_array, columns=encoded_columns, index=df.index)

In [None]:
encoded_array

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

In [None]:
encoded_columns

array(['Città_Firenze', 'Città_Roma', 'Città_Torino'], dtype=object)

In [None]:
df_encoded_sklearn

Unnamed: 0,Città_Firenze,Città_Roma,Città_Torino
Studente1,0.0,1.0,0.0
Studente3,0.0,0.0,1.0
Studente4,1.0,0.0,0.0
Studente5,0.0,0.0,1.0
Studente6,0.0,1.0,0.0


In [None]:
# Uniamo le colonne numeriche originali
df_final = pd.concat([df, df_encoded_sklearn], axis=1)

print("\n✅ DataFrame dopo One-Hot Encoding (sklearn.OneHotEncoder):")
print(df_final)



✅ DataFrame dopo One-Hot Encoding (sklearn.OneHotEncoder):
             Nome  Età Sesso    Città  Età_2  stipendio  bonus nome_upper  \
Studente1    Anna   23     F     Roma     46     2875.0  300.0       ANNA   
Studente3   Marco   31     M   Torino     62     4000.0  400.0      MARCO   
Studente4    Sara   25     F  Firenze     50     4200.0  420.0       SARA   
Studente5  Giulia   22     F   Torino     44     1800.0  180.0     GIULIA   
Studente6    Luca   25     M     Roma     50     1500.0  150.0       LUCA   

           sesso_numerico  citta_num  Città_Firenze  Città_Roma  Città_Torino  
Studente1               0          1            0.0         1.0           0.0  
Studente3               1          2            0.0         0.0           1.0  
Studente4               0          0            1.0         0.0           0.0  
Studente5               0          2            0.0         0.0           1.0  
Studente6               1          1            0.0         1.0           0.0

In [None]:
df.shape         # dimensione (righe, colonne)

(5, 10)

In [None]:
df.dtypes       # tipi di dati delle colonne

Nome               object
Età                 int64
Sesso              object
Città              object
Età_2               int64
stipendio         float64
bonus             float64
nome_upper         object
sesso_numerico      int64
citta_num           int64
dtype: object

In [None]:
df.rename(columns={'nome_upper': 'nome maiuscolo'}, inplace=True)
df.rename(index={'Studente6': 'Studente2'}, inplace=True)
#df.rename(mapper={'Studente6': 'Studente2'}, axis=0, inplace=True)
#df.rename(mapper={'nome_upper': 'nome maiuscolo'}, axis=1, inplace=True)

In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome maiuscolo,sesso_numerico,citta_num
Studente1,Anna,23,F,Roma,46,2875.0,300.0,ANNA,0,1
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO,1,2
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA,0,0
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA,0,2
Studente2,Luca,25,M,Roma,50,1500.0,150.0,LUCA,1,1


In [None]:
df2=df.copy()  # esempio di secondo DataFrame
pd.merge(df, df2, on='Nome')          # join classico

Unnamed: 0,Nome,Età_x,Sesso_x,Città_x,Età_2_x,stipendio_x,bonus_x,nome maiuscolo_x,sesso_numerico_x,citta_num_x,Età_y,Sesso_y,Città_y,Età_2_y,stipendio_y,bonus_y,nome maiuscolo_y,sesso_numerico_y,citta_num_y
0,Anna,23,F,Roma,46,2875.0,300.0,ANNA,0,1,23,F,Roma,46,2875.0,300.0,ANNA,0,1
1,Marco,31,M,Torino,62,4000.0,400.0,MARCO,1,2,31,M,Torino,62,4000.0,400.0,MARCO,1,2
2,Sara,25,F,Firenze,50,4200.0,420.0,SARA,0,0,25,F,Firenze,50,4200.0,420.0,SARA,0,0
3,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA,0,2,22,F,Torino,44,1800.0,180.0,GIULIA,0,2
4,Luca,25,M,Roma,50,1500.0,150.0,LUCA,1,1,25,M,Roma,50,1500.0,150.0,LUCA,1,1


In [None]:
# correlazione solo tra colonne numeriche
numeric_corr = df.select_dtypes(include='number').corr()
numeric_corr

Unnamed: 0,Età,Età_2,stipendio,bonus,sesso_numerico,citta_num
Età,1.0,1.0,0.579693,0.563132,0.731792,0.239535
Età_2,1.0,1.0,0.579693,0.563132,0.731792,0.239535
stipendio,0.579693,0.579693,1.0,0.998972,-0.09265,-0.309333
bonus,0.563132,0.563132,0.998972,1.0,-0.111065,-0.315074
sesso_numerico,0.731792,0.731792,-0.09265,-0.111065,1.0,0.327327
citta_num,0.239535,0.239535,-0.309333,-0.315074,0.327327,1.0


In [None]:
df

Unnamed: 0,Nome,Età,Sesso,Città,Età_2,stipendio,bonus,nome maiuscolo,sesso_numerico,citta_num
Studente1,Anna,23,F,Roma,46,2875.0,300.0,ANNA,0,1
Studente3,Marco,31,M,Torino,62,4000.0,400.0,MARCO,1,2
Studente4,Sara,25,F,Firenze,50,4200.0,420.0,SARA,0,0
Studente5,Giulia,22,F,Torino,44,1800.0,180.0,GIULIA,0,2
Studente2,Luca,25,M,Roma,50,1500.0,150.0,LUCA,1,1


In [None]:
output_path = "dati_elaborati_senzaindice.csv"
df.to_csv(output_path, index=False) #salvataggio in csv

output_path = "dati_elaborati_conindice.xlsx"
df.to_excel(output_path) #salvataggio in excel