In [1]:
import numpy as np 
import pandas as pd


In [15]:
np.random.seed(42)  # Per rendere i risultati riproducibili
n_righe = 100
data = {
    "Nome": [f"Persona_{i}" for i in range(n_righe)],
    "Età": np.random.randint(0, 100, n_righe),
    "Sesso": np.random.choice(["Maschio", "Femmina"], n_righe),
    "Stipendio": np.random.uniform(20000, 80000, n_righe),
    "Dipartimento": np.random.choice(["HR", "IT", "Vendite", "Marketing"], n_righe)
}


In [16]:
df = pd.DataFrame(data)

In [17]:
df.loc[5] = df.loc[10]  # Duplicato
df.loc[15, "Stipendio"] = np.nan  # Valore mancante

In [20]:
print(df.loc[15])

Nome            Persona_15
Età                     52
Sesso              Maschio
Stipendio              NaN
Dipartimento     Marketing
Name: 15, dtype: object


In [5]:
print("Prime cinque righe:")
print(df.head())
print("\nUltime cinque righe:")
print(df.tail())

Prime cinque righe:
        Nome  Età    Sesso     Stipendio Dipartimento
0  Persona_0   51  Femmina  68487.222774           HR
1  Persona_1   92  Maschio  58004.225391    Marketing
2  Persona_2   14  Femmina  72287.635411           HR
3  Persona_3   71  Femmina  68220.324614    Marketing
4  Persona_4   60  Femmina  31194.203533           HR

Ultime cinque righe:
          Nome  Età    Sesso     Stipendio Dipartimento
95  Persona_95   84  Maschio  20303.695031      Vendite
96  Persona_96   79  Femmina  29648.483085           IT
97  Persona_97   81  Femmina  52924.027362      Vendite
98  Persona_98   52  Femmina  61513.711862           IT
99  Persona_99   23  Femmina  59117.675570      Vendite


In [6]:
print("\nTipi di dati delle colonne:")
print(df.dtypes)


Tipi di dati delle colonne:
Nome             object
Età               int64
Sesso            object
Stipendio       float64
Dipartimento     object
dtype: object


In [7]:
print("\nStatistiche descrittive:")
print(df.describe())


Statistiche descrittive:
              Età     Stipendio
count  100.000000     99.000000
mean    51.210000  49526.739047
std     29.486273  17576.750159
min      1.000000  20303.695031
25%     23.000000  34315.983040
50%     53.500000  50725.583498
75%     77.000000  63625.160824
max     99.000000  79139.027247


In [8]:
duplicati = df.duplicated().sum()
print(f"\nNumero di duplicati: {duplicati}")
df = df.drop_duplicates()


Numero di duplicati: 1


In [10]:
df["Stipendio"] = df["Stipendio"].fillna(df["Stipendio"].median())


In [11]:
def categorizza_eta(eta):
    if eta <= 18:
        return "Giovane"
    elif 19 <= eta <= 65:
        return "Adulto"
    else:
        return "Senior"

In [12]:
df["Categoria Età"] = df["Età"].apply(categorizza_eta)

In [13]:
df.to_csv("dati_puliti.csv", index=False)
print("\nDataFrame pulito salvato in 'dati_puliti.csv'.")


DataFrame pulito salvato in 'dati_puliti.csv'.


In [21]:
serie4 = pd.Series([1.,-999.,2.,-999.,-1000.,3.])

In [22]:
serie4

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [23]:
df = pd.DataFrame({"key1":["a", "a", None, "b", "b", "a", None],
"key2" : pd.Series([1, 2, 1, 2, 1, None, 1], dtype="Int64"),
"data1" : np.random.standard_normal(7),
"data2" : np.random.standard_normal(7)})

In [24]:
df

Unnamed: 0,key1,key2,data1,data2
0,a,1.0,1.057424,-0.603904
1,a,2.0,0.051361,0.304449
2,,1.0,0.872447,0.257207
3,b,2.0,1.066199,0.023932
4,b,1.0,-0.959008,0.871914
5,a,,1.382005,1.437356
6,,1.0,0.905122,0.007306


In [26]:
grouped = df["data1"].groupby(df["key1"])
grouped.mean()
print(grouped.groups)

{'a': [0, 1, 5], 'b': [3, 4]}


In [27]:
print("\nDati per gruppo:")
for key, group in grouped:
    print(f"Gruppo: {key}")
    print(group)


Dati per gruppo:
Gruppo: a
0    1.057424
1    0.051361
5    1.382005
Name: data1, dtype: float64
Gruppo: b
3    1.066199
4   -0.959008
Name: data1, dtype: float64
