## 1. La legge dei grandi numeri

La legge dei grandi numeri è un teorema fondamentale della teoria della probabilità che indica che se ripetiamo molte volte (tendendo all'infinito) lo stesso esperimento, la frequenza di un certo evento tende ad essere costante.

Vale a dire, **la legge dei grandi numeri indica che se lo stesso test viene eseguito ripetutamente (ad esempio, lancio di una moneta), la frequenza con cui si ripeterà un determinato evento (testa/croce) si avvicinerà a una costante. Questa a sua volta sarà la probabilità che questo evento si verifichi.**

Fonte: https://it.economy-pedia.com/11038376-law-of-the-big-numbers

- Scrivere una funzione che simula il lancio di una moneta per N volte e restituisce la frequenza % di volte che è uscita testa.
- Calcolare la frequenza % con la grandezze del campione (numero di lanci) che varia 100 volte da 10 a 20000. Ottengo quindi 100 valori.
- Fare il plot del Numero medio di teste (y) rispetto alla grandezza del campione (x)





In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Simulazione del lancio di una moneta
def lancia_moneta(n):
    x=np.random.randint(0, 2, n)
    freq_testa=x.mean()*100
    return freq_testa

n = 1000
m=lancia_moneta(n)
print("La percentuale di volte che è uscito testa è: ", m, "%")


# Simulazione del lancio di una moneta con un numero variabile di lanci
num=np.random.randint(10, 20001, 100)    #lista di numeri casuali
mon=[]     #lista per memorizzare le percentuali
for i in num:
    m=lancia_moneta(i)
    mon.append(m)
    print("La percentuale di volte che è uscito testa su ", i, "lanci è: ", m, "%")

# Grafico della percentuale di testa in funzione del numero di lanci
plt.plot(num, mon, marker='o', color="blue", label="Frequenza testa")
plt.xlabel("Numero di lanci")
plt.ylabel("Percentuale (%)")
plt.legend()
plt.show()


La percentuale di volte che è uscito testa è:  53.1 %
La percentuale di volte che è uscito testa su  14524 lanci è:  50.0 %
La percentuale di volte che è uscito testa su  17898 lanci è:  50.094982679629005 %
La percentuale di volte che è uscito testa su  18250 lanci è:  50.252054794520554 %
La percentuale di volte che è uscito testa su  3481 lanci è:  49.152542372881356 %
La percentuale di volte che è uscito testa su  2137 lanci è:  50.25737014506318 %
La percentuale di volte che è uscito testa su  2194 lanci è:  48.495897903372835 %
La percentuale di volte che è uscito testa su  10346 lanci è:  49.516721438237 %
La percentuale di volte che è uscito testa su  12207 lanci è:  50.69222577209798 %
La percentuale di volte che è uscito testa su  10711 lanci è:  50.55550368779759 %
La percentuale di volte che è uscito testa su  15669 lanci è:  50.25847214244688 %
La percentuale di volte che è uscito testa su  815 lanci è:  51.77914110429448 %
La percentuale di volte che è uscito testa su  73

## 2. Analisi del Dataset Titanic
- Quante righe e colonne ha il dataset?
- Controlla quanti valori mancanti ci sono per colonna
- Riempi i valori mancanti nella colonna 'Embarked' con il valore più frequente
- Rimuovi le righe dove il valore di 'Age' è mancante
- Controlla se ci sono righe duplicate
- Calcola l'età media dei passeggeri per ogni classe (`Pclass`), se ci sono valori mancanti di età riempili con il valore medio
- Visualizza la distribuzione dell'età per classe
- Visualizza la distribuzione dell'età per classe dividendo e mmostrando insieme i dati di uomini e donne

In [None]:
# 📦 Caricamento del dataset
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
#df.head()
print("Numero di righe: ", len(df))   # Numero di righe del dataset
print("Numero di colonne: ", len(df.columns))   # Numero di colonne del dataset
print("Numero di valori mancanti per colonna: \n", ((len(df)) - (df.count())))   # Numero di valori non nulli per colonna
# Riempi i valori mancanti nella colonna 'Embarked' con il valore più frequente
df["Embarked"].fillna(df["Embarked"].mode()[0], inplace=True)
# Rimouovi le righe dove il valore di 'age' è mancante
df.dropna(subset=["Age"], inplace=False)      #False perchè dopo i valori mancanti saranno sostituiti, per modificare il file si mette True
# Controlla se ci sono righe suplicate
print("Numero di righe duplicate: ", df.duplicated().sum())
# Calcola l'età media dei passeggeri per ogni classe (`Pclass`), se ci sono valori mancanti di età riempili con il valore medio
df["Age"]=df.groupby("Pclass")["Age"].apply(lambda x: x.fillna(x.mean()))  # Riempi i valori mancanti di 'Age' con la media per classe
# Visualizza la distribuzione dell'età per classe
sns.boxplot(data=df, y="Age", x="Pclass", color="red")
plt.title("Distribuzione dell'età per classe")
plt.xlabel("Classe")
plt.ylabel("Età")
plt.show()
# Visualizza la distribuzione dell'età per sesso con due grafici
sns.histplot(df[df["Sex"]=="male"]["Age"], x="Age", color="blue")
plt.title("Distribuzione dell'età per sesso maschile")
plt.xlabel("Età")
plt.ylabel("Frequenza")
plt.show()
sns.histplot(df[df["Sex"]=="female"]["Age"], x="Age", color="pink")
plt.title("Distribuzione dell'età per sesso femminile")
plt.xlabel("Età")
plt.ylabel("Frequenza")
plt.show()
# Visualizza la distribuzione dell'età per sesso con un unico grafico
sns.histplot(data=df, x="Age", hue="Sex", multiple="stack")
plt.title("Distribuzione dell'età per sesso")
plt.xlabel("Età")
plt.ylabel("Frequenza")
plt.show()



Numero di righe:  891
Numero di colonne:  12
Numero di valori mancanti per colonna: 
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
Numero di righe duplicate:  0


Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64

## 3. Analisi del Dataset Iris

- Esplora la distribuzione delle specie (conta quanti campioni ci sono per specie)
- Calcola la lunghezza e la larghezza media dei petali per specie
- Visualizza le dimensioni dei petali per specie (scatterplot)
- Crea una nuova colonna per l'area del petalo e analizzala
- Grafico della distribuzione dell'area del petalo per specie (boxplot)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df = pd.read_csv(url)
df.head()
# Quanti campioni ci sono per specie
df["species"].value_counts()
# Calcola la lunghezza e la larghwzza media dei petali per ogni specie
df.groupby("species")[["petal_length" ,"petal_width"]].mean()
# Visualizza le dimensioni dei petali per specie (scatterplot)
sns.scatterplot(data=df, x="petal_length", y="petal_width", hue="species")
plt.title("Dimensioni dei petali per specie")
plt.xlabel("Lunghezza del petalo")
plt.ylabel("Larghezza del petalo")
plt.show()
# Crea una nuova colonna per l'area del petalo e analizzala
df["area_petal"]=(df["petal_length"] * df["petal_width"])
df["area_petal"].describe()
# Grafico della distribuzione dell'area del petalo per specie (boxplot)
sns.boxplot(data=df, x="species", y="area_petal", hue="species")
plt.xlabel("Specie")
plt.ylabel("Area del petalo")
plt.title("Distribuzione dell'area del petalo per specie")
plt.show()

NameError: name 'sns' is not defined