### Importazione librerie e caricamento dataset

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [None]:
df = pd.read_csv('../dataset/cyclists.csv')

# pulizia dati
print("Informazioni del dataset:\n", df.info())
print("\nValori mancanti:\n", df.isnull().sum())
df = df.dropna() 

### Informazioni statistiche di base

In [None]:
df.describe()

### Distribuzione variabili numeriche

In [None]:
numeric_columns = df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()

### Distribuzione variabili categoriche

In [None]:
categorical_columns = df.select_dtypes(include='object').columns
for col in categorical_columns:
    plt.figure(figsize=(8, 6))
    sns.countplot(data=df, x=col)
    plt.title(f'Distribuzione delle categorie in {col}')
    plt.xticks(rotation=45)
    plt.show()

### Normalizzazione

In [None]:
scaler = MinMaxScaler()
numeric_columns = df.select_dtypes(include='number').columns
normalized_df = pd.DataFrame(scaler.fit_transform(df[numeric_columns]), columns=numeric_columns)
print("DataFrame Normalizzato:")
print(normalized_df)

### Nuove distribuzioni

In [None]:
numeric_columns = normalized_df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(normalized_df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()

### Standardizzazione

In [None]:
scaler = StandardScaler()
numeric_columns = df.select_dtypes(include='number').columns
standardized_df = pd.DataFrame(scaler.fit_transform(df[numeric_columns]), columns=numeric_columns)
print("\nDataFrame Standardizzato:")
print(standardized_df)


### Nuove distribuzioni

In [None]:
numeric_columns = standardized_df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(standardized_df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()

### Correlazioni tra variabili numeriche

In [None]:
plt.figure(figsize=(12, 8))
corr_matrix = df[numeric_columns].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice di Correlazione')
plt.show()

In [None]:
methods = ['pearson', 'spearman', 'kendall']
for method in methods:
    correlation_matrix = df[numeric_columns].corr(method=method)
    
    plt.figure(figsize=(12, 8))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5, fmt='.2f')
    plt.title(f'Heatmap delle correlazioni ({method.capitalize()})')
    plt.show()

### Pair plot (relazioni tra variabili numeriche)

In [None]:
sns.pairplot(df[numeric_columns])
plt.show()