### Importazione librerie e caricamento dataset

In [6]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [None]:
df = pd.read_csv('../dataset/races_no_missing.csv')

# pulizia dati

print("\nValori duplicati:\n", df.duplicated().sum())

df = df.drop(columns=['cyclist_team'])

# Numero missing values
print("\nValori mancanti:\n", df.isnull().sum())



Valori duplicati:
 0

Valori mancanti:
 _url                 0
name                 0
points               0
uci_points           0
length               0
climb_total          0
profile              0
startlist_quality    0
date                 0
position             0
cyclist              0
cyclist_age          0
is_tarmac            0
is_cobbled           0
is_gravel            0
delta                0
dtype: int64


### Informazioni statistiche di base

In [9]:
df.describe()

Unnamed: 0,points,uci_points,length,climb_total,profile,startlist_quality,position,cyclist_age,delta
count,589813.0,589813.0,589813.0,589813.0,589813.0,589813.0,589813.0,589813.0,589813.0
mean,89.224427,90.017187,166776.292588,2298.61479,2.555159,1101.181919,74.217672,28.484552,418.264796
std,54.436091,124.261699,64546.25164,1365.431706,1.46814,380.594833,48.404528,3.859066,842.971505
min,-59.911402,6.0,1000.0,2.0,1.0,115.0,0.0,11.0,-6906.0
25%,50.0,16.0,152500.0,1280.0,1.0,844.0,32.0,26.0,10.0
50%,80.0,60.0,178200.0,2240.0,2.0,988.0,70.0,28.0,156.0
75%,100.0,100.0,203500.0,3263.0,4.0,1309.0,112.0,31.0,624.0
max,350.0,800.0,338000.0,6974.0,5.0,2047.0,209.0,56.0,61547.0


In [None]:
# Verifica se ci sono valori negativi in ogni colonna
negative_values = df.select_dtypes(include=['number']).lt(0).any()
print("Colonne con valori negativi:")
print(negative_values[negative_values])

df_missing = pd.read_csv('../dataset/races.csv')
negative_values = df_missing.select_dtypes(include=['number']).lt(0).any()
print("Colonne con valori negativi:")
print(negative_values[negative_values])

Colonne con valori negativi:
points    True
delta     True
dtype: bool


### Distribuzione variabili numeriche

In [None]:
numeric_columns = df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()


### Distribuzione variabili categoriche

In [None]:
categorical_columns = df.select_dtypes(include='object').columns
for col in categorical_columns:
    plt.figure(figsize=(8, 6))
    sns.countplot(data=df, x=col)
    plt.title(f'Distribuzione delle categorie in {col}')
    plt.xticks(rotation=45)
    plt.show()

### Normalizzazione

In [None]:
scaler = MinMaxScaler()
numeric_columns = df.select_dtypes(include='number').columns
normalized_df = pd.DataFrame(scaler.fit_transform(df[numeric_columns]), columns=numeric_columns)
print("DataFrame Normalizzato:")
print(normalized_df)

### Nuove distribuzioni

In [None]:
numeric_columns = normalized_df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(normalized_df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()

### Standardizzazione

In [None]:
scaler = StandardScaler()
numeric_columns = df.select_dtypes(include='number').columns
standardized_df = pd.DataFrame(scaler.fit_transform(df[numeric_columns]), columns=numeric_columns)
print("\nDataFrame Standardizzato:")
print(standardized_df)

### Nuove distribuzioni

In [None]:
numeric_columns = standardized_df.select_dtypes(include='number').columns
for col in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(standardized_df[col], kde=True, bins=30)
    plt.title(f'Distribuzione di {col}')
    plt.show()

### Correlazioni tra variabili numeriche

In [None]:
plt.figure(figsize=(12, 8))
corr_matrix = df[numeric_columns].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice di Correlazione')
plt.show()

In [None]:
methods = ['pearson', 'spearman', 'kendall']
for method in methods:
    correlation_matrix = df[numeric_columns].corr(method=method)
    
    plt.figure(figsize=(12, 8))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5, fmt='.2f')
    plt.title(f'Heatmap delle correlazioni ({method.capitalize()})')
    plt.show()

### Pair plot (relazioni tra variabili numeriche)

In [None]:
sns.pairplot(df[numeric_columns])
plt.show()

### Alcune relazioni fra features

In [None]:
# Relazione tra età dei ciclisti e posizioni in gara
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='cyclist_age', y='position')
plt.title('Relazione tra età dei ciclisti e posizioni in gara')
plt.xlabel('Età del ciclista')
plt.ylabel('Posizione in gara')
plt.show()

In [None]:
# Impatto del team di appartenenza sulla performance dei ciclisti
plt.figure(figsize=(12, 8))
sns.boxplot(data=df, x='cyclist_team', y='position')
plt.title('Impatto del team di appartenenza sulla performance dei ciclisti')
plt.xlabel('Team del ciclista')
plt.ylabel('Posizione in gara')
plt.xticks(rotation=90)
plt.show()

In [None]:
# Impatto delle diverse superfici sui tempi di gara e posizioni finali
surface_columns = ['is_tarmac', 'is_cobbled', 'is_gravel']
for surface in surface_columns:
    if surface in df.columns:
        plt.figure(figsize=(10, 6))
        sns.boxplot(data=df, x=surface, y='position')
        plt.title(f'Impatto della superficie {surface} sui tempi di gara e posizioni finali')
        plt.xlabel(surface)
        plt.ylabel('Posizione in gara')
        plt.show()

In [None]:
# Analisi delle Prestazioni per Età
age_bins = [18, 25, 30, 35, 40, 50]
df['age_group'] = pd.cut(df['cyclist_age'], bins=age_bins)

plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='age_group', y='position')
plt.title('Prestazioni per fasce d\'età')
plt.xlabel('Fascia d\'età')
plt.ylabel('Posizione in gara')
plt.show()
