In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


In [None]:
# Charger les données
file_path = "sport.csv"  
data = pd.read_csv(file_path)

# Affichage des premières lignes
print("Aperçu des données :")
display(data.head())

# Informations sur les colonnes
print("\nInformations générales :")
data.info()

# Vérification des valeurs manquantes
print("\nValeurs manquantes :")
print(data.isnull().sum())


In [None]:
# Distribution des valeurs pour les colonnes numériques
numerical_cols = data.select_dtypes(include=[np.number]).columns
for col in numerical_cols:
    plt.figure(figsize=(10, 6))
    sns.histplot(data[col], kde=True)
    plt.title(f"Distribution de {col}")
    plt.show()


In [None]:
# Diagramme circulaire pour les colonnes catégoriques (si applicable)
categorical_cols = data.select_dtypes(include=["object"]).columns
for col in categorical_cols:
    plt.figure(figsize=(10, 6))
    data[col].value_counts().plot.pie(autopct='%1.1f%%')
    plt.title(f"Répartition des catégories dans {col}")
    plt.ylabel("")
    plt.show()

In [None]:
# Boîtes à moustaches pour détecter les valeurs extrêmes
for col in numerical_cols:
    plt.figure(figsize=(10, 6))
    sns.boxplot(data[col])
    plt.title(f"Boîte à moustaches pour {col}")
    plt.show()

In [None]:

# Matrice de corrélation
plt.figure(figsize=(12, 8))
corr_matrix = data[numerical_cols].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matrice de corrélation")
plt.show()


In [None]:
# Gestion des valeurs manquantes
data = data.dropna()  # Suppression des lignes avec valeurs manquantes

# Encodage des colonnes catégoriques
encoder = OneHotEncoder()
encoded_cats = encoder.fit_transform(data[categorical_cols]).toarray()
encoded_cat_cols = encoder.get_feature_names_out(categorical_cols)

encoded_data = pd.DataFrame(encoded_cats, columns=encoded_cat_cols)
processed_data = pd.concat([data[numerical_cols].reset_index(drop=True), encoded_data], axis=1)

# Normalisation des données numériques
scaler = StandardScaler()
scaled_data = scaler.fit_transform(processed_data)

# Transformation finale en DataFrame
final_data = pd.DataFrame(scaled_data, columns=processed_data.columns)


In [None]:
# Diviser les données en ensembles d'entraînement et de test
X = final_data.drop(columns=["Weight (kg)"])  # Remplacez "target" par la colonne cible
y = data["Height (m)"]  # Remplacez "target" par la colonne cible



X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modèle RandomForest
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
model.fit(X_train, y_train)


# Prédictions et évaluation
y_pred = model.predict(X_test)
print("Accuracy :", accuracy_score(y_test, y_pred))
print("\nMatrice de confusion :\n", confusion_matrix(y_test, y_pred))
print("\nRapport de classification :\n", classification_report(y_test, y_pred))




In [None]:
# Implémentation du GMM (comme dans la version précédente)
def gmm_from_scratch(X, k=3, max_iter=100, tol=1e-4):
    # Code similaire à l'algorithme Expectation-Maximization mentionné plus tôt
    pass

# Utilisation du GMM
clusters = gmm_from_scratch(X, k=3)


In [None]:
# Visualisation des clusters trouvés
plt.figure(figsize=(10, 8))
sns.scatterplot(x=X.iloc[:, 0], y=X.iloc[:, 1], hue=clusters)
plt.title("Clusters trouvés par GMM")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend(title="Cluster")
plt.show()
