# 🏈 Analyse et Prédiction de la Valeur des Joueurs

Ce notebook démontre l'utilisation du pipeline Big Data pour prédire la valeur marchande des joueurs de football.

In [None]:
# Imports nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pyspark.sql import SparkSession
import plotly.express as px
import plotly.graph_objects as go

# Configuration des graphiques
plt.style.use('ggplot')
sns.set_palette('husl')

print('📊 Environnement d\'analyse configuré!')

In [None]:
# Initialisation de Spark
spark = SparkSession.builder \
    .appName('FootballAnalysis') \
    .getOrCreate()

print(f'✅ Session Spark initialisée: {spark.version}')

In [None]:
# Chargement des données
df = pd.read_csv('../data/players_data.csv')
print(f'📈 Données chargées: {len(df)} joueurs')
print(f'📊 Colonnes: {len(df.columns)}')
df.head()

In [None]:
# Analysis exploratoire
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Distribution des âges
axes[0,0].hist(df['Age'], bins=30, alpha=0.7)
axes[0,0].set_title('Distribution des Âges')
axes[0,0].set_xlabel('Âge')

# Distribution des valeurs
axes[0,1].hist(np.log(df['Value'] + 1), bins=30, alpha=0.7)
axes[0,1].set_title('Distribution des Valeurs (log)')
axes[0,1].set_xlabel('Log(Valeur)')

# Relation Âge vs Valeur
axes[1,0].scatter(df['Age'], df['Value'], alpha=0.5)
axes[1,0].set_title('Âge vs Valeur')
axes[1,0].set_xlabel('Âge')
axes[1,0].set_ylabel('Valeur')

# Overall Rating vs Valeur
axes[1,1].scatter(df['Overall_rating'], df['Value'], alpha=0.5)
axes[1,1].set_title('Overall Rating vs Valeur')
axes[1,1].set_xlabel('Overall Rating')
axes[1,1].set_ylabel('Valeur')

plt.tight_layout()
plt.show()