# PROJET SQL / PYTHON – Analyse de joueurs de football

Auteur : **Noah Tontolo**

Ce notebook présente l'analyse d'un petit effectif de joueurs professionnels :
- nettoyage des données (CSV)
- analyses avec pandas (équivalent SQL)
- visualisations avec matplotlib


In [None]:
import pandas as pd 
import matplotlib.pyplot as plt 

## 1. Chargement et apperçu des données

In [None]:
df = pd.read_csv("joueurs.csv")
df.head()

In [None]:
df.info()
df.describe(include="all")

## 2. Nettoyage de données
- Vérification valeurs manquantes
- Vérification doublons
- Correction des types
- Ajout de la colonne 'potentil'

In [None]:
print("--- Valeurs manquantes ---")
print(df.insa().sum())

print("\n--- Types avants correction ---")
print(df.types)

df["age"] = df["age"].astype(int)
df["overall"] = df["overall"].astype(int)
df["vitesse"] = df["vitesse"].astype(int)
df["salaire"] = df["salaire"].astype(int)

df["potentiel"] = 100 - df["age"]

print("\n--- Types après correction ---")
print(df.types)
df.head()

## 3. Analyses principales (équivalent SQL -> pandas)

In [None]:
print("\n--- Top 3 joueurs les plus rapides ---")
display(df.sort_values(by="vitesse", ascending=False).head(3))

print("\n--- Moyenne overall par club ---")
display(df.groupby("club_name")["overall"].mean())

print("\n--- Salaire total par pays ---")
display(df.groupby("pays")["salaire"].sum())

print("\n--- Joueurs explosifs (vitesse >= 90) ---")
display(df[df["vitesse"] >= 90])

## 4. Score composite

In [None]:
df["score"] = ( df["overall"]*0.5
               + df["vitesse"]*0.3
               + df["potentiel"]*0.2)
df[["name", "score"]].sort_values(by="score", ascending=False)

## 5. Visualisations

In [None]:
# Exemple pour le top 5 overall

plt.figure(figsize=(8,5))
plt.bar(df["name"], df["score"])
plt.title("Score composite par joueur")
plt.xlabel("Joueur")
plt.ylabel("Score")
plt.tight_layout()
plt.savefig("score_composite.png", dpi=150, bbox_inches='tight')
plt.show()

# Scatter vitesse vs overall
plt.figure(figsize=(7,5))
plt.scatter(df["vitesse"], df["overall"])
for i in range(len(df)):
    plt.text(df["vitesse"][i]+0.2, df["overall"][i]+0.2, df["name"][i], fontsize=8)

plt.title("Relation entre vitesse et overall")
plt.xlabel("Vitesse")
plt.ylabel("Overall")
plt.tight_layout()
plt.savefig("scatter_vitesse_overall.png", dpi=150, bbox_inches='tight')
plt.show()

df.to_csv("joueurs_clean.csv", index=False)


# Conclusion

Ce projet montre :
- la capacité à nettoyer un dataset réel,
- reproduire des analyses SQL en Pandas,
- créer des KPIs (score composite),
- visualiser les données avec Matplotlib,
- structurer un projet en notebook pro.

