# CSV Premier League 2023/2024

## Database depuis un CSV

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("BPL.csv")
#https://footystats.org/fr/england/premier-league

In [3]:
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Home,Unnamed: 3,Unnamed: 4,Unnamed: 5,Away,Unnamed: 7,Unnamed: 8,Unnamed: 9,Total,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17
0,,,P,W,D,L,P,W,D,L,P,W,D,L,F,A,+/-,Pts
1,C,Manchester City,19,14,5,0,19,14,2,3,38,28,7,3,96,34,+62,91
2,2,Arsenal,19,15,2,2,19,13,3,3,38,28,5,5,91,29,+62,89
3,3,Liverpool,19,15,3,1,19,9,7,3,38,24,10,4,86,41,+45,82
4,4,Aston Villa,19,12,4,3,19,8,4,7,38,20,8,10,76,61,+15,68
5,5,Tottenham Hotspur,19,13,0,6,19,7,6,6,38,20,6,12,74,61,+13,66
6,6,Chelsea,19,11,4,4,19,7,5,7,38,18,9,11,77,63,+14,63
7,7,Newcastle United,19,12,4,3,19,6,2,11,38,18,6,14,85,62,+23,60
8,8,Manchester United,19,10,3,6,19,8,3,8,38,18,6,14,57,58,-1,60
9,9,West Ham United,19,7,8,4,19,7,2,10,38,14,10,14,60,74,-14,52


## Agrégation des matchs Away et Home

In [4]:
import pandas as pd

# Charger le fichier CSV
file_path = 'BPL.csv'
data = pd.read_csv(file_path)

# Supprimer les en-têtes redondants si nécessaire (par exemple, la première ligne)
data = data.drop(index=0)

# Redéfinir les noms de colonnes
data.columns = [
    'Position', 'Club', 'Home_Played', 'Home_Wins', 'Home_Draws', 'Home_Losses', 'Away_Played',
    'Away_Wins', 'Away_Draws', 'Away_Losses', 'Total_Played', 'Total_Wins', 'Total_Draws', 'Total_Losses',
    'Goals_For', 'Goals_Against', 'Goal_Difference', 'Points'
]

# Convertir les colonnes en type numérique pour effectuer les calculs d'agrégation
for col in ['Home_Played', 'Home_Wins', 'Home_Draws', 'Home_Losses', 'Away_Played',
            'Away_Wins', 'Away_Draws', 'Away_Losses', 'Goals_For', 'Goals_Against']:
    data[col] = pd.to_numeric(data[col], errors='coerce')

# Agréger les statistiques en combinant 'Home' et 'Away'
data['Total_Played'] = data['Home_Played'] + data['Away_Played']
data['Total_Wins'] = data['Home_Wins'] + data['Away_Wins']
data['Total_Draws'] = data['Home_Draws'] + data['Away_Draws']
data['Total_Losses'] = data['Home_Losses'] + data['Away_Losses']
data['Goals_For'] = data['Goals_For']  # Pas besoin d'agréger car déjà totalisé
data['Goals_Against'] = data['Goals_Against']  # Pas besoin d'agréger car déjà totalisé

# Garder uniquement les colonnes agrégées
data = data[['Position', 'Club', 'Total_Played', 'Total_Wins', 'Total_Draws', 'Total_Losses', 'Goals_For', 'Goals_Against', 'Points']]

# Afficher les premières lignes pour vérifier la structure
data.head()


Unnamed: 0,Position,Club,Total_Played,Total_Wins,Total_Draws,Total_Losses,Goals_For,Goals_Against,Points
1,C,Manchester City,38,28,7,3,96,34,91
2,2,Arsenal,38,28,5,5,91,29,89
3,3,Liverpool,38,24,10,4,86,41,82
4,4,Aston Villa,38,20,8,10,76,61,68
5,5,Tottenham Hotspur,38,20,6,12,74,61,66


In [84]:
# Enregistrer le DataFrame en fichier CSV
data.to_csv('PremierLeague2023_2024.csv', index=False)

# Scraping

In [13]:
import requests
from bs4 import BeautifulSoup
import json

# URL de la page à scraper
url = 'https://www.eurosport.fr/football/premier-league/2019-2020/classements.shtml'

# Récupérer le contenu de la page
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Trouver la table des classements
table = soup.find('tbody')

# Initialiser une liste pour stocker les informations des équipes
teams_data = []

# Trouver toutes les lignes de la table, en excluant l'entête
rows = table.find_all('tr')

# Parcourir chaque ligne et extraire les informations
for row in rows:
    # Extraire les informations
    ranking = row.find_all('td')[1].text.strip()
    team_name = row.find('a', href=True).text.strip()
    game_played = row.find_all('td')[6].text.strip()
    win = row.find_all('td')[7].text.strip()
    draw = row.find_all('td')[8].text.strip()
    loss = row.find_all('td')[9].text.strip()
    point = row.find_all('td', {'data-testid': 'table-cell-value'})[-1].text.strip()
    
    # Créer un dictionnaire pour l'équipe et ajouter au tableau principal
    team_info = {
        "ranking": ranking,
        "team_name": team_name,
        "games_played": game_played,
        "wins": win,
        "draws": draw,
        "losses": loss,
        "points": point
    }
    teams_data.append(team_info)

# Enregistrer les données en format JSON
with open('PremierLeague2019_2020.json', 'w', encoding='utf-8') as f:
    json.dump(teams_data, f, ensure_ascii=False, indent=4)

print("Les données ont été sauvegardées dans 'PremierLeague2019_2020.json'")


## Insert mon json dans une table MYSQL

In [6]:
import pandas as pd
from sqlalchemy import create_engine
import json

# Charger le fichier JSON
with open('PremierLeague2019_2020.json', 'r') as file:
    data = json.load(file)

# Convertir le JSON en DataFrame
df = pd.DataFrame(data)

# Configuration de la base de données MySQL
host = "localhost"
user = "root"
password = "root"
database = "premierleague_db"
database_url = f"mysql+mysqlconnector://{user}:{password}@{host}/{database}"

# Créer l'engine SQLAlchemy
engine = create_engine(database_url)

# Insérer les données dans la table MySQL
df.to_sql('premierleague_2019_2020', con=engine, if_exists='replace', index=False)

print("Données insérées avec succès dans la base de données !")


Données insérées avec succès dans la base de données !


# Scraping APi

In [1]:
import requests

# Liste des équipes à interroger
teams = [
    'Manchester City', 'Arsenal', 'Liverpool', 'Aston Villa', 'Tottenham Hotspur',
    'Chelsea', 'Newcastle United', 'Manchester United', 'West Ham United', 'Crystal Palace',
    'Brighton & Hove Albion', 'AFC Bournemouth', 'Fulham', 'Wolverhampton Wanderers', 
    'Everton', 'Brentford', 'Nottingham Forest', 'Luton Town', 'Burnley', 'Sheffield United'
]

# Base URL de l'API
base_url = "https://transfermarkt-api.fly.dev/clubs/search/"

# Fonction pour récupérer le premier marketValue pour chaque équipe
def get_first_market_value(team_name):
    # Remplacer les espaces par des %20 et construire l'URL
    team_name_encoded = team_name.replace(' ', '%20')
    url = f"{base_url}{team_name_encoded}?page_number=1"
    
    response = requests.get(url)
    
    if response.status_code == 200:
        data = response.json()
        if data['results']:
            return data['results'][0]['marketValue']
    return None

# Itérer sur chaque équipe et afficher le résultat
for team in teams:
    market_value = get_first_market_value(team)
    if market_value:
        print(f"{team} : {market_value}")
    else:
        print(f"Aucun résultat pour {team}.")


Manchester City : €1.26bn
Arsenal : €1.17bn
Liverpool : €931.00m
Aston Villa : €615.45m
Tottenham Hotspur : €788.30m
Chelsea : €963.20m
Newcastle United : €657.65m
Manchester United : €854.15m
West Ham United : €481.50m
Crystal Palace : €438.00m
Brighton & Hove Albion : €574.60m
AFC Bournemouth : €354.85m
Fulham : €346.00m
Wolverhampton Wanderers : €379.70m
Everton : €353.10m
Brentford : €403.03m
Nottingham Forest : €427.70m
Luton Town : €101.15m
Burnley : €187.50m
Sheffield United : €89.10m


In [2]:
import requests
import pandas as pd

# Liste des équipes à interroger
teams = [
    'Manchester City', 'Arsenal', 'Liverpool', 'Aston Villa', 'Tottenham Hotspur',
    'Chelsea', 'Newcastle United', 'Manchester United', 'West Ham United', 'Crystal Palace',
    'Brighton & Hove Albion', 'AFC Bournemouth', 'Fulham', 'Wolverhampton Wanderers', 
    'Everton', 'Brentford', 'Nottingham Forest', 'Luton Town', 'Burnley', 'Sheffield United'
]

# Base URL de l'API
base_url = "https://transfermarkt-api.fly.dev/clubs/search/"

# Fonction pour récupérer le premier marketValue pour chaque équipe
def get_first_market_value(team_name):
    # Remplacer les espaces par des %20 et construire l'URL
    team_name_encoded = team_name.replace(' ', '%20')
    url = f"{base_url}{team_name_encoded}?page_number=1"
    
    response = requests.get(url)
    
    if response.status_code == 200:
        data = response.json()
        if data['results']:
            return data['results'][0]['marketValue']
    return None

# Listes pour stocker les résultats
team_names = []
market_values = []

# Itérer sur chaque équipe et récupérer le résultat
for team in teams:
    market_value = get_first_market_value(team)
    team_names.append(team)
    market_values.append(market_value if market_value else 'Aucun résultat')

# Créer un DataFrame avec les résultats
df = pd.DataFrame({
    'Club': team_names,
    'Market Value': market_values
})

# Afficher le DataFrame
df.head()


Unnamed: 0,Club,Market Value
0,Manchester City,€1.26bn
1,Arsenal,€1.17bn
2,Liverpool,€931.00m
3,Aston Villa,€615.45m
4,Tottenham Hotspur,€788.30m


In [3]:
df.head()

Unnamed: 0,Club,Market Value
0,Manchester City,€1.26bn
1,Arsenal,€1.17bn
2,Liverpool,€931.00m
3,Aston Villa,€615.45m
4,Tottenham Hotspur,€788.30m


# Création de ma table sur Mysql

In [4]:
import mysql.connector
import pandas as pd


# Paramètres de connexion à MySQL
db_config = {
    'host': 'localhost',        # L'adresse de ton serveur MySQL
    'user': 'root',             # Ton utilisateur MySQL
    'password': 'root',         # Le mot de passe de ton utilisateur
    'database': 'premierleague_db'  # Le nom de ta base de données (tu peux créer une nouvelle base si nécessaire)
}

# Connexion à MySQL
conn = mysql.connector.connect(**db_config)
cursor = conn.cursor()

# Créer une table si elle n'existe pas déjà
create_table_query = """
CREATE TABLE IF NOT EXISTS premierleague_market_values (
    id INT AUTO_INCREMENT PRIMARY KEY,
    Club VARCHAR(255),
    Market_Value VARCHAR(255)
)
"""
cursor.execute(create_table_query)

# Insérer les données du DataFrame dans la table
for _, row in df.iterrows():
    insert_query = """
    INSERT INTO premierleague_market_values (Club, Market_Value)
    VALUES (%s, %s)
    """
    cursor.execute(insert_query, (row['Club'], row['Market Value']))

# Commit les changements
conn.commit()

# Fermer la connexion
cursor.close()
conn.close()

print("Les données ont été insérées avec succès dans la base de données MySQL.")


Les données ont été insérées avec succès dans la base de données MySQL.
