In [47]:
import requests
import json

# url = "https://www.thesportsdb.com/api/v1/json/3/eventsseason.php?id=4484&s=2023-2024" # matches of the season 2023-2024 for ligue 1
url = "https://www.thesportsdb.com/api/v1/json/3/eventsround.php?id=4484&r=150&s=2019-2020" # For league 1 the round correspond to the number of the day in the competition, there is 38 days in a season of ligue 1 
# url = "https://www.thesportsdb.com/api/v1/json/3/search_all_leagues.php?c=France&s=Soccer"
api_key = "3"

headers = {
    "X-API-KEY": f"{api_key}",
    "Content-Type": "application/json"
}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    print(json.dumps(response.json(), indent=4))
else:
    print(f"Request failed with status code: {response.status_code}")

{
    "events": [
        {
            "idEvent": "677746",
            "idAPIfootball": "324111",
            "strEvent": "Lyon vs Paris SG",
            "strEventAlternate": "Paris SG @ Lyon",
            "strFilename": "Coupe de France 2020-03-04 Lyon vs Paris SG",
            "strSport": "Soccer",
            "idLeague": "4484",
            "strLeague": "Coupe de France",
            "strLeagueBadge": "https://www.thesportsdb.com/images/media/league/badge/l6fitb1546469041.png",
            "strSeason": "2019-2020",
            "strDescriptionEN": "",
            "strHomeTeam": "Lyon",
            "strAwayTeam": "Paris SG",
            "intHomeScore": "1",
            "intRound": "150",
            "intAwayScore": "5",
            "intSpectators": null,
            "strOfficial": null,
            "strTimestamp": "2020-03-04T20:10:00+00:00",
            "dateEvent": "2020-03-04",
            "dateEventLocal": "2020-03-04",
            "strTime": "20:10:00",
            "strTimeLoca

In [16]:
import requests
import json
import pandas as pd
import time

def create_match_dataset_multiple_seasons_ligue_1(league_id=4334, start_season, end_season):
    """
    Crée un dataset Pandas contenant les informations des matchs de plusieurs saisons de football pour l'Olympique Lyonnais
    en utilisant l'endpoint eventsround.php et en respectant la limite de 100 requêtes par minute.

    Args:
        league_id (int): L'identifiant de la ligue dans l'API (e.g., 4334 pour la Ligue 1).
        start_season (int): L'année de début de la première saison (e.g., 2012).
        end_season (int): L'année de début de la dernière saison (e.g., 2024).

    Returns:
        pandas.DataFrame: Un DataFrame contenant les informations des matchs de l'OL, ou None si une des requêtes a échoué.
    """

    all_data = []
    ol_team_id = "133713"  # ID de l'Olympique Lyonnais
    api_key = "3"
    headers = {
        "X-API-KEY": f"{api_key}",
        "Content-Type": "application/json"
    }
    request_count = 0
    start_time = time.time()

    for year in range(start_season, end_season + 1):
        season = f"{year}-{year + 1}"
        print(f"Récupération des données pour la saison {season}...")

        for round_number in range(1, 39):  # Boucle sur les rounds (journées) de 1 à 38
            # Gestion de la limite de requêtes par minute
            if request_count >= 100:
                elapsed_time = time.time() - start_time
                if elapsed_time < 120:
                    sleep_time = 120 - elapsed_time
                    print(f"Limite de requêtes atteinte. Attente de {sleep_time:.2f} secondes...")
                    time.sleep(sleep_time)
                request_count = 0
                start_time = time.time()

            print(f"  Récupération des données pour la journée {round_number}...")
            url = f"https://www.thesportsdb.com/api/v1/json/3/eventsround.php?id={league_id}&r={round_number}&s={season}"

            response = requests.get(url, headers=headers)
            request_count += 1

            if response.status_code == 200:
                data = response.json()
                if "events" in data and data["events"]:
                    events = data["events"]
                    for event in events:
                        # Filtrer les matchs de l'OL
                        if event["idHomeTeam"] == ol_team_id or event["idAwayTeam"] == ol_team_id:
                            all_data.append({
                                "idEvent": event["idEvent"],
                                "strEvent": event["strEvent"],
                                "strSeason": event["strSeason"],
                                "intHomeScore": event["intHomeScore"],
                                "intAwayScore": event["intAwayScore"],
                                "idHomeTeam": event["idHomeTeam"],
                                "idAwayTeam": event["idAwayTeam"],
                                "strTimestamp": event["strTimestamp"],
                                "dateEvent": event["dateEvent"],
                                "strTime": event["strTime"],
                                "strLeague": event["strLeague"],
                                "idLeague": event["idLeague"],
                                "strCountry": event["strCountry"],
                            })
                else:
                    print(f"    Aucun événement trouvé pour la ligue {league_id}, la saison {season} et la journée {round_number}.")
            else:
                print(f"    Request failed with status code: {response.status_code} pour la saison {season}, journée {round_number}")
                return None  # Arrête la fonction si une requête échoue

    return pd.DataFrame(all_data)

# Exemple d'utilisation:
league_id = 4334  # Ligue 1
start_season = 2012
end_season = 2024
df = create_match_dataset_multiple_seasons_ligue_1(league_id, start_season, end_season)

if df is not None:
    print(df.head())
    print(df.shape)

Récupération des données pour la saison 2012-2013...
  Récupération des données pour la journée 1...
  Récupération des données pour la journée 2...
  Récupération des données pour la journée 3...
  Récupération des données pour la journée 4...
  Récupération des données pour la journée 5...
  Récupération des données pour la journée 6...
  Récupération des données pour la journée 7...
  Récupération des données pour la journée 8...
  Récupération des données pour la journée 9...
  Récupération des données pour la journée 10...
  Récupération des données pour la journée 11...
  Récupération des données pour la journée 12...
  Récupération des données pour la journée 13...
  Récupération des données pour la journée 14...
  Récupération des données pour la journée 15...
  Récupération des données pour la journée 16...
  Récupération des données pour la journée 17...
  Récupération des données pour la journée 18...
  Récupération des données pour la journée 19...
  Récupération des donnée

In [17]:
df.head(100000)

Unnamed: 0,idEvent,strEvent,strSeason,intHomeScore,intAwayScore,idHomeTeam,idAwayTeam,strTimestamp,dateEvent,strTime,strLeague,idLeague,strCountry
0,460132,Rennes vs Lyon,2012-2013,0,1,133719,133713,,2012-08-11,18:00:00+00:00,French Ligue 1,4334,
1,460141,Lyon vs Troyes,2012-2013,4,1,133713,134789,,2012-08-18,14:00:00+00:00,French Ligue 1,4334,
2,460150,Evian Thonon Gaillard vs Lyon,2012-2013,1,1,133705,133713,,2012-08-24,17:45:00+00:00,French Ligue 1,4334,
3,460161,Lyon vs Valenciennes,2012-2013,3,2,133713,133706,,2012-09-01,14:00:00+00:00,French Ligue 1,4334,
4,460178,Lyon vs Ajaccio,2012-2013,2,0,133713,133702,,2012-09-16,14:00:00+00:00,French Ligue 1,4334,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
468,2076484,St Etienne vs Lyon,2024-2025,,,133717,133713,2025-04-20T00:00:00,2025-04-20,00:00:00,French Ligue 1,4334,France
469,2076501,Lyon vs Rennes,2024-2025,,,133713,133719,2025-04-27T00:00:00,2025-04-27,00:00:00,French Ligue 1,4334,France
470,2076502,Lyon vs Lens,2024-2025,,,133713,133822,2025-05-04T00:00:00,2025-05-04,00:00:00,French Ligue 1,4334,France
471,2076519,Monaco vs Lyon,2024-2025,,,133823,133713,2025-05-11T00:00:00,2025-05-11,00:00:00,French Ligue 1,4334,Monaco


In [38]:
import pandas as pd

# df.to_pickle('raw_data_ol_match_ligue_1.pkl')
df = pd.read_pickle('raw_data_ol_match_ligue_1.pkl')

In [48]:
import requests
import json
import pandas as pd
import time

def add_coupe_de_france_match_dataset_multiple_seasons(df_ligue1, start_season, end_season):
    """
    Ajoute au dataset existant les informations des matchs de Coupe de France de football pour l'Olympique Lyonnais
    en utilisant l'endpoint eventsround.php et en respectant la limite de 100 requêtes par minute.

    Args:
        df_ligue1 (pandas.DataFrame): Le DataFrame contenant les informations des matchs de Ligue 1.
        start_season (int): L'année de début de la première saison (e.g., 2012).
        end_season (int): L'année de début de la dernière saison (e.g., 2024).

    Returns:
        pandas.DataFrame: Un DataFrame contenant les informations des matchs de l'OL en Ligue 1 et Coupe de France,
                         ou None si une des requêtes a échoué.
    """

    all_coupe_de_france_data = []
    ol_team_id = "133713"  # ID de l'Olympique Lyonnais
    coupe_de_france_league_id = 4484
    api_key = "3"
    headers = {
        "X-API-KEY": f"{api_key}",
        "Content-Type": "application/json"
    }
    request_count = 0
    start_time = time.time()
    coupe_de_france_rounds = [200, 150, 125, 16, 32, 64]

    for year in range(start_season, end_season + 1):
        season = f"{year}-{year + 1}"
        print(f"Récupération des données de la Coupe de France pour la saison {season}...")

        for round_number in coupe_de_france_rounds:
            # Gestion de la limite de requêtes par minute
            if request_count >= 100:
                elapsed_time = time.time() - start_time
                if elapsed_time < 60:  # Correction ici: la limite est de 100 requêtes par minute, donc on attend jusqu'à 60 secondes
                    sleep_time = 60 - elapsed_time
                    print(f"Limite de requêtes atteinte. Attente de {sleep_time:.2f} secondes...")
                    time.sleep(sleep_time)
                request_count = 0
                start_time = time.time()

            print(f"  Récupération des données pour le tour {round_number}...")
            url = f"https://www.thesportsdb.com/api/v1/json/3/eventsround.php?id={coupe_de_france_league_id}&r={round_number}&s={season}"

            response = requests.get(url, headers=headers)
            request_count += 1

            if response.status_code == 200:
                data = response.json()
                if "events" in data and data["events"]:
                    events = data["events"]
                    for event in events:
                        # Filtrer les matchs de l'OL
                        if event["idHomeTeam"] == ol_team_id or event["idAwayTeam"] == ol_team_id:
                            all_coupe_de_france_data.append({
                                "idEvent": event["idEvent"],
                                "strEvent": event["strEvent"],
                                "strSeason": event["strSeason"],
                                "intHomeScore": event.get("intHomeScore"), # Use .get() to handle potential missing keys
                                "intAwayScore": event.get("intAwayScore"), # Use .get() to handle potential missing keys
                                "idHomeTeam": event["idHomeTeam"],
                                "idAwayTeam": event["idAwayTeam"],
                                "strTimestamp": event.get("strTimestamp"), # Use .get() to handle potential missing keys
                                "dateEvent": event["dateEvent"],
                                "strTime": event["strTime"],
                                "strLeague": event["strLeague"],
                                "idLeague": event["idLeague"],
                                "strCountry": event.get("strCountry"), # Use .get() to handle potential missing keys
                            })
                else:
                    print(f"    Aucun événement trouvé pour la Coupe de France, la saison {season} et le tour {round_number}.")
            else:
                print(f"    Request failed with status code: {response.status_code} pour la saison {season}, tour {round_number}")
                return None  # Arrête la fonction si une requête échoue

    df_coupe_de_france = pd.DataFrame(all_coupe_de_france_data)

    if df_coupe_de_france.empty:
        print("Aucun match de Coupe de France trouvé pour l'OL durant les saisons spécifiées.")
        return df_ligue1  # Retourne le DataFrame de Ligue 1 si aucun match de Coupe de France n'est trouvé
    else:
        # Combiner les DataFrames
        combined_df = pd.concat([df_ligue1, df_coupe_de_france], ignore_index=True)
        return combined_df

# Exemple d'utilisation (en supposant que vous avez déjà exécuté la première fonction):
league_id = 4334  # Ligue 1
start_season = 2019
end_season = 2024
df_ligue1 = add_coupe_de_france_match_dataset_multiple_seasons(df, start_season, end_season)

Récupération des données de la Coupe de France pour la saison 2019-2020...
  Récupération des données pour le tour 200...
  Récupération des données pour le tour 150...
  Récupération des données pour le tour 125...
  Récupération des données pour le tour 16...
    Aucun événement trouvé pour la Coupe de France, la saison 2019-2020 et le tour 16.
  Récupération des données pour le tour 32...
    Aucun événement trouvé pour la Coupe de France, la saison 2019-2020 et le tour 32.
  Récupération des données pour le tour 64...
    Aucun événement trouvé pour la Coupe de France, la saison 2019-2020 et le tour 64.
Récupération des données de la Coupe de France pour la saison 2020-2021...
  Récupération des données pour le tour 200...
  Récupération des données pour le tour 150...
  Récupération des données pour le tour 125...
  Récupération des données pour le tour 16...
  Récupération des données pour le tour 32...
  Récupération des données pour le tour 64...
Récupération des données de la 

In [49]:
df_ligue1.head(100000)

Unnamed: 0,idEvent,strEvent,strSeason,intHomeScore,intAwayScore,idHomeTeam,idAwayTeam,strTimestamp,dateEvent,strTime,strLeague,idLeague,strCountry
0,460132,Rennes vs Lyon,2012-2013,0,1,133719,133713,,2012-08-11,18:00:00+00:00,French Ligue 1,4334,
1,460141,Lyon vs Troyes,2012-2013,4,1,133713,134789,,2012-08-18,14:00:00+00:00,French Ligue 1,4334,
2,460150,Evian Thonon Gaillard vs Lyon,2012-2013,1,1,133705,133713,,2012-08-24,17:45:00+00:00,French Ligue 1,4334,
3,460161,Lyon vs Valenciennes,2012-2013,3,2,133713,133706,,2012-09-01,14:00:00+00:00,French Ligue 1,4334,
4,460178,Lyon vs Ajaccio,2012-2013,2,0,133713,133702,,2012-09-16,14:00:00+00:00,French Ligue 1,4334,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
486,1936419,Lyon vs Lille,2023-2024,2,1,133713,133711,2024-02-07T17:30:00,2024-02-07,17:30:00,Coupe de France,4484,France
487,1931724,Bergerac Périgord vs Lyon,2023-2024,1,2,144767,133713,2024-01-19T19:45:00,2024-01-19,19:45:00,Coupe de France,4484,France
488,1922516,CA Pontarlier vs Lyon,2023-2024,0,3,142610,133713,2024-01-07T13:30:00,2024-01-07,13:30:00,Coupe de France,4484,France
489,2190050,Bourgoin-Jallieu vs Lyon,2024-2025,,,147564,133713,2025-01-15T17:00:00,2025-01-15,17:00:00,Coupe de France,4484,France
