In [27]:
import requests
import pandas as pd
import os
import dotenv as dotenv
from time import sleep

In [28]:
dotenv.load_dotenv()
api_key=os.getenv("apikey_api-football")

API-FOOTBALL

https://rapidapi.com/api-sports/api/api-football

In [32]:
import requests
import pandas as pd
import os
from time import sleep

# Datos generales
url = "https://api-football-v1.p.rapidapi.com/v3/players"
headers = {
    'x-rapidapi-host': "api-football-v1.p.rapidapi.com",
    'x-rapidapi-key': api_key,
}

# ID de la Premier League en la API-Football
league_id = 39
season = 2020

# Lista para almacenar los datos de cada jugador
players_data = []

# Inicializar los parámetros
params = {
    "league": league_id,
    "season": season,
    "page": 0  # Iniciar en la página 0
}

# Realizar la primera solicitud para obtener el total de páginas
response = requests.get(url, headers=headers, params=params)
data = response.json()

# Verificar el total de páginas
if 'paging' in data and 'total' in data['paging']:
    total_pages = data['paging']['total']
    print(f"Total de páginas disponibles: {total_pages}")
else:
    print("No se pudo obtener el total de páginas.")
    total_pages = 0

# Repetir hasta que se alcancen todas las páginas
while params['page'] < total_pages:
    params['page'] += 1  # Incrementar la página en cada iteración
    print(f"Solicitando página {params['page']}...")  # Mostrar el progreso
    response = requests.get(url, headers=headers, params=params)
    data = response.json()

    # Verifica si hay datos en la respuesta
    if 'response' in data and data['response']:
        for player_info in data['response']:
            player = player_info['player']
            statistics = player_info['statistics'][0] if player_info['statistics'] else {}

            # Extraer y almacenar la información relevante del jugador y estadísticas
            players_data.append({
                "season": season,
                "player_id": player.get("id"),
                "player_name": player.get("name"),
                "age": player.get("age"),
                "nationality": player.get("nationality"),
                "team": statistics.get("team", {}).get("name"),
                "games_played": statistics.get("games", {}).get("appearences"),
                "minutes": statistics.get("games", {}).get("minutes"),
                "goals": statistics.get("goals", {}).get("total"),
                "assists": statistics.get("goals", {}).get("assists"),
                "yellow_cards": statistics.get("cards", {}).get("yellow"),
                "red_cards": statistics.get("cards", {}).get("red"),
            })
    else:
        print("No hay más datos disponibles o ocurrió un error.")
        break
    
    # Ajustar el tiempo de espera entre solicitudes
    sleep(2)

# Crear un DataFrame a partir de los datos recopilados
df_players = pd.DataFrame(players_data)

# Crear la carpeta si no existe
os.makedirs('data', exist_ok=True)
df_players.to_csv(f'../../data/base/players_stats_season_{season}.csv', index=False)

print("Datos recopilados y guardados con éxito.")


Total de páginas disponibles: 37
Solicitando página 1...
Solicitando página 2...
Solicitando página 3...
Solicitando página 4...
Solicitando página 5...
Solicitando página 6...
Solicitando página 7...
Solicitando página 8...
Solicitando página 9...
Solicitando página 10...
Solicitando página 11...
Solicitando página 12...
Solicitando página 13...
Solicitando página 14...
Solicitando página 15...
Solicitando página 16...
Solicitando página 17...
Solicitando página 18...
Solicitando página 19...
Solicitando página 20...
Solicitando página 21...
Solicitando página 22...
Solicitando página 23...
Solicitando página 24...
Solicitando página 25...
Solicitando página 26...
Solicitando página 27...
Solicitando página 28...
Solicitando página 29...
Solicitando página 30...
Solicitando página 31...
Solicitando página 32...
Solicitando página 33...
Solicitando página 34...
Solicitando página 35...
Solicitando página 36...
Solicitando página 37...
Datos recopilados y guardados con éxito.


In [22]:
response

<Response [200]>

In [26]:
data

{'message': 'You have exceeded the rate limit per minute for your plan, BASIC, by the API provider'}

In [20]:
df_players

Unnamed: 0,season,player_id,player_name,age,nationality,team,games_played,minutes,goals,assists,yellow_cards,red_cards
0,2011,19325,N. Dyer,34,England,Swansea,34,2376,5,,1,1
1,2011,19332,W. Routledge,36,England,Swansea,28,1459,1,,2,0
2,2011,19526,C. Gardner,34,England,Sunderland,30,2113,3,,5,0
3,2011,28263,Csaba Somogyi,36,Hungary,Fulham,0,0,0,,0,0
4,2011,42880,Daniel Jesse Boateng,29,England,Arsenal,0,0,0,,0,0
5,2011,44326,Ali Al Habsi,40,Oman,Wigan,38,3420,0,,1,0
6,2011,83018,S. Sidwell,39,England,Fulham,14,1082,1,,4,0
7,2011,90505,S. Taylor,41,England,Manchester City,0,0,0,,0,0
8,2011,90511,Victor Chinedu Anichebe,29,Nigeria,Everton,12,444,5,,1,0
9,2011,111312,Carlos Cuéllar,40,Spain,Aston Villa,18,1493,0,,2,0


API FOOTBALL-DATA

In [None]:
import pandas as pd

def obtener_clasificacion_premier(temporada):
    # La URL correcta para las temporadas en Football-Data.co.uk
    url = f"https://www.football-data.co.uk/mmz4281/{temporada[-2:]}{str(int(temporada[-2:]) + 1)}/E0.csv"
    
    try:
        # Lee el archivo CSV directamente desde la URL en un DataFrame
        df = pd.read_csv(url)
        
        # Asegúrate de que las columnas esperadas están en el archivo
        if 'HomeTeam' in df.columns and 'AwayTeam' in df.columns and 'FTR' in df.columns:
            # Agrupar por equipo para partidos en casa
            clasificacion_local = df.groupby('HomeTeam').agg({
                'FTHG': 'sum',   # Goles a favor en casa
                'FTAG': 'sum',   # Goles en contra en casa
                'FTR': lambda x: sum([3 if r == 'H' else 1 if r == 'D' else 0 for r in x])  # Puntos en casa
            }).rename(columns={'FTHG': 'goles_favor_local', 'FTAG': 'goles_contra_local', 'FTR': 'puntos_local'}).reset_index()
            
            # Cambiar nombre de la columna 'HomeTeam' a 'equipo' para mantener consistencia
            clasificacion_local = clasificacion_local.rename(columns={'HomeTeam': 'equipo'})
            
            # Agrupar por equipo para partidos como visitante
            clasificacion_visitante = df.groupby('AwayTeam').agg({
                'FTAG': 'sum',   # Goles a favor como visitante
                'FTHG': 'sum',   # Goles en contra como visitante
                'FTR': lambda x: sum([3 if r == 'A' else 1 if r == 'D' else 0 for r in x])  # Puntos como visitante
            }).rename(columns={'FTAG': 'goles_favor_visitante', 'FTHG': 'goles_contra_visitante', 'FTR': 'puntos_visitante'}).reset_index()
            
            # Cambiar nombre de la columna 'AwayTeam' a 'equipo'
            clasificacion_visitante = clasificacion_visitante.rename(columns={'AwayTeam': 'equipo'})
            
            # Unir ambos DataFrames (local y visitante) por 'equipo'
            clasificacion = pd.merge(clasificacion_local, clasificacion_visitante, on='equipo', how='outer')
            
            # Calcular totales de goles y puntos
            clasificacion['goles_favor_total'] = clasificacion['goles_favor_local'] + clasificacion['goles_favor_visitante']
            clasificacion['goles_contra_total'] = clasificacion['goles_contra_local'] + clasificacion['goles_contra_visitante']
            clasificacion['puntos_total'] = clasificacion['puntos_local'] + clasificacion['puntos_visitante']
            
            # Ordenar por puntos totales para obtener la posición
            clasificacion = clasificacion.sort_values(by='puntos_total', ascending=False).reset_index(drop=True)
            clasificacion['posicion'] = clasificacion.index + 1  # Añadir posición
            
            # Ajustar el formato de la temporada
            temporada_ajustada = f"{int(temporada[:4]) + 1}-{int(temporada[4:]) + 1}"
            clasificacion['temporada'] = temporada_ajustada
            
            # Seleccionamos todas las columnas relevantes en español
            return clasificacion[['temporada', 'posicion', 'equipo', 'goles_favor_total', 'goles_contra_total', 'puntos_total', 
                                  'goles_favor_local', 'goles_contra_local', 'puntos_local', 
                                  'goles_favor_visitante', 'goles_contra_visitante', 'puntos_visitante']]
        
        else:
            print(f"Las columnas esperadas no están en el archivo para la temporada {temporada}")
            return pd.DataFrame()
    
    except Exception as e:
        print(f"Error al procesar la temporada {temporada}: {e}")
        return pd.DataFrame()

# Ejemplo de uso para las últimas 10 temporadas (2013-2023)
temporadas = [f"{year}{year+1}" for year in range(2004, 2023)]

# Obtener datos para cada temporada y concatenar en un solo DataFrame
clasificacion_premier = pd.concat([obtener_clasificacion_premier(temporada) for temporada in temporadas], ignore_index=True)

clasificacion_premier.to_csv(f'../../data/base/clasificaciones_premier.csv', index=False)