## Librerías 

In [1]:
import pandas as pd 
import time
import random
import os
from datetime import datetime

lxml

## Creación del archivo de las siete ligas 

In [5]:
# Lista de URLs con las posiciones de las principales ligas de fútbol en ESPN
url = [
    'https://www.espn.com.co/futbol/posiciones/_/liga/eng.1',  # Premier League
    'https://www.espn.com.co/futbol/posiciones/_/liga/esp.1',  # LaLiga
    'https://www.espn.com.co/futbol/posiciones/_/liga/ita.1',  # Serie A
    'https://www.espn.com.co/futbol/posiciones/_/liga/ger.1',  # Bundesliga
    'https://www.espn.com.co/futbol/posiciones/_/liga/fra.1',  # Ligue 1
    'https://www.espn.com.co/futbol/posiciones/_/liga/ned.1',  # Eredivisie
    'https://www.espn.com.co/futbol/posiciones/_/liga/por.1'   # Liga Portugal
]

# Lista con los nombres de las ligas correspondientes
ligas = ['INGLATERRA', 'ESPAÑA', 'ITALIA', 'GERMANY', 'FRANCIA', 'HOLANDA', 'PORTUGAL']

# Diccionario que asocia cada liga con su URL
df_ligas = {
    'LIGA': ligas,
    'URL': url
}

# Conversión del diccionario a un DataFrame de pandas
df_ligas = pd.DataFrame(df_ligas)

In [6]:
# Muestra el DataFrame creado
df_ligas

Unnamed: 0,LIGA,URL
0,INGLATERRA,https://www.espn.com.co/futbol/posiciones/_/li...
1,ESPAÑA,https://www.espn.com.co/futbol/posiciones/_/li...
2,ITALIA,https://www.espn.com.co/futbol/posiciones/_/li...
3,GERMANY,https://www.espn.com.co/futbol/posiciones/_/li...
4,FRANCIA,https://www.espn.com.co/futbol/posiciones/_/li...
5,HOLANDA,https://www.espn.com.co/futbol/posiciones/_/li...
6,PORTUGAL,https://www.espn.com.co/futbol/posiciones/_/li...


### Exportación del DataFrame

In [8]:
# Exporta el DataFrame df_ligas a un archivo CSV sin incluir el índice
df_ligas.to_csv('../data/df_ligas.csv', index=False)

## Transformando DataFrame final

### Visualizando información

In [40]:
# Primera posición del DataFrame 'df_ligas'
df_ligas['URL'][0]

'https://www.espn.com.co/futbol/posiciones/_/liga/eng.1'

In [41]:
# Lee todas las tablas HTML encontradas en la columna URL almacenada en la primera posición del DataFrame 'df_ligas'
df_inglaterra = pd.read_html(df_ligas['URL'][0])

In [42]:
# Cuenta el número de tablas extraídas de la URL
len(df_inglaterra)

2

In [43]:
# Tabla 1
df_inglaterra[0]

Unnamed: 0,2025/2026
0,1MCIManchester City
1,2SUNSunderland
2,3TOTTottenham Hotspur
3,4LIVLiverpool
4,5FORNottingham Forest
5,6ARSArsenal
6,7LEELeeds United
7,8BHABrighton & Hove Albion
8,9FULFulham
9,10AVLAston Villa


In [44]:
# Tabla 2
df_inglaterra[1]

Unnamed: 0,J,G,E,P,GF,GC,DIF,PTS
0,1,1,0,0,4,0,4,3
1,1,1,0,0,3,0,3,3
2,1,1,0,0,3,0,3,3
3,1,1,0,0,4,2,2,3
4,1,1,0,0,3,1,2,3
5,1,1,0,0,1,0,1,3
6,1,1,0,0,1,0,1,3
7,1,0,1,0,1,1,0,1
8,1,0,1,0,1,1,0,1
9,1,0,1,0,0,0,0,1


### Concatenando tablas

In [45]:
# Concatena las tablas extraídas (df[0] y df[1]) horizontalmente (axis=1)
# ignore_index=True reinicia los índices de las columnas en el nuevo DataFrame resultante
df_inglaterra=pd.concat([df_inglaterra[0],df_inglaterra[1]],ignore_index=True,axis=1)
df_inglaterra

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,1MCIManchester City,1,1,0,0,4,0,4,3
1,2SUNSunderland,1,1,0,0,3,0,3,3
2,3TOTTottenham Hotspur,1,1,0,0,3,0,3,3
3,4LIVLiverpool,1,1,0,0,4,2,2,3
4,5FORNottingham Forest,1,1,0,0,3,1,2,3
5,6ARSArsenal,1,1,0,0,1,0,1,3
6,7LEELeeds United,1,1,0,0,1,0,1,3
7,8BHABrighton & Hove Albion,1,0,1,0,1,1,0,1
8,9FULFulham,1,0,1,0,1,1,0,1
9,10AVLAston Villa,1,0,1,0,0,0,0,1


### Limpiando 

In [46]:
# Renombra las columnas del DataFrame con nombres descriptivos de estadísticas futbolísticas
df_inglaterra = df_inglaterra.rename(columns={
    0: 'EQUIPO', 
    1: 'J',  # Partidos Jugados
    2: 'G',  # Partidos Ganados
    3: 'E',  # Partidos Empatados
    4: 'P',  # Partidos Perdidos
    5: 'GF', # Goles a Favor
    6: 'GC', # Goles en Contra
    7: 'DIF',# Diferencia de Goles
    8: 'PTS' # Puntos Totales
})

# Limpia los nombres de equipos: elimina prefijos numéricos y espacios (ej: "1MCIManchester City" → "Manchester City")
df_inglaterra['EQUIPO'] = df_inglaterra['EQUIPO'].apply(
    lambda x: x[5:] if x[:2].isnumeric() == True else x[4:]
)

# Añade columna con el nombre de la liga, tomando el valor del primer elemento del DataFrame df_ligas
df_inglaterra['LIGA'] = df_ligas['LIGA'][0]

In [47]:
df_inglaterra

Unnamed: 0,EQUIPO,J,G,E,P,GF,GC,DIF,PTS,LIGA
0,Manchester City,1,1,0,0,4,0,4,3,INGLATERRA
1,Sunderland,1,1,0,0,3,0,3,3,INGLATERRA
2,Tottenham Hotspur,1,1,0,0,3,0,3,3,INGLATERRA
3,Liverpool,1,1,0,0,4,2,2,3,INGLATERRA
4,Nottingham Forest,1,1,0,0,3,1,2,3,INGLATERRA
5,Arsenal,1,1,0,0,1,0,1,3,INGLATERRA
6,Leeds United,1,1,0,0,1,0,1,3,INGLATERRA
7,Brighton & Hove Albion,1,0,1,0,1,1,0,1,INGLATERRA
8,Fulham,1,0,1,0,1,1,0,1,INGLATERRA
9,Aston Villa,1,0,1,0,0,0,0,1,INGLATERRA
