**1. Pre Requisitos**

In [None]:
# Instalación de las librerias o dependencias necesarias
!pip install beautifulsoup4 requests pandas



In [None]:
# Load dependencies
import json # modulo para trabajar con archivos JSON
import requests # libreria para hacer peticiones HTTP
import pandas as pd # libreria para procesar datos, proporciona funciones para analíticas
from bs4 import BeautifulSoup as bs # Extraer información de paginas web

**2. Funciones para procesamiento de los datos**

In [None]:
# Función que convierte una lista de elementos en un dataframe de pandas
def rowsToDataFrame(rows):
    df = pd.DataFrame(rows[1:], columns=rows[0])
    df = df.drop(columns=["País"], errors="ignore")  # Eliminar la columna "País" si existe
    return df

In [None]:
# Función para extraer los datos de una tabla HTML
def processTableData(tbl):
    rows = []
    for row in tbl.find_all('tr'):
        cells = row.find_all(['th', 'td'])
        row_data = [cell.text.strip().replace('\n', '') for cell in cells]
        # Asegurar que siempre haya 12 elementos por fila
        while len(row_data) < 12:
            row_data.append('')
        rows.append(row_data)
    return rows


In [None]:
# Función para exxtrar la data de la URL y procesar el contenido HTML
def processDataHTML(data):
    soup = bs(data['sections'][1]['text'], 'html.parser') # Recupera el item del JSON y lo convierte en contenido HTML
    tbl = soup.find_all('table')[0] # Recupera la tabla del contenido HTML
    # print(tbl.prettify())
    tblRows = processTableData(tbl) # Ejecuta la función apra porcesar el contenido de la Tabla
    return tblRows

**3. Extracción de Información**

In [209]:
# Read website
# r = requests.get('https://www.wikiwand.com/es/Anexo:Tabla_estadística_de_la_Copa_Mundial_de_Fútbol')
r = requests.get('https://www.wikiwand.com/mcs-api/es.wikipedia.org/v1/page/mobile-sections-remaining/Anexo%3AClasificaci%C3%B3n_hist%C3%B3rica_de_la_Liga_de_Campeones_de_la_UEFA')  # Recuperamos el contenido de la web
# print(r)
table = processDataHTML(json.loads(r.content)) # Formate el contenido en formato JSON
df = rowsToDataFrame(table) # ejecuta la funcion para recupera los datos de la tabla como dataframe de Pandas
df

Unnamed: 0,Pos.,Club,Temp.,Pts.,PJ,PG,PE,PP,Rdm.,Tít.,Sub.
0,2,F. C. Barcelona[3],25,370,260,154,62,44,66.4 %,4,1
1,1,Real Madrid[4],25,372,270,160,52,58,65.6 %,8,0
2,3,Bayern Múnich[5],24,345,255,146,53,56,61.6 %,3,3
3,4,Manchester United[6],23,296,227,120,56,51,61.7 %,3,2
4,5,Juventus F. C.[7],21,252,201,100,52,49,55.8 %,1,5
5,6,Chelsea F. C.[8],17,212,167,82,48,37,59.5 %,2,1
6,7,F. C. Porto[9],24,210,191,82,46,63,50.4 %,1,0
7,8,Arsenal F. C.[10],19,207,177,83,41,53,54.4 %,0,1
8,9,A. C. Milan[11],17,197,165,74,49,42,54.7 %,3,3
9,10,Liverpool F. C.[12],9,218,125,62,32,31,55.3 %,2,2


In [None]:
# Inspeccionamos el tipo de dato de cada variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Pos.    50 non-null     object
 1   Club    50 non-null     object
 2   Temp.   50 non-null     object
 3   Pts.    50 non-null     object
 4   PJ      50 non-null     object
 5   PG      50 non-null     object
 6   PE      50 non-null     object
 7   PP      50 non-null     object
 8   Rdm.    50 non-null     object
 9   Tít.    50 non-null     object
 10  Sub.    50 non-null     object
dtypes: object(11)
memory usage: 4.4+ KB


**4. Almacenamiento de los datos**

In [None]:
# Guardamos las datos extraidos como archivo CSV
# se puede aplcair otras opciones para guardar (Base de datos)
df.to_csv('statsLigaCampeonesUEFA.csv' , sep=';')

**5. Referencias**
URL Fuente de datos:
https://www.wikiwand.com/es/Anexo:Clasificaci%C3%B3n_hist%C3%B3rica_de_la_Liga_de_Campeones_de_la_UEFA#Clasificaci%C3%B3n_hist%C3%B3rica_(1955-Act.)