In [15]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL de la página de Wikipedia
url = "https://es.wikipedia.org/wiki/Anexo:Universidades_de_Espa%C3%B1a"

# Realizamos la solicitud GET a la página
response = requests.get(url)
if response.status_code != 200:
    raise Exception(f"Error al acceder a la página: {response.status_code}")

# Parseamos el contenido HTML con BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Localizamos la tabla que contiene las universidades'
tabla_universidades = soup.find('table', {'class': 'wikitable sortable'})

# Obtenemos todas las filas de la tabla
filas = tabla_universidades.find_all('tr')

# Estructuras para guardar los datos
data = []

# La primera fila (cabecera) puede tener los nombres de las columnas
cabecera = [th.get_text(strip=True) for th in filas[0].find_all('th')]

# Recorremos el resto de filas (datos)
for fila in filas[1:]:
    celdas = fila.find_all(['td', 'th'])  # A veces la tabla puede mezclar 'td' y 'th'
    if len(celdas) == len(cabecera):
        fila_data = [celda.get_text(strip=True) for celda in celdas]
        data.append(fila_data)

# Convertimos los datos a un DataFrame de pandas para manipularlos más fácilmente
df = pd.DataFrame(data, columns=cabecera)

# Mostrar las primeras filas del DataFrame
df


Unnamed: 0,Universidad,Sede principal,Otras sedes,Comunidad autónoma,Fundación,Tipo
0,Universidad de Sevilla,Sevilla,,AndalucíaAndalucía,1505,Pública
1,Universidad de Granada,Granada,CeutaMelilla,AndalucíaAndalucía,1531,Pública
2,Universidad de Córdoba,Córdoba,Belmez,AndalucíaAndalucía,1972,Pública
3,Universidad de Málaga,Málaga,AntequeraRonda,AndalucíaAndalucía,1972,Pública
4,Universidad de Cádiz,Cádiz,AlgecirasJerez de la FronteraPuerto Real,AndalucíaAndalucía,1979,Pública
...,...,...,...,...,...,...
89,Universidad Pública de Navarra,Pamplona,Tudela,NavarraNavarra,1987,Pública
90,Universidad de Deusto,Bilbao,San Sebastián,País VascoPaís Vasco,1886,"Privada,católica"
91,Universidad del País Vasco,Lejona,BilbaoSan SebastiánVitoria,País VascoPaís Vasco,1968,Pública
92,Universidad de Mondragón,Mondragón,,País VascoPaís Vasco,1997,Privada


In [17]:
df.to_csv('datos/universidades.csv', index=False)

In [18]:
df_universidades = pd.read_csv('datos/universidades.csv')