# 3.1 - Web Scraping (selenium)

**[Documentación](https://selenium-python.readthedocs.io/)**

$$$$

![selenium](images/selenium.png)

$$$$

Selenium es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Incluye también un lenguaje específico de dominio para pruebas (Selenese) para escribir pruebas en un amplio número de lenguajes de programación populares incluyendo Java, C#, Ruby, Groovy, Perl, Php y Python. Las pruebas pueden ejecutarse entonces usando la mayoría de los navegadores web modernos en diferentes sistemas operativos como Windows, Linux y OSX.

Selenium fue originalmente desarrollado por Jason Huggins en 2004 y pronto se unieron al esfuerzo otras personas especialistas en pruebas y programación. Es un software de código abierto bajo la licencia apache 2.0 que puede ser descargada y usada sin cargo. El nombre proviene de una broma hecha por Huggins burlándose de un competidor llamado Mercury (mercurio) diciendo que el envenenamiento por mercurio puede ser curado tomando complementos de Selenium. Los participantes tomaron el nombre y siguieron con él. Existen otros proyectos que se desarrollan alrededor de Selenium como Selenium Grid, para probar concurrencia de múltiples pruebas concurrentes de clientes remotos o locales, así como Flash Selenium para probar programas escritos en Adobe Flex o Selenium Silverlight.


### Componentes

**Selenium IDE**

Selenium IDE es un entorno de desarrollo integrado para pruebas con Selenium. Está implementado como una extensión de Firefox y permite grabar, editar y depurar pruebas. Originalmente se le conoció como Selenium Recorder.

Se pueden desarrollar automáticamente scripts al crear una grabación y de esa manera se puede editar manualmente con sentencias y comandos para que la reproducción de nuestra grabación sea correcta

Los scripts se generan en Selanese, un lenguaje de scripting especial para Selenium. Selanese provee comandos que ejecutan acciones sobre objetos en el navegador, como hacer clic en un enlace, seleccionar de una lista de opciones, verificar la presencia de un texto en particular así como para tomar la totalidad de la página producto de las acciones.

Características:

+ Grabación y reproducción fácil
+ Selección inteligente de campos usando ID, nombre o XPath según se necesite.
+ Compleción automática de los comandos de Selenium más comunes.
+ Pruebas de revisión cruzada
+ Depuración y puntos de verificación (breakpoint)
+ Almacenar las pruebas como Selanese, Ruby, Java y otros formatos.
+ Soporte al archivo user-extensions.js
+ Opción para asertar el título de la página.
+ Opción de modificarle a la medida con el uso de complementos


**Selenium Client API**

Interfaz de programación de aplicaciones (API) de clientes Como alternativa a escribir pruebas en Selanese, las pruebas pueden escribirse en varios lenguajes de programación, éstos se comunican con Selenium mediante llamadas a los métodos de Selenium Client API. Actualmente Selenium provee API para Java, C#, Ruby y Python. Con Selenium 2 se presentó una nueva API de clientes, con WebDriver como componente central, aunque la anterior API puede seguirse usando llamando a la clase Selenium.


**Selenium Remote Control**

Selenium Remote Control (RC) es un servidor escrito en Java que acepta comandos al navegador vía HTTP. RC hace posible escribir pruebas automatizadas para aplicaciones web, en cualquier lenguaje de programación lo que permite una mejor integración de Selenium a entornos de prueba existentes. Para hacer la escritura de pruebas más fácil, Selenium actualmente provee controladores de dispositivos para PHP, Python, Ruby,.NET, Perl y Java. El controlador de Java puede usarse para Javascript vía el motor Rhino. Selenium Remote Control fue una refactorización de Driven Selenium o Selenium B, la versión original lanzaba directamente un proceso para el navegador en cuestión desde el lenguaje de prueba; el protocolo de cable (confusamente llamado Selanese también en aquel tiempo) fue reimplementado al portarse a cada lenguaje. Después de la refactorización, hubo un proceso intermediario demonio entre el script controlador y el navegador. Los beneficios incluyeron la capacidad de controlar navegadores remotos y reducir la necesidad de portar el código a un número creciente de lenguajes. Con la liberación de Selenium 2, Selenium RC fue oficialmente descartado en favor de Selenium WebDriver.


**Selenium WebDriver**

Selenium WebDriver es el sucesor de Selenium RC. Selenium WebDriver acepta comandos (enviados en Selenese o vía el API de cliente) y los envía a un navegador. Esto se implementa a través de un controlador del navegador específico para cada navegador que envía los comandos y trae los resultados de regreso. La mayoría de los controladores del navegador lanzan y acceden a la aplicación de navegador (como Mozilla Firefox o Internet Explorer), pero también hay un controlador para HtmlUnit que simula un navegador. A diferencia de Selenium 1, donde el servidor Selenium RC era indispensable, en Selenium WebDriver no se requiere de un servidor especial para ejecutar las pruebas, en vez de ello WebDriver inicia una instancia del navegador y lo controla; sin embargo puede usarse Selenium Grid (ver abajo) para ejecutar pruebas en sistemas remotos (ver más abajo). Desde inicios de 2012, Simon Stewart de Google (inventor del WebDriver) y David Burns de la Fundación Mozilla se encuentran negociando con el W3C que WebDriver se convierta en un estándar de Internet, como tal Selenium-Webdriver (Selenium 2.0) apunta a ser la implementación de referencia del estándar WebDriver en varios lenguajes de programación. Selenium-WebDriver está completamente implementado y soportado en Java, Ruby, Python y C#. En la práctica, esto significa que la API de Selenium 2.0 tiene significativamente menos llamadas que el API de Selenium 1.0. Donde Selenium 1.0 intentaba proveer una interfaz rica en muchas operaciones, Selenium 2.0 intenta proveer de los bloques de construcción básicos con los cuales los desarrolladores puedan programar su propio lenguaje específico de dominio. Uno de ellos ya existe y es el proyecto Watir en Ruby que tiene una historia rica en buen diseño. Watir-WebDriver implementa el API de Watir como un envolvente del Selenium-Webdriver en Ruby. Watir-WebDriver se crea de forma completamente automática, basado en las especificaciones del WebDriver y HTML.

**Selenium Grid**

Selenium Grid es un servidor que permite usar instancias de navegador ejecutándose en máquinas remotas. Con Selenium Grid, uno de los servidores actúa como concentrador. Las pruebas contactan al concentrador para obtener acceso a instancias de navegadores; el concentrador lleva una lista de instancias de los navegadores (Nodos de WebDriver) y permiten a las pruebas usar estas instancias. Selenium Grid permite ejecutar pruebas en paralelo en múltiples máquinas y manejar diferentes versiones y configuraciones de manera centralizada.

Nosotros usaremos fundamentalmente el Webdriver en Python.

https://chromedriver.chromium.org/downloads

Para instalar:
    
```bash
conda install -c conda-forge selenium
```

```bash
pip install selenium
```

In [1]:
from selenium import webdriver

In [2]:
#help(webdriver)

**Si no has descargado el driver para Google, o el geckodriver para Firefox, puedes manejarlo para Chrome con esta librería.**

In [3]:
%pip install webdriver-manager

[0mNote: you may need to restart the kernel to use updated packages.


In [4]:
from webdriver_manager.chrome import ChromeDriverManager # sustituye al archivo

In [5]:
#PATH = ChromeDriverManager().install()  # instala driver de chrome

PATH = 'driver/chromedriver'

driver = webdriver.Chrome(PATH)   # abre una ventana de chrome

driver.get('https://www.google.es')

  driver = webdriver.Chrome(PATH)   # abre una ventana de chrome


In [6]:
driver.quit()

### Realizando una búsqueda en Google

Importamos `time` para el manejo de los tiempos dentro del código. Haremos una búsqueda en Google y extraeremos los enlaces de los resultados.

In [7]:
import time

import warnings
warnings.filterwarnings('ignore')

from selenium.webdriver.common.by import By # By es para buscar por tag, clase, id...

In [8]:
URL = 'https://www.google.es/search?q='

In [9]:
busqueda = 'machine learning'

In [10]:
driver = webdriver.Chrome(PATH)

driver.get(URL+busqueda)

time.sleep(2)

In [11]:
driver.find_element(By.XPATH, '//*[@id="W0wltc"]').click()

In [12]:
driver.quit()

In [13]:
driver = webdriver.Chrome(PATH)   # abre ventana

driver.get(URL+busqueda)          # entra en google y busca

time.sleep(2)                     # espera 2 secs

driver.find_element(By.XPATH, '//*[@id="W0wltc"]').click()  # clicka en rechazar

In [14]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # todo el scroll

In [15]:
driver.execute_script("window.scrollTo(0, 400);")   # 400px

In [16]:
botones = driver.find_elements(By.TAG_NAME, 'button')

In [17]:
[e.text for e in botones]

['', '', '', '', '', '', '', '']

In [18]:
#botones[2].click()

In [19]:
driver.find_element(By.CSS_SELECTOR, '#pnnext > span:nth-child(2)').click()

In [20]:
driver.find_element(By.ID, 'topstuff')

<selenium.webdriver.remote.webelement.WebElement (session="904b2c63ee8ac5ab56c3ad93c134d7b5", element="FF650D001C8BF2EE4D0A1D4360035227_element_38")>

In [21]:
# cambiar espacios por puntos en los nombres de las clases

driver.find_element(By.CLASS_NAME, 'g.Ww4FFb.vt6azd.tF2Cxc.asEBEc')

<selenium.webdriver.remote.webelement.WebElement (session="904b2c63ee8ac5ab56c3ad93c134d7b5", element="FF650D001C8BF2EE4D0A1D4360035227_element_39")>

In [22]:
# con css selector, se puede hacer tag.clase


driver.find_element(By.CSS_SELECTOR, 'div.gb_od')

<selenium.webdriver.remote.webelement.WebElement (session="904b2c63ee8ac5ab56c3ad93c134d7b5", element="FF650D001C8BF2EE4D0A1D4360035227_element_40")>

In [23]:
driver.find_element(By.CSS_SELECTOR, '#gsr > div.gb_od')

<selenium.webdriver.remote.webelement.WebElement (session="904b2c63ee8ac5ab56c3ad93c134d7b5", element="FF650D001C8BF2EE4D0A1D4360035227_element_40")>

In [24]:
driver.quit()

### Ejemplo Linkedin (perfiles)

In [25]:
import requests as req

from bs4 import BeautifulSoup as bs

In [26]:
url='https://www.linkedin.com/in/yonatan-rodriguez/'

In [27]:
html=req.get(url).text

sopa=bs(html, 'html.parser')

sopa

<html><head>
<script type="text/javascript">
window.onload = function() {
  // Parse the tracking code from cookies.
  var trk = "bf";
  var trkInfo = "bf";
  var cookies = document.cookie.split("; ");
  for (var i = 0; i < cookies.length; ++i) {
    if ((cookies[i].indexOf("trkCode=") == 0) && (cookies[i].length > 8)) {
      trk = cookies[i].substring(8);
    }
    else if ((cookies[i].indexOf("trkInfo=") == 0) && (cookies[i].length > 8)) {
      trkInfo = cookies[i].substring(8);
    }
  }

  if (window.location.protocol == "http:") {
    // If "sl" cookie is set, redirect to https.
    for (var i = 0; i < cookies.length; ++i) {
      if ((cookies[i].indexOf("sl=") == 0) && (cookies[i].length > 3)) {
        window.location.href = "https:" + window.location.href.substring(window.location.protocol.length);
        return;
      }
    }
  }

  // Get the new domain. For international domains such as
  // fr.linkedin.com, we convert it to www.linkedin.com
  // treat .cn similar to .com

In [28]:
from selenium.webdriver.chrome.options import Options

# opciones del driver
opciones=Options()

# quita la bandera de ser robot
opciones.add_experimental_option('excludeSwitches', ['enable-automation'])
opciones.add_experimental_option('useAutomationExtension', False)

# guardar las cookies
opciones.add_argument('user-data-dir=cookies')    # mantiene las coockies


In [29]:
driver = webdriver.Chrome(PATH, options=opciones)

driver.get(url)

In [None]:
nombre = driver.find_element(By.XPATH, '//*[@id="ember30"]/div[2]/div[2]/div[1]/div[1]/h1').text


titulo = driver.find_element(By.CSS_SELECTOR, 'div.ph5.pb5 > div.mt2.relative > div:nth-child(1) > div.text-body-medium.break-words').text


lugar = driver.find_element(By.CLASS_NAME, 'text-body-small.inline.t-black--light.break-words').text



In [None]:
{'nombre': nombre,
'titulo': titulo,
'lugar': lugar}

In [31]:
driver.quit()

# Amazon

https://www.amazon.es/

In [32]:
from selenium.webdriver.support.ui import WebDriverWait   # para esperar a que cargue

from selenium.webdriver.support import expected_conditions as EC   # condiciones esperadas

In [33]:
url = 'https://www.amazon.es/'

In [34]:
html=req.get(url).text

sopa=bs(html, 'html.parser')

#sopa

In [35]:
driver = webdriver.Chrome(PATH, options=opciones)

driver.get(url)

In [36]:
# aceptar las cookies

driver.find_element(By.XPATH, '//*[@id="sp-cc-accept"]').click()

In [37]:
# introducir texto de busqueda

texto = driver.find_element(By.XPATH, '//*[@id="twotabsearchtextbox"]')

texto.send_keys('juguetes lego')

In [38]:
from selenium.webdriver.common.keys import Keys

texto.send_keys(Keys.ENTER)   # aprieta el boton enter del teclado

In [39]:
productos = driver.find_elements(By.CLASS_NAME, 'sg-col-inner')

len(productos)

109

In [40]:
productos[3].text.split('\n')

['Patrocinado',
 'LEGO 31136 Creator 3 en 1 Loro Exótico, Pez o Rana, Figuras de Animales de Juguete para Construir, Juego Creativo',
 '803',
 '200+ comprados el mes pasado',
 '24,99€',
 'Entrega GRATIS el dom, 6 de ago en tu primer pedido',
 'Entrega más rápida el vie, 4 de ago',
 'Edades: 7 años y más']

In [41]:
productos[4].text.split('\n')

['Patrocinado',
 'LEGO 31137 Creator 3 en 1 Perros Adorables, Beagle, Caniche, Perro Salchicha y Más, Figuras de Perritos de Juguete para Niños de 7 Años o Más',
 '353',
 '100+ comprados el mes pasado',
 '28,05€ PVPR:',
 '29,99€',
 'Entrega GRATIS el dom, 6 de ago en tu primer pedido',
 'Entrega más rápida el vie, 4 de ago',
 'Edades: 7 años y más']

In [42]:
productos[5].text.split('\n')

['Patrocinado',
 'LEGO 31109 Creator Barco Pirata 3en1, Que se Convierte en Isla Calavera o Taberna, Juego Creativo, Set Construcción con Tiburón Juguete y 3 Minifiguras, Regalo Niños y Niñas',
 '57',
 '110,49€ PVPR:',
 '129,99€',
 'Entrega GRATIS el jue, 10 de ago',
 'Edades: 9 meses y más']

In [43]:
driver.find_element(By.XPATH, '//*[@id="search"]/div[1]/div[1]/div/span[1]/div[1]/div[71]/div/div/span/a[3]').click()

In [44]:
productos = driver.find_elements(By.CLASS_NAME, 'sg-col-inner')

len(productos)

4

In [49]:
productos[3].text.split('\n')

['Con derecho a envío gratis',
 'Envío gratis por Amazon',
 'Envío GRATIS con Amazon para destinos elegibles',
 'Productos más sostenibles',
 'Climate Pledge Friendly',
 'Departamento',
 'Sets de construcción',
 'Muñecos y figuras',
 'Figuras de dinosaurios y criaturas prehistóricas de juguete para niños',
 'Conjuntos de figuras de juguete',
 'Muñecos y figuras de acción',
 'Figuras de juguete de construcción',
 'Vehículos de juguete para niños',
 'Sets de bloques de construcción',
 'Opinión de los clientes',
 'o más',
 'o más',
 'o más',
 'o más',
 'Personajes de los juegos',
 'Capitán América',
 'Harry Potter',
 'Indiana Jones',
 'Jam',
 'Marvel',
 'Minecraft',
 'Superhéores',
 'Marca',
 'LEGO',
 'Sluban',
 'Cogo',
 'Precio',
 '0 - 20 EUR',
 '20 - 50 EUR',
 '50 - 100 EUR',
 '100 - 200 EUR',
 '200 - 500 EUR',
 'Más de 500 EUR',
 'EUR',
 'EUR',
 'Ir',
 'Ofertas y ahorros',
 'Ofertas del día',
 'Todos los ahorros',
 'Recomendación por edades para juegos',
 'Hasta 2 años',
 '3-4 años',
 

In [None]:
productos[5].text.split('\n')

In [50]:
driver.quit()

### Ejemplo ESPN

https://www.espn.com/soccer/competitions

In [51]:
url = 'https://www.espn.com/soccer/competitions'

In [52]:
driver=webdriver.Chrome(PATH)

driver.get(url)

In [53]:
try:
    driver.find_element(By.XPATH, '//*[@id="onetrust-accept-btn-handler"]').click()
except:
    print('Ya tienes la cookies')

In [54]:
# teams españa

teams = driver.find_element(By.XPATH, '//*[@id="fittPageContainer"]/div[3]/div/div/div/div[2]/div[2]/div/div[5]/div/section/div/div/span[2]/a')

teams.click()

In [55]:
[e for e in driver.find_elements(By.CLASS_NAME, 'AnchorLink') if e.text == 'Stats']

[<selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_58")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_62")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_66")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_70")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_74")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493af28", element="199792D02BC3897672FD02826110580E_element_78")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f1467015bdbda6393c90e53bf493

In [56]:
# stats ATM

stats = driver.find_element(By.XPATH, '//*[@id="fittPageContainer"]/div[3]/div/div/div[1]/div[2]/div[1]/div/div[4]/div/section/div/div/span[2]/a')

stats.click()

In [57]:
# disciplina

disciplina = driver.find_element(By.XPATH, '//*[@id="fittPageContainer"]/div[2]/div[5]/div/div/section/div/div[2]/nav/ul/li[2]/a')

disciplina.click()

In [58]:
# dropdown

from selenium.webdriver.support.ui import Select

dropdown = driver.find_element(By.XPATH, '//*[@id="fittPageContainer"]/div[2]/div[5]/div/div/section/div/div[4]/select[1]')

#dropdown.click()

In [59]:
# seleccionar dropdown por texto

select = Select(dropdown)

select.select_by_visible_text('2022-23')

### selenium

In [60]:
tabla=driver.find_element(By.TAG_NAME,'tbody')

filas=tabla.find_elements(By.TAG_NAME, 'tr')

data=[]

for f in filas:

    elementos=f.find_elements(By.TAG_NAME, 'td') 

    tmp=[]

    for e in elementos:

        tmp.append(e.text)

    tmp.append(url.split('/')[-1])  # añade el nombre del equipo
    data.append(tmp)


cabeceras=driver.find_element(By.TAG_NAME, 'thead')

cabeceras=[c.text for c in cabeceras.find_elements(By.TAG_NAME, 'th')]+['TEAM']

In [61]:
import pandas as pd

df=pd.DataFrame(data, columns=cabeceras)

df.shape

(25, 7)

In [62]:
df.head()

Unnamed: 0,RK,NAME,P,YC,RC,PTS,TEAM
0,1.0,Mario Hermoso,26,5,2,11,competitions
1,,Stefan Savic,22,5,2,11,competitions
2,3.0,Nahuel Molina,33,7,1,10,competitions
3,4.0,José María Giménez,28,9,0,9,competitions
4,5.0,Saúl Ñíguez,31,8,0,8,competitions


### bs4

In [63]:
driver.current_url

'https://www.espn.com/soccer/team/stats/_/id/1068/league/ESP.1/season/2022/view/discipline'

In [64]:
# se puede parsear con bs4

html=req.get(driver.current_url).text

sopa=bs(html, 'html.parser')

tabla = sopa.find('table')

In [65]:
driver.find_element(By.TAG_NAME, 'tbody').text.split('\n')

['1 Mario Hermoso 26 5 2 11',
 'Stefan Savic 22 5 2 11',
 '3 Nahuel Molina 33 7 1 10',
 '4 José María Giménez 28 9 0 9',
 '5 Saúl Ñíguez 31 8 0 8',
 '6 Marcos Llorente 22 5 0 5',
 'Rodrigo De Paul 30 5 0 5',
 'Axel Witsel 33 2 1 5',
 'Geoffrey Kondogbia 20 5 0 5',
 'Sergio Reguilón 11 2 1 5',
 '11 Pablo Barrios 21 4 0 4',
 'Koke 33 4 0 4',
 'Reinildo Mandava 22 4 0 4',
 '14 Ivo Grbic 12 3 0 3',
 '15 Yannick Carrasco 35 2 0 2',
 '16 Thomas Lemar 27 1 0 1',
 'Jan Oblak 28 1 0 1',
 '18 Ilias Kostis 0 0 0 0',
 'Sergio Diez 0 0 0 0',
 'Adrian Corral 0 0 0 0',
 'Marco Moreno 0 0 0 0',
 'Matt Doherty 2 0 0 0',
 'Sergio Mestre 0 0 0 0',
 'Antonio Gomis 1 0 0 0',
 'Alejandro Iturbe 0 0 0 0']

In [66]:
tabla = driver.find_element(By.TAG_NAME, 'tbody')

filas = tabla.find_elements(By.TAG_NAME, 'tr')



data = []


for f in filas:
    
    elems = f.find_elements(By.TAG_NAME, 'td')
    
    tmp = []
    
    for e in elems:
        
        tmp.append(e.text)
        
    data.append(tmp)
    
data

[['1', 'Mario Hermoso', '26', '5', '2', '11'],
 ['', 'Stefan Savic', '22', '5', '2', '11'],
 ['3', 'Nahuel Molina', '33', '7', '1', '10'],
 ['4', 'José María Giménez', '28', '9', '0', '9'],
 ['5', 'Saúl Ñíguez', '31', '8', '0', '8'],
 ['6', 'Marcos Llorente', '22', '5', '0', '5'],
 ['', 'Rodrigo De Paul', '30', '5', '0', '5'],
 ['', 'Axel Witsel', '33', '2', '1', '5'],
 ['', 'Geoffrey Kondogbia', '20', '5', '0', '5'],
 ['', 'Sergio Reguilón', '11', '2', '1', '5'],
 ['11', 'Pablo Barrios', '21', '4', '0', '4'],
 ['', 'Koke', '33', '4', '0', '4'],
 ['', 'Reinildo Mandava', '22', '4', '0', '4'],
 ['14', 'Ivo Grbic', '12', '3', '0', '3'],
 ['15', 'Yannick Carrasco', '35', '2', '0', '2'],
 ['16', 'Thomas Lemar', '27', '1', '0', '1'],
 ['', 'Jan Oblak', '28', '1', '0', '1'],
 ['18', 'Ilias Kostis', '0', '0', '0', '0'],
 ['', 'Sergio Diez', '0', '0', '0', '0'],
 ['', 'Adrian Corral', '0', '0', '0', '0'],
 ['', 'Marco Moreno', '0', '0', '0', '0'],
 ['', 'Matt Doherty', '2', '0', '0', '0'],
 ['

In [67]:
data = [[e.text for e in f.find_elements(By.TAG_NAME, 'td')] 
        for f in driver.find_element(By.TAG_NAME, 'tbody').find_elements(By.TAG_NAME, 'tr')]

data

[['1', 'Mario Hermoso', '26', '5', '2', '11'],
 ['', 'Stefan Savic', '22', '5', '2', '11'],
 ['3', 'Nahuel Molina', '33', '7', '1', '10'],
 ['4', 'José María Giménez', '28', '9', '0', '9'],
 ['5', 'Saúl Ñíguez', '31', '8', '0', '8'],
 ['6', 'Marcos Llorente', '22', '5', '0', '5'],
 ['', 'Rodrigo De Paul', '30', '5', '0', '5'],
 ['', 'Axel Witsel', '33', '2', '1', '5'],
 ['', 'Geoffrey Kondogbia', '20', '5', '0', '5'],
 ['', 'Sergio Reguilón', '11', '2', '1', '5'],
 ['11', 'Pablo Barrios', '21', '4', '0', '4'],
 ['', 'Koke', '33', '4', '0', '4'],
 ['', 'Reinildo Mandava', '22', '4', '0', '4'],
 ['14', 'Ivo Grbic', '12', '3', '0', '3'],
 ['15', 'Yannick Carrasco', '35', '2', '0', '2'],
 ['16', 'Thomas Lemar', '27', '1', '0', '1'],
 ['', 'Jan Oblak', '28', '1', '0', '1'],
 ['18', 'Ilias Kostis', '0', '0', '0', '0'],
 ['', 'Sergio Diez', '0', '0', '0', '0'],
 ['', 'Adrian Corral', '0', '0', '0', '0'],
 ['', 'Marco Moreno', '0', '0', '0', '0'],
 ['', 'Matt Doherty', '2', '0', '0', '0'],
 ['

In [68]:
cabeceras = driver.find_element(By.TAG_NAME, 'thead').text.split()

cabeceras

['RK', 'NAME', 'P', 'YC', 'RC', 'PTS']

In [69]:
driver.quit()

In [70]:
import pandas as pd

In [71]:
df = pd.DataFrame(data, columns=cabeceras)

df

Unnamed: 0,RK,NAME,P,YC,RC,PTS
0,1.0,Mario Hermoso,26,5,2,11
1,,Stefan Savic,22,5,2,11
2,3.0,Nahuel Molina,33,7,1,10
3,4.0,José María Giménez,28,9,0,9
4,5.0,Saúl Ñíguez,31,8,0,8
5,6.0,Marcos Llorente,22,5,0,5
6,,Rodrigo De Paul,30,5,0,5
7,,Axel Witsel,33,2,1,5
8,,Geoffrey Kondogbia,20,5,0,5
9,,Sergio Reguilón,11,2,1,5
