# 5.4 - Web Scraping (selenium)

**[Documentación](https://selenium-python.readthedocs.io/)**

$$$$

![selenium](images/selenium.png)

$$$$

Selenium es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Incluye también un lenguaje específico de dominio para pruebas (Selenese) para escribir pruebas en un amplio número de lenguajes de programación populares incluyendo Java, C#, Ruby, Groovy, Perl, Php y Python. Las pruebas pueden ejecutarse entonces usando la mayoría de los navegadores web modernos en diferentes sistemas operativos como Windows, Linux y OSX.

Selenium fue originalmente desarrollado por Jason Huggins en 2004 y pronto se unieron al esfuerzo otras personas especialistas en pruebas y programación. Es un software de código abierto bajo la licencia apache 2.0 que puede ser descargada y usada sin cargo. El nombre proviene de una broma hecha por Huggins burlándose de un competidor llamado Mercury (mercurio) diciendo que el envenenamiento por mercurio puede ser curado tomando complementos de Selenium. Los participantes tomaron el nombre y siguieron con él. Existen otros proyectos que se desarrollan alrededor de Selenium como Selenium Grid, para probar concurrencia de múltiples pruebas concurrentes de clientes remotos o locales, así como Flash Selenium para probar programas escritos en Adobe Flex o Selenium Silverlight.


### Componentes

**Selenium IDE**

Selenium IDE es un entorno de desarrollo integrado para pruebas con Selenium. Está implementado como una extensión de Firefox y permite grabar, editar y depurar pruebas. Originalmente se le conoció como Selenium Recorder.

Se pueden desarrollar automáticamente scripts al crear una grabación y de esa manera se puede editar manualmente con sentencias y comandos para que la reproducción de nuestra grabación sea correcta

Los scripts se generan en Selanese, un lenguaje de scripting especial para Selenium. Selanese provee comandos que ejecutan acciones sobre objetos en el navegador, como hacer clic en un enlace, seleccionar de una lista de opciones, verificar la presencia de un texto en particular así como para tomar la totalidad de la página producto de las acciones.

Características:

+ Grabación y reproducción fácil
+ Selección inteligente de campos usando ID, nombre o XPath según se necesite.
+ Compleción automática de los comandos de Selenium más comunes.
+ Pruebas de revisión cruzada
+ Depuración y puntos de verificación (breakpoint)
+ Almacenar las pruebas como Selanese, Ruby, Java y otros formatos.
+ Soporte al archivo user-extensions.js
+ Opción para asertar el título de la página.
+ Opción de modificarle a la medida con el uso de complementos


**Selenium Client API**

Interfaz de programación de aplicaciones (API) de clientes Como alternativa a escribir pruebas en Selanese, las pruebas pueden escribirse en varios lenguajes de programación, éstos se comunican con Selenium mediante llamadas a los métodos de Selenium Client API. Actualmente Selenium provee API para Java, C#, Ruby y Python. Con Selenium 2 se presentó una nueva API de clientes, con WebDriver como componente central, aunque la anterior API puede seguirse usando llamando a la clase Selenium.


**Selenium Remote Control**

Selenium Remote Control (RC) es un servidor escrito en Java que acepta comandos al navegador vía HTTP. RC hace posible escribir pruebas automatizadas para aplicaciones web, en cualquier lenguaje de programación lo que permite una mejor integración de Selenium a entornos de prueba existentes. Para hacer la escritura de pruebas más fácil, Selenium actualmente provee controladores de dispositivos para PHP, Python, Ruby,.NET, Perl y Java. El controlador de Java puede usarse para Javascript vía el motor Rhino. Selenium Remote Control fue una refactorización de Driven Selenium o Selenium B, la versión original lanzaba directamente un proceso para el navegador en cuestión desde el lenguaje de prueba; el protocolo de cable (confusamente llamado Selanese también en aquel tiempo) fue reimplementado al portarse a cada lenguaje. Después de la refactorización, hubo un proceso intermediario demonio entre el script controlador y el navegador. Los beneficios incluyeron la capacidad de controlar navegadores remotos y reducir la necesidad de portar el código a un número creciente de lenguajes. Con la liberación de Selenium 2, Selenium RC fue oficialmente descartado en favor de Selenium WebDriver.


**Selenium WebDriver**

Selenium WebDriver es el sucesor de Selenium RC. Selenium WebDriver acepta comandos (enviados en Selenese o vía el API de cliente) y los envía a un navegador. Esto se implementa a través de un controlador del navegador específico para cada navegador que envía los comandos y trae los resultados de regreso. La mayoría de los controladores del navegador lanzan y acceden a la aplicación de navegador (como Mozilla Firefox o Internet Explorer), pero también hay un controlador para HtmlUnit que simula un navegador. A diferencia de Selenium 1, donde el servidor Selenium RC era indispensable, en Selenium WebDriver no se requiere de un servidor especial para ejecutar las pruebas, en vez de ello WebDriver inicia una instancia del navegador y lo controla; sin embargo puede usarse Selenium Grid (ver abajo) para ejecutar pruebas en sistemas remotos (ver más abajo). Desde inicios de 2012, Simon Stewart de Google (inventor del WebDriver) y David Burns de la Fundación Mozilla se encuentran negociando con el W3C que WebDriver se convierta en un estándar de Internet, como tal Selenium-Webdriver (Selenium 2.0) apunta a ser la implementación de referencia del estándar WebDriver en varios lenguajes de programación. Selenium-WebDriver está completamente implementado y soportado en Java, Ruby, Python y C#. En la práctica, esto significa que la API de Selenium 2.0 tiene significativamente menos llamadas que el API de Selenium 1.0. Donde Selenium 1.0 intentaba proveer una interfaz rica en muchas operaciones, Selenium 2.0 intenta proveer de los bloques de construcción básicos con los cuales los desarrolladores puedan programar su propio lenguaje específico de dominio. Uno de ellos ya existe y es el proyecto Watir en Ruby que tiene una historia rica en buen diseño. Watir-WebDriver implementa el API de Watir como un envolvente del Selenium-Webdriver en Ruby. Watir-WebDriver se crea de forma completamente automática, basado en las especificaciones del WebDriver y HTML.

**Selenium Grid**

Selenium Grid es un servidor que permite usar instancias de navegador ejecutándose en máquinas remotas. Con Selenium Grid, uno de los servidores actúa como concentrador. Las pruebas contactan al concentrador para obtener acceso a instancias de navegadores; el concentrador lleva una lista de instancias de los navegadores (Nodos de WebDriver) y permiten a las pruebas usar estas instancias. Selenium Grid permite ejecutar pruebas en paralelo en múltiples máquinas y manejar diferentes versiones y configuraciones de manera centralizada.

Nosotros usaremos fundamentalmente el Webdriver en Python.

https://chromedriver.chromium.org/downloads

In [None]:
!pip install selenium

In [1]:
from selenium import webdriver

In [2]:
help(webdriver)

Help on package selenium.webdriver in selenium:

NAME
    selenium.webdriver

DESCRIPTION
    # Licensed to the Software Freedom Conservancy (SFC) under one
    # or more contributor license agreements.  See the NOTICE file
    # distributed with this work for additional information
    # regarding copyright ownership.  The SFC licenses this file
    # to you under the Apache License, Version 2.0 (the
    # "License"); you may not use this file except in compliance
    # with the License.  You may obtain a copy of the License at
    #
    #   http://www.apache.org/licenses/LICENSE-2.0
    #
    # Unless required by applicable law or agreed to in writing,
    # software distributed under the License is distributed on an
    # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
    # KIND, either express or implied.  See the License for the
    # specific language governing permissions and limitations
    # under the License.

PACKAGE CONTENTS
    chrome (package)
    chromium (packag

In [None]:
webdriver.Chrome('driver/chromedriver').get('https://www.google.es')

**Si no has descargado el driver para Google, o el geckodriver para Firefox, puedes manejarlo para Chrome con esta librería.**

In [None]:
!pip install webdriver-manager

In [2]:
from webdriver_manager.chrome import ChromeDriverManager

In [6]:
PATH=ChromeDriverManager().install()

driver = webdriver.Chrome(PATH).get('https://www.google.es')

  driver = webdriver.Chrome(PATH).get('https://www.google.es')


In [3]:
driver = webdriver.Chrome(ChromeDriverManager().install())

[WDM] - Downloading: 100%|████████████████████████████████████████████████████████| 6.30M/6.30M [00:00<00:00, 37.0MB/s]
  driver = webdriver.Chrome(ChromeDriverManager().install())


In [5]:
driver.get('https://www.google.es')

### Realizando una búsqueda en Google

Importamos `time` para el manejo de los tiempos dentro del código. Haremos una búsqueda en Google y extraeremos los enlaces de los resultados.

In [6]:
import time

import warnings   # para quitar warnings
warnings.simplefilter('ignore')

In [7]:
URL='https://www.google.com/search?q='

In [8]:
busqueda='machine+learning+python'

Existen varias estrategias para localizar elementos en una página. Puede utilizar la más apropiada para su caso. Selenium proporciona el siguiente método para localizar elementos en una página:

**find_element**

Para multiples elementos (devuelve una lista):

**find_elements**


Ejemplos de uso:
```python
from selenium.webdriver.common.by import By

driver.find_element(By.XPATH, '//button[text()="Some text"]')
driver.find_elements(By.XPATH, '//button')
```
Los atributos disponibles para la clase By se utilizan para localizar elementos en una página. Estos son los atributos disponibles para la clase By:
```python
ID = "id"
NAME = "name"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"
```
La clase 'By' se utiliza para especificar qué atributo se utiliza para localizar elementos en una página. Estas son las distintas formas en que se utilizan los atributos para localizar elementos en una página:
```python
find_element(By.ID, "id")
find_element(By.NAME, "name")
find_element(By.XPATH, "xpath")
find_element(By.LINK_TEXT, "link text")
find_element(By.PARTIAL_LINK_TEXT, "partial link text")
find_element(By.TAG_NAME, "tag name")
find_element(By.CLASS_NAME, "class name")
find_element(By.CSS_SELECTOR, "css selector")
```
Si desea localizar varios elementos con el mismo atributo sustituye find_element por find_elements.

In [9]:
PATH=ChromeDriverManager().install()
driver=webdriver.Chrome(PATH)  # driver de selenium con chrome
from selenium.webdriver.common.by import By
driver.get(URL+busqueda)

In [26]:
for elemente in driver.find_elements(By.TAG_NAME,'a'):
    print(elemente.get_property('href'))


https://support.google.com/websearch/answer/181196?hl=es

https://policies.google.com/technologies/cookies?utm_source=ucbs&hl=es

https://policies.google.com/privacy?hl=es&fg=1&utm_source=ucbs
https://policies.google.com/terms?hl=es&fg=1&utm_source=ucbs
https://www.google.com/webhp?hl=es&sa=X&ved=0ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQPAhk
https://support.google.com/websearch/answer/106230?hl=es
https://www.google.com/search?q=machine+learning+python#
https://www.google.es/intl/es/about/products?tab=wh
https://accounts.google.com/ServiceLogin?hl=es&passive=true&continue=https://www.google.com/search%3Fq%3Dmachine%2Blearning%2Bpython&ec=GAZAAQ
https://www.google.com/search?q=machine+learning+python&tbm=vid&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ0pQJegQICxAB
https://www.google.com/search?q=machine+learning+python&tbm=isch&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ0pQJegQIChAB
https://www.google.com/search?q=machine+learning+python&tbm=bks&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ0pQJegQIC

https://www.edx.org/course/machine-learning-aprendizaje-automatico-con-python
https://scikit-learn.org/
https://translate.google.com/translate?hl=es&sl=en&u=https://scikit-learn.org/&prev=search&pto=aue
https://www.grapheverywhere.com/machine-learning-en-python/
https://www.geeksforgeeks.org/machine-learning-with-python/
https://translate.google.com/translate?hl=es&sl=en&u=https://www.geeksforgeeks.org/machine-learning-with-python/&prev=search&pto=aue
https://www.google.com/search?q=machine+learning+python#
https://www.google.com/search?q=Machine+learning+Coursera+Python&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ1QJ6BAhBEAE
https://www.google.com/search?q=W3cschool+Python&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ1QJ6BAg_EAE
https://www.google.com/search?q=Learn+Python&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ1QJ6BAg8EAE
https://www.google.com/search?q=Train+in+python&sa=X&ved=2ahUKEwiviNzPm8j_AhVrT6QEHRnRApEQ1QJ6BAg2EAE
https://www.google.com/search?q=AI+Python+code+generator&sa=X&ve

In [26]:
for element in driver.find_elements(By.TAG_NAME, "a"):
    print(element.get_property('href'))


https://support.google.com/websearch/answer/181196?hl=es

https://policies.google.com/technologies/cookies?utm_source=ucbs&hl=es

https://policies.google.com/privacy?hl=es&fg=1&utm_source=ucbs
https://policies.google.com/terms?hl=es&fg=1&utm_source=ucbs
https://www.google.com/webhp?hl=es&sa=X&ved=0ahUKEwi2x8y-lsf_AhVQUKQEHTkPBK8QPAhk
https://support.google.com/websearch/answer/106230?hl=es
https://www.google.com/search?q=machine+learning+python#
https://www.google.es/intl/es/about/products?tab=wh
https://accounts.google.com/ServiceLogin?hl=es&passive=true&continue=https://www.google.com/search%3Fq%3Dmachine%2Blearning%2Bpython&ec=GAZAAQ
https://www.google.com/search?q=machine+learning+python&tbm=vid&sa=X&ved=2ahUKEwi2x8y-lsf_AhVQUKQEHTkPBK8Q0pQJegQICRAB
https://www.google.com/search?q=machine+learning+python&tbm=isch&sa=X&ved=2ahUKEwi2x8y-lsf_AhVQUKQEHTkPBK8Q0pQJegQICBAB
https://www.google.com/search?q=machine+learning+python&tbm=bks&sa=X&ved=2ahUKEwi2x8y-lsf_AhVQUKQEHTkPBK8Q0pQJegQIB

https://www.coursera.org/learn/machine-learning-with-python#reviews
https://www.cienciadedatos.net/machine-learning-python
https://realpython.com/tutorials/machine-learning/
https://translate.google.com/translate?hl=es&sl=en&u=https://realpython.com/tutorials/machine-learning/&prev=search&pto=aue
https://scikit-learn.org/
https://translate.google.com/translate?hl=es&sl=en&u=https://scikit-learn.org/&prev=search&pto=aue
https://www.edx.org/course/machine-learning-aprendizaje-automatico-con-python
https://www.geeksforgeeks.org/machine-learning-with-python/
https://translate.google.com/translate?hl=es&sl=en&u=https://www.geeksforgeeks.org/machine-learning-with-python/&prev=search&pto=aue
https://www.tutorialspoint.com/machine_learning_with_python/index.htm
https://translate.google.com/translate?hl=es&sl=en&u=https://www.tutorialspoint.com/machine_learning_with_python/index.htm&prev=search&pto=aue
https://www.google.com/search?q=machine+learning+python#
https://www.google.com/search?q=Mach

In [29]:
driver.quit()

### Ejemplo Linkedin (perfiles)

In [10]:
import requests as req
from bs4 import BeautifulSoup as bs

url='https://www.linkedin.com/in/yonatan-rodriguez/'

html=req.get(url).text

bs(html, 'html.parser')

<html><head>
<script type="text/javascript">
window.onload = function() {
  // Parse the tracking code from cookies.
  var trk = "bf";
  var trkInfo = "bf";
  var cookies = document.cookie.split("; ");
  for (var i = 0; i < cookies.length; ++i) {
    if ((cookies[i].indexOf("trkCode=") == 0) && (cookies[i].length > 8)) {
      trk = cookies[i].substring(8);
    }
    else if ((cookies[i].indexOf("trkInfo=") == 0) && (cookies[i].length > 8)) {
      trkInfo = cookies[i].substring(8);
    }
  }

  if (window.location.protocol == "http:") {
    // If "sl" cookie is set, redirect to https.
    for (var i = 0; i < cookies.length; ++i) {
      if ((cookies[i].indexOf("sl=") == 0) && (cookies[i].length > 3)) {
        window.location.href = "https:" + window.location.href.substring(window.location.protocol.length);
        return;
      }
    }
  }

  // Get the new domain. For international domains such as
  // fr.linkedin.com, we convert it to www.linkedin.com
  // treat .cn similar to .com

In [11]:
driver=webdriver.Chrome(PATH)

driver.get(url)

In [17]:
(driver
 .find_element(By.XPATH, "//icon[@class='cta-modal__dismiss-icon block h-3 w-3 onload lazy-loaded']")
 .click())

In [19]:
(driver
 .find_element(By.XPATH, "//h1[@class='top-card-layout__title font-sans text-lg papabear:text-xl font-bold leading-open text-color-text mb-0']")
 .text)

'Jonathan Rodriguez'

`login_form = driver.find_element(By.XPATH, "/html/body/form[1]")
login_form = driver.find_element(By.XPATH, "//form[1]")
login_form = driver.find_element(By.XPATH, "//form[@id='loginForm']")`

In [16]:
(driver
 .find_element(By.XPATH, "//icon[@class='contextual-sign-in-modal__modal-dismiss-icon lazy-loaded']")
 .click())

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//icon[@class='contextual-sign-in-modal__modal-dismiss-icon lazy-loaded']"}
  (Session info: chrome=114.0.5735.134)
Stacktrace:
Backtrace:
	GetHandleVerifier [0x00E8A813+48355]
	(No symbol) [0x00E1C4B1]
	(No symbol) [0x00D25358]
	(No symbol) [0x00D509A5]
	(No symbol) [0x00D50B3B]
	(No symbol) [0x00D7E232]
	(No symbol) [0x00D6A784]
	(No symbol) [0x00D7C922]
	(No symbol) [0x00D6A536]
	(No symbol) [0x00D482DC]
	(No symbol) [0x00D493DD]
	GetHandleVerifier [0x010EAABD+2539405]
	GetHandleVerifier [0x0112A78F+2800735]
	GetHandleVerifier [0x0112456C+2775612]
	GetHandleVerifier [0x00F151E0+616112]
	(No symbol) [0x00E25F8C]
	(No symbol) [0x00E22328]
	(No symbol) [0x00E2240B]
	(No symbol) [0x00E14FF7]
	BaseThreadInitThunk [0x75C500C9+25]
	RtlGetAppContainerNamedObjectPath [0x773C7B4E+286]
	RtlGetAppContainerNamedObjectPath [0x773C7B1E+238]


In [44]:
driver.find_element(By.XPATH, "//button[@class='artdeco-global-alert-action artdeco-button artdeco-button--inverse artdeco-button--2 artdeco-button--primary']").click()


In [33]:
for element in driver.find_elements(By.TAG_NAME, 'icon'):
    print(element.get_attribute('class'))

nav-logo--inbug flex text-color-brand papabear:hidden mamabear:hidden lazy-loaded
block text-color-brand w-[84px] h-[21px] papabear:w-[135px] papabear:h-[34px] babybear:hidden lazy-loaded
top-nav-link__icon flex h-3 w-3 flex-shrink-0 lazy-loaded
top-nav-link__icon flex h-3 w-3 flex-shrink-0 lazy-loaded
top-nav-link__icon flex h-3 w-3 flex-shrink-0 lazy-loaded
top-nav-link__icon flex h-3 w-3 flex-shrink-0 lazy-loaded
modal__dismiss-icon relative top-[2px] lazy-loaded
ellipsis-menu__trigger-icon m-0 p-0 centered-icon lazy-loaded
ellipsis-menu__item-icon text-color-text h-[24px] w-[24px] mr-1 lazy-loaded
modal__dismiss-icon relative top-[2px] lazy-loaded
hidden-summary__summary-item-icon h-2 w-2
                      
hidden-summary__summary-item-icon h-2 w-2
                      
hidden-summary__summary-item-icon h-2 w-2
                      
show-more-less__button--chevron show-more-less-button-icon
show-more-less__button--chevron show-more-less-button-icon lazy-loaded
base-aside-card

In [40]:
driver.find_elements(By.TAG_NAME, 'icon')[-6:-5][0]

<selenium.webdriver.remote.webelement.WebElement (session="096ae0805f630a7c237820f2ef5ccd3d", element="E3D003839336EE8C12446713446D3B3C_element_103")>

In [44]:
driver.find_elements(By.TAG_NAME, 'icon')[-2:-1][0].click()

In [47]:
driver.find_element(By.XPATH, "//h1[@class='top-card-layout__title font-sans text-lg papabear:text-xl font-bold leading-open text-color-text mb-0']")

<selenium.webdriver.remote.webelement.WebElement (session="096ae0805f630a7c237820f2ef5ccd3d", element="E3D003839336EE8C12446713446D3B3C_element_175")>

In [47]:
(driver
 .find_element(By.XPATH, "//h1[@class='top-card-layout__title font-sans text-lg papabear:text-xl font-bold leading-open text-color-text mb-0']")
 .text)


'Yonatan Rodriguez Alvarez'

In [15]:
nombre=driver.find_element_by_xpath('//*[@id="ember276"]/div[2]/div[2]/div[1]/div[1]/h1').text

titulo=driver.find_element_by_xpath('//*[@id="ember276"]/div[2]/div[2]/div[1]/div[2]').text

lugar=driver.find_element_by_xpath('//*[@id="ember276"]/div[2]/div[2]/div[2]/span[1]').text

acerca_de=driver.find_element_by_xpath('//*[@id="ember338"]/div[3]/div/div/div').text

driver.quit()

In [17]:
data={'nombre': nombre, 'titulo': titulo,
     'lugar': lugar, 'acerca_de': acerca_de}

data

{'nombre': 'Yonatan Rodriguez Alvarez',
 'titulo': 'Data Scientist - Data Educator',
 'lugar': 'Madrid, Comunidad de Madrid, España',
 'acerca_de': "I'm constantly searching for new ideas and developments to apply analytic and creative\nthinking.\nI'm passionate about applying knowlegde to improve myself and society, besides helping others to improve themselfs.\nAbout me, I love music, was my job years ago, and I love walk in nature.\nPython·Git·MySQL·MongoDB·Linux·MatLab·Machine Learning·Dask·LightGBM\nhttps://github.com/YonatanRA\nhttps://www.codewars.com/users/YonatanRA\n… ver más"}

### Ejemplo escribir

In [15]:
driver.get('https://www.wunderground.com/history')

In [6]:
from selenium.webdriver.common.by import By

In [7]:
driver.find_element(By.ID, 'truste-consent-button').click()

In [16]:
driver.find_element(By.ID, 'historySearch').send_keys('Madrid, Madrid, Spain')

In [9]:
from selenium.webdriver.common.keys import Keys

In [19]:
driver.find_element(By.ID, 'dateSubmit').send_keys(Keys.ENTER)

In [21]:
for element in driver.find_elements(By.XPATH, "//a[@class='link ng-star-inserted']"):
    print(element.text)

Weekly
Monthly


In [22]:
driver.find_elements(By.XPATH, "//a[@class='link ng-star-inserted']")[1].click()

In [23]:
html = driver.page_source
html



In [25]:
from bs4 import BeautifulSoup as bs

In [26]:
soup = bs(html)
soup

<html dir="ltr" itemscope="" itemtype="http://schema.org/Organization" lang="en" prefix="og: http://ogp.me/ns#"><head itemscope="" itemtype="http://schema.org/WebSite"><style type="text/css">.truste_cursor_pointer {cursor: pointer;}.truste_border_none {border: none;}</style>
<meta charset="utf-8"/>
<title>Madrid, Spain Weather History | Weather Underground</title>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<link href="//widgets.outbrain.com" rel="dns-prefetch"/>
<link href="//odb.outbrain.com" rel="dns-prefetch"/>
<link href="//c.amazon-adsystem.com" rel="dns-prefetch"/>
<link href="//s.amazon-adsystem.com" rel="dns-prefetch"/>
<link href="//aax.amazon-adsystem.com" rel="dns-prefetch"/>
<link href="//partner.googleadservices.com" rel="dns-prefetch"/>
<link href="//tpc.googlesyndication.com" rel="dns-prefetch"/>
<link href="//pagead2.googlesyndication.com" rel="dns-prefetch"/>
<link href="//h.nexa

In [28]:
table = soup.find('table', {'class':'days ng-star-inserted'})
table

<table _ngcontent-app-root-c210="" aria-labelledby="History days" class="days ng-star-inserted"><thead _ngcontent-app-root-c210=""><tr _ngcontent-app-root-c210=""><td _ngcontent-app-root-c210="" class="ng-star-inserted">Time</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Temperature (°F)</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Dew Point (°F)</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Humidity (%)</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Wind Speed (mph)</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Pressure (in)</td><td _ngcontent-app-root-c210="" class="ng-star-inserted">Precipitation (in)</td><!-- --></tr></thead><tbody _ngcontent-app-root-c210=""><tr _ngcontent-app-root-c210=""><td _ngcontent-app-root-c210="" class="ng-star-inserted"><table _ngcontent-app-root-c210="" aria-labelledby="Days data"><tr _ngcontent-app-root-c210="" class="ng-star-inserted"><td _ngcontent-app-root-c210="" class="ng-sta

In [18]:
import pandas as pd

In [41]:
temp_df = pd.read_html(str(table))[0]
temp_df

Unnamed: 0,Time,Temperature (°F),Dew Point (°F),Humidity (%),Wind Speed (mph),Pressure (in),Precipitation (in)
0,Jun 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...,Max Avg Min 73 62.3 54 77 62.3 54 79 65.6 54 8...,Max Avg Min 57 52.8 48 59 53.8 48 55 53.0 46 6...,Max Avg Min 94 73.5 41 100 76.5 38 100 68.0 32...,Max Avg Min 20 6.8 0 23 5.7 0 21 5.3 0 12 4.6 ...,Max Avg Min 27.9 27.9 27.8 27.9 27.8 27.8 27.9...,Total 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 ...
1,Jun,,,,,,
2,1,,,,,,
3,2,,,,,,
4,3,,,,,,
...,...,...,...,...,...,...,...
164,0.00,,,,,,
165,0.00,,,,,,
166,0.00,,,,,,
167,0.00,,,,,,


In [57]:
temp_df['Temperature (°F)'][0].split(' ')[::3]

['Max',
 '73',
 '77',
 '79',
 '81',
 '81',
 '82',
 '73',
 '70',
 '77',
 '81',
 '84',
 '82',
 '75',
 '82',
 '88',
 '90',
 '93',
 '88',
 '88',
 '82',
 '82',
 '84',
 '88']

In [58]:
temp_df['Temperature (°F)'][0].split(' ')[1::3]

['Avg',
 '62.3',
 '62.3',
 '65.6',
 '67.0',
 '67.0',
 '70.2',
 '65.7',
 '64.8',
 '68.0',
 '70.7',
 '73.5',
 '70.5',
 '66.8',
 '72.5',
 '76.9',
 '80.7',
 '82.3',
 '77.4',
 '74.0',
 '75.1',
 '72.9',
 '74.2',
 '74.1']

In [59]:
temp_df['Temperature (°F)'][0].split(' ')[2::3]

['Min',
 '54',
 '54',
 '54',
 '54',
 '55',
 '55',
 '59',
 '61',
 '61',
 '59',
 '61',
 '57',
 '59',
 '55',
 '57',
 '61',
 '63',
 '64',
 '64',
 '64',
 '61',
 '57',
 '63']

In [60]:
temp_df['Temperature (°F) MAX'] = temp_df['Temperature (°F)'][0].split(' ')[::3][1:]

ValueError: Length of values (23) does not match length of index (169)

In [69]:
temp_df_small = temp_df[1:25].reset_index(drop=True)
temp_df_small

Unnamed: 0,Time,Temperature (°F),Dew Point (°F),Humidity (%),Wind Speed (mph),Pressure (in),Precipitation (in)
0,Jun,,,,,,
1,1,,,,,,
2,2,,,,,,
3,3,,,,,,
4,4,,,,,,
5,5,,,,,,
6,6,,,,,,
7,7,,,,,,
8,8,,,,,,
9,9,,,,,,


In [71]:
temp_df_small['Temperature (°F) Max'] = temp_df['Temperature (°F)'][0].split(' ')[::3]
temp_df_small

Unnamed: 0,Time,Temperature (°F),Dew Point (°F),Humidity (%),Wind Speed (mph),Pressure (in),Precipitation (in),Temperature (°F) Max
0,Jun,,,,,,,Max
1,1,,,,,,,73
2,2,,,,,,,77
3,3,,,,,,,79
4,4,,,,,,,81
5,5,,,,,,,81
6,6,,,,,,,82
7,7,,,,,,,73
8,8,,,,,,,70
9,9,,,,,,,77


In [72]:
def separar_columnas(columna, atributo):
    if atributo == 'Max':
        valor = 0
    elif atributo == 'Avg':
        valor = 1
    elif atributo == 'Min':
        valor = 2
    else:
        return(f'El atributo {atributo} no es válido. Solo permite Max, Avg o Min')
    temp_df_small[f'{columna}_{atributo}'] = temp_df[{columna}][0].split(' ')[valor::3]
    return(f'La columna {columna} ha sido separada por el atributo {atributo}')

In [78]:
def separar_columnas(columna):
    temp_df_small[f'{columna}_Max'] = temp_df[f'{columna}'][0].split(' ')[::3]
    temp_df_small[f'{columna}_Avg'] = temp_df[f'{columna}'][0].split(' ')[1::3]
    temp_df_small[f'{columna}_Min'] = temp_df[f'{columna}'][0].split(' ')[2::3]
    return(f'La columna {columna} ha sido separada')

In [79]:
separar_columnas('Dew Point (°F)')

'La columna Dew Point (°F) ha sido separada'

In [80]:
temp_df_small

Unnamed: 0,Time,Temperature (°F),Dew Point (°F),Humidity (%),Wind Speed (mph),Pressure (in),Precipitation (in),Temperature (°F) Max,Dew Point (°F)_Max,Dew Point (°F)_Avg,Dew Point (°F)_Min
0,Jun,,,,,,,Max,Max,Avg,Min
1,1,,,,,,,73,57,52.8,48
2,2,,,,,,,77,59,53.8,48
3,3,,,,,,,79,55,53.0,46
4,4,,,,,,,81,63,54.4,50
5,5,,,,,,,81,61,55.1,50
6,6,,,,,,,82,59,54.5,50
7,7,,,,,,,73,61,57.9,52
8,8,,,,,,,70,63,60.1,59
9,9,,,,,,,77,61,55.6,50


In [None]:
## repetir con los demás atributos (tambien se puede meter en la funcion)

In [None]:
## Visualizacion

In [None]:
## Hacer gráfico de líneas con un atributo

In [65]:
pd.read_html(str(bs(driver.page_source).find('table', {'class':'ng-star-inserted'})))[0]

Unnamed: 0_level_0,Temperature (°F),Actual,Historic Avg.,Record,Polygon
Unnamed: 0_level_1,Precipitation (in),Actual,Historic Avg.,Record,Polygon
Unnamed: 0_level_2,Dew Point (°F),Actual,Historic Avg.,Record,Polygon
Unnamed: 0_level_3,Wind (mph),Actual,Historic Avg.,Record,Polygon
Unnamed: 0_level_4,Sea Level Pressure (in),Actual,Historic Avg.,Record,Polygon
Unnamed: 0_level_5,Astronomy,Day Length,Rise,Set,Polygon
0,High Temp,90,82,--,
1,Low Temp,61,56,--,
2,Day Average Temp,79.15,69,-,
3,Precipitation (past 24 hours from 04:00:00),0.00,--,-,
4,Dew Point,52.07,-,-,
5,High,55,-,-,
6,Low,46,-,-,
7,Average,52.07,-,-,
8,Max Wind Speed,8,-,-,
9,Visibility,6,-,-,


### Ejemplo ESPN

https://www.espn.com/soccer/competitions

## Quiero que entreis en esa url, pincheis en la liga española, apartado teams y seleccioneis el equipo que querais y dandole a sus estadisticas.

### Teneis que scrapear la tabla que aparece

In [3]:
from selenium.webdriver.common.by import By

In [28]:
driver = webdriver.Chrome(ChromeDriverManager().install())

  driver = webdriver.Chrome(ChromeDriverManager().install())


In [59]:
driver.get('https://www.espn.com/soccer/competitions')

In [8]:
driver.find_element(By.ID, 'onetrust-accept-btn-handler').click()

In [47]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[19].get_property('href')

'http://www.espn.com/soccer/schedule/_/league/eng.league_cup'

In [52]:
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[40:70]:
    print(element.text)

Teams

English Premier League
Schedule
Teams

English FA Cup
Schedule
Teams

Spanish LaLiga
Schedule
Teams

Italian Serie A
Schedule
Teams

Scottish Premiership
Schedule
Teams

UEFA Nations League
Schedule
Teams

MLS
Schedule
Teams



In [63]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[52].get_property('href')


'https://www.espn.com/soccer/league/_/name/ita.1'

In [64]:
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']"):
    if element.get_property('href') == 'http://www.espn.com/soccer/teams/_/league/ita.1':
        element.click()
        break

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=114.0.5735.134)
Stacktrace:
Backtrace:
	GetHandleVerifier [0x00A1A813+48355]
	(No symbol) [0x009AC4B1]
	(No symbol) [0x008B5358]
	(No symbol) [0x008BE5A3]
	(No symbol) [0x008B8A78]
	(No symbol) [0x008B8A56]
	(No symbol) [0x008B7C03]
	(No symbol) [0x008BA19B]
	(No symbol) [0x0090D279]
	(No symbol) [0x008FA73C]
	(No symbol) [0x0090C922]
	(No symbol) [0x008FA536]
	(No symbol) [0x008D82DC]
	(No symbol) [0x008D93DD]
	GetHandleVerifier [0x00C7AABD+2539405]
	GetHandleVerifier [0x00CBA78F+2800735]
	GetHandleVerifier [0x00CB456C+2775612]
	GetHandleVerifier [0x00AA51E0+616112]
	(No symbol) [0x009B5F8C]
	(No symbol) [0x009B2328]
	(No symbol) [0x009B240B]
	(No symbol) [0x009A4FF7]
	BaseThreadInitThunk [0x762600C9+25]
	RtlGetAppContainerNamedObjectPath [0x777F7B4E+286]
	RtlGetAppContainerNamedObjectPath [0x777F7B1E+238]


In [58]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[52].click()

In [11]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")

[<selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_494")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_495")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_496")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_497")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_498")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d586b9c52b10", element="B917C127091FFF97C549A4AD6901D6B1_element_499")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1e334f90f937ad7158d1d5

In [16]:
for el in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[50:70]:
    print(el.text)

Spanish LaLiga
Schedule
Teams

Italian Serie A
Schedule
Teams

Scottish Premiership
Schedule
Teams

UEFA Nations League
Schedule
Teams

MLS
Schedule
Teams



In [19]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[52].click()

In [65]:
i = 0
for el in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']"):
    
    print(el.text,i)
    i += 1


SCORES 0
 1
Alavés 2
Fixtures 3
Stats 4
 5
Almería 6
Fixtures 7
Stats 8
 9
Athletic Club 10
Fixtures 11
Stats 12
 13
Atletico Madrid 14
Fixtures 15
Stats 16
 17
Barcelona 18
Fixtures 19
Stats 20
 21
Celta Vigo 22
Fixtures 23
Stats 24
 25
Cádiz 26
Fixtures 27
Stats 28
 29
Getafe 30
Fixtures 31
Stats 32
 33
Girona 34
Fixtures 35
Stats 36
 37
Granada 38
Fixtures 39
Stats 40
 41
Las Palmas 42
Fixtures 43
Stats 44
 45
Mallorca 46
Fixtures 47
Stats 48
 49
Osasuna 50
Fixtures 51
Stats 52
 53
Rayo Vallecano 54
Fixtures 55
Stats 56
 57
Real Betis 58
Fixtures 59
Stats 60
 61
Real Madrid 62
Fixtures 63
Stats 64
 65
Real Sociedad 66
Fixtures 67
Stats 68
 69
Sevilla 70
Fixtures 71
Stats 72
 73
Valencia 74
Fixtures 75
Stats 76
 77
Villarreal 78
Fixtures 79
Stats 80


In [68]:
driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[60].click()

In [85]:
driver.find_element(By.XPATH, "//div[@class='dropdown dropdown--md dropdown__select--seasons']").click()

In [86]:
driver.find_elements(By.XPATH, "//option[@class='dropdown__option']")[9].click()

In [84]:
i = 0
for element in driver.find_elements(By.XPATH, "//option[@class='dropdown__option']"):
    print(element.text, i)
    i += 1

Spanish LaLiga 0
UEFA Europa League 1
Spanish Copa del Rey 2
Spanish Supercopa 3
Club Friendly 4
Spanish LaLiga 2 5
UEFA Cup 6
UEFA Champions League 7
2023-24 8
2022-23 9
2021-22 10
2020-21 11
2019-20 12
2018-19 13
2017-18 14
2016-17 15
2015-16 16
2013-14 17
2012-13 18
2011-12 19
2008-09 20
2007-08 21
2006-07 22
2005-06 23
2004-05 24
2003-04 25
2002-03 26


In [87]:
from bs4 import BeautifulSoup as bs

In [88]:
driver.page_source

'<html lang="en" data-react-helmet="lang"><head><script src="//javascript:;"></script><script src="//javascript:;"></script><script src="https://secure.espn.com/js/dcf/tags/vision/latest/vision-videojs.js"></script><script async="" src="//javascript:;"></script><script async="" src="//javascript:;"></script><script async="" src="//javascript:;"></script><script type="text/javascript" async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/fa7598e370e9aa63237bdc1a926a819e.js?conditionId0=4924895"></script><script type="text/javascript" async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/ed391d4d7ebc0ad9228131ded7455a26.js"></script><script type="text/javascript" async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/0b62e6477d4c5febd5238c72e8724d4a.js?conditionId0=4924177"></script><script type="text/javascript" async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/c03b74153849c2205938940d0e3a2653.js?conditionId0=4905157"></script><script type="text/javascript" async="" src="https://

In [92]:
bs(driver.page_source).find('table', {'class':'Table'})

<table class="Table" style="border-collapse: collapse; border-spacing: 0px;"><colgroup class="Table__Colgroup"><col class="Table__Column"/><col class="Table__Column"/><col class="Table__Column"/><col class="Table__Column"/></colgroup><thead class="Table__THEAD"><tr class="Table__TR Table__even"><th class="Table__TH" title=""><span class="fw-medium w-100 dib" title="Ranking">RK</span></th><th class="Table__TH" title=""><span class="fw-medium w-100 dib" title="Athlete Name">Name</span></th><th class="tar Table__TH" title=""><span class="fw-medium w-100 dib tar" title="Games Played">P</span></th><th class="tar Table__TH" title=""><span class="fw-medium w-100 dib tar" title="Goals Scored">G</span></th></tr></thead><tbody class="Table__TBODY"><tr class="Table__TR Table__TR--sm Table__even" data-idx="0"><td class="Table__TD">1</td><td class="Table__TD"><span><a class="AnchorLink" data-player-uid="s:600~a:214995" href="http://www.espn.com/soccer/player/_/id/214995/borja-iglesias" tabindex="0"

In [93]:
import pandas as pd

In [94]:
pd.read_html(str(bs(driver.page_source).find('table', {'class':'Table'})))[0]

Unnamed: 0,RK,Name,P,G
0,1.0,Borja Iglesias,35,15
1,2.0,Sergio Canales,31,4
2,,Juanmi,22,4
3,4.0,William Carvalho,33,3
4,,Juan Miranda,21,3
5,,Ayoze Pérez,19,3
6,7.0,Rodrigo Sánchez,30,2
7,,Willian José,28,2
8,,Nabil Fekir,15,2
9,10.0,Guido Rodríguez,34,1


# Clase del 22/6

In [95]:
# Abrimos el driver
# driver = webdriver.Chrome(ChromeDriverManager().install())
driver = webdriver.Chrome()

  driver = webdriver.Chrome(ChromeDriverManager().install())


In [96]:
# Vamos a la página
driver.get('https://www.espn.com/soccer/competitions')

In [98]:
# Clickamos en las cookies
driver.find_element(By.ID, 'onetrust-accept-btn-handler').click()

In [101]:
# Al buscar el elemento con find_element (sin la s al final), me pincha 
# en el primer elemento que encuentra. Yo no quiero eso.
# Así que tenemos dos opciones.
# Buscar manualmente cual es (como vemos en este código, querremos el 52)

i = 40
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[40:70]:
    print(element.text, i)
    i += 1

Teams 40
 41
English Premier League 42
Schedule 43
Teams 44
 45
English FA Cup 46
Schedule 47
Teams 48
 49
Spanish LaLiga 50
Schedule 51
Teams 52
 53
Italian Serie A 54
Schedule 55
Teams 56
 57
Scottish Premiership 58
Schedule 59
Teams 60
 61
UEFA Nations League 62
Schedule 63
Teams 64
 65
MLS 66
Schedule 67
Teams 68
 69


In [104]:
# O esta opción, que con un bucle buscamos el elemento que
# cumple la opcion deseada. 
# Importante poner el break porque si no sigue intentando hacerlo
# 
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']"):
    if element.get_property('href') == 'http://www.espn.com/soccer/teams/_/league/esp.1':
        element.click()
        break

In [108]:
# Repetimos con el siguiente enlace
i = 40
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']")[40:70]:
    print(element.get_property('href'), i)
    i += 1

https://www.espn.com/soccer/team/stats/_/id/3747/granada 40
https://www.espn.com/soccer/team/_/id/98/las-palmas 41
https://www.espn.com/soccer/team/_/id/98/las-palmas 42
https://www.espn.com/soccer/team/fixtures/_/id/98/las-palmas 43
https://www.espn.com/soccer/team/stats/_/id/98/las-palmas 44
https://www.espn.com/soccer/team/_/id/84/mallorca 45
https://www.espn.com/soccer/team/_/id/84/mallorca 46
https://www.espn.com/soccer/team/fixtures/_/id/84/mallorca 47
https://www.espn.com/soccer/team/stats/_/id/84/mallorca 48
https://www.espn.com/soccer/team/_/id/97/osasuna 49
https://www.espn.com/soccer/team/_/id/97/osasuna 50
https://www.espn.com/soccer/team/fixtures/_/id/97/osasuna 51
https://www.espn.com/soccer/team/stats/_/id/97/osasuna 52
https://www.espn.com/soccer/team/_/id/101/rayo-vallecano 53
https://www.espn.com/soccer/team/_/id/101/rayo-vallecano 54
https://www.espn.com/soccer/team/fixtures/_/id/101/rayo-vallecano 55
https://www.espn.com/soccer/team/stats/_/id/101/rayo-vallecano 56


In [109]:
# Repetimos con el siguiente enlace
for element in driver.find_elements(By.XPATH, "//a[@class='AnchorLink']"):
    if element.get_property('href') == 'https://www.espn.com/soccer/team/stats/_/id/244/real-betis':
        element.click()
        break

In [124]:
# Abrimos el desplegable
driver.find_element(By.XPATH, "//div[@class='dropdown dropdown--md dropdown__select--seasons']").click()

In [125]:
# Clickamos en 2022
driver.find_elements(By.XPATH, "//option[@class='dropdown__option']")[9].click()

In [127]:
# Obtenemos el html de la página
html = driver.page_source
html

'<html lang="en" data-react-helmet="lang"><head><script async="" data-jsonpid="" src="https://cdn-gl.imrworldwide.com/novms/js/2/nlsSDK600.bundle.min.js"></script><script src="//static.chartbeat.com/js/chartbeat_video.js"></script><script src="//sb.scorecardresearch.com/cs/3000005/beacon.js"></script><script src="https://secure.espn.com/js/dcf/tags/vision/latest/vision-videojs.js"></script><script async="" src="https://cdn-gl.imrworldwide.com/conf/P07264C85-15CD-4A80-8E56-B5BFA6D93296.js#name=nlsnInstance&amp;ns=NOLBUNDLE"></script><script async="" src="//d.impactradius-event.com/A1323623-ff1f-47da-bf87-01a65620c9c91.js"></script><script src="https://connect.facebook.net/signals/config/504412503408123?v=2.9.108&amp;r=stable" async=""></script><script async="" src="https://connect.facebook.net/en_US/fbevents.js"></script><script type="text/javascript" async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/fa7598e370e9aa63237bdc1a926a819e.js?conditionId0=4924895"></script><script type="t

In [132]:
# Lo pasamos a soup
soup = bs(html)
soup

<html data-react-helmet="lang" lang="en"><head><script async="" data-jsonpid="" src="https://cdn-gl.imrworldwide.com/novms/js/2/nlsSDK600.bundle.min.js"></script><script src="//static.chartbeat.com/js/chartbeat_video.js"></script><script src="//sb.scorecardresearch.com/cs/3000005/beacon.js"></script><script src="https://secure.espn.com/js/dcf/tags/vision/latest/vision-videojs.js"></script><script async="" src="https://cdn-gl.imrworldwide.com/conf/P07264C85-15CD-4A80-8E56-B5BFA6D93296.js#name=nlsnInstance&amp;ns=NOLBUNDLE"></script><script async="" src="//d.impactradius-event.com/A1323623-ff1f-47da-bf87-01a65620c9c91.js"></script><script async="" src="https://connect.facebook.net/signals/config/504412503408123?v=2.9.108&amp;r=stable"></script><script async="" src="https://connect.facebook.net/en_US/fbevents.js"></script><script async="" src="https://dcf.espn.com/TWDC-DTCI/prod/code/fa7598e370e9aa63237bdc1a926a819e.js?conditionId0=4924895" type="text/javascript"></script><script async=""

In [135]:
# Buscamos la tabla
table = soup.find('table',{'class':'Table'})
table

<table class="Table" style="border-collapse: collapse; border-spacing: 0px;"><colgroup class="Table__Colgroup"><col class="Table__Column"/><col class="Table__Column"/><col class="Table__Column"/><col class="Table__Column"/></colgroup><thead class="Table__THEAD"><tr class="Table__TR Table__even"><th class="Table__TH" title=""><span class="fw-medium w-100 dib" title="Ranking">RK</span></th><th class="Table__TH" title=""><span class="fw-medium w-100 dib" title="Athlete Name">Name</span></th><th class="tar Table__TH" title=""><span class="fw-medium w-100 dib tar" title="Games Played">P</span></th><th class="tar Table__TH" title=""><span class="fw-medium w-100 dib tar" title="Goals Scored">G</span></th></tr></thead><tbody class="Table__TBODY"><tr class="Table__TR Table__TR--sm Table__even" data-idx="0"><td class="Table__TD">1</td><td class="Table__TD"><span><a class="AnchorLink" data-player-uid="s:600~a:214995" href="http://www.espn.com/soccer/player/_/id/214995/borja-iglesias" tabindex="0"

In [138]:
# Y la leemos con pandas
pd.read_html(str(table))[0]

Unnamed: 0,RK,Name,P,G
0,1.0,Borja Iglesias,35,15
1,2.0,Sergio Canales,31,4
2,,Juanmi,22,4
3,4.0,William Carvalho,33,3
4,,Juan Miranda,21,3
5,,Ayoze Pérez,19,3
6,7.0,Rodrigo Sánchez,30,2
7,,Willian José,28,2
8,,Nabil Fekir,15,2
9,10.0,Guido Rodríguez,34,1


In [None]:
## hasta aquí

In [None]:
html = driver.page_source
soup = bs(html)
table = soup.find('table',{'class':'Table'})
pd.read_html(str(table))[0]

In [None]:
pd.read_html(str(bs(driver.page_source).find('table', {'class':'Table'})))[0]

In [48]:
url='https://www.espn.com/soccer/competitions'

In [49]:
driver=webdriver.Chrome(PATH)

driver.get(url)

In [51]:
# cookies

acepto=driver.find_element(By.XPATH, '//*[@id="onetrust-accept-btn-handler"]')
acepto.click()

In [21]:
# equipos laliga

equipos=driver.find_element(By.XPATH, '//*[@id="fittPageContainer"]/div[3]/div/div/div/div[2]/div[1]/div/div[4]/div/section/div/div/span[2]/a')
equipos.click()

In [22]:
# atm

atm_stats=driver.find_element_by_xpath('//*[@id="fittPageContainer"]/div[3]/div/div/div[1]/div[2]/div[1]/div/div[3]/div/section/div/div/span[2]/a')
atm_stats.click()

In [32]:
tabla=driver.find_element_by_tag_name('tbody')

filas=tabla.find_elements_by_tag_name('tr')

'''
data=[]

for f in filas:
    
    elementos=f.find_elements_by_tag_name('td')
    
    tmp=[]
    
    for e in elementos:
        tmp.append(e.text)
        
    
    data.append(tmp)
'''

data=[[e.text for e in f.find_elements_by_tag_name('td')] for f in filas]

cabeceras=driver.find_element_by_tag_name('thead')

cabeceras=[c.text for c in cabeceras.find_elements_by_tag_name('th')]

driver.quit()

In [28]:
driver.current_url  # para sacar la url actual

'https://www.espn.com/soccer/team/stats/_/id/1068/league/ESP.1/view/scoring'

In [33]:
import pandas as pd

pd.DataFrame(data, columns=cabeceras)

Unnamed: 0,RK,NAME,P,G
0,1.0,Ángel Correa,21,8
1,2.0,Luis Suárez,20,7
2,3.0,Matheus Cunha,17,4
3,4.0,Thomas Lemar,15,3
4,,Antoine Griezmann,16,3
5,6.0,Yannick Carrasco,20,2
6,,Felipe,14,2
7,,João Félix,13,2
8,9.0,Mario Hermoso,20,1
9,,Geoffrey Kondogbia,15,1


In [None]:
## Aquí vemos como enviar texto a una pagina

In [139]:
driver.find_element(By.CLASS_NAME, 'Nav__Search__Toggle').click()

In [144]:
from selenium.webdriver.common.keys import Keys

In [141]:
driver.find_element(By.ID, 'searchBox').send_keys('Hola')

In [145]:
driver.find_element(By.ID, 'searchBox').send_keys(Keys.RETURN)

In [61]:
#seacrh_box = driver.find_element(By.ID, 'searchBox')

In [62]:
#seacrh_box.send_keys('Hola')

In [63]:
#seacrh_box.send_keys(Keys.RETURN)

# Amazon

# Amazon
## Entrar en la página web de amazon desde google. Poner algo para buscar, por ejemplo, un balon de futbol.

## Luego, clickar en uno de ellos y sacar toda la informacion principal.

## Después, hacer una función que te saque todos esos datos de forma automática.

### Haremos uso de la función time 

In [81]:
import time 
time.sleep(10)