# Ejemplo de WebScraping con Python

## Obtener S&P Merval que es el principal índice del Mercado de Valores de Buenos Aires

In [3]:
# Importamos las librerías Python que utilizaremos
import requests
from bs4 import BeautifulSoup
import csv
from datetime import datetime

In [4]:
# Indicamos la ruta de la web que deseamos acceder
url_page = 'https://bolsar.info'

In [12]:
# Y ahora haremos el request a esa ruta y procesaremos el HTML mediante un objeto de tipo BeautifulSoap. 
# Utilizando lxml como analizador.

#page = requests.get(url_page).text 
page = requests.get(url_page, verify=False).text 

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    soup = BeautifulSoup(page, "lxml")
    
    # Por ejemplo, puedes imprimir el título de la página:
    print(soup.title.text)

    #print(soup)
else:
    print("No se pudo acceder a la página web.")



Resumen de Mercado - BCBA


Bien, ahora nos toca pensar la estrategia para acceder al valor. En nuestro caso nos interesa primero acceder a la tabla, y de allí a sus celdas. Por suerte la tabla tiene un id único!

In [14]:
# Buscar el elemento <table> con el atributo 'id' igual a 'tbAlzasBajasSinCambio'
tabla = soup.find('table', attrs={'id':'tbAlzasBajasSinCambio'})

# Verificar si se encontró la tabla
if tabla:
    # Realizar acciones en la tabla encontrada
    print(tabla)
else:
    print("La tabla no fue encontrada en la página.")

<table border="0" cellpadding="0" cellspacing="0" id="tbAlzasBajasSinCambio" style="font-size: 17px;" width="100%">
<tbody>
</tbody></table>


Nos devuelve el `<tbody>` vacío y la información que deseamos está dentro de este `<tbody>`generado dinámicamente a través de JavaScript, `BeautifulSoup`, por sí solo, no puede capturar esa información, ya que se trata de una técnica conocida como carga dinámica de contenido.

Para capturar datos generados dinámicamente a través de JavaScript, es posible que necesitmos una herramienta adicional como `Selenium`, que puede controlar un navegador web y ejecutar JavaScript. Aquí hay un ejemplo de cómo usar Selenium con Chrome WebDriver para obtener la página y luego extraer la información de la tabla:

Primero, debes instalar `Selenium` si aún no lo hemos hecho:

    $ pip install selenium


In [19]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Opciones para el navegador Chrome
chrome_options = Options()
chrome_options.add_argument('--headless')  # Ejecutar Chrome en modo sin cabeza (sin interfaz gráfica)

# Inicializar el controlador de Chrome
driver = webdriver.Chrome(options=chrome_options)

# Acceder a la página web con Selenium
driver.get(url_page)

# Esperar a que la página se cargue completamente (puedes ajustar este tiempo según sea necesario)
driver.implicitly_wait(10)

# Obtener el contenido HTML de la página después de que JavaScript haya cargado los datos
page_source = driver.page_source

# Cerrar el navegador web controlado por Selenium
driver.quit()

# Analizar el contenido HTML con BeautifulSoup
soup = BeautifulSoup(page_source, 'html.parser')

# Buscar la tabla dentro del HTML cargado dinámicamente
tabla = soup.find('table', id='tbAlzasBajasSinCambio')

# Verificar si se encontró la tabla
if tabla:
    # Realizar acciones en la tabla encontrada
    print(tabla)
else:
    print("La tabla no fue encontrada en la página.")


<table border="0" cellpadding="0" cellspacing="0" id="tbAlzasBajasSinCambio" style="font-size: 17px;" width="100%"><tbody><tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
<td class="nombreItemFila">Indice</td><td class="nombreItemFila" style="text-align:right">Valor</td><td class="nombreItemFila" style="text-align:right;">Variación</td></tr><tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
<td class="nombreItemFila"><a href="indices.php?indice=0">S&amp;P BOLSA-G</a></td><td class="nombreItemFila" style="text-align:right">26.903.047,89</td><td class="nombreItemFila" style="text-align:right;color:#e94b46">-2,41% <i class="fa fa-arrow-down" style="color:#e94b46;"></i></td></tr><tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
<td class="nombreItemFila"><a href="indices.php?indice=2">S&amp;P MERVAL</a></td><td class="nombreItemFila" style="text-align:right">635.969,46</td><td class="nombreItemFila" style="text-a

In [17]:
indice=""
valor=""
nroFila=0
for fila in tabla.find_all("tr"):
    if nroFila==1:
        nroCelda=0
        for celda in fila.find_all('td'):
            if nroCelda==0:
                name=celda.text
                print("Indice:", indice)
            if nroCelda==2:
                price=celda.text
                print("Valor:", valor)
            nroCelda=nroCelda+1
    nroFila=nroFila+1

Indice: 
Valor: 


In [21]:
# Obtener todas las filas de la tabla
filas = tabla.find_all('tr')
    
# Recorrer las filas y obtener los valores de las celdas
for fila in filas:
    # Obtener todas las celdas de la fila
    celdas = fila.find_all('td')
        
    # Imprimir los valores de las celdas
    for celda in celdas:
        print(celda.text.strip())  # Utiliza strip() para eliminar espacios en blanco alrededor de los valores
print()  # Agregar una línea en blanco entre las filas

Indice
Valor
Variación
S&P BOLSA-G
26.903.047,89
-2,41%
S&P MERVAL
635.969,46
-2,69%



In [18]:
from bs4 import BeautifulSoup

# HTML de la tabla
html = """
<table border="0" cellpadding="0" cellspacing="0" id="tbAlzasBajasSinCambio" style="font-size: 17px;" width="100%">
    <tbody>
        <tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
            <td class="nombreItemFila">Indice</td>
            <td class="nombreItemFila" style="text-align:right">Valor</td>
            <td class="nombreItemFila" style="text-align:right;">Variación</td>
        </tr>
        <tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
            <td class="nombreItemFila"><a href="indices.php?indice=0">S&amp;P BOLSA-G</a></td>
            <td class="nombreItemFila" style="text-align:right">26.946.950,65</td>
            <td class="nombreItemFila" style="text-align:right;color:#e94b46">-2,25% <i class="fa fa-arrow-down" style="color:#e94b46;"></i></td>
        </tr>
        <tr class="filaFiltroPanelPrincipal 3" style="border-top: 2px solid #ccc;">
            <td class="nombreItemFila"><a href="indices.php?indice=2">S&amp;P MERVAL</a></td>
            <td class="nombreItemFila" style="text-align:right">636.932,70</td>
            <td class="nombreItemFila" style="text-align:right;color:#e94b46">-2,55% <i class="fa fa-arrow-down" style="color:#e94b46;"></i></td>
        </tr>
    </tbody>
</table>
"""

# Analizar el contenido HTML
soup = BeautifulSoup(html, 'html.parser')

# Encontrar la tabla por su ID
tabla = soup.find('table', id='tbAlzasBajasSinCambio')

# Verificar si se encontró la tabla
if tabla:
    # Obtener todas las filas de la tabla
    filas = tabla.find_all('tr')
    
    # Recorrer las filas y obtener los valores de las celdas
    for fila in filas:
        # Obtener todas las celdas de la fila
        celdas = fila.find_all('td')
        
        # Imprimir los valores de las celdas
        for celda in celdas:
            print(celda.text.strip())  # Utiliza strip() para eliminar espacios en blanco alrededor de los valores
        print()  # Agregar una línea en blanco entre las filas
else:
    print("La tabla no fue encontrada en el HTML.")

Indice
Valor
Variación

S&P BOLSA-G
26.946.950,65
-2,25%

S&P MERVAL
636.932,70
-2,55%



In [None]:
# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
with open('bolsa_ibex35.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    writer.writerow([name, price, datetime.now()])

# Obtener resultados de Futbol
## Ejemplo Liga BBVA - España - Primera -  desde marcadores.com

In [None]:
url_page = 'https://www.marcadores.com/futbol/espana/liga-bbva/?competitionRoundId=486942' # jornada 20

In [None]:
# tarda 1500 milisegundos
page = requests.get(url_page).text 
soup = BeautifulSoup(page, "lxml")

In [None]:
# Obtenemos la tabla por un ID específico
tabla = soup.find('table', attrs={'class': 'matches'})
tabla

In [None]:
data = []
equipo1=""
equipo2=""
resultado=""
nroFila=0
for fila in tabla.find_all("tr"):
    if nroFila>0:
        nroCelda=0
        capturar=False
        for celda in fila.find_all('td'):
            if nroCelda==1 and celda.text=='Fin.':
                capturar=True
            if capturar and nroCelda==2:
                equipo1=celda.text
            if capturar and nroCelda==4:
                equipo2=celda.text
            if capturar and nroCelda==5:
                resultado=celda.text
                print("Partido:", equipo1,'vs',equipo2,resultado)
                data.append((equipo1,equipo2,resultado))
            nroCelda=nroCelda+1
    nroFila=nroFila+1

In [None]:
# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
with open('partidos_liga_primera.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    for equipo1, equipo2,resultado in data:
        writer.writerow([equipo1, equipo2, resultado,datetime.now()])

# Otros ejemplos de WebScaping

In [None]:
#supongamos tenemos el siguiente HTML
pagina_web = "<html>" \
            + "<head></head>" \
            + "<body>" \
                + "<div class='contenedor'>" \
                    + "<div id='123' name='bloque_bienvenida' class='verde'>" \
                        + "Bienvenido a mi web" \
                    + "</div>" \
                + "</div>" \
            + "</body>" \
            + "</html>"

In [None]:
soup = BeautifulSoup(pagina_web, "lxml")

In [None]:
#Obtener por ID:
elTexto = soup.find('div', attrs={'id': '123'}).getText()
print(elTexto)

In [None]:
#Obtener por Clase CSS:
elTexto = soup.find('div', attrs={'class': 'verde'}).getText()
print(elTexto)

In [None]:
#Obtener dentro de otra etiqueta anidado:
elTexto = next(soup.div.children).getText() #con next obtiene primer "hijo"
print(elTexto)

## Obtener items de un listado

In [None]:
#supongamos tenemos el siguiente HTML
pagina_web = "<html>" \
    + "<head></head>" \
    + "<body>" \
        + "<div class='contenedor'>" \
            + "<ul>" \
                + "<li>Perro</li>" \
                + "<li>Gato</li>" \
                + "<li>Tortuga</li>" \
            + "</ul>" \
        + "</div>" \
    + "</body>" \
    + "</html>"

In [None]:
soup = BeautifulSoup(pagina_web, "lxml")

In [None]:
for child in soup.ul.children:
    print(child.getText())

In [None]:
items = soup.find_all('li')
for item in items:
    print(item.getText())

## Obtener Enlaces

In [None]:
#supongamos tenemos el siguiente HTML
pagina_web = "<html>" \
    + "<head></head>" \
    + "<body>" \
        + "<div class='contenedor'>" \
            + "<ul>" \
                + "<li><a href='http://www.google.com'>Google</a></li>" \
                + "<li><a href='http://www.yahoo.com'>Yahoo</a></li>" \
                + "<li><a href='http://www.bing.com'>Bing</a></li>" \
            + "</ul>" \
        + "</div>" \
    + "</body>" \
    + "</html>"

In [None]:
soup = BeautifulSoup(pagina_web, "lxml")

In [None]:
items = soup.find_all('a')
for item in items:
    print(item['href'])

## Ejemplo completo Extraer enlaces

In [None]:
url_page = 'https://www.lifeder.com/cientificos-famosos/'
page = requests.get(url_page).text 
soup = BeautifulSoup(page, "lxml")
contenido = soup.find('div', attrs={'class': 'td-post-content'})
items = contenido.find_all('a')
for item in items:
    print(item['href'])

El artículo completo en www.aprendemachinelearning.com