# Web Scraping con Python

### Librerías

Vamos a necesitar Selenium, BeautifulSoup y Pandas

Instala Selenium con el siguiente código *conda install -c conda-forge selenium*, 

Herramienta de automatización de navegadores web que permite interactuar con paginas de manera programatica, es decir con codigo. Es util para tareas de prueba automatizadas(testing) en aplicaciones web y para automatizar interacciones repetitivas web. 


Instala BeautifulSoup con el código *conda install -c anaconda beautifulsoup4*

Biblioteca de python  que se usa para parsear(analizar) documentos html y xml(archivos de texto). Herramienta para extraer info de pag. web, haciendo web scraping.

### Diferencias:

### Selenium:
#### Interacción: Interactúa con una página web como lo haría un humano, es decir, puede hacer clic, rellenar formularios y navegar entre páginas.
#### Rendimiento: Es más lento y consume más recursos porque controla un navegador completo.
#### Uso típico: Se utiliza para pruebas automatizadas y para scraping de páginas web dinámicas, donde el contenido se carga en función de la interacción del usuario


### BeautifulSoup:
#### Interacción: No interactúa con la web. Solo analiza y extrae datos del HTML estático.
#### Rendimiento: Es más rápido y no necesita un navegador para funcionar.
#### Uso típico: Se usa principalmente para extraer datos de páginas web estáticas, donde el contenido no cambia en función de interacciones del usuario.

### Ambas herramientas se pueden usar juntas para tareas de scraping más avanzadas. Por ejemplo, puedes usar Selenium para cargar la página y manejar interacciones dinámicas, y luego usar BeautifulSoup para analizar el HTML resultante y extraer los datos que necesitas.


Ahora Carga Webdriver de Selenium

In [153]:
from selenium import webdriver #importar el módulo webdriver de la biblioteca selenium.

Carga BeautifulSoup de Beautiful Soup

In [203]:
from bs4 import BeautifulSoup as bs # del modulo bs4  importando la clase BeautifulSoup

Y Pandas como PD

In [157]:
import pandas as pd


Carga Service desde selenium.webdriver.chrome.service y tambien ChromeDriverManager desde webdriver_manager

In [161]:
from selenium.webdriver.chrome.service import Service

##### Esta línea importa la clase Service desde el submódulo chrome.service del paquete selenium.webdriver.
##### ¿Qué es Service?
##### Service: Es una clase que se utiliza para gestionar la ejecución del ChromeDriver, el componente que permite a Selenium interactuar con Google Chrome. Cuando usas Selenium para automatizar 
##### tareas en un navegador, necesitas un "driver" específico para ese navegador, como chromedriver para Chrome.
##### Función: Service te permite configurar y controlar cómo se inicia, se ejecuta y se finaliza el proceso de ChromeDriver. Esto es útil para manejar de manera más fina la comunicación entre 
##### Selenium y el navegador Chrome.
##### Uso Típico: En lugar de simplemente usar el controlador por defecto, Service te permite especificar detalles como la ubicación del chromedriver, los logs, y otras configuraciones avanzadas.
##### from webdriver_manager.chrome import ChromeDriverManager

In [159]:
from webdriver_manager.chrome import ChromeDriverManager


##### Esta línea importa la clase ChromeDriverManager desde el módulo webdriver_manager.chrome.

##### ¿Qué es ChromeDriverManager?
##### ChromeDriverManager: Es una clase proporcionada por la biblioteca webdriver-manager, que facilita la instalación y la gestión del ChromeDriver.

##### Función: En lugar de descargar manualmente la versión correcta de ChromeDriver cada vez que actualizas Google Chrome, ChromeDriverManager se encarga automáticamente de descargar la versión más apropiada para ti. Esto es especialmente útil para evitar incompatibilidades entre versiones del navegador y del driver.

##### Uso Típico: ChromeDriverManager se utiliza para instalar y configurar automáticamente el ChromeDriver antes de que se utilice en un script de Selenium. Esto ahorra tiempo y esfuerzo, asegurando que siempre tienes la versión correcta.

In [139]:
from urllib.parse import urljoin #util para juntar 2 url´s, util cuando un catalogo no cabe en una pagina y hay poner pag siguiente

##### Importa la función urljoin desde el módulo urllib.parse, que forma parte de la biblioteca estándar de Python. Este módulo se utiliza para manipular URLs (Uniform Resource Locators) y 

##### realizar operaciones comunes relacionadas con ellas.

##### urljoin es una función práctica para crear URLs completas a partir de una URL base y una URL relativa. Ayuda a asegurar que los enlaces se construyen correctamente, respetando las 
##### convenciones de las URLs y evitando errores comunes relacionados con la concatenación manual de cadenas de texto para formar URLs.

## Configuración

In [169]:
from selenium.webdriver.chrome.options import Options
# Especificar la ruta del ejecutable de Brave
brave_path = "C:/Users/usuario/AppData/Local/BraveSoftware/Brave-Browser/Application/brave.exe"
driver_path = "C:/Program Files/chromedriver-win64/chromedriver.exe"  # Asegúrate de que esta es la ruta donde extrajiste el chromedriver.exe


# Configurar opciones de Chrome para usar Brave
chrome_options = Options()
chrome_options.binary_location = brave_path

Ok, ahora configura webdriver para usar Chrome por default, localiza tu chromedriver y usalo en este comando

In [178]:
driver = webdriver.Chrome(service=Service(driver_path), options=chrome_options)#este codigo cambia ya que uso brave en chrome seria diferente,abre una ventena, controlado por selenium

Arma 3 listas, una para metros cuadrados, otra para precio y otra para ubicacion

In [386]:
titulosucio=[]
preciosucio=[]
stocksucio=[]

In [434]:
titulos=[]
precios=[]
stock=[]

Y arma un driver.get para especificar la página de donde vamos a trabajar

In [None]:
driver.get("https://www.inmuebles24.com/terrenos-en-venta-en-fraccionamiento-bugambilias.html")

vamos a trabajar con otro ejemplo

In [390]:
driver.get("https://books.toscrape.com/")

## Extracción de Datos

Guarda el código HTML de la página en un objeto Contenido

In [392]:
contenido=driver.page_source

Conviertelo a BeautifulSoup

In [394]:
soup=bs(contenido)

Arma un for en el que vayas agregando a nuestras listas los datos necesarios con a.find, usa . append para ir agregando los datos a las listas

In [396]:

soup.find_all("article",attrs={"class":"product_pod"})#sacar todos los articulos
        

[<article class="product_pod">
 <div class="image_container">
 <a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
 </div>
 <p class="star-rating Three">
 <i class="icon-star"></i>
 <i class="icon-star"></i>
 <i class="icon-star"></i>
 <i class="icon-star"></i>
 <i class="icon-star"></i>
 </p>
 <h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
 <div class="product_price">
 <p class="price_color">£51.77</p>
 <p class="instock availability">
 <i class="icon-ok"></i>
     
         In stock
     
 </p>
 <form>
 <button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
 </form>
 </div>
 </article>,
 <article class="product_pod">
 <div class="image_container">
 <a href="catalogue/tipping-the-velvet_999/index.html"><img alt="Tipping the Velvet" class="thu

In [398]:
for i in soup.find_all("article",attrs={"class":"product_pod"}):#itera por los articles y los extrae los datos
    
    titulo=i.find("h3")
    titulosucio.append(titulo.text)
    
    precio= i.find("p",attrs={"class":"price_color"})
    preciosucio.append(precio.text)
    
    stock=i.find("p",attrs={"class":"instock availability"})
    stocksucio.append(stock.text)
    

In [418]:
stocksucio

['\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n',
 '\n\n    \n        In stock\n    \n']

In [458]:
for i in titulosucio:
    titulos.append(i.replace("\n","").strip())

In [460]:
titulos

['A Light in the ...',
 'Tipping the Velvet',
 'Soumission',
 'Sharp Objects',
 'Sapiens: A Brief History ...',
 'The Requiem Red',
 'The Dirty Little Secrets ...',
 'The Coming Woman: A ...',
 'The Boys in the ...',
 'The Black Maria',
 'Starving Hearts (Triangular Trade ...',
 "Shakespeare's Sonnets",
 'Set Me Free',
 "Scott Pilgrim's Precious Little ...",
 'Rip it Up and ...',
 'Our Band Could Be ...',
 'Olio',
 'Mesaerion: The Best Science ...',
 'Libertarianism for Beginners',
 "It's Only the Himalayas"]

Arma un for para limpiar precio

In [462]:
for i in preciosucio:
    precios.append(i.replace("\n","").strip())

In [464]:
precios

['£51.77',
 '£53.74',
 '£50.10',
 '£47.82',
 '£54.23',
 '£22.65',
 '£33.34',
 '£17.93',
 '£22.60',
 '£52.15',
 '£13.99',
 '£20.66',
 '£17.46',
 '£52.29',
 '£35.02',
 '£57.25',
 '£23.88',
 '£37.59',
 '£51.33',
 '£45.17']

Arma un for para limpiar stock

In [442]:
for i in stocksucio:
    stock.append(i.replace("\n" ,"").strip())

In [452]:
stock

['In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock',
 'In stock']

Arma un for para limpiar m2

## Almacenamiento

Guarda tus datos en un dataframe

In [468]:
df=pd.DataFrame({"Titulo":titulos,"Precio":precios,"Stock":stock})
df.head(20)

Unnamed: 0,Titulo,Precio,Stock
0,A Light in the ...,£51.77,In stock
1,Tipping the Velvet,£53.74,In stock
2,Soumission,£50.10,In stock
3,Sharp Objects,£47.82,In stock
4,Sapiens: A Brief History ...,£54.23,In stock
5,The Requiem Red,£22.65,In stock
6,The Dirty Little Secrets ...,£33.34,In stock
7,The Coming Woman: A ...,£17.93,In stock
8,The Boys in the ...,£22.60,In stock
9,The Black Maria,£52.15,In stock


Exporta tu Dataframe a un archivo CSV y abrelo en Excel

In [470]:
df.to_csv("libros.csv",index=False,encoding="utf-8")

## Paginacion

In [476]:
# Importamos las librerías, CODIGO PARA CHROME NO ME SIRVE YA QUE USO BRAVE

import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from urllib.parse import urljoin

# Configuración

# Configuramos el driver de chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

titulos = []
precios = []
stocks = []

url = "http://books.toscrape.com"

while True:
    titulos_sucios = []
    precios_sucios = []
    stocks_sucio = []

    # urlaux = urljoin(url,f"/catalogue/page-{page}.html")

    driver.get(url)

    # Extracción de datos
    contenido = driver.page_source

    soup = bs(contenido)

    articles = soup.find_all("article",attrs={"class":"product_pod"})

    for libro in articles:
        titulo = libro.find("h3")
        titulos_sucios.append(titulo.text)

        precio = libro.find("p",attrs={"class":"price_color"})
        precios_sucios.append(precio.text)

        stock = libro.find("p",attrs={"class":"instock availability"})
        stocks_sucio.append(stock.text)

    # Limpiando los datos
    for libro in titulos_sucios:
        titulos.append(libro.replace("\n","").strip())

    for libro in precios_sucios:
        precios.append(libro.replace("\n","").strip())

    for libro in stocks_sucio:
        stocks.append(libro.replace("\n","").strip())
    
    siguientepag = soup.select_one("li.next>a")
    if siguientepag:
        siguienteurl = siguientepag.get("href")
        url = urljoin(url, siguienteurl)
    else:
        break


# Almacenamiento
df = pd.DataFrame({"titulo":titulos,"precio":precios,"stock":stocks})
df.head()

# Exportando los datos a un .csv
df.to_csv("libros.csv", index=False, encoding="utf-8")

WebDriverException: Message: unknown error: cannot find Chrome binary
Stacktrace:
Backtrace:
	GetHandleVerifier [0x00BDA813+48355]
	(No symbol) [0x00B6C4B1]
	(No symbol) [0x00A75358]
	(No symbol) [0x00A91A9E]
	(No symbol) [0x00A90579]
	(No symbol) [0x00AC0C55]
	(No symbol) [0x00AC093C]
	(No symbol) [0x00ABA536]
	(No symbol) [0x00A982DC]
	(No symbol) [0x00A993DD]
	GetHandleVerifier [0x00E3AABD+2539405]
	GetHandleVerifier [0x00E7A78F+2800735]
	GetHandleVerifier [0x00E7456C+2775612]
	GetHandleVerifier [0x00C651E0+616112]
	(No symbol) [0x00B75F8C]
	(No symbol) [0x00B72328]
	(No symbol) [0x00B7240B]
	(No symbol) [0x00B64FF7]
	BaseThreadInitThunk [0x75AE7BA9+25]
	RtlInitializeExceptionChain [0x77C4C10B+107]
	RtlClearBits [0x77C4C08F+191]


In [494]:
# Importamos las librerías

import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from urllib.parse import urljoin

# Configuración

from selenium.webdriver.chrome.options import Options
# Especificar la ruta del ejecutable de Brave
brave_path = "C:/Users/usuario/AppData/Local/BraveSoftware/Brave-Browser/Application/brave.exe"
driver_path = "C:/Program Files/chromedriver-win64/chromedriver.exe"  # Asegúrate de que esta es la ruta donde extrajiste el chromedriver.exe


# Configurar opciones de Chrome para usar Brave
chrome_options = Options()
chrome_options.binary_location = brave_path

driver = webdriver.Chrome(service=Service(driver_path), options=chrome_options)#este codigo cambia ya que uso brave en chrome seria diferente,abre una ventena, controlado por selenium
# Configuramos el driver de chrome
#driver = webdriver.Chrome(service=Service(ChromeDriverManager().install())), INBILITA ES PARA CHROME

titulos = []
precios = []
stocks = []

url = "http://books.toscrape.com"

while True:
    titulos_sucios = []
    precios_sucios = []
    stocks_sucio = []

    # urlaux = urljoin(url,f"/catalogue/page-{page}.html")

    driver.get(url)

    # Extracción de datos
    contenido = driver.page_source

    soup = bs(contenido)

    articles = soup.find_all("article",attrs={"class":"product_pod"})

    for libro in articles:
        titulo = libro.find("h3")
        titulos_sucios.append(titulo.text)

        precio = libro.find("p",attrs={"class":"price_color"})
        precios_sucios.append(precio.text)

        stock = libro.find("p",attrs={"class":"instock availability"})
        stocks_sucio.append(stock.text)

    # Limpiando los datos
    for libro in titulos_sucios:
        titulos.append(libro.replace("\n","").strip())

    for libro in precios_sucios:
        precios.append(libro.replace("\n","").strip())

    for libro in stocks_sucio:
        stocks.append(libro.replace("\n","").strip())
    
    siguientepag = soup.select_one("li.next>a")
    if siguientepag:
        siguienteurl = siguientepag.get("href")
        url = urljoin(url, siguienteurl)
    else:
        break


# Almacenamiento
df = pd.DataFrame({"titulo":titulos,"precio":precios,"stock":stocks})
df.head()

# Exportando los datos a un .csv
df.to_csv("libros_all.csv", index=False, encoding="utf-8")

In [499]:
# Importamos las librerías
import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from urllib.parse import urljoin
from selenium.webdriver.chrome.options import Options
from time import sleep

# Configuración
# Especificar la ruta del ejecutable de Brave
brave_path = "C:/Users/usuario/AppData/Local/BraveSoftware/Brave-Browser/Application/brave.exe"
driver_path = "C:/Program Files/chromedriver-win64/chromedriver.exe"  # Asegúrate de que esta es la ruta donde extrajiste el chromedriver.exe

# Configurar opciones de Chrome para usar Brave
chrome_options = Options()
chrome_options.binary_location = brave_path

# Inicia el navegador usando Brave
driver = webdriver.Chrome(service=Service(driver_path), options=chrome_options)

# Inicializamos listas para almacenar los datos
titulos = []
precios = []
stocks = []

url = "http://books.toscrape.com"

while True:
    titulos_sucios = []
    precios_sucios = []
    stocks_sucio = []

    try:
        driver.get(url)
        sleep(5)  # Espera para asegurar que la página se cargue completamente
        
        contenido = driver.page_source
        soup = bs(contenido)

        articles = soup.find_all("article", attrs={"class": "product_pod"})

        for libro in articles:
            titulo = libro.find("h3")
            titulos_sucios.append(titulo.text)

            precio = libro.find("p", attrs={"class": "price_color"})
            precios_sucios.append(precio.text)

            stock = libro.find("p", attrs={"class": "instock availability"})
            stocks_sucio.append(stock.text)

        # Limpiando los datos
        for libro in titulos_sucios:
            titulos.append(libro.replace("\n", "").strip())

        for libro in precios_sucios:
            precios.append(libro.replace("\n", "").strip())

        for libro in stocks_sucio:
            stocks.append(libro.replace("\n", "").strip())

        siguientepag = soup.select_one("li.next>a")
        if siguientepag:
            siguienteurl = siguientepag.get("href")
            url = urljoin(url, siguienteurl)
        else:
            break

    except Exception as e:
        print(f"Ocurrió un error: {e}. Saliendo.")
        break

# Almacenamiento
df = pd.DataFrame({"titulo": titulos, "precio": precios, "stock": stocks})
df.to_csv("libros_all2.csv", index=False, encoding="utf-8")

# Cierre del navegador
driver.quit()

print("Scraping completado y navegador cerrado.")


Scraping completado y navegador cerrado.
