
## Web Scraping con Selenium

En este cuaderno, exploraremos cómo realizar web scraping utilizando la biblioteca Selenium. 
El web scraping es una técnica utilizada para extraer información de sitios web. Selenium es una herramienta 
popular para la automatización de navegadores web, lo que permite simular la navegación humana y extraer 
datos de páginas que requieren interacción o que cargan contenido dinámicamente.

### Importación de bibliotecas
Comenzaremos importando las bibliotecas necesarias para nuestro proceso:
- `selenium`: Para automatizar y controlar un navegador web.
- `BeautifulSoup`: Para analizar el contenido HTML y extraer datos.
- `csv`: Para manejar y guardar datos en formato CSV.


In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup
import csv


### Definición de la URL objetivo

A continuación, definimos la URL de la página web que queremos explorar. Esta URL corresponde a una página 
de anuncios de departamentos en venta en Coyoacán (un área de la Ciudad de México) en el sitio Vivanuncios. 
Posteriormente, imprimiremos la URL para verificarla.


In [None]:
url='https://www.vivanuncios.com.mx/s-departamentos-en-venta/coyoacan/page-1/v1c1294l10268p2'
print(url)


### Inicialización del WebDriver

Para poder navegar por la web y extraer datos, necesitamos inicializar un WebDriver. 
En este caso, utilizaremos el `webdriver.Chrome()`, que nos permite controlar una instancia del navegador Chrome.


In [None]:
driver=webdriver.Chrome()


### Accediendo a la página web

Una vez que el WebDriver está inicializado, podemos usar el método `get()` para dirigir el navegador a la URL especificada. 
Esto simulará una visita a la página web como si estuviéramos utilizando un navegador de forma manual.


In [None]:
driver.get(url)


### Función para generar URLs

Dado que es probable que queramos explorar múltiples páginas del sitio, definimos una función `get_url()` que genera 
URLs basadas en un número de página proporcionado. Esto nos facilitará la tarea de navegar por diferentes páginas 
sin tener que definir manualmente cada URL.


In [None]:
def get_url(num_pag):
    url='https://www.vivanuncios.com.mx/s-departamentos-en-venta/coyoacan/'
    url+='page-{}/v1c1294l10268p{}'
    return url.format(num_pag,num_pag)


### Navegación a una URL específica

Con la función `get_url()` que definimos anteriormente, generamos una URL para la página 20 del sitio y 
navegamos a ella utilizando el WebDriver. Esto nos permite explorar y extraer datos de diferentes páginas 
del sitio de manera programática.


In [None]:
driver.get(get_url(20))


### Creación del objeto BeautifulSoup

Para facilitar la extracción de datos de la página web, utilizamos `BeautifulSoup` para analizar el contenido 
HTML de la página. Esto nos proporciona una estructura fácil de navegar y nos permite buscar y extraer 
información específica de la página.


In [None]:
sopa=BeautifulSoup(driver.page_source,'html.parser')


### Extracción de tarjetas de anuncios

A continuación, buscamos todos los elementos `div` con la clase `REAdTileV2` en la página. Estos elementos 
representan tarjetas individuales de anuncios de departamentos en venta. Cada tarjeta contiene información 
sobre un anuncio específico, como precio, ubicación, características, etc.


In [None]:
tarjetas=sopa.find_all('div',{'class':'sc-1tt2vbg-4'})

In [None]:
len(tarjetas)


### Seleccionar la primera tarjeta

Para ilustrar el proceso de extracción de datos, seleccionamos la primera tarjeta de la lista de tarjetas 
extraídas en el paso anterior. A partir de esta tarjeta, extraeremos detalles específicos en los siguientes pasos.


In [None]:
tarjeta=tarjetas[0]


### Extracción del precio del anuncio

A partir de la tarjeta seleccionada, extraemos el precio del anuncio. El precio se encuentra dentro de un 
elemento `span` con la clase `ad-price`. Después de extraerlo, limpiamos y mostramos el precio para verificarlo.


In [None]:
precio=tarjeta.find('div',{'class':'sc-12dh9kl-4'}).text.strip()
precio


### Extracción del número de habitaciones

A continuación, extraemos el número de habitaciones del anuncio. Este dato se encuentra dentro de un elemento 
`div` con la clase `chiplets-inline-block re-bedroom`. Tras extraerlo, lo mostramos para verificación.


In [None]:
datos=tarjeta.select('div.sc-1uhtbxc-0 span span')

In [None]:
for dato in datos:
    print(dato.text)

In [None]:
medida1=datos[0].text.strip()
medida2=datos[1].text.strip()
recamaras=datos[2].text.strip()
banios=datos[3].text.strip()

In [None]:
banios


### Iteración sobre todas las tarjetas

Para automatizar la extracción de datos de múltiples anuncios, iteramos sobre todas las tarjetas que 
hemos extraído previamente. En cada iteración, extraemos el precio, la dirección y el número de habitaciones 
del anuncio y los almacenamos en variables.



### Extracción del número de habitaciones

De manera similar, extraemos el número de habitaciones del anuncio. Esta información se encuentra en un 
elemento `div` con la clase `chiplets-inline-block re-bedroom`. Tras extraerla, la limpiamos para su verificación.



### Web scraping a gran escala

Para recopilar un conjunto de datos más amplio, inicializamos un nuevo WebDriver y luego iteramos sobre 
50 páginas del sitio. En cada página, extraemos datos de cada anuncio (precio, dirección, número de habitaciones) 
y los añadimos a una lista llamada `registros`. Esta aproximación nos permite recopilar datos de múltiples 
anuncios en múltiples páginas de forma automatizada.


In [None]:
tarjeta.find('div',{'class':'sc-ge2uzh-2'}).text.strip()


### Visualización de los datos recopilados

Finalmente, mostramos la lista `registros` para revisar y verificar los datos que hemos extraído durante 
el proceso de web scraping.


In [None]:
tarjeta.select('div.sc-1uhtbxc-0 span span')[2].text


### Iterar sobre todas las tarjetas

Ahora que hemos demostrado cómo extraer información detallada de una tarjeta, procedemos a iterar sobre 
todas las tarjetas recopiladas para extraer el precio, la dirección y el número de habitaciones de cada anuncio.


In [None]:
for tarjeta in tarjetas:
    try:
        precio=tarjeta.find('div',{'class':'sc-12dh9kl-4'}).text.strip()
        direccion=tarjeta.find('div',{'class':'sc-ge2uzh-2'}).text.strip()
        habitaciones=tarjeta.select('div.sc-1uhtbxc-0 span span')[2].text.strip()
        print(precio,direccion,habitaciones)
    except:
        pass


### Web scraping a gran escala

Para recopilar un conjunto de datos más grande, procedemos a realizar web scraping a lo largo de 50 páginas 
del sitio web. En cada página, extraemos la información de cada anuncio y la almacenamos en una lista llamada `registros`. 
Para manejar posibles errores o interrupciones durante el proceso, incluimos manejo de excepciones para asegurarnos 
de que el proceso continúe incluso si se encuentra con problemas en una página específica.


In [None]:
import time
driver=webdriver.Chrome()
registros=[]
for pagina in range(1,11):
    try:
        url=get_url(pagina)
        driver.get(url)
        time.sleep(2)
        print(f'Entrando pagina {pagina}')
        sopa=BeautifulSoup(driver.page_source,'html.parser')
        tarjetas=sopa.find_all('div',{'class':'sc-1tt2vbg-4'})
        for tarjeta in tarjetas:
            try:
                precio=tarjeta.find('div',{'class':'sc-12dh9kl-4'}).text.strip()
                direccion=tarjeta.find('div',{'class':'sc-ge2uzh-2'}).text.strip()
                habitaciones=tarjeta.select('div.sc-1uhtbxc-0 span span')[2].text.strip()
                registros.append((precio,direccion,habitaciones))
            except:
                pass            
    except Exception as e:
        print(e)
        driver.close()
        driver=webdriver.Chrome()
        continue
driver.close()


### Visualización de los datos recopilados

Finalmente, mostramos la lista `registros` para verificar y visualizar los datos que hemos extraído durante el proceso de web scraping.


In [None]:
registros


### Guardando los datos en un archivo CSV

Después de recopilar todos los datos deseados, es esencial guardarlos para análisis futuros o para compartirlos. 
En este paso, guardamos los datos recopilados en un archivo CSV llamado `vivanuncios_coyoacan.csv`. 
El archivo contendrá columnas para el `precio`, la `direccion` y el número de `habitaciones` de cada anuncio.


In [None]:
with open('vivanuncios_coyoacan.csv','w',
         newline='',encoding='utf-8') as f:
    writer=csv.writer(f)
    writer.writerow(['precio','direccion','habitaciones'])
    writer.writerows(registros)