| **Inicio** | **atrás 8** |
|----------- |-------------- |
| [🏠](../../README.md) | [⏪](./8.Evitando_Problemas_Eticas.ipynb)|

# **8. Automatización, almacenamiento y actualización de datos**

## **Web Scraping de Imágenes (Extracción de OLX)**

El web scraping de imágenes es una técnica utilizada para extraer imágenes de sitios web de forma automática. Puedes aplicar esta técnica para extraer imágenes de productos, fotos de perfil de usuarios, logotipos de empresas, entre otros casos de uso.

A continuación, te mostraré un ejemplo de cómo realizar el web scraping de imágenes en el sitio web de OLX utilizando Python y la biblioteca Scrapy:

1. **Configuración inicial:**

* Asegúrate de tener instalado Scrapy en tu entorno de Python:

`pip install scrapy`

* Crea un nuevo proyecto de Scrapy:

`scrapy startproject olx_scraper`

* Accede al directorio del proyecto:

`cd olx_scraper`

2. **Creación del spider:**

* Crea un nuevo archivo llamado `olx_spider.py` en el directorio `olx_scraper/spiders`.

* Abre el archivo `olx_spider.py` y agrega el siguiente código:

In [None]:
import scrapy

class OLXSpider(scrapy.Spider):
    name = 'olx'
    start_urls = ['https://www.olx.com']

    def parse(self, response):
        # Extraer los enlaces de las publicaciones
        for ad_link in response.css('.items-list .item a.detailsLink::attr(href)').getall():
            yield response.follow(ad_link, self.parse_ad)

        # Seguir a la siguiente página
        next_page = response.css('.pageNextPrev a.pageNextPrev::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

    def parse_ad(self, response):
        # Extraer la URL de la imagen
        image_url = response.css('.big-image img::attr(src)').get()

        yield {
            'image_url': image_url
        }

3. **Configuración de los pipelines:**

* Abre el archivo `olx_scraper/settings.py` y encuentra la configuración `ITEM_PIPELINES`.

* Asegúrate de que el pipeline de imágenes esté habilitado y configurado de la siguiente manera:

In [None]:
ITEM_PIPELINES = {
    'scrapy.pipelines.images.ImagesPipeline': 1,
}

IMAGES_STORE = 'images'

4. **Ejecución del spider:**

* Desde el directorio principal del proyecto, ejecuta el siguiente comando para iniciar el web scraping y guardar las imágenes:

`scrapy crawl olx`

* Las imágenes extraídas se guardarán en la carpeta images dentro del directorio del proyecto.

Con este ejemplo, el spider `OLXSpider` extraerá los enlaces de las publicaciones en la página principal de OLX y seguirá cada enlace para extraer la URL de la imagen. Luego, utilizando el pipeline de imágenes de Scrapy, las imágenes se descargarán y guardarán en la carpeta `images`.

Es importante destacar que, en este ejemplo, solo se extraen las URLs de las imágenes. Si deseas descargar y procesar las imágenes de manera adicional, puedes personalizar el pipeline de imágenes o agregar funciones adicionales en el método `parse_ad` del spider.

Recuerda revisar y cumplir con los términos de uso del sitio web objetivo y ser respetuoso con la carga del servidor al realizar el web scraping de imágenes.

## **Web Scraping de Archivos (Extracción de FILES EXAMPLE)**

El web scraping de archivos es una técnica utilizada para extraer archivos de diferentes tipos (como PDF, CSV, Excel, imágenes, etc.) de sitios web de forma automatizada. Esta técnica puede ser útil cuando se requiere recopilar una gran cantidad de archivos para su posterior análisis o procesamiento.

A continuación, te mostraré un ejemplo de cómo realizar el web scraping de archivos utilizando Python y la biblioteca Scrapy. Utilizaremos un ejemplo ficticio donde extraeremos archivos CSV de un sitio web llamado "Files Example".

1. **Configuración inicial:**

* Asegúrate de tener instalado Scrapy en tu entorno de Python:

`pip install scrapy`

* Crea un nuevo proyecto de Scrapy:

`scrapy startproject files_scraper`

* Accede al directorio del proyecto:

`cd files_scraper`

2. **Creación del spider:**

* Crea un nuevo archivo llamado `files_spider.py` en el directorio `files_scraper/spiders`.

* Abre el archivo `files_spider.py` y agrega el siguiente código:

In [None]:
import scrapy

class FilesSpider(scrapy.Spider):
    name = 'files'
    start_urls = ['https://www.filesexample.com']

    def parse(self, response):
        # Extraer los enlaces de los archivos
        file_links = response.css('.file-list a::attr(href)').getall()

        for file_link in file_links:
            yield response.follow(file_link, self.save_file)

    def save_file(self, response):
        # Guardar el archivo en disco
        filename = response.url.split('/')[-1]
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Se ha guardado el archivo {filename}')

3. **Ejecución del spider:**

* Desde el directorio principal del proyecto, ejecuta el siguiente comando para iniciar el web scraping y descargar los archivos:

`scrapy crawl files`

* Los archivos extraídos se guardarán en el directorio del proyecto.

En este ejemplo, el spider `FilesSpider` accede a la página principal del sitio "Files Example" y extrae los enlaces de los archivos. Luego, utiliza la función `response.follow()` para seguir cada enlace y ejecutar el método `save_file`, donde el archivo se guarda en disco utilizando la URL del archivo como nombre.

Es importante destacar que debes tener en cuenta la legalidad y los términos de uso del sitio web objetivo antes de extraer archivos. Además, ten en cuenta que algunos sitios web pueden tener restricciones de acceso o medidas de seguridad adicionales para evitar el web scraping de archivos.

Recuerda ser respetuoso con el sitio web objetivo y evitar realizar solicitudes excesivas o sobrecargar el servidor al realizar el web scraping de archivos.

## **Automatización de Extracción en Scrapy (Extracción de ACCUWEATHER)**

Para automatizar la extracción de datos en Scrapy, utilizaremos un ejemplo de extracción de datos del sitio web de AccuWeather. Vamos a extraer información sobre el clima de diferentes ciudades.

1. **Configuración inicial:**

* Asegúrate de tener instalado Scrapy en tu entorno de Python:

`pip install scrapy`

* Crea un nuevo proyecto de Scrapy:

`scrapy startproject accuweather_scraper`

* Accede al directorio del proyecto:

`cd accuweather_scraper`

2. **Creación del spider:**

* Crea un nuevo archivo llamado `accuweather_spider.py` en el directorio `accuweather_scraper/spiders`.

* Abre el archivo `accuweather_spider.py` y agrega el siguiente código:

In [None]:
import scrapy

class AccuWeatherSpider(scrapy.Spider):
    name = 'accuweather'
    start_urls = ['https://www.accuweather.com']

    def parse(self, response):
        # Extraer los enlaces de las ciudades
        city_links = response.css('.city-list a::attr(href)').getall()

        for city_link in city_links:
            yield response.follow(city_link, self.parse_city)

    def parse_city(self, response):
        # Extraer información sobre el clima de la ciudad
        city_name = response.css('.city-header h1::text').get()
        temperature = response.css('.current-weather .temp::text').get()
        weather_description = response.css('.current-weather .phrase::text').get()

        yield {
            'city': city_name,
            'temperature': temperature,
            'description': weather_description
        }

3. **Ejecución del spider:**

* Desde el directorio principal del proyecto, ejecuta el siguiente comando para iniciar el web scraping y obtener la información del clima de las ciudades:

`scrapy crawl accuweather -o weather.csv`

* Los datos extraídos se guardarán en un archivo `weather.csv`.

En este ejemplo, el spider `AccuWeatherSpider` accede a la página principal del sitio web de AccuWeather y extrae los enlaces de las ciudades. Luego, utiliza la función `response.follow()` para seguir cada enlace y ejecutar el método `parse_city`, donde se extrae la información sobre el clima de la ciudad, como el nombre de la ciudad, la temperatura actual y la descripción del clima. Finalmente, los datos extraídos se almacenan en un archivo CSV.

Puedes personalizar y ampliar este ejemplo para extraer más datos del sitio web de AccuWeather o de otros sitios web. Recuerda revisar y respetar los términos de uso del sitio web objetivo y evitar realizar solicitudes excesivas o sobrecargar el servidor al realizar el web scraping.

Además, puedes utilizar las funciones de Scrapy, como las reglas de enlace y el manejo de paginación, para realizar extracciones más avanzadas y completas.

## **Automatización de Extracción en Selenium (Extracción de ACCUWEATHER)**

Para automatizar la extracción de datos utilizando Selenium, usaremos un ejemplo de extracción de datos del sitio web de AccuWeather. Extraeremos información sobre el clima de diferentes ciudades.

1. **Configuración inicial:**

* Asegúrate de tener instalado Selenium en tu entorno de Python:

`pip install selenium`

* Descarga el controlador del navegador que deseas utilizar (por ejemplo, ChromeDriver para Google Chrome) y colócalo en una ubicación accesible.

2. **Importar las bibliotecas necesarias:**

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

3. **Configuración del controlador del navegador:**

In [None]:
# Ubicación del controlador del navegador
path_to_chromedriver = '/ruta/al/controlador/chromedriver'

# Configuración de las opciones del navegador
chrome_options = Options()
chrome_options.add_argument('--headless')  # Ejecutar en modo sin cabeza (headless)
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# Crear el servicio del controlador del navegador
service = Service(path_to_chromedriver)

# Iniciar el navegador
driver = webdriver.Chrome(service=service, options=chrome_options)

4. **Navegación y extracción de datos:**

In [None]:
# Navegar a la página principal de AccuWeather
driver.get('https://www.accuweather.com')

# Extraer los enlaces de las ciudades
city_links = driver.find_elements(By.CSS_SELECTOR, '.city-list a')

for city_link in city_links:
    # Obtener la URL del enlace de la ciudad
    city_url = city_link.get_attribute('href')

    # Navegar a la página de la ciudad
    driver.get(city_url)

    # Extraer información sobre el clima de la ciudad
    city_name = driver.find_element(By.CSS_SELECTOR, '.city-header h1').text
    temperature = driver.find_element(By.CSS_SELECTOR, '.current-weather .temp').text
    weather_description = driver.find_element(By.CSS_SELECTOR, '.current-weather .phrase').text

    # Imprimir los datos extraídos
    print('City:', city_name)
    print('Temperature:', temperature)
    print('Weather:', weather_description)
    print('---')

# Cerrar el navegador
driver.quit()

En este ejemplo, utilizamos Selenium para automatizar la navegación y la extracción de datos del sitio web de AccuWeather. Primero, configuramos el controlador del navegador (en este caso, ChromeDriver) y lo iniciamos con las opciones adecuadas. Luego, navegamos a la página principal de AccuWeather y extraemos los enlaces de las ciudades.

Después, iteramos sobre los enlaces de las ciudades y navegamos a cada página de la ciudad. Utilizamos los selectores de CSS para localizar y extraer la información sobre el clima de la ciudad, como el nombre de la ciudad, la temperatura y la descripción del clima.

Finalmente, imprimimos los datos extraídos. Puedes personalizar y adaptar este código para guardar los datos en una base de datos, en un archivo CSV u otras acciones según tus necesidades.

Recuerda que al realizar web scraping con Selenium, debes tener en cuenta la política de uso del sitio web objetivo y evitar realizar solicitudes excesivas o sobrecargar el servidor. Además, asegúrate de cumplir con las políticas de privacidad y términos de servicio del sitio web objetivo.

## **Almacenamiento de datos en MongoDB (Extracción de OLX)**

Para almacenar los datos extraídos de OLX en MongoDB, necesitaremos seguir los siguientes pasos:

1. **Instalación y configuración:**

* Asegúrate de tener MongoDB instalado en tu sistema. Puedes descargarlo e instalarlo desde el sitio web oficial de MongoDB.
* Instala el controlador de Python para MongoDB (pymongo) utilizando el siguiente comando:

`pip install pymongo`

2. **Importar las bibliotecas necesarias:**

In [None]:
from pymongo import MongoClient

3. **Configuración de la conexión a la base de datos:**

In [None]:
# Establecer la conexión con MongoDB
client = MongoClient('mongodb://localhost:27017/')

# Crear una instancia de la base de datos
db = client['olx']

# Crear una colección para almacenar los datos
collection = db['productos']

4. **Almacenamiento de los datos:**

In [None]:
# Supongamos que tienes una lista de diccionarios "items" que contiene los datos extraídos de OLX

# Insertar los datos en la colección
collection.insert_many(items)

En este ejemplo, configuramos una conexión a la base de datos de MongoDB utilizando la clase `MongoClient` de `pymongo`. Establecemos la conexión a través de la URL `mongodb://localhost:27017/`, que representa la dirección y el puerto del servidor de MongoDB.

Luego, creamos una instancia de la base de datos llamada "olx" y una colección llamada "productos" en la base de datos. Puedes elegir nombres diferentes según tus necesidades.

Finalmente, asumiendo que tienes una lista de diccionarios llamada "items" que contiene los datos extraídos de OLX, utilizamos el método `insert_many()` para almacenar los datos en la colección.

Puedes realizar consultas y manipulaciones adicionales en la base de datos utilizando los métodos y funciones proporcionados por `pymongo`. Recuerda que es importante manejar correctamente los errores y cerrar la conexión a la base de datos después de finalizar las operaciones.

## **Actualización periódica de datos con Selenium, Scrapy y Mongo (ACCUWEATHER)**

Para realizar una actualización periódica de datos de ACCUWEATHER utilizando Selenium, Scrapy y MongoDB, podemos seguir los siguientes pasos:

1. **Configuración inicial:**

* Asegúrate de tener instalados Selenium, Scrapy y pymongo en tu entorno.
* Configura la conexión a la base de datos MongoDB, siguiendo los pasos mencionados en la respuesta anterior.

2. **Extracción de datos con Selenium:**

* Utiliza Selenium para automatizar la navegación en el sitio web de ACCUWEATHER y extraer los datos deseados.
* Crea un script de Selenium que abra el navegador, interactúe con la página, y extraiga los datos necesarios utilizando los selectores de elementos HTML y las funciones de Selenium.
* Almacena los datos extraídos en una estructura de datos (por ejemplo, una lista de diccionarios).

In [None]:
# Ejemplo de extracción de datos utilizando Selenium
from selenium import webdriver

# Configurar el navegador
driver = webdriver.Chrome()

# Navegar a la página de ACCUWEATHER
driver.get('https://www.accuweather.com/')

# Interactuar con la página para extraer los datos deseados
# ...

# Almacenar los datos extraídos en una estructura de datos (por ejemplo, una lista de diccionarios)
data = [
    {'ciudad': 'Lima', 'temperatura': '25°C', 'humedad': '60%'},
    {'ciudad': 'Cusco', 'temperatura': '20°C', 'humedad': '55%'},
    # ...
]

# Cerrar el navegador
driver.quit()

3. **Almacenamiento de datos en MongoDB:**

* Utiliza pymongo para establecer una conexión con la base de datos MongoDB y almacenar los datos extraídos.
* Utiliza el código de configuración de conexión y almacenamiento mencionado en la respuesta anterior.

In [None]:
# Ejemplo de almacenamiento de datos en MongoDB utilizando pymongo
from pymongo import MongoClient

# Configurar la conexión a MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['acuweather']
collection = db['datos']

# Insertar los datos en la colección
collection.insert_many(data)

4. **Automatización periódica con Scrapy:**

* Configura un proyecto de Scrapy y crea un spider para realizar la extracción periódica de datos utilizando el script de Selenium.
* Establece el intervalo de tiempo deseado para la actualización periódica.
* En el spider de Scrapy, ejecuta el script de Selenium y extrae los datos utilizando las funciones y selectores necesarios.
* Almacena los datos extraídos en la base de datos MongoDB utilizando pymongo.

In [None]:
# Ejemplo de spider de Scrapy para la extracción periódica de datos utilizando Selenium y almacenamiento en MongoDB
import scrapy
from selenium import webdriver
from pymongo import MongoClient

class AccuweatherSpider(scrapy.Spider):
    name = 'accuweather_spider'
    start_urls = ['https://www.accuweather.com/']

    def __init__(self):
        # Configurar el navegador
        self.driver = webdriver.Chrome()

        # Configurar la conexión a MongoDB
        self.client = MongoClient('mongodb://localhost:27017/')
        self.db = self.client['acuweather']
        self.collection = self.db['datos']

    def parse(self, response):
        # Interactuar con la página para extraer los datos deseados utilizando Selenium
        self.driver.get(response.url)
        # ...

        # Almacenar los datos extraídos en una estructura de datos
        data = [
            {'ciudad': 'Lima', 'temperatura': '25°C', 'humedad': '60%'},
            {'ciudad': 'Cusco', 'temperatura': '20°C', 'humedad': '55%'},
            # ...
        ]

        # Insertar los datos en la colección de MongoDB
        self.collection.insert_many(data)

    def closed(self, reason):
        # Cerrar el navegador y la conexión a MongoDB
        self.driver.quit()
        self.client.close()

Al ejecutar el spider de Scrapy, se abrirá el navegador controlado por Selenium, se extraerán los datos de ACCUWEATHER y se almacenarán en la base de datos MongoDB. Puedes programar la ejecución periódica del spider utilizando programadores de tareas o cron jobs para mantener actualizados los datos en la base de datos MongoDB.

Recuerda adaptar el código según tus necesidades específicas, como los selectores de elementos HTML, las rutas de almacenamiento en MongoDB y la frecuencia de actualización.

| **Inicio** | **atrás 8** |
|----------- |-------------- |
| [🏠](../../README.md) | [⏪](./8.Evitando_Problemas_Eticas.ipynb)|