# WebScrapping

![texte](https://www.antevenio.com/wp-content/uploads/2019/03/web-scraping-attack.jpg)

#### El Web Scrapping  se trata de un proceso de usar bots para extraer contenido y datos de un sitio web. De esta forma se extrae el código HTML. Y, con él, los datos almacenados en la base de datos. Esto supone que se puede duplicar o copiar todo el contenido del sitio web en otro lugar.

El web scraping se utiliza en muchas empresas digitales que se dedican a la recopilación de bases de datos. Para aclarar mejor qué es el web scraping debes saber cuáles son los casos de uso legítimo del mismo:

Los robots de los motores de búsqueda rastrean un sitio, analizan su contenido y luego lo clasifican.

Sitios de comparación de precios que implementan bots para obtener automáticamente precios y descripciones de productos para sitios web de vendedores aliados.

Compañías de investigación de mercado que lo utilizan para extraer datos de foros y redes sociales.


## Librerías a usar

In [1]:
!pip install beautifulsoup4




In [2]:
!pip install requests



In [3]:
#Instalación de librería
import sys
!{sys.executable} -m pip install beautifulsoup4



# Ejercicio 1

In [4]:
import urllib.request

In [5]:
datos=urllib.request.urlopen('https://www.openwebinars.net').read().decode()

In [6]:
datos

'\n<!DOCTYPE html>\n<html lang="es">\n<head>\n<meta charset="UTF-8">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="viewport" content="width=device-width, initial-scale=1.0">\n<meta name="google-site-verification" content="3xIl6rwvbZFMPw2Os_ecSGlPPwrQuE11U5J9Ko2bbas"/>\n<meta property="fb:pages" content="411445362304338"/>\n<title>Cursos online de Programación y Sistemas en vídeo | OpenWebinars</title>\n<link rel="shortcut icon" href="/static/public/images/favicons/favicon.ico" sizes="64x64"/>\n<link rel="apple-touch-icon" sizes="57x57" href="/static/public/images/favicons/xapple-icon-57x57.png.pagespeed.ic.7OyWpP5A5m.png">\n<link rel="apple-touch-icon" sizes="60x60" href="/static/public/images/favicons/xapple-icon-60x60.png.pagespeed.ic.ZMuOsdKt-v.png">\n<link rel="apple-touch-icon" sizes="72x72" href="/static/public/images/favicons/xapple-icon-72x72.png.pagespeed.ic.0cXT2U6yaP.png">\n<link rel="apple-touch-icon" sizes="76x76" href="/static/public/images/favicons/

In [7]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(datos)
tags = soup('a')
for tag in tags:
    print(tag.get('href'))

/
/cursos/
/cursos/cloud-computing/
/cursos/backend/
/cursos/blockchain/
/cursos/certificaciones-oficiales/
/cursos/metodologias/
/cursos/drupal/
/cursos/devops/
/cursos/wordpress/
/cursos/videojuegos/
/cursos/bases-de-datos/
/cursos/robotica/
/cursos/management/
/cursos/ciberseguridad-ethical-hacking/
/cursos/sistemas/
/cursos/herramientas/
/cursos/frontend/
/cursos/big-data/
/cursos/desarrollo-movil/
/cursos/testing/
/cursos/ui/
/cursos
/carreras/
/sectores/tecnologicas/
/sectores/consultoras/
/sectores/banca-y-seguros/
/sectores/organismos-publicos/
/precios/
/blog/
https://library.openwebinars.net/
https://library.openwebinars.net/casos-de-exito/
/becas/
https://talentotecnologico.fm/
https://library.openwebinars.net/cursos/
/accounts/login/
/precios/
/precios/
/cursos/
/sectores/organismos-publicos/
/sectores/tecnologicas/
/sectores/banca-y-seguros/
/sectores/consultoras/
/cursos/cloud-computing/
/cursos/backend/
/cursos/blockchain/
/cursos/certificaciones-oficiales/
/cursos/metod

# Ejercicio 2

In [8]:
import os  
import re  
import shutil  
import requests  
from requests.exceptions import HTTPError  
from bs4 import BeautifulSoup  

In [9]:
def inicio():  
    url = 'http://simpledesktops.com'
    first_path = '/browse/'
    download_directory = os.path.join(os.path.dirname(os.path.abspath('os.makedirs')), 'wallpapers')

    if not os.path.exists(download_directory):
        os.makedirs(download_directory)

    processPage(url, first_path, download_directory)

In [10]:
def processPage(url, path, download_directory):  
    print('\nPATH:', path)
    print('=========================')

    wallpapers = getPageContent(url + path)
    if wallpapers['images']:
        downloadWallpaper(wallpapers['images'], download_directory)
    else:
        print('Está página no contiene Wallpaper')
    if wallpapers['next_page']:
        processPage(url, wallpapers['next_page'], download_directory)
    else:
        print('Fin')

In [11]:
def getPageContent(url):  
    images = []
    next_page = None

    html = requestPage(url)
    if html is not None:
        # Busca los wallpaper de la página URL
        wallpapers = html.find_all('div', {'class': 'desktop'})
        for wp in wallpapers:
            img = wp.find('img')
            images.append(img.attrs['src'])

        # Realiza la búsqueda para la siguiente pagina URL
        try:
            more_button = html.find('a', {'class':'more'})
            next_page = more_button.attrs['href']
        except:
            pass

    return {'images': images, 'next_page': next_page}

In [12]:
def requestPage(url):  
    try:
        raw_html = requests.get(url)
        try:
            html = BeautifulSoup(raw_html.text, features='html.parser')
            return html
        except:
            print('Error parsing HTML code')
            return None
    except HTTPError as e:
        print(e.reason)
        return None

In [13]:
def downloadWallpaper(wallpapers, directory):  
    for url in wallpapers:
        match_url = re.match('^.+?(\.png|jpg)', url)
        if match_url:
            formated_url = match_url.group(0)
            filename = formated_url[formated_url.rfind('/')+1:]
            file_path = os.path.join(directory, filename)
            print(file_path)

            if not os.path.exists(file_path):
                with requests.get(formated_url, stream=True) as wp_file:
                    with open(file_path, 'wb') as output_file:
                        shutil.copyfileobj(wp_file.raw, output_file)
        else:
            print('Wallpaper URL is invalid')

In [None]:
inicio()


PATH: /browse/
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\Raspberry_Pi_Minimalist.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\V3_Loading_Wallpaper_1.1.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\xubuntu.jpg
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\complexisim.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\fedora2.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\traffic.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\bg-wallpaper.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\analogicareamarela.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\triangle.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\Royal_Marshall.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\numaneo.jpg
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\denglong.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\planet-expr

C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\Sunset.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\Wind-Vector-resize.png
C:\Users\cezza\OneDrive\Documentos\2.5 analisis\wallpapers\b3d9be-background.png
