# Web Scraping

"Rascar la web". El proceso de obtener información de la web con un proceso de automación usando programación. 

Hay 3 librerias principales para hacer web scraping en Python, Selenium, Scrapy y Beautiful Soup. Nos centraremos en la última por que és la más intuitiva y es útil en cualquier situación.

Cualquier web que pensemos, twitter, instagram, linkedin, podemos obtener la información de ellas.

Como lo enseñaré:
1. Estructura básica de una web, HTML. 
2. Web Scraping en una web HTML muy simple para entender los conceptos básicos.
3. Web Scraping en una web real.
4. Guardar la información que hemos obtenido.

----
## Web Scraping en HTML básico

Usaremos ./home.html para enseñar un ejemplo.

Vemos que la página tiene un título básico y una lista. La lista tiene el título de un curso, su definición, y un botón.

Podemos ver el código de la página, empieza con una etiqueta de html que envuelve el resto de la página. La página se divide en head y body.

#### head

Dentro del head, vemos metadata, que no es relevante. Pero también vemos un link que tiene la función de importar estilos de otro sitio, y el título que define el título tab de la página.

#### body / h1

En el body es donde definimos lo que sale en la página en si. Podemos encontrar la etiqueta h1, que define título con talla 1. Dentro de la etiqueta definimos el texto que aparecerá con el estilo h1.

#### div

Luego tenemos la etiqueta div, esta es la etiqueta básica de HTML que basicamente define un espacio en la pantalla. Dentro del div podemos definir sus estilos usando el parámetro "class", esto importa el estilo de "card". Dentro de este div podemos poner más divs con sus propio estilo (a través de las clases).

#### a href

Por último, definimos el botón definido con el tag "a", que nos indica que esto és un link a otra página.

-----
# Instalar packages (librerias)

In [None]:
pip install beautifulsoup4

Para cambiar HTML a objetos de Python, necesitamos un **parser**, hay diferentes metodos para parsear. Nosotros usaremos "lxml" parser. 

In [None]:
pip install lxml

-----
# Cómo scrapear, archivos locales.

Beautiful Soup se importa con el nombre bs4:

In [1]:
from bs4 import BeautifulSoup

Usaremos nuestro conocimiento en manejar archivos con Python para obtener información de home.html. Empezamos con leerlo.

In [2]:
from bs4 import BeautifulSoup

with open('home.html', 'r') as html_file:
    content = html_file.read()
    print(content)

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="utf-8" />
    <meta
      name="viewport"
      content="width=device-width, initial-scale=1, shrink-to-fit=no"
    />
    <link
      rel="stylesheet"
      href="https://stackpath.bootstrapcdn.com/bootstrap/4.5.2/css/bootstrap.min.css"
      integrity="sha384-JcKb8q3iqJ61gNV9KGb8thSsNjpSL0n8PARn9HuZOnIxN0hoP+VmmDGMN5t9UJ0Z"
      crossorigin="anonymous"
    />
    <title>My Courses</title>
  </head>
  <body>
    <h1>Hello, Start Learning!</h1>
    <div class="card" id="card-python-for-beginners">
      <div class="card-header">Python</div>
      <div class="card-body">
        <h5 class="card-title">Python for beginners</h5>
        <p class="card-text">
          If you are new to Python, this is the course that you should buy!
        </p>
        <a href="#" class="btn btn-primary">Start for 20$</a>
      </div>
    </div>
    <div class="card" id="card-python-web-development">
      <div class="card-header">Python</div>

Para hacer el HTML más leible, usaremos BeautifulSoup. Primero creamos una instáncia de la libreria, pasamos como parametros el código html y el parseador instalado anteriormente.

In [3]:
from bs4 import BeautifulSoup

with open('home.html', 'r') as html_file:
    content = html_file.read()
    
    soup = BeautifulSoup(content, 'lxml')
    print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
  <link crossorigin="anonymous" href="https://stackpath.bootstrapcdn.com/bootstrap/4.5.2/css/bootstrap.min.css" integrity="sha384-JcKb8q3iqJ61gNV9KGb8thSsNjpSL0n8PARn9HuZOnIxN0hoP+VmmDGMN5t9UJ0Z" rel="stylesheet"/>
  <title>
   My Courses
  </title>
 </head>
 <body>
  <h1>
   Hello, Start Learning!
  </h1>
  <div class="card" id="card-python-for-beginners">
   <div class="card-header">
    Python
   </div>
   <div class="card-body">
    <h5 class="card-title">
     Python for beginners
    </h5>
    <p class="card-text">
     If you are new to Python, this is the course that you should buy!
    </p>
    <a class="btn btn-primary" href="#">
     Start for 20$
    </a>
   </div>
  </div>
  <div class="card" id="card-python-web-development">
   <div class="card-header">
    Python
   </div>
   <div class="card-body">
    <h5 class="ca

Puede que con esta página web no haya mucha diferencia, pero cuando trabajemos con webs reales veremos que el código base es complicado de leer.

Vamos a empezar a obtener información de esta página 

----
# Beautiful Soup métodos: find & find_all()

Vamos a asumir que queremos toda la información que sea un título, a través de la etiqueta "hN". Por ejemplo con "h5":

In [5]:
tags = soup.find('h5')
print(tags)

<h5 class="card-title">Python for beginners</h5>


Recordad que teniamos más líneas que usaban h5, por defecto BeautifulSoup después de la primera línea que encuentre dejará de buscar, para cambiarlo:

In [6]:
tags = soup.find_all('h5', )
print(tags)

[<h5 class="card-title">Python for beginners</h5>, <h5 class="card-title">Python Web Development</h5>, <h5 class="card-title">Python Machine Learning</h5>]


Si recordais la web, h5 eran los títulos de cada curso, para cada curso podemos mostrar su título entonces usando la variable .text.

In [7]:
courses_html_tags = soup.find_all('h5')
for course in courses_html_tags:
    print(course.text)

Python for beginners
Python Web Development
Python Machine Learning


Empezamos a ver como podemos conseguir información de la web con técnicas de web scraping.

----
# Inspect Tool

Código web normalmente no suele ser tan "user-friendly", tan fácil de leer, por eso en nuestros navegadores podemos usar el inspect tool. Dependerá del navegador que uses, por ejemplo en Google Chrome, click derecho -> inspect.

<div>
    <img src="./imagenes/view1.png" width=500 height=500 />
</div>

Con el boton de inspeccionar podemos ver la etiqueta por ejemplo del botón ('a').

----
# Proyecto de Scraping básico

Podemos borrar el código de los cursos y probar de buscar los bloques de "targetas", donde tendremos toda la información del curso.

Para saber que atributos del div buscar, usamos el inspector. Podemos ver como todas las targetas de los cursos tienen algo en común, class="card".

In [8]:
course_cards = soup.find_all('div', class_='card')

El underline sirve para decirle a BSoup que es un atributo nativo de html.

Si iteramos en cada targeta del curso podemos obtener la información por ejemplo del título.

In [9]:
for course in course_cards:
    print(course.h5)

<h5 class="card-title">Python for beginners</h5>
<h5 class="card-title">Python Web Development</h5>
<h5 class="card-title">Python Machine Learning</h5>


Dentro de la etiqueta h5 podemos hacer lo mismo de antes con .text para ver solo el texto, además de otras variables.

In [10]:
course_cards = soup.find_all('div', class_='card')
for course in course_cards:
    course_name = course.h5.text
    course_price = course.a.text
    print(course_name+": "+course_price)

Python for beginners: Start for 20$
Python Web Development: Start for 50$
Python Machine Learning: Start for 100$


Podemos dividir el texto del precio para solo obtener el número.

In [11]:
course_cards = soup.find_all('div', class_='card')
for course in course_cards:
    course_name = course.h5.text
    course_price = course.a.text.split()[-1]
    print(course_name+" vale "+course_price)

Python for beginners vale 20$
Python Web Development vale 50$
Python Machine Learning vale 100$


Vemos la utilidad de web scraping, por ejemplo podriamos hacer un bot que este permanentemente buscando un precio de algo en Amazon y cuando sea mas bajo que x, lo compramos.

Código final de esta fase:

In [12]:
from bs4 import BeautifulSoup

with open('home.html', 'r') as html_file:
    content = html_file.read()

    soup = BeautifulSoup(content, 'lxml')

    course_cards = soup.find_all('div', class_='card')
    for course in course_cards:
        course_name = course.h5.text
        course_price = course.a.text.split()[-1]
        print(course_name+" vale "+course_price)

Python for beginners vale 20$
Python Web Development vale 50$
Python Machine Learning vale 100$


-----
# Usando libreria request para ver el HTML de una página web

Si la web que queremos scrapear no la tenemos localmente, podemos conseguir el código con la libreria request:

In [None]:
pip install requests 

Tenemos que escoger una web que escrapear, se ha de tener en mente que los desarrolladores de la web pueden modificar el código en un futuro y nuestro código puede dejar de funcionar.

Usaremos linkedin como ejemplo:

**ABRIRLO EN ICOGNITO**

https://www.linkedin.com/jobs/

Si buscamos ofertas de Python en Mataro:

https://www.infojobs.net/ofertas-trabajo?keyword=python&normalizedJobTitleIds=&provinceIds=&cityIds=&categoryIds=&workdayIds=&educationIds=&segmentId=&contractTypeIds=&page=1&sortBy=&onlyForeignCountry=false&countryIds=&sinceDate=ANY&subcategoryIds=

Veremos muchos trabajos de python.

Nuestro objetivo será conseguir ver los trabajos que son de hoy.

Para obtener el código de esta página en Python usamos la libreria request:

In [43]:
from bs4 import BeautifulSoup
import requests

url = 'https://www.linkedin.com/jobs/search?keywords=Python&location=Matar%C3%B3%2C%20Catalonia%2C%20Spain&geoId=101156716&trk=public_jobs_jobs-search-bar_search-submit&redirect=false&position=1&pageNum=0'
html_text = requests.get(url)
html_text = html_text.text
#print(html_text) # nos mostrará todo el código de la página.

Usamos el mismo método que antes con el parser:

In [44]:
soup = BeautifulSoup(html_text, 'lxml')

Si queremos obtener la información de cada trabajo, tenemos que inspeccionar para ver como son sus etiquetas.

<div>
    <img src="./imagenes/view2.png" width=500 height=500 />
</div>

Para conseguir todos los trabajos disponibles usamos:

In [72]:
job = soup.find('div', class_="result-card__contents job-result-card__contents")
print(job.prettify())

<div class="result-card__contents job-result-card__contents">
 <h3 class="result-card__title job-result-card__title">
  Junior Python developer
 </h3>
 <h4 class="result-card__subtitle job-result-card__subtitle">
  <a class="result-card__subtitle-link job-result-card__subtitle-link" data-tracking-client-ingraph="" data-tracking-control-name="public_jobs_job-result-card_result-card_subtitle-click" data-tracking-will-navigate="" href="https://es.linkedin.com/company/getwith?trk=public_jobs_job-result-card_result-card_subtitle-click">
   GetWith
  </a>
 </h4>
 <div class="result-card__meta job-result-card__meta">
  <span class="job-result-card__location">
   Barcelona, Catalonia, Spain
  </span>
  <p class="job-result-card__snippet">
   Experience using git and using Linux systems. Proven experience developing python based projects end to end. Our client is engineering a ...
  </p>
  <time class="job-result-card__listdate" datetime="2021-02-04">
   2 days ago
  </time>
 </div>
</div>


Dentro del código podemos buscar por el título por ejemplo.

In [52]:
job_title = job.find('h3', class_="result-card__title job-result-card__title").text
print(job_title)

Junior Python developer


-----
Podemos hacer lo mismo con el nombre de empresa:

In [51]:
company_name = job.find('a', class_="result-card__subtitle-link job-result-card__subtitle-link").text
print(company_name)

GetWith


----
Con más trucos de print podemos mostrar los valores de esta forma:

In [54]:
print(f'''
Company Name: {company_name}
Job title: {job_title}
''')


Company Name: GetWith
Job title: Junior Python developer



----
Recordad que queremos obtener cuando se posteo el trabajo, si nos fijamos tenemos una etiqueta "time" con esa información.

In [57]:
published_date = job.find('time', class_="job-result-card__listdate")["datetime"]
print(published_date)

2021-02-04


----
Now we need to do the same for every job:

In [66]:
jobs = soup.find_all(
    'div', class_="result-card__contents job-result-card__contents")

In [67]:
for job in jobs:
    try:
        company_name = job.find('a').text
    except:
        company_name = job.find('h4').text
    job_title = job.find('h3').text
    published_date = job.find('time')["datetime"]

    print(f'''
    Company Name: {company_name}
    Job title: {job_title}
    published at: {published_date}
    ''')


    Company Name: GetWith
    Job title: Junior Python developer
    published at: 2021-02-04
    

    Company Name: Grupo Empresarial Español
    Job title: Programador Python
    published at: 2021-02-06
    

    Company Name: Grupo Empresarial Español
    Job title: Programador Python
    published at: 2021-02-05
    

    Company Name: Experis Selección
    Job title: Programador/a Python
    published at: 2021-01-14
    

    Company Name: Fiction Express
    Job title: Desarrollador backend junior
    published at: 2021-01-13
    

    Company Name: Fiction Express
    Job title: Desarrollador backend junior, Barcelona
    published at: 2021-02-06
    

    Company Name: Apple
    Job title: AI/ML- Machine Learning Internship- Machine Intelligence, Spain
    published at: 2021-02-02
    

    Company Name: Experis
    Job title: Programador Python
    published at: 2021-01-20
    

    Company Name: Tech Data
    Job title: Developer Junior - Python
    published at: 2021-01-2

----
Falta filtrar los trabajos que son de hoy, para eso importamos la libreria datetime.

In [68]:
from datetime import datetime

In [71]:
for job in jobs:
    published_date = job.find('time')["datetime"]
    if published_date == datetime.today().strftime('%Y-%m-%d'):
        try:
            company_name = job.find('a').text
        except:
            company_name = job.find('h4').text
        job_title = job.find('h3').text

        print(f'''
        Company Name: {company_name}
        Job title: {job_title}
        published at: {published_date}
        ''')


        Company Name: Grupo Empresarial Español
        Job title: Programador Python
        published at: 2021-02-06
        

        Company Name: Fiction Express
        Job title: Desarrollador backend junior, Barcelona
        published at: 2021-02-06
        

        Company Name: Amazon
        Job title: ML Scientist
        published at: 2021-02-06
        


----
No hay límite con lo que podemos hacer con web scraping!

----
# Haciendo el programa mas útil

Podemos añadir más información como el link.

Para eso tenemos que ir un paso más atras.

In [74]:
jobs = soup.find_all(
    'li', class_="result-card")

for job_full in jobs:
    job = job_full.find(
        'div', class_="result-card__contents job-result-card__contents")

    published_date = job.find('time')["datetime"]

    if published_date == datetime.today().strftime('%Y-%m-%d'):
        try:
            company_name = job.find('a').text
        except:
            company_name = job.find('h4').text
        job_title = job.find('h3').text

        print(f'''
        Company Name: {company_name}
        Job title: {job_title}
        published at: {published_date}
        ''')


        Company Name: Grupo Empresarial Español
        Job title: Programador Python
        published at: 2021-02-06
        

        Company Name: Fiction Express
        Job title: Desarrollador backend junior, Barcelona
        published at: 2021-02-06
        

        Company Name: Amazon
        Job title: ML Scientist
        published at: 2021-02-06
        


----
Ahora ya podemos conseguir el link:

In [75]:
for job_full in jobs:
    link = job_full.a['href']

    job = job_full.find(
        'div', class_="result-card__contents job-result-card__contents")

    published_date = job.find('time')["datetime"]

    if published_date == datetime.today().strftime('%Y-%m-%d'):
        try:
            company_name = job.find('a').text
        except:
            company_name = job.find('h4').text
        job_title = job.find('h3').text

        print(f'''
        Company Name: {company_name}
        Job title: {job_title}
        published at: {published_date}
        link: {link}
        ''')


        Company Name: Grupo Empresarial Español
        Job title: Programador Python
        published at: 2021-02-06
        link: https://es.linkedin.com/jobs/view/programador-python-at-grupo-empresarial-espa%C3%B1ol-2412200112?refId=ccda510f-651e-4d68-87c0-45055ed54652&trackingId=VtP3RkDmVPP9%2BPA3IVvGmQ%3D%3D&position=2&pageNum=0&trk=public_jobs_job-result-card_result-card_full-click
        

        Company Name: Fiction Express
        Job title: Desarrollador backend junior, Barcelona
        published at: 2021-02-06
        link: https://es.linkedin.com/jobs/view/desarrollador-backend-junior-barcelona-at-fiction-express-2412094961?refId=ccda510f-651e-4d68-87c0-45055ed54652&trackingId=%2B3fqIqTLgysYIo2iD3nY9w%3D%3D&position=6&pageNum=0&trk=public_jobs_job-result-card_result-card_full-click
        

        Company Name: Amazon
        Job title: ML Scientist
        published at: 2021-02-06
        link: https://es.linkedin.com/jobs/view/ml-scientist-at-amazon-2391495268?ref

----
# Bot para ejecutar el código cada 10 minutos

Primero ponemos todo el código dentro de una función.

In [76]:
def find_jobs():
    html_text = requests.get(url)
    html_text = html_text.text
    soup = BeautifulSoup(html_text, 'lxml')

    jobs = soup.find_all(
        'li', class_="result-card")

    for job_full in jobs:
        link = job_full.a['href']

        job = job_full.find(
            'div', class_="result-card__contents job-result-card__contents")
        
        published_date = job.find('time')["datetime"]

        if published_date == datetime.today().strftime('%Y-%m-%d'):
            try:
                company_name = job.find('a').text
            except:
                company_name = job.find('h4').text
            job_title = job.find('h3').text

            print(f'''
            Company Name: {company_name}
            Job title: {job_title}
            published at: {published_date}
            link: {link}
            ''')

En Python, si ejecutamos este fichero, podemos especificar que queremos que se ejecute dentro de una función llamada **main**.

Dentro de este main podemos poner un bucle que sea siempre True, llamamos a la función time.sleep() el tiempo que queramos.

In [None]:
if __name__ == '__main__':
    while True:
        find_jobs()
        time_wait = 10
        print(f'Waiting {time_wait} minutes...') 
        time.sleep(time_wait * 60) # en minutos, 600

----
Funciona!!

# Escribir la información en otro archivo

Seria interesante poder guardar la información en un archivo. Primero creamos una carpeta para guardar esa información. La llamamos como queramos, por ejemplo ./jops

Ahora simplemente podemos abrir un nuevo archivo en python y escribir en el:

In [77]:
def find_jobs():
    html_text = requests.get(url)
    html_text = html_text.text
    soup = BeautifulSoup(html_text, 'lxml')

    jobs = soup.find_all(
        'li', class_="result-card")

    for index, job_full in enumerate(jobs):
        link = job_full.a['href']

        job = job_full.find(
            'div', class_="result-card__contents job-result-card__contents")

        published_date = job.find('time')["datetime"]

        today = datetime.today().strftime('%Y-%m-%d')

        if published_date == today:
            try:
                company_name = job.find('a').text
            except:
                company_name = job.find('h4').text
            job_title = job.find('h3').text

            with open(f'jobs/{str(today) + " " +str(index)}.txt', 'w') as f:
                f.write(f'''
                Company Name: {company_name}
                Job title: {job_title}
                published at: {published_date}
                link: {link}
                ''')
            print(f'File saved: {index}')

In [78]:
find_jobs()

File saved: 1
File saved: 18
