In [1]:
#código de inicio
import requests
from bs4 import BeautifulSoup
import pandas as pd

# <img style="float: left; padding-right: 20px; width: 100px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"> MCD3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Magíster en Ciencia de Datos**<br>
**2022**<br>

----

# Tarea 1: Extracción de datos mediante webscraping.

***
## Instrucciones Generales:
- Esta Tarea debe ser desarrollada completamente en lenguaje de programación Python, en este mismo Notebook.
- El Notebook debe estar  ordenado, seguir buenas prácticas de escritura y programación, e incluir comentarios o celdas de markdown suficientes para explicar claramente todos lo códigos computacionales.
- El Notebook ya contiene algunas celdas marcadas con el comentario `#código de inicio`. Estas celdas han sido incluidas como ayuda para el desarrollo de la Tarea, y pueden ser ejecutadas tal como están.
- Las celdas marcadas como `#completar código` tienen un código parcial que debe ser completado para poder ser ejecutado. Ud debe agregar todas las líneas o bloques de código necesarios para desarrollar correctamente cada punto de la tarea. También puede eliminar estas celdas y partir el código desde cero si le resulta más conveniente.
- Para el desarrollo de cada pregunta, se sugiere agregar las celdas de código y/o markdown necesarias bajo el enunciado de la misma.
- Asegúrese de guardar los cambios en su Notebook antes de entregarlo.

***
## Introducción.

Hace ya casi 10 años, el trabajo de científico de datos fue catalogado por Harvard Bussiness Review como "el trabajo más atractivo del siglo XXI" [(Davenport & Patil 2012)](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century). Desde entonces, se ha comprobado un aumento constante de la demanda por profesionales expertos datos, y se espera que tanto la creación de puestos trabajos como los salarios sigan al alza en los próximos años. Los siguienes artículos de prensa y difusión ilustran esta situación:

https://www.smithhanley.com/2022/01/04/data-science-in-2022/
https://www.bbva.com/es/big-data-la-demanda-de-talento-experto-sigue-creciendo/

Los estudios citados hacen referencia a mercados laborales en Europa y Estados Unidos. Suponga que ud.está a cargo del desarrollo de un estudio del mercado laboral de científicos de datos en latinoamérica, para lo cual necesita construir una base de datos con las ofertas de trabajo publicadas en distintos países de la región.

El objetivo de esta tarea es usar técnicas de webscrapping para extraer datos de ofertas para científicos de datos publicadas en un portal abierto de empleos (www.linkedin.com/jobs).

NOTA: Este trabajo fue inspirado de [Tutorial](https://www.youtube.com/watch?v=eN_3d4JrL_w&ab_channel=IzzyAnalytics)





#### 1. Ingrese a la página web de www.linkedin.com/jobs, haga click en el botón `Buscar Empleos` y realice una búsqueda de empleos para *data scientist* en la capital de su país (u otra ciudad de su interés). Inspeccione y analice el código fuente de la página de resultados, para entender la estructura de su código HTML. [1 punto]

En base a su inspección del código HTML, responda: ¿Qué elemento del código le permite llegar exactamente a la lista de anuncios de empleo?

## Respuesta

#### Probando con sesión iniciada
Inspeccionando el código HTML en linkedin, el elemento <*ul class="scaffold-layout__list-container"*> permite obtener directamente el listado de anuncios de empleo, una vez realizada la búsqueda.

#### Probando en modo incógnito (sin cookies)
Inspeccionando el código HTML en linkedin, el elemento <*ul class="jobs-search__results-list"*> permite obtener directamente el listado de anuncios de empleo, una vez realizada la búsqueda.

#### 2. Extraiga la lista de anuncios de trabajo arrojados por su búsqueda en Linkedin.  [1 punto]

In [100]:
#complete este código
position = 'data scientist'
job_location = 'santiago de chile'
url_search = 'https://www.linkedin.com/jobs/search/?keywords=%s&location=%s'%(position, job_location)
url_search

'https://www.linkedin.com/jobs/search/?keywords=data scientist&location=santiago de chile'

In [113]:
#código de inicio

#Para evitar que la página web piense que usted es un bot, al realizar el request utilice algunos de los siguientes encabezados: 
#head = {'User-Agent': 'Mozilla/5.0'}
#head = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36'}
head = {'user-agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36'}
#head = {'user-agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36'}
#head = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',}

In [114]:
#complete este código
response = requests.get(url_search, headers=head)
soup = BeautifulSoup(response.text, 'html.parser')
joblist = soup.find('ul', class_ = 'jobs-search__results-list')
alljobs = joblist.find_all('li')

print(len(alljobs))

25


**Nota**: En el código HTML fuente, los objetos de la lista con tag <*li*> no tenían clase, por lo que solo busqué por su tag.

#### 3. Seleccione por ahora sólo el primer anuncio de la lista, y extraiga la información de:  título del trabajo, nombre de la compañía, localización, y URL del anuncio  [2 puntos].

Nota: Por localización se entiende la ciudad, comuna o municipio indicado en el anuncio.

In [115]:
#complete este código

job = alljobs[0]

div = job.div
base_info_div = div.find('div', class_='base-search-card__info')

location = base_info_div.find('span', class_='job-search-card__location').text.strip()
title = base_info_div.h3.text.strip()
company = base_info_div.h4.a.text.strip()
job_url = div.a.get('href')

print(f'Location: {location}')
print(f'Title: {title}')
print(f'Company: {company}')
print(f'Job url: {job_url}')
    

Location: Santiago, Santiago Metropolitan Region, Chile
Title: Data Scientist
Company: NeuralWorks
Job url: https://cl.linkedin.com/jobs/view/data-scientist-at-neuralworks-3623665055?refId=qwPPNYJgg5duO7AWiBeZTA%3D%3D&trackingId=%2BEntdOy5ylPU7JA2m7e2kQ%3D%3D&position=1&pageNum=0&trk=public_jobs_jserp-result_search-card


#### 4. En base a los puntos anteriores, programe una rutina para extraer la información de localización,  título del trabajo, nombre de la compañía, localización, y URL del anuncio para todos los trabajos arrojados por su búsqueda de Linkedin, y almacenar los datos en un dataframe de pandas  [3 puntos].

In [116]:
#complete este código
df_jobs = pd.DataFrame(columns = ['Location', 'Title', 'Company', 'Url'])


def extract_job_offer_data(job):
    '''
    Funcion que obtiene de input un objeto de tipo tag de BeautifulSoup y retorna los atributos buscados
    '''
    return {
        'Location': job.div.find('div', class_='base-search-card__info').find('span', class_='job-search-card__location').text.strip(),
        'Title': job.div.find('div', class_='base-search-card__info').h3.text.strip(),
        'Company': job.div.find('div', class_='base-search-card__info').h4.a.text.strip(),
        'Url': job.div.a.get('href')
    }

def extract_job_offers(jobs_list):
    # Iteramos sobre la lista
    data = list()
    for j in range(len(jobs_list)):
        job_offer = extract_job_offer_data(jobs_list[j])
        data.append(job_offer)
    
    return data


df_jobs = df_jobs.append(extract_job_offers(alljobs))
df_jobs.head(10)

  df_jobs = df_jobs.append(extract_job_offers(alljobs))


Unnamed: 0,Location,Title,Company,Url
0,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,NeuralWorks,https://cl.linkedin.com/jobs/view/data-scienti...
1,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...
2,"Providencia, Santiago Metropolitan Region, Chile",Data Scientist - Career,Equifax,https://cl.linkedin.com/jobs/view/data-scienti...
3,"Santiago, Santiago Metropolitan Region, Chile",Machine Learning Engineer,Michael Page,https://cl.linkedin.com/jobs/view/machine-lear...
4,Santiago Metropolitan Area,Data Scientist,MyDNA,https://cl.linkedin.com/jobs/view/data-scienti...
5,Santiago Metropolitan Area,Data Scientist- Remoto,Michael Page,https://cl.linkedin.com/jobs/view/data-scienti...
6,"Santiago, Santiago Metropolitan Region, Chile",#318 Data Scientist,The Bridge Social,https://cl.linkedin.com/jobs/view/%23318-data-...
7,"Providencia, Santiago Metropolitan Region, Chile",Data Scientist - Career,Equifax,https://cl.linkedin.com/jobs/view/data-scienti...
8,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,COSMOS Save Energy,https://cl.linkedin.com/jobs/view/data-scienti...
9,"Las Condes, Santiago Metropolitan Region, Chile",Digital Data Scientist - Las Condes,GRUPO PROGESTION,https://cl.linkedin.com/jobs/view/digital-data...


#### 5. Exporte su dataframe a un archivo en formato .csv.  [1 punto]


In [117]:
df_jobs.to_csv(f'{position}_{job_location}_jobs.csv', sep=',', index=False)

#### 6. ¿Cuántas ofertas de empleo contiene su dataframe, y cuántos resultados hay en total en la búsqueda de Linkedin? Comente sobre las diferencias o coincidencias, y explique qué debería hacer para extraer todos los resultados disponibles en Linkedin (en palabras, no es necesario implementarlo)  [1 punto]

Hint: Verifique el número de páginas de resultados, y la URL correspondiente a cada una de ellas.

**Ofertas de empleo del dataframe**

In [118]:
total_ofertas = len(df_jobs)
print(f"Total ofertas en DataFrame: {total_ofertas}")

Total ofertas en DataFrame: 25


**Total ofertas**

Con la sesión iniciada, hay un total de 1.813 resultados referentes a ofertas laborales que hay en Santiago de Chile. Si no mantenemos la sesión iniciada, el total de ofertas laborales en Linkedin no es claro, ya que se redondea este a 1000 y la url, pese a ser paginada, siempre redirige al primer resultado, es decir los primeros 25 empleos. Es importante considerar el uso de un bot para tales cases, tales como Selenium u otras tecnologías.

Dado que utilizamos BeautifulSoup para scraping y no utilizamos una cookie, los resultados que se obtienen en la *request* son acorde a no tener una sesión iniciada en Linkedin, por lo cual es coherente que nuestro DataFrame contenga los mismos datos que aparecen en el sitio, al realizar la búsqueda sin iniciar sesión.

**Cómo extraer todos los resultados disponibles**

Para extraer todos los resultados disponibles, lo primero sería revisar el archivo *robots.txt* del sitio, a modo de entender las condiciones necesarias para que el scraping sea efectivo. Luego de esto, lo que conviene es utilizar alguna tecnología para poder iniciar sesión en Linkedin y desde ahí obtener los resultados paginados. Una tecnología recomendada para esto es levantar un Bot con *Selenium*. Una vez realizado esto, conviene iterar por la cantidad de resultados paginados según la url que Linkedin ofrece. De esta forma, se debería iterar por realizando el mismo proceso que nosotros hicimos, pero agregando el parámetro desde la segunda iteración `start=i*25` siendo `i` el número de la iteración y la página. De esta forma, se va agregando el parámetro acorde a lo siguiente:

* iteración 0: no se agrega el parámetro
* iteración 1: `start=25`
* iteración 2: `start=50`
* iteración 3: `start=75`
* iteración 4: `start=100`
..
..
..
..

*Cabe recordar que Python comienza las indexaciones desde el número 0 en adelante.

Por último, se deben guardar todos los resultados en una estructura de datos y, finalmente, llenar el DataFrame con la data.
