![](https://user-images.githubusercontent.com/83436724/166116197-cbe1a8bc-e1df-4cac-ad5e-9f6cd9f0f43c.png)

#### Obtener datos desde diversas fuentes
#### Obtener datos haciendo webscrapping
#### Autor: Carlos Adrián Alarcón [LinkedIn](https://www.linkedin.com/in/carlos-adrian-alarcon-delgado/)

Muchas veces, obtener datos es bastante difícil. A diferencia de la mayoría de proyectos al momento de estudiar, en casos reales, la información no siempre está en archivos ``.csv``. Para esos casos, y si se trata de data de diferentes páginas web, una muy buena opción es hacer webscrapping. Esta técnica permite entrar a páginas web y automatizar el proceso de extracción de datos, además de ejecutar también algunas acciones como clics.

Para realizar webscraping, haremos uso de la librería [Selenium](https://www.selenium.dev/) haciendo uso de Python. Lo primero que tenemos que hacer es descargar un driver. En este caso, usaremos el driver de Google Chrome (el driver lo podrás encontrar [aquí](https://chromedriver.chromium.org/downloads)). Una vez descargado el driver, lo guardamos en alguna ruta para utilizarlo después. 

Para hace webscraping, necesitamos conocer algunos fundamentos de cómo están estructuradas las páginas web. Podrán encontrar más información acerca de esto [aquí](https://www.scrapingbee.com/blog/practical-xpath-for-web-scraping/). 

Para explorar por su cuenta alguna página web, simplemente, desde su navegador, presionen ``F12``. Verán algo similar a la imagen de abajo. Es importante explorar todos los niveles hasta encontrar los datos que se quieren extraer
![](https://user-images.githubusercontent.com/83436724/167524812-9e24c04a-9dec-475d-a322-b94fb29694d8.PNG)

Para practicar, en este ejercicio extraeremos datos de una conocida página de empleos [aquí](https://www.bumeran.com.pe/empleos-busqueda-data.html). 

Una vez generada la conexión, se ha creado un ciclo para guardar los datos en listas de Python

In [1]:
##!pip install selenium
##!pip install kora
##!apt install chromium-chromedriver
##!cp /usr/lib/chromium-browser/chromedriver /usr/bin

import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome("#Colocar la ruta donde se encuentra el driver")
driver.get('https://www.bumeran.com.pe/empleos-busqueda-data.html')
driver.implicitly_wait(1)
listado_trabajos = []
empresa = []
periodo = []
for i in range(1,22):
    numero = str(i)
    try:
        valor_trabajo = '//div[@id="listado-avisos"]/div[{}]/a[1]/div/div/div[2]/div'.format(numero)
        nombre_puesto = driver.find_elements(By.XPATH, value = valor_trabajo)[0].text
        valor_texto = '//div[@id="listado-avisos"]/div[{}]/a[1]/div/div/div/div'.format(numero)
        nombre_texto = driver.find_elements(By.XPATH, value = valor_texto)[0].text
        lista_texto = nombre_texto.split('\n')
        empresa_texto = lista_texto[0]
        periodo_texto = lista_texto[1]
        listado_trabajos.append(nombre_puesto)
        empresa.append(empresa_texto)
        periodo.append(periodo_texto)
    except Exception:
        pass


  driver = webdriver.Chrome("C:/Users/Adrián Alarcón/Downloads/chromedriver_win32/chromedriver.exe")


A partir de las listas anteriormente generadas, se generará un DataFrame de ``pandas`` para guardar la información.

In [2]:
data_final = pd.DataFrame(list(zip(listado_trabajos,empresa,periodo)),
                            columns = ['puesto','empresa','periodo'])
                            
data_final

Unnamed: 0,puesto,empresa,periodo
0,DATA SCIENTIST,DPC Asociados,Publicado hace más de 30 días
1,Data Scientist,VOXIVA,Publicado hace más de 15 días
2,Data Modeler,everis Perú,Publicado hace más de 30 días
3,Data Scientist,EY (Ernst & Young),Publicado hace 12 días
4,Data Architect,everis Perú,Publicado hace más de 30 días
5,Data Analytics,Claro Perú,Publicado hace más de 30 días
6,Data Engineer,everis Perú,Publicado hace más de 15 días
7,Ingeniero de datos - Data Engineer,Encora,Publicado hace más de 15 días
8,Data Scientist (Científico de datos) - Rubro f...,Experis,Publicado hace 12 días
9,Analista de Datos (TI),BOLSA DE VALORES DE LIMA S.A.A,Publicado hace más de 30 días
