# WEB SCRAPING
  
Es una técnica para extraer y almacenar datos de una o varias páginas web con el fin de analizarlos o manipularlos en otros medios, para la cual se utilizan bots para extraer los datos y contenidos de las webs. 

### Importación de librerías.

* Requests realiza la petición al servidor.

* BeautifulSoup analizar documentos HTML.

* Pandas podemos representar datos tabulares con columnas con etiquetas y filas y series temporales.

In [None]:
import requests
import bs4
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import pandas as pd

Se realiza un request de la url_inicial de la revista, url_root nos ayuda a genera un url completa a partir de la url raíz para esto se utiliza la librería urljoin.

La revista que se está scrapendo es la siguiente https://botanicalsciences.com.mx/index.php/botanicalSciences

In [None]:
url_inicial='https://www.botanicalsciences.com.mx/index.php/botanicalSciences/issue/archive/6'
url_root='https://www.botanicalsciences.com.mx/index.php/botanicalSciences/issue/archive/6'
page = requests.get(url_inicial)

In [None]:
soup = BeautifulSoup(page.text, 'html.parser')

### Obtención de los primeros volúmenes.

Se realiza la búsqueda para obtener los urls de cada uno de los volúmenes o archivos de la revista.

In [None]:
volumen = soup.findAll('div', class_='obj_issue_summary')
vol = [x.find('a').get('href')for x in volumen]
vol

### Obtención de los segundos urls.

Se realiza una lista en la que la variable *vol* que contiene las urls de cada uno de los volúmenes publicados de la revista, con estos urls obtenidos,  con la variable *vol* se implementa un ciclo en el cual se utiliza la variable *vol2* de la cual se van acumulando las siguientes urls.

In [None]:
vol2 =[]
for i in vol: 
    url_inicial1=i 
    r1 = requests.get(url_inicial1)
    soup1 = BeautifulSoup(r1.text, 'html.parser')
    box1 = soup1.find('div', class_='sections') 
    volumen1=box1.findAll('div', class_='title')
    vol1 = [x.find('a').get('href')for x in volumen1]
    vol2+=vol1

In [None]:
vol2

En esta función variable sopa se utiliza para tener las paginaciones de la revista y la variable url es guardan cada uno de url que ya se obtuvieron de *vol2*.

In [None]:
def get_url_items(sopa, url): 
    box1 = soup1.find('div', class_='sections') 
    volumen1=box1.findAll('div', class_='title')
    vol1 = [x.find('a').get('href')for x in volumen1]
    return vol2

Ahora se va acumulando cada uno de los links e ir iterando en cada una de las páginas, para traer cada uno de los links que se van a ir scrapeando.

In [None]:

links_items=[]
i=0
while i<1:
    i+=1
    print(f'Estoy en la pagina {url_inicial}')
    r_pag=requests.get(url_inicial)
    s_p=BeautifulSoup(r_pag.text,'html.parser')
    links=get_url_items(s_p, url_inicial)
    links_items.append(links) 
    next_a=s_p.select('div.cmp_pagination > a')
    if not next_a or not next_a[0].get('href'):
        break
    url_inicial = urljoin(url_inicial, next_a[0].get('href'))

Obtiene el número de los artículos que se encontraron en los primeros volúmenes de la revista.

In [None]:
list_scraper=[]
for i in links_items:
    for j in i:
        list_scraper.append(j)
len(list_scraper)

Toma uno a uno de los links donde se encuentra la información de cada artículo para Scrapearlos.

In [None]:
uno=list_scraper[0]
r_item=requests.get(uno)
s_item=BeautifulSoup(r_item.text, 'html.parser')

### Scrapeo de las urls de los ariculos.

Mediante esta función revisa cada uno de los links de los artículos en los cuales se encuentra la información
del artículo, por lo cual se aplican cada uno de los métodos, que nos van a obtener lo que estamos requiriendo de dicho artículo.

In [None]:
def scraper_book(url):
    content_book={}
    r=requests.get(url)
    tr='Botanical Sciences'
    a='II. Biología y Química'
    te='Ciencias Vegetales'
    s_item=BeautifulSoup(r.text,'html.parser')
    tituloR=tr
    if tituloR:
        content_book['Titulo Revista']=tituloR
    else :
        content_book['Titulo Revista']=None
    area=a
    if area:
        content_book['Area']=area
    else :
        content_book['Area']=None
    tematica=te
    if tematica:
        content_book['Tematica']=tematica
    else :
        content_book['Tematica']=None
    #titulo del libro
    try:
        titulo=s_item.find('h1', class_='page_title').get_text(strip=True)
        content_book['Titulo Articulo']=titulo
    except AttributeError:
        content_book['Titulo Articulo']=None
    try:
        des=s_item.find('div', class_='item abstract').get_text(strip=True)
        content_book['Resumen']=des.replace("Resumen","")
    except AttributeError:
        content_book['Resumen']=None
    try:
        de=s_item.find('div', id='articleAbstractt').get_text(strip=True)
        content_book['Abstract']=de#.replace("Abstract","")
    except AttributeError:
        content_book['Abstract']=None
    try:
        urlA=url
        content_book['Link Articulo']=urlA
    except AttributeError:
        content_book['Link Articulo']=None
    try:  
        ancla_link=s_item.find('ul', class_='value galleys_links').find('li').find('a').get('href')
        content_book['Link PDF']=ancla_link
    except AttributeError:
        content_book['Link PDF']=None
    return content_book

El list_scraper hace un scrapeo de la cada uno de los artículos, ya que en datos_book se acumuló la información obtenida de lo métodos anteriores.

In [None]:
list_scraper=list_scraper[0:10]
datos_book=[]
for idx, i in enumerate(list_scraper):
    print(f'estas escrapeando la pag {idx}')
    datos_book.append(scraper_book(i))

### Se obtiene la información requerida de los artículos.

La variable **datos_book** es un listado en el que se recolecto la información requerida por lo cual
se convierte en un **DataFrame**.

In [None]:
df_catalogo=pd.DataFrame(datos_book)
df_catalogo

La información solicitada se pasa a un **CSV**.

In [None]:
df_catalogo.to_csv('Revista14.5.csv', index=False)

Final del Código