### Busca un conjunto de datos de tu interés, que se encuentre en una página web y documenta:

- Qué tendrías que hacer para que la información esté en la calidad que la necesitas
- Existe información faltante en la data que observas para contar una historia más completa
- Código de la extracción de la información

La información utilizada para el ejercicio es la de la URL https://search.bvsalud.org/global-literature-on-novel-coronavirus-2019-ncov/?output=site&lang=en&from=1&sort=&format=summary&count=20&fb=&page=1&skfp=&index=&q=

### Librerías

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

### Configuración

- Para la búsqueda, se estará variando el parámetro "from" incrementando cada vez con el número de elementos que se haya localizado en la página anterior.

- Count se puede ajustar con valores de 20, 50 y 100

- Page se incrementará de 1 en 1



In [2]:
#URL base 
base_url = 'https://search.bvsalud.org/global-literature-on-novel-coronavirus-2019-ncov/'

#Parámetros a modificar
params = {
    'output': 'site',
    'lang': 'en',
    'from': 1,
    'sort': '',
    'format': 'summary',
    'count': 100,
    'fb': '',
    'page': 1,
    'skfp': '',
    'index': '',
    'q': ''
}

### Extracción de información

In [3]:
#Lista para almacenar los datos antes de crear el DataFrame
data = []

detener = 10   #Para prueba se coloca una página de paro
                #con -1 hasta agotar el contenido del sitio
    
#Inicia el ciclo 
while True:
    response = requests.get(base_url, params=params)

    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        boxes = soup.find_all('div', class_='box1')
        
        #Si no se encuentran más 'box1', romper el bucle
        if not boxes:
            break
        
        for box in boxes:
            title = box.find('div', class_='titleArt').get_text(strip=True) if box.find('div', class_='titleArt') else ''
            authors = box.find('div', class_='author').get_text(strip=True) if box.find('div', class_='author') else ''
            reference = box.find('div', class_='reference').get_text(strip=True) if box.find('div', class_='reference') else ''
            data_article = box.find('div', class_='dataArticle').get_text(strip=True) if box.find('div', class_='dataArticle') else ''
            
            #Añade la información a la lista
            data.append({'Title': title, 'Authors': authors, 'Reference': reference, 'Data Article': data_article})
            
        print('Analizando página: ', params['page'])
        
        #Incrementa página
        params['page'] += 1
        params['from'] += len(boxes)
    else:
        print(f'La solicitud a la URL falló con código de estado {response.status_code}.')
        break
        
    if detener != -1:
        if detener == (params['page']-1):
            break;

df = pd.DataFrame(data)
df.shape

Analizando página:  1
Analizando página:  2
Analizando página:  3
Analizando página:  4
Analizando página:  5
Analizando página:  6
Analizando página:  7
Analizando página:  8
Analizando página:  9
Analizando página:  10


(1000, 4)

In [4]:
df.head(20)

Unnamed: 0,Title,Authors,Reference,Data Article
0,Data-Set Class-Balancing and the Convolutional...,Andres Escobar;Maria Alejandra Amezquita Dussa...,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
1,Refueling a Quiet Fire: Old Truthers and New D...,Gabriele Beccari;Matilde Giaccherini;Joanna Ko...,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
2,From Consumer Cities to Consumer Towns? The Po...,Binzhe Wang.,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
3,The Effect of School Closures on Standardized ...,Christian Gillitzer;Nalini Prasad.,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
4,Timely Reporting During The SARS-CoV-2 Lockdow...,Md. Safiullah;Anisuddin Ahmed;Mohammed Moshtaq...,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
5,Comparing Use of B-cell depletion therapy to I...,Western Sydney Local Health District.,ANZCTR; 19/12/2023; TrialID: ACTRN12623001336673,Clinical Trial Register| ICTRP \t| ID:ictrp...
6,Tip of the Iceberg: A New Wave of Iron-Sulfur ...,Audrey L Heffner;Nunziata Maio.,preprints.org; 2023.,Preprint\n in English| PREPRINT-PRE...
7,Cumulative Stressors Influence Lag on Children...,Ana Moscoso;Anthony Cousien;Giulia Serra;Annet...,ssrn; 2023.,Preprint\n in English| PREPRINT-SSR...
8,Construction and Immunogenicity of SARS-CoV-2 ...,Hai Trong Nguyen;Darryl Falzarano;Volker Gerdt...,preprints.org; 2023.,Preprint\n in English| PREPRINT-PRE...
9,A Comprehensive Review of COVID-19 Infection a...,Evangelos Sakellariou;Evangelia Argyropoulou;P...,preprints.org; 2023.,Preprint\n in English| PREPRINT-PRE...
