Scraping from https://es.wikipedia.org/wiki/Vacuna_contra_la_COVID-19.

With this we will get the netx:
- A dataframe that collects the information of all the vaccines that are in phase 2/3 and 3 of development. That is, scraping the "Vaccines" table.
- A dictionary that has information on the data related to the vaccine candidates that have reported effectiveness values. In this dictionary, for each vaccine candidate, we will have a field related to the url of the entry in wikipedia where more details about the vaccine are given, and another field that will be a brief description of it.

In [None]:
# Web scraping table Shots with BeautifulSoup

# load libraries
from bs4 import BeautifulSoup
import requests
import pandas as pd


URL = 'https://es.wikipedia.org/wiki/Vacuna_contra_la_COVID-19'
r = requests.get(URL)
r.status_code

# get the HTML content from the webpage
html = r.content

# Create the soup
soup = BeautifulSoup(html, 'lxml')

#Obtener la tabla
tables= soup.find_all("table", attrs={"class":"wikitable sortable"})

for i, tt in enumerate(tables):
  if i==0: #The table we are interested in is in position 1
    table_target = tt

table_target

<table class="wikitable sortable" style="display: inline-table; font-size:90%; text-align:center;">
<tbody><tr>
<th colspan="10">Datos acumulados (Fase 2/3 y 3)
</th></tr>
<tr>
<th>Candidato a la vacuna <br/><small>(desarrollador/patrocinador)</small>
</th>
<th>Tecnología
</th>
<th>Fase de prueba <br/><small>(participantes)</small>
</th>
<th>Ubicación
</th>
<th>Fechas de pruebas
</th>
<th>Dosis
</th>
<th>Efectividad
</th>
<th>Almacenamiento
</th>
<th>Autorizada por
</th>
<th>Referencias
</th></tr>
<tr>
<td><a class="mw-redirect" href="/wiki/Ad5-nCoV" title="Ad5-nCoV">Ad5-nCoV</a><br/>Convidecia<br/><small>(<a href="/wiki/CanSino_Biologics" title="CanSino Biologics">CanSino Biologics</a>)</small>
</td>
<td>vector de adenovirus recombinante tipo 5</td>
<td>Fase 3</td>
<td><span style="display:none;">China</span><span class="flagicon"><a class="image" href="/wiki/Archivo:Flag_of_the_People%27s_Republic_of_China.svg" title="Bandera de la República Popular China"><img alt="Bandera de la Rep

### Obtain a dataframe that collects the information of all the vaccines that are in phase 2/3 and 3 of development

- Get column header

In [None]:
ths=table_target.find("tbody").find_all('th')
col_headings= [th.text.strip('\n') for th in ths]
col_headings=col_headings[1:]
col_headings

['Candidato a la vacuna (desarrollador/patrocinador)',
 'Tecnología',
 'Fase de prueba (participantes)',
 'Ubicación',
 'Fechas de pruebas',
 'Dosis',
 'Efectividad',
 'Almacenamiento',
 'Autorizada por',
 'Referencias']

In [None]:
trs=table_target.find("tbody").find_all('tr')

# Get cells by row
tds= [tr.find_all('td') for tr in trs]

#Crar lista con el valor de las filas
table_vc_ok = []
for i in range(1,len(tds)):
  table_vc_ok.append([tt.text.strip('\n') for tt in tds[i]])

#Generar el dataframe resultante que contiene la tabla
df_vacunas = pd.DataFrame(table_vc_ok, columns = col_headings)
df_vacunas

Unnamed: 0,Candidato a la vacuna (desarrollador/patrocinador),Tecnología,Fase de prueba (participantes),Ubicación,Fechas de pruebas,Dosis,Efectividad,Almacenamiento,Autorizada por,Referencias
0,,,,,,,,,,
1,Ad5-nCoVConvidecia(CanSino Biologics),vector de adenovirus recombinante tipo 5,Fase 3,China China y Canadá Canadá,marzo de 2020 - marzo de 2021,(1),57.5%,2-8°C,China ChinaMéxico MéxicoChile ChileEcuador Ecu...,[17]​[85]​[19]​[86]​
2,mRNA-1273Moderna (Elasomerán) (Moderna y Natio...,dispersión de nanopartículas lipídicas que con...,Fase 3,Estados Unidos,marzo de 2020 - diciembre de 2020,(2),"94,5%[87]​",-20°C (6 meses)2-8°C (30 días),Estados UnidosCanadá CanadáGroenlandia Groenl...,[17]​[88]​[89]​\n[90]​
3,AZD1222Oxford-AstraZeneca (antes ChAdOx1 nCoV-...,vector de adenovirus,Fase 3,"Inglaterra, Reino Unido",abril de 2020 - diciembre de 2020,(2),"70,4%[91]​",2-8°C,Reino Unido Reino Unido ArgentinaBrasil Brasil...,[92]​[20]​[93]​\n[94]​[95]​
4,BNT162b2Pfizer-BioNTech (tozinamerán)(BioNTech...,vacuna de ARNm,Fase 3,Alemania Alemania y Estados Unidos,abril de 2020 - diciembre de 2020,(2),95%,-70°C,Reino Unido Reino UnidoGroenlandia Groenlandia...,[17]​[96]​[86]​[97]​[98]​[99]​[100]​[101]​[95]...
5,CoronaVacSinovac(Sinovac Biotech),"Virus inactivado, más adyuvante",Fase 3,"Pekín, China",abril de 2020 - enero de 2021,(2),51%,2-8°C,China ChinaBrasil BrasilChile ChileBolivia Bol...,[86]​[103]​[104]​[95]​
6,BBIBP-CorVSinopharm (BIBP)(Instituto de Produc...,Virus inactivado,Fase 3,"Pekín, China",abril de 2020 - diciembre de 2020,(2),79%,2-8°C,China ChinaBaréin BaréinEmiratos Árabes Unidos...,[86]​[105]​[106]​[107]​[108]​
7,Gam-COVID-VacSputnik V (Instituto Gamaleya),Vector viral no replicante,Fase 3,"Moscú, Rusia",agosto de 2020 - mayo de 2021,(2),91.6%,-20 °C (líquida)2-8 °C (liofilizada),Rusia RusiaBielorrusia BielorrusiaSerbia Serbi...,[109]​
8,Ad26.COV2.SJanssen (Johnson & Johnson)(Janssen...,Vector viral noreplicante,Fase 3,Bélgica Bélgica y Estados Unidos,julio de 2020 – febrero de 2021,(1),66%,2-8°C,Estados Unidos Unión EuropeaMéxico MéxicoChil...,[110]​\n[111]​\n[112]​
9,"BBV152Covaxin(Bharat Biotech, Consejo Indio de...",Virus inactivado,Fase 3,India,noviembre de 2020 - marzo de 2021,(2),81%,2-8ºC,IndiaParaguay ParaguayMéxico México Organizac...,[114]​[115]​


### Obtain a dictionary that has information on the data related to the vaccine candidates that have reported effectiveness values

In [None]:
# Obtain auxiliary links vaccines
links_vaccine=[]
for tr in trs:
  for ee, mm in enumerate(tr.find_all('a')):
    if ee==0:
      links_vaccine.append(mm.get('href'))
links_vaccine=links_vaccine[:9]

# define function to get description (first paragraph)
def get_description(url):
  respuesta2 = requests.get(url)
  html2 = respuesta2.content
  soup2 = BeautifulSoup(html2, 'lxml')
  return soup2.find('p').text

# Create dictionary with info (first paragraph)
results={}
for vaccine in links_vaccine:
  print('scraping info from: ', vaccine.split('/')[-1])
  results[vaccine.split('/')[-1]]={}
  results[vaccine.split('/')[-1]]['url'] = 'https://es.wikipedia.org'+vaccine
  results[vaccine.split('/')[-1]]['Description'] = get_description(
      'https://es.wikipedia.org'+vaccine)
  print(vaccine.split('/')[-1])

scraping info from:  Ad5-nCoV
Ad5-nCoV
scraping info from:  MRNA-1273
MRNA-1273
scraping info from:  AZD1222
AZD1222
scraping info from:  BNT162b2
BNT162b2
scraping info from:  CoronaVac
CoronaVac
scraping info from:  BBIBP-CorV
BBIBP-CorV
scraping info from:  Gam-COVID-Vac
Gam-COVID-Vac
scraping info from:  Ad26.COV2.S
Ad26.COV2.S
scraping info from:  BBV152
BBV152


In [None]:
# View the result

import json
print(json.dumps(results, indent=4))

{
    "Ad5-nCoV": {
        "url": "https://es.wikipedia.org/wiki/Ad5-nCoV",
        "Description": "AD5-nCOV, comercializada bajo el nombre Convidecia o PakVak,[1]\u200b[a]\u200b es una vacuna de una sola dosis contra la COVID-19 desarrollada por la empresa china de vacunas CanSino Biologics. \n"
    },
    "MRNA-1273": {
        "url": "https://es.wikipedia.org/wiki/MRNA-1273",
        "Description": "La vacuna de Moderna contra la COVID-19, cuyo nombre comercial es Spikevax,[1]\u200b (DCI: Elasomer\u00e1n,[2]\u200b nombre en clave mRNA-1273) es una vacuna contra la COVID-19 desarrollada por el Instituto Nacional de Alergias y Enfermedades Infecciosas, la Autoridad de Investigaci\u00f3n y Desarrollo Biom\u00e9dico Avanzado (BARDA), ambas instituciones de los Estados Unidos, y la empresa Moderna. Es administrada por inyecci\u00f3n intramuscular. Esta vacuna recibi\u00f3 una autorizaci\u00f3n de uso de emergencia por parte de la Administraci\u00f3n de Medicamentos y Alimentos estadouni