In [8]:
# En este ejemplo vamos a extraer los datos de COVID de una web
# lo primero, instalamos las librerías y las importamos:
url = 'https://www.worldometers.info/coronavirus/countries-where-coronavirus-has-spread/'

In [4]:
pip install bs4

SyntaxError: ignored

In [5]:
pip install requests


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# ¿Qué es texttable? Es una librería para formatear tablas

In [6]:
pip install texttable


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting texttable
  Downloading texttable-1.6.4-py2.py3-none-any.whl (10 kB)
Installing collected packages: texttable
Successfully installed texttable-1.6.4


In [20]:
import requests
from bs4 import BeautifulSoup
import texttable as texttable

In [15]:
# Importamos la web
pagina_covid = requests.get(url)
sopa = BeautifulSoup(pagina_covid.text, 'html.parser')
# Creamos la variable para guardar los datos
datos_covid = []

In [11]:
# Ahora usemos iter().
# La función iter() crea un objeto que se puede iterar, recorrer.
# Estos objetos son útiles cuando se combinan con bucles como for loop, while loop.

# sopa.find_all('td') atrapará todos los enlaces de la tabla
datos_iterados = iter(sopa.findAll('td')) 
# iter recorrerá lña tabla de manera automática

In [17]:
# Este bucle seguirá repitiéndose hasta que haya datos disponibles en el iterador
while True:
    try:
        pais = next(datos_iterados).text
        num_casos_confirmados = next(datos_iterados).text
        num_muertes = next(datos_iterados).text
        continentes = next(datos_iterados).text
 
        # Para 'num_casos_confirmados' and 'num_muertes', 
        # nos aseguramos de eliminar las comas y luego las convertiremos a int
        datos_covid.append((
            pais,
            int(num_casos_confirmados.replace(',', '')),
            int(num_muertes.replace(',', '')),
            continentes
        ))
 
    # StopIteration: se genera un error cuando no quedan más elementos para iterar
    except StopIteration:
        break

In [18]:
# Ordenamos los datos con "sort"
# Es importante recalcar la utilidad de esta función
# Sort en Python: https://docs.python.org/3/howto/sorting.html
datos_covid.sort(key = lambda row: row[1], reverse = True)


In [21]:
# Se crea el objeto de tabla de texto
tabla_datos_covid = texttable.Texttable()
 
# Se agregue una fila vacía al principio para los encabezados
tabla_datos_covid.add_rows([(None, None, None, None)] + datos_covid)
 
# Para formatear la tabla, usamos: 
# 'l' alineado a la izquierda
# 'c' centrado
# 'r' alineado a la derecha

tabla_datos_covid.set_cols_align(('c', 'c', 'c', 'c')) 
tabla_datos_covid.header((' País ', ' Nº de casos ', ' Nº de muertes ', ' Continente '))
 
print(tabla_datos_covid.draw())

+------------------------+---------------+-----------------+-------------------+
|          País          |  Nº de casos  |  Nº de muertes  |     Continente    |
|         Brazil         |   30921145    |     666365      |   South America   |
+------------------------+---------------+-----------------+-------------------+
|         France         |   29439416    |     148129      |      Europe       |
+------------------------+---------------+-----------------+-------------------+
|        Germany         |   26254124    |     139132      |      Europe       |
+------------------------+---------------+-----------------+-------------------+
|     United Kingdom     |   22277696    |     178465      |      Europe       |
+------------------------+---------------+-----------------+-------------------+
|         Russia         |   18319848    |     378870      |      Europe       |
+------------------------+---------------+-----------------+-------------------+
|      South Korea       |  

In [26]:
# Si quisiéramos volcar dicha información en un Dataframe, ¿cómo se plantearia?
import pandas as pd

columnas_datos_covid = ['País', 'Nº de casos ', 'Nº de muertes', 'Continente']
dataframe_covid = pd.DataFrame (datos_covid, columns = columnas_datos_covid)
print(dataframe_covid)

               País  Nº de casos   Nº de muertes         Continente
0            Brazil      30921145         666365      South America
1            France      29439416         148129             Europe
2           Germany      26254124         139132             Europe
3    United Kingdom      22277696         178465             Europe
4            Russia      18319848         378870             Europe
..              ...           ...            ...                ...
222      MS Zaandam             9              2                   
223            Niue             9              0  Australia/Oceania
224           Nauru             8              0  Australia/Oceania
225          Tuvalu             3              0  Australia/Oceania
226    Saint Helena             2              0             Africa

[227 rows x 4 columns]
