In [22]:
# En este ejemplo vamos a extraer los datos de COVID de una web
# lo primero, instalamos las librerías y las importamos:
url = 'https://www.worldometers.info/coronavirus/countries-where-coronavirus-has-spread/'

In [23]:
# pip install bs4
# pip install requests
# ¿Qué es texttable? Es una librería para formatear tablas
# pip install texttable

In [24]:
import requests
from bs4 import BeautifulSoup
import texttable as texttable

In [25]:
# Importamos la web
pagina_covid = requests.get(url)
sopa = BeautifulSoup(pagina_covid.text, 'html')
# Creamos la variable para guardar los datos
datos_covid = []

In [26]:
# Ahora usemos iter().
# La función iter() crea un objeto que se puede iterar, recorrer.
# Estos objetos son útiles cuando se combinan con bucles como for loop, while loop.

# sopa.find_all('td') atrapará todos los enlaces de la tabla
datos_iterados = iter(sopa.findAll('td')) 
# iter recorrerá lña tabla de manera automática

In [27]:
datos_para_iterar=sopa.findAll('td')

In [28]:
datos_para_iterar

[<td style="font-weight: bold; font-size:16px; text-align:left; padding-left:5px; padding-top:10px; padding-bottom:10px">United States</td>,
 <td style="font-weight: bold; text-align:right">106,463,581</td>,
 <td style="font-weight: bold; text-align:right">1,158,150</td>,
 <td style="font-size:14px; color:#aaa; text-align:right">North America</td>,
 <td style="font-weight: bold; font-size:16px; text-align:left; padding-left:5px; padding-top:10px; padding-bottom:10px">India</td>,
 <td style="font-weight: bold; text-align:right">44,808,022</td>,
 <td style="font-weight: bold; text-align:right">531,091</td>,
 <td style="font-size:14px; color:#aaa; text-align:right">Asia</td>,
 <td style="font-weight: bold; font-size:16px; text-align:left; padding-left:5px; padding-top:10px; padding-bottom:10px">France</td>,
 <td style="font-weight: bold; text-align:right">39,887,608</td>,
 <td style="font-weight: bold; text-align:right">166,024</td>,
 <td style="font-size:14px; color:#aaa; text-align:righ

In [29]:
#datos_iterados

In [30]:
#print(next(datos_iterados).text)

In [31]:
# Este bucle seguirá repitiéndose hasta que haya datos disponibles en el iterador
while True:
    try:
        pais = next(datos_iterados).text
        num_casos_confirmados = next(datos_iterados).text
        num_muertes = next(datos_iterados).text
        continentes = next(datos_iterados).text
 
        # Para 'num_casos_confirmados' and 'num_muertes', 
        # nos aseguramos de eliminar las comas y luego las convertiremos a int
        datos_covid.append((
            pais,
            int(num_casos_confirmados.replace(',', '')),
            int(num_muertes.replace(',', '')),
            continentes
        ))
 
    # StopIteration: se genera un error cuando no quedan más elementos para iterar
    except StopIteration:
        break

In [32]:
datos_covid

[('United States', 106463581, 1158150, 'North America'),
 ('India', 44808022, 531091, 'Asia'),
 ('France', 39887608, 166024, 'Europe'),
 ('Germany', 38382386, 171992, 'Europe'),
 ('Brazil', 37358092, 700811, 'South America'),
 ('Japan (+Diamond Princess)', 33565811, 74211, 'Asia'),
 ('South Korea', 30978954, 34368, 'Asia'),
 ('Italy', 25737170, 189391, 'Europe'),
 ('United Kingdom', 24448729, 209396, 'Europe'),
 ('Russia', 22750798, 397753, 'Europe'),
 ('Turkey', 17232066, 102174, 'Asia'),
 ('Spain', 13813830, 120606, 'Europe'),
 ('Vietnam', 11529580, 43186, 'Asia'),
 ('Australia', 11381793, 20049, 'Australia/Oceania'),
 ('Taiwan', 10239998, 19005, 'Asia'),
 ('Argentina', 10044957, 130472, 'South America'),
 ('Netherlands', 8610372, 22992, 'Europe'),
 ('Iran', 7597982, 145571, 'Asia'),
 ('Mexico', 7563576, 333669, 'North America'),
 ('Indonesia', 6755600, 161110, 'Asia'),
 ('Poland', 6507727, 119467, 'Europe'),
 ('Colombia', 6363544, 142698, 'South America'),
 ('Austria', 6051638, 2224

In [33]:
# Ordenamos los datos con "sort"
# Es importante recalcar la utilidad de esta función
# Sort en Python: https://docs.python.org/3/howto/sorting.html
datos_covid.sort(key = lambda row: row[1], reverse = True)


In [34]:
datos_covid

[('United States', 106463581, 1158150, 'North America'),
 ('India', 44808022, 531091, 'Asia'),
 ('France', 39887608, 166024, 'Europe'),
 ('Germany', 38382386, 171992, 'Europe'),
 ('Brazil', 37358092, 700811, 'South America'),
 ('Japan (+Diamond Princess)', 33565811, 74211, 'Asia'),
 ('South Korea', 30978954, 34368, 'Asia'),
 ('Italy', 25737170, 189391, 'Europe'),
 ('United Kingdom', 24448729, 209396, 'Europe'),
 ('Russia', 22750798, 397753, 'Europe'),
 ('Turkey', 17232066, 102174, 'Asia'),
 ('Spain', 13813830, 120606, 'Europe'),
 ('Vietnam', 11529580, 43186, 'Asia'),
 ('Australia', 11381793, 20049, 'Australia/Oceania'),
 ('Taiwan', 10239998, 19005, 'Asia'),
 ('Argentina', 10044957, 130472, 'South America'),
 ('Netherlands', 8610372, 22992, 'Europe'),
 ('Iran', 7597982, 145571, 'Asia'),
 ('Mexico', 7563576, 333669, 'North America'),
 ('Indonesia', 6755600, 161110, 'Asia'),
 ('Poland', 6507727, 119467, 'Europe'),
 ('Colombia', 6363544, 142698, 'South America'),
 ('Austria', 6051638, 2224

In [14]:
# Se crea el objeto de tabla de texto
tabla_datos_covid = texttable.Texttable()
 
# Se agregue una fila vacía al principio para los encabezados
tabla_datos_covid.add_rows([(None, None, None, None)] + datos_covid)
 
# Para formatear la tabla, usamos: 
# 'l' alineado a la izquierda
# 'c' centrado
# 'r' alineado a la derecha

tabla_datos_covid.set_cols_align(('c', 'c', 'c', 'c')) 
tabla_datos_covid.header((' País ', ' Nº de casos ', ' Nº de muertes ', ' Continente '))
tabla_datos_covid.set_cols_align(('l', 'l', 'l', 'c')) 
print(tabla_datos_covid.draw())

+------------------------+---------------+-----------------+-------------------+
|          País          |  Nº de casos  |  Nº de muertes  |     Continente    |
| United States          | 1.065e+08     | 1158017         |   North America   |
+------------------------+---------------+-----------------+-------------------+
| India                  | 44797269      | 531064          |       Asia        |
+------------------------+---------------+-----------------+-------------------+
| France                 | 39878141      | 165916          |      Europe       |
+------------------------+---------------+-----------------+-------------------+
| Germany                | 38380356      | 171896          |      Europe       |
+------------------------+---------------+-----------------+-------------------+
| Brazil                 | 37358092      | 700811          |   South America   |
+------------------------+---------------+-----------------+-------------------+
| Japan (+Diamond        | 3

In [35]:
# Si quisiéramos volcar dicha información en un Dataframe, ¿cómo se plantearia?
import pandas as pd

columnas_datos_covid = ['País', 'Nº de casos ', 'Nº de muertes', 'Continente']
dataframe_covid = pd.DataFrame (datos_covid, columns = columnas_datos_covid)
print(dataframe_covid)

               País  Nº de casos   Nº de muertes         Continente
0     United States     106463581        1158150      North America
1             India      44808022         531091               Asia
2            France      39887608         166024             Europe
3           Germany      38382386         171992             Europe
4            Brazil      37358092         700811      South America
..              ...           ...            ...                ...
225            Niue           800              0  Australia/Oceania
226        Holy See            29              0             Europe
227  Western Sahara            10              1             Africa
228      MS Zaandam             9              2                   
229         Tokelau             5              0  Australia/Oceania

[230 rows x 4 columns]


In [36]:
import pandas as pd
df=pd.DataFrame(data=datos_covid,columns=columnas_datos_covid)
df 

Unnamed: 0,País,Nº de casos,Nº de muertes,Continente
0,United States,106463581,1158150,North America
1,India,44808022,531091,Asia
2,France,39887608,166024,Europe
3,Germany,38382386,171992,Europe
4,Brazil,37358092,700811,South America
...,...,...,...,...
225,Niue,800,0,Australia/Oceania
226,Holy See,29,0,Europe
227,Western Sahara,10,1,Africa
228,MS Zaandam,9,2,
