# Web Scraping y Limpieza de Datos

Web scraping de códigos de pais sacados de esta página:

https://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:Country_codes

In [1]:
import requests
from bs4 import BeautifulSoup

print("Setup completado!")

Setup completado!


In [2]:
url = "https://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:Country_codes"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

# Hay varias tablas (miembros UE, paises candidatos a entrar en la UE, paises EFTA, ...)
tables = soup.select("table")
#print(type(table))

In [3]:
# Selecciono las celdas de la tabla que contiene los códigos y nombres de los paises (tags <td> detro de los <tr> de un <table>)
table_cells = soup.select("table tr td")

# Selecciono el texto de cada celda (i.e. sin los tags html)
table_cells = list(map(lambda cell: cell.text.strip(), table_cells))

# Elimino las celdas que están vacias
table_cells = [cell for cell in table_cells if cell != ""]

# Creo un diccionario código_pais:nombre_país. Este diccionario hay que limpiarlo (ver siguiente celda).
country_codes_dict_messy = {country_code:country_name for country_name, country_code in zip(table_cells[::2], table_cells[1::2])}
#country_codes_dict_messy


In [4]:
# Limpio el diccionario
import re

# El código de pais viene encerrado por corchetes y tiene siempre dos letras. Así que me quedo con los dos caracteres en el índice 1 y el índice 2
country_codes = list(map(lambda s: s[1:3], country_codes_dict_messy.keys()))
#country_codes

# Algunos nombres de paises tienen datos no alfanuméricos al final y otros tienen contenido encerrado entre paréntesis o corchetes
country_names = list(country_codes_dict_messy.values())
country_names = list(map(lambda s: re.sub(r"[^\w]$", "", s), country_names))
country_names = list(map(lambda s: re.sub(r"\s[\[\(].*", "", s), country_names))
#country_names

# El diccionario con los datos limpios
country_codes_dict_clean = dict(zip(country_codes, country_names))


# Resultado final
El diccionario con los datos limpios.

Esto puedo guardarlo en una base de datos para consultarlo posteriormente.

In [5]:
country_codes_dict_clean

{'BE': 'Belgium',
 'EL': 'Greece',
 'LT': 'Lithuania',
 'PT': 'Portugal',
 'BG': 'Bulgaria',
 'ES': 'Spain',
 'LU': 'Luxembourg',
 'RO': 'Romania',
 'CZ': 'Czechia',
 'FR': 'France',
 'HU': 'Hungary',
 'SI': 'Slovenia',
 'DK': 'Denmark',
 'HR': 'Croatia',
 'MT': 'Malta',
 'SK': 'Slovakia',
 'DE': 'Germany',
 'IT': 'Italy',
 'NL': 'Netherlands',
 'FI': 'Finland',
 'EE': 'Estonia',
 'CY': 'Cyprus',
 'AT': 'Austria',
 'SE': 'Sweden',
 'IE': 'Ireland',
 'LV': 'Latvia',
 'PL': 'Poland',
 'UK': 'United Kingdom',
 'IS': 'Iceland',
 'NO': 'Norway',
 'LI': 'Liechtenstein',
 'CH': 'Switzerland',
 'ME': 'Montenegro',
 'MK': 'North Macedonia',
 'AL': 'Albania',
 'RS': 'Serbia',
 'TR': 'Turkey',
 'BA': 'Bosnia and Herzegovina',
 'XK': 'Kosovo',
 'AM': 'Armenia',
 'BY': 'Belarus',
 'GE': 'Georgia',
 'AZ': 'Azerbaijan',
 'MD': 'Moldova',
 'UA': 'Ukraine',
 'DZ': 'Algeria',
 'LB': 'Lebanon',
 'SY': 'Syria',
 'EG': 'Egypt',
 'LY': 'Libya',
 'TN': 'Tunisia',
 'IL': 'Israel',
 'MA': 'Morocco',
 'JO': 'Jo