# Web scraping: THE WORLD FACTBOOK

## Introducción

"The World Factbook" de la CIA es una publicación en línea que proporciona información detallada sobre diversos países y territorios de todo el mundo. Es una referencia ampliamente utilizada y una de las fuentes de información más completas y confiables sobre datos demográficos, geográficos, económicos, políticos y militares de diferentes naciones.  
<br>
La página web de "The World Factbook" de la CIA ofrece un amplio conjunto de datos sobre más de 250 países y territorios (262 para el 14 de junio del 2023). Proporciona información sobre aspectos como la geografía, la población, el gobierno, la economía, las comunicaciones, las fuerzas militares y mucho más. Estos datos incluyen descripciones, estadísticas, gráficos y mapas que permiten obtener una visión general de cada país o territorio.


## Objetivos

### Generales
- Recopilar datos desde una página web por medio de métodos de programación tradicional.

### Especifícos
- Analizar la estructura del contenidos de la página web `The World Factbook`. 
- Extraer datos mediante el uso de técnicas de web scrapping utilizando el lenguaje de programación Python.
- Modelar y diseñar la base de datos que almacenará los datos sustraidos de la página web `The World factbook`.


## Descripción del problema
El objetivo de este proyecto es realizar un proceso de Web Scraping en la página web "[The World factbook](https://www.cia.gov/the-world-factbook/)" para extraer datos relevantes sobre diversos países. Utilizando el lenguaje de programación Python y la biblioteca BeautifulSoup, se llevará a cabo la extracción y procesamiento de la información disponible en la página web.

Una vez obtenidos los datos, se almacenarán en un archivo plano en formato JSON, lo cual permitirá su posterior manipulación y análisis. El siguiente paso consistirá en realizar un proceso de ETL (Extracción, Transformación y Carga) para transferir los datos extraídos desde el archivo JSON a una base de datos relacional.

La base de datos relacional será utilizada como fuente de información para responder a las preguntas planteadas en el contexto del proyecto. Mediante consultas a la base de datos, se podrán obtener estadísticas, características y visualizaciones relevantes sobre los países y sus atributos.

Este proyecto tiene como finalidad demostrar las habilidades en Web Scraping, procesamiento de datos y manejo de bases de datos relacionales. Además, proporcionará una oportunidad para aplicar técnicas de visualización de datos y responder preguntas analíticas a partir de la información recopilada.

A través de este proyecto, se espera que los participantes adquieran experiencia práctica en la obtención de datos, manipulación de información, modelado de datos y generación de conocimiento a partir de los mismos.


## 1. - Actividades 

1. **Exploración del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/)**
    - Análisis inicial: Revisar, leer y explorar el sitio web.
    - Revisar, leer y explorar la estructura `HTML` del sitio web.
    - Reconocer diferentes etiquetas de contenido.
    -  **Análisis**: Es necesario estudiar la estructura del `HTML` para la pagina web `The world factbook`, esta estructura es una pauta _inicial-esencial_ para la identificación de las etiquetas  que contienen caracteristicas de interes. Por ejemplo:
       - titulos contenidos en etiquetas `<h2></h2>`
       - subtitulos contenidos en etiquetas `<h3></h3>`
       - parrafos contenidos en etiquetas `<p></p>`


<br>

2. **Extracción de los datos**
    - Haciendo uso de la herramienta `Jupyter Notebook` programar los módulos necesarios que responden a la necesidad de extraer el contenido de la página web.
    - Extraer de la página web los datos identificados a partir del lenguaje de programación Python utilizando la `librería BeautifulSoup`.
    - Extraer la información de cada uno de los países (historia, población, gobierno, economía, geografía, medio ambiente, comunicaciones, transporte...).
    - Mediante el uso de python, hacer un pre procesamiento de los datos (extracción y limpieza, es decir obtener el texto plano sin etiquetas HTML, sin espacios en blanco).
    - Guardar los datos para cada país en un archivo (único) plano en formato JSON.
        - Respetando la estructura `clave:valor` del archivo con formato JSON
    
<br>
    
3. **SQL**
    - Crear un modelo `entidad relación` que responda a las preguntas de negocio (*leer detenidamente el inciso 5*).
        - Crear la entidad.
        - Identificar atributos.
    - Esquematizar la base de datos, pasar del modelo `Entidad relación` al `lenguaje de definición de datos` (DDL).
    - Crear una base de datos en MySQL con el nombre `IIDDBDWorldFactbook`.
    - Crear una tabla en la base de datos `IIDDBDWorldFactbook` con el nombre `WorldFactbookDataAnalysis` con sus correspondientes campos, tipos de datos, etc.
    
**Nota**:
Será importante identificar los campos que respondan a las preguntas exploratorias del inciso 5. Estos campos se refieren a los datos estructurados contenidos en el archivo plano en formato JSON. <br>
Por ejemplo, `¿Cuáles son los países más y menos poblados?` quiere decir que existirá un atributo en la tabla `WorldFactbookDataAnalysis` llamado `population` que contiene el número total de población correspondiente a cada país. 

<br>
    
4. **ETL**
    - Mediante el uso de la herramienta de integración de datos, Talend, realizar un ETL (Extracción, Transformación y Carga) al archivo plano en formato JSON que contiene la información de los países.
    - Mapear los datos (keys) del archivo plano en formato JSON con los campos de la tabla `WorldFactbookDataAnalysis`. 
    - Entregar un único archivo que es un JOB con los componentes que realicen lo pedido. 
    - Debe entregar una captura de pantalla con el JOB que contiene los componentes (una única imagen) con el nombre `etl.png`
    
    
<br>

5. **Responder a las preguntas para explorar los datos**  
 
    5.1. *Población:*  
    - ¿Cuáles son los países más y menos poblados?
    - ¿Cuál es la densidad de población promedio por región o continente?
    - ¿Cuáles son los países con la tasa de crecimiento demográfico más alta o más baja?  
    
    5.2. *Economía:*
    - ¿Cuáles son las principales economías del mundo en términos de PIB?
    - ¿Cuáles son los países con el ingreso per cápita más alto o más bajo?
    - ¿Cuáles son los sectores económicos más importantes en diferentes países?  
    
    5.3. *Geografía:*
    - ¿Cuáles son los países más grandes y más pequeños en términos de área?
    - ¿Cuál es la longitud de las costas de diferentes países?
    - ¿Cuáles son los países con la altitud más alta o más baja?  
    
    5.4. *Educación:*
    - ¿Cuáles son los países con los niveles más altos de alfabetización?
    - ¿Cuál es la tasa de matriculación escolar en diferentes países?
    - ¿Cuáles son los países con la mayor inversión en educación?  
    
    5.5. *Salud:*
    - ¿Cuál es la esperanza de vida promedio en diferentes países?
    - ¿Cuáles son los países con la tasa de mortalidad infantil más alta o más baja?
    - ¿Cuáles son los principales problemas de salud en diferentes regiones?

<br>

6. **Resultados y conclusiones**
   - Se espera un único archivo `ipynb` llamado `webScrapingCIA.ipynb`.
   - Una carpeta llamada `core` que contendrá los paquetes de programaciñn desarrollados por el estudiante y que responden a la parte de extracción de los datos. 
   - Una carpeta llamada `data` que contendrá el archivo plano en formato JSON con la información extraída del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/).
   - Una carpeta llamada `SQL` que contendrá la definición de la base datos, la solución a las preguntas exploratorias y el modelo relacional de la base de datos que será exportado aplicando ingeniería inversa a la base de datos mediante la herramienta de visualización de MySQL.
   - Una carpeta llamada `ER` dentro de la carpeta `SQL` que contiene el modelo entidad-relación con nombre `er.png` este corresponde a la tabla de la base de datos `IIDDBDWorldFactbook`.
   - Una carpeta llamada `ETL` que contendrá el JOB y una captura de pantalla con el JOB que contiene los componentes (una única imagen) con el nombre `etl.png`
   - El siguiente es un ejemplo de la estructura de carpetas de lo esperado:  
     - ETL
       - `world-factbook.item`
       - `etl.png`
     - SQL
       - `dml-web-scraping.sql`
       - `ddl-web-scraping.sql`
       - ER
           - `er.png`
     - data
       - `world-factbook.json`
     - core
       - `ExtractHTML.py`
       - `ProcessHTML.py`
       - `Tools.py`
       - ...

In [3]:
#from core.Tools import Tools
import json
import os
import re
import requests
from bs4 import BeautifulSoup

class Tools:
    """
        @author Kenneth Cruz
        @date 2023-06-20
        @version 0.0.1
        @source 2023-06-12
    """
    
    def __init__(self):
        pass
    
    
    def readFile(self, path:str, name:str) -> list:
        """
            Lectura de un documento a partir de su ruta.
        """
        f = open(f"{path}/{name}", mode="r")
        data = f.readlines()
        f.close()
        
        return data
    
    
    def saveFile(self, path:str, name:str, data:dict)-> None:
        """
            Guarda un documento dado la ruta y el nombre junto con la extemsion del archivo.
        """
        f = open(f"{path}/{name}", mode="w")
        f.write(data)
        f.close()
        print("Guardado con exito")
        
        
    def saveFileJson(self, path:str, name:str, data:dict)-> None:
        """
            Guarda un documento tipo json dado la ruta y el nombre junto con la extemsion del archivo.
        """
        with open(f"{path}/{name}", "w") as file:
            json.dump(data, file)
        print("Guardado con exito")
        
    def readFileJson(self, path:str, name:str) -> list:
        """
            Lectura de un documento a partir de su ruta.
        """
        with open(f"{path}/{name}", "r") as archivo:
            data = json.load(archivo)
        
        return data
    
    def conver_to_lower(self, word: str) -> str:
        return word.strip().lower()
        

class ProcessInfo:
    
    def __init__(self, url: str):
        self.url = url
        
    def get_info_by_contrie(self, countrie: str) -> str:
        """
            get_content_HTML
        """
        res = requests.get(f"{self.url}/{countrie}")
        return res.text if res.status_code == 200 else f"Error al obtener el contenido HTML. Status: {res.status_code}"
    
    def get_info_by_class(self, html: str, name_class: str, element: str) -> str:
        """
            get_important_info
        """
        soup = BeautifulSoup("".join(html), "html.parser") 
        return soup.find(element, class_ = name_class)# div article-content

    
class AnalizerHTML:
    
    def __init__(self, content: dict):
        self.content = content
        
    def get_html_by_contrie(self, contrie: str) -> str:
        return self.content[contrie]
    
    def get_fragment_HTML(self, html: str, element: str) -> list:
        soup = BeautifulSoup(html, "html.parser")
        return soup.find_all(element)
    
    def get_fragment_id_HTML(self, html: str, element: str) -> list:
        soup = BeautifulSoup(html, "html.parser")
        return soup.find_all(element, id=True)
    
    def get_div_content_by_id(self, html: str, div_id: str) -> str:
        soup = BeautifulSoup(html, "html.parser")
        div_element = soup.find("div", id=div_id)
        if div_element:
            return div_element
        else:
            return "No se encontró un div con el ID especificado."
    

In [4]:
if __name__ == "__main__":
    
    baseURL = "https://www.cia.gov/the-world-factbook/countries"
    
    tools = Tools()
    RAWCountries = tools.readFile(path=".", name="countries.txt")

    """
    p = ProcessInfo(baseURL)
    
    data = {
        tools.conver_to_lower(countrie): 
            str(
                p.get_info_by_class(
                    p.get_info_by_contrie(p.conver_to_lower(countrie)),
                    "article-content",
                    "div"
                )
            ) for countrie in RAWCountries
    }
    
    tools.saveFileJson("data", "datos_paises_html.json", data)
    """

In [26]:
def parse_p_tags(p):
    result = {}
    p = str(p)

    soup = BeautifulSoup(p, 'html.parser')
    strong_tags = soup.find_all('strong')

    if len(strong_tags) == 0:
        return soup.get_text()
    else:
        for strong_tag in strong_tags:
            key = strong_tag.get_text()
            sibling = strong_tag.find_next_sibling(string=True)
            if sibling is not None:
                value = sibling.strip()
                result[key] = value
    
    return result
    

json_data = tools.readFileJson("data", "datos_paises_html.json")

soup = BeautifulSoup(json_data['angola'], 'html.parser')

data = {}

divs = soup.find_all('div', id=True)

data = {}

divs = soup.find_all('div', id=True)

# Recorrer cada div encontrado
for div in divs:
    h2_value = div.find('h2').text.strip() # Valor del <h2>valor</h2>
    h3_data = {}

    h3_tags = div.find_all('h3')
    for h3_tag in h3_tags:
        h3_value = h3_tag.text.strip() # Valor del <h3>valor</h3>
        p_value = h3_tag.find_next('p').text.strip() # Valor del <p>valor</p>  
        h3_data[h3_value] = parse_p_tags(h3_tag.find_next('p'))

    data[h2_value] = h3_data # Agrega el json como key: h2: value: TODO lo que se proceso en los tags de h3
        
        
tools.saveFileJson("data", "prueba.json", data)


Guardado con exito


In [37]:
def parse_p_tags(p):
    result = {}
    p = str(p)

    soup = BeautifulSoup(p, 'html.parser')
    strong_tags = soup.find_all('strong')

    if len(strong_tags) == 0:
        return soup.get_text()
    else:
        for strong_tag in strong_tags:
            key = strong_tag.get_text()
            sibling = strong_tag.find_next_sibling(string=True)
            if sibling is not None:
                value = sibling.strip()
                result[key] = value
    
    return result
    

json_data = tools.readFileJson("data", "datos_paises_html.json")

data_to_save = {}

for countrie in RAWCountries:
    data = {}
    
    soup = BeautifulSoup(json_data[tools.conver_to_lower(countrie)], 'html.parser')
    divs = soup.find_all('div', id=True)

    # Recorrer cada div encontrado
    for div in divs:
        h2_value = div.find('h2').text.strip() # Valor del <h2>valor</h2>
        h3_data = {}
        h3_tags = div.find_all('h3')
        for h3_tag in h3_tags:
            h3_value = h3_tag.text.strip() # Valor del <h3>valor</h3>
            p_value = h3_tag.find_next('p').text.strip() # Valor del <p>valor</p>  
            h3_data[h3_value] = parse_p_tags(h3_tag.find_next('p'))

        data[h2_value] = h3_data # Agrega el json como key: h2: value: TODO lo que se proceso en los tags de h3
        
    data_to_save[tools.conver_to_lower(countrie)] = data
        
tools.saveFileJson("data", "world-factbook.json", data_to_save)

Guardado con exito


In [72]:
json_data = tools.readFileJson("data", "world-factbook.json")
elements = ["Geography", "People and Society", "Economy"]

final_data = {}

for countrie in RAWCountries:
    country_lower = tools.conver_to_lower(countrie)
    
    if country_lower in json_data:
        country_info = json_data[country_lower]
        country_data = {}
        
        for element in elements:
            if element in country_info:
                country_data[element] = country_info[element]
        
        final_data[country_lower] = country_data
    else:
        print(f"Data not found for {countrie}")

tools.saveFileJson("data", "world-factbook.json", final_data)

Guardado con exito


In [250]:
json_data = tools.readFileJson("data", "world-factbook.json")
elements = ["Geography", "People and Society", "Economy"]

countrie = json_data['afghanistan']


c = {
    'countrie': 'afghanistan',
    'population': countrie['People and Society']['Population'],
    'Population growth rate': countrie['People and Society']['Population growth rate'],
    'area': countrie['Geography']['Area']['total:'],
    'Map references': countrie['Geography']['Map references'],
    'Coastline': countrie['Geography']['Coastline'],
    'elevation highest point': countrie['Geography']['Elevation']['highest point:'],
    'elevation lowest point': countrie['Geography']['Elevation']['lowest point:'],
    'economy': {
        'GDP': countrie['Economy']['GDP (official exchange rate)'],
        'GDP-composition': {
            'agriculture': countrie['Economy']['GDP - composition, by sector of origin']['agriculture:'],
            'industry': countrie['Economy']['GDP - composition, by sector of origin']['industry:'],
            'services': countrie['Economy']['GDP - composition, by sector of origin']['services:'],
        }
    },
    'education': {
        'school life expectancy': countrie['People and Society']['School life expectancy (primary to tertiary education)']['total:'],
        'Education expenditures': countrie['People and Society']['Education expenditures'],
    },
    'health': {
        'life expectancy at birth': countrie['People and Society']['Life expectancy at birth'],
        'infant mortality rate': countrie['People and Society']['Infant mortality rate'],\
        'Health problems': {
            'Current health expenditure': countrie['People and Society']['Current health expenditure'],
            'Physicians density': countrie['People and Society']['Physicians density'],
            'Hospital bed density': countrie['People and Society']['Hospital bed density'],
#             'Sanitation facility access': {
#                 'improved': {
#                     'urban': countrie['People and Society']['Sanitation facility access']['improved:'],
#                     'rural': countrie['People and Society']['Sanitation facility access']['improved:'],
#                     'total': countrie['People and Society']['Sanitation facility access']['improved:']
#                 },
#                 'unimproved': {
#                     'urban': countrie['People and Society']['Sanitation facility access']['improved:'],
#                     'rural': countrie['People and Society']['Sanitation facility access']['improved:'],
#                     'total': countrie['People and Society']['Sanitation facility access']['improved:']
#                 }
#             }
        }
    }
}

result = {
    'afghanistan': c
}

print(result)

{'afghanistan': {'countrie': 'afghanistan', 'population': '39,232,003 (2023 est.)', 'Population growth rate': '2.26% (2023 est.)', 'area': '652,230 sq km', 'Map references': 'Asia', 'Coastline': '0 km (landlocked)', 'elevation highest point': 'Noshak 7,492 m', 'elevation lowest point': 'Amu Darya 258 m', 'economy': {'GDP': '$20.24 billion (2017 est.)', 'GDP-composition': {'agriculture': '23% (2016 est.)', 'industry': '21.1% (2016 est.)', 'services': '55.9% (2016 est.)'}}, 'education': {'school life expectancy': '10 years', 'Education expenditures': '2.9% of GDP (2020 est.)'}, 'health': {'life expectancy at birth': {'total population:': '54.05 years', 'male:': '52.47 years', 'female:': '55.71 years (2023 est.)'}, 'infant mortality rate': {'total:': '103.06 deaths/1,000 live births', 'male:': '111.47 deaths/1,000 live births', 'female:': '94.24 deaths/1,000 live births (2023 est.)'}, 'Health problems': {'Current health expenditure': '15.5% of GDP (2020)', 'Physicians density': '0.25 phys

In [258]:
json_data = tools.readFileJson("data", "world-factbook.json")
elements = ["Geography", "People and Society", "Economy"]

final_data = {}

for pais in RAWCountries:
    
    country_lower = tools.conver_to_lower(pais)
    countrie = json_data[country_lower]

    c = {
        'countrie': country_lower,
        'population': countrie.get('People and Society', {}).get('Population', ''),
        'Population growth rate': countrie.get('People and Society', {}).get('Population growth rate', ''),
        'area': countrie.get('Geography', {}).get('Area', {}).get('total:', ''),
        'Map references': countrie.get('Geography', {}).get('Map references', ''),
        'Coastline': countrie.get('Geography', {}).get('Coastline', ''),
        'elevation highest point': countrie.get('Geography', {}).get('Elevation', {}).get('highest point:', ''),
        'elevation lowest point': countrie.get('Geography', {}).get('Elevation', {}).get('lowest point:', ''),
        'economy': {
            'GDP': countrie.get('Economy', {}).get('GDP (official exchange rate)', ''),
            'GDP-composition': {
                'agriculture': countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('agriculture:', ''),
                'industry': countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('industry:', ''),
                'services': countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('services:', ''),
            }
        },
        'education': {
            'school life expectancy': countrie.get('People and Society', {}).get('School life expectancy (primary to tertiary education)', {}).get('total:', ''),
            'Education expenditures': countrie.get('People and Society', {}).get('Education expenditures', ''),
        },
        'health': {
            'life expectancy at birth': countrie.get('People and Society', {}).get('Life expectancy at birth', ''),
            'infant mortality rate': countrie.get('People and Society', {}).get('Infant mortality rate', ''),
            'Health problems': {
                'Current health expenditure': countrie.get('People and Society', {}).get('Current health expenditure', ''),
                'Physicians density': countrie.get('People and Society', {}).get('Physicians density', ''),
                'Hospital bed density': countrie.get('People and Society', {}).get('Hospital bed density', ''),
            }
        }
    }
    
    final_data[country_lower] = c

tools.saveFileJson("data", "world-factbook.json", final_data)

Guardado con exito


In [259]:
json_data = tools.readFileJson("data", "world-factbook.json")

In [260]:
json_data['afghanistan']

{'countrie': 'afghanistan',
 'population': '39,232,003 (2023 est.)',
 'Population growth rate': '2.26% (2023 est.)',
 'area': '652,230 sq km',
 'Map references': 'Asia',
 'Coastline': '0 km (landlocked)',
 'elevation highest point': 'Noshak 7,492 m',
 'elevation lowest point': 'Amu Darya 258 m',
 'economy': {'GDP': '$20.24 billion (2017 est.)',
  'GDP-composition': {'agriculture': '23% (2016 est.)',
   'industry': '21.1% (2016 est.)',
   'services': '55.9% (2016 est.)'}},
 'education': {'school life expectancy': '10 years',
  'Education expenditures': '2.9% of GDP (2020 est.)'},
 'health': {'life expectancy at birth': {'total population:': '54.05 years',
   'male:': '52.47 years',
   'female:': '55.71 years (2023 est.)'},
  'infant mortality rate': {'total:': '103.06 deaths/1,000 live births',
   'male:': '111.47 deaths/1,000 live births',
   'female:': '94.24 deaths/1,000 live births (2023 est.)'},
  'Health problems': {'Current health expenditure': '15.5% of GDP (2020)',
   'Physicia

In [170]:
RAWCountries

['Afghanistan\n',
 'Akrotiri\n',
 'Albania\n',
 'Algeria\n',
 'American Samoa\n',
 'Andorra\n',
 'Angola\n',
 'Anguilla\n',
 'Antarctica\n',
 'Antigua and Barbuda\n',
 'Argentina\n',
 'Armenia\n',
 'Aruba\n',
 'Ashmore and Cartier Islands\n',
 'Australia\n',
 'Austria\n',
 'Azerbaijan\n',
 'Bahamas, The\n',
 'Bahrain\n',
 'Baker Island\n',
 'Bangladesh\n',
 'Barbados\n',
 'Belarus\n',
 'Belgium\n',
 'Belize\n',
 'Benin\n',
 'Bermuda\n',
 'Bhutan\n',
 'Bosnia and Herzegovina\n',
 'Botswana\n',
 'Bouvet Island\n',
 'Brazil\n',
 'British Indian Ocean Territory\n',
 'British Virgin Islands\n',
 'Brunei\n',
 'Bulgaria\n',
 'Burkina Faso\n',
 'Burma\n',
 'Burundi\n',
 'Cabo Verde\n',
 'Cambodia\n',
 'Cameroon\n',
 'Canada\n',
 'Cayman Islands\n',
 'Central African Republic\n',
 'Chad\n',
 'Chile\n',
 'China\n',
 'Christmas Island\n',
 'Clipperton Island\n',
 'Cocos (Keeling) Islands\n',
 'Colombia\n',
 'Comoros\n',
 'Congo, Democratic Republic of the\n',
 'Congo, Republic of the\n',
 'Cook I