# Web scraping: THE WORLD FACTBOOK

## Introducción

"The World Factbook" de la CIA es una publicación en línea que proporciona información detallada sobre diversos países y territorios de todo el mundo. Es una referencia ampliamente utilizada y una de las fuentes de información más completas y confiables sobre datos demográficos, geográficos, económicos, políticos y militares de diferentes naciones.  
<br>
La página web de "The World Factbook" de la CIA ofrece un amplio conjunto de datos sobre más de 250 países y territorios (262 para el 14 de junio del 2023). Proporciona información sobre aspectos como la geografía, la población, el gobierno, la economía, las comunicaciones, las fuerzas militares y mucho más. Estos datos incluyen descripciones, estadísticas, gráficos y mapas que permiten obtener una visión general de cada país o territorio.


## Objetivos

### Generales
- Recopilar datos desde una página web por medio de métodos de programación tradicional.

### Especifícos
- Analizar la estructura del contenidos de la página web `The World Factbook`. 
- Extraer datos mediante el uso de técnicas de web scrapping utilizando el lenguaje de programación Python.
- Modelar y diseñar la base de datos que almacenará los datos sustraidos de la página web `The World factbook`.


## Descripción del problema
El objetivo de este proyecto es realizar un proceso de Web Scraping en la página web "[The World factbook](https://www.cia.gov/the-world-factbook/)" para extraer datos relevantes sobre diversos países. Utilizando el lenguaje de programación Python y la biblioteca BeautifulSoup, se llevará a cabo la extracción y procesamiento de la información disponible en la página web.

Una vez obtenidos los datos, se almacenarán en un archivo plano en formato JSON, lo cual permitirá su posterior manipulación y análisis. El siguiente paso consistirá en realizar un proceso de ETL (Extracción, Transformación y Carga) para transferir los datos extraídos desde el archivo JSON a una base de datos relacional.

La base de datos relacional será utilizada como fuente de información para responder a las preguntas planteadas en el contexto del proyecto. Mediante consultas a la base de datos, se podrán obtener estadísticas, características y visualizaciones relevantes sobre los países y sus atributos.

Este proyecto tiene como finalidad demostrar las habilidades en Web Scraping, procesamiento de datos y manejo de bases de datos relacionales. Además, proporcionará una oportunidad para aplicar técnicas de visualización de datos y responder preguntas analíticas a partir de la información recopilada.

A través de este proyecto, se espera que los participantes adquieran experiencia práctica en la obtención de datos, manipulación de información, modelado de datos y generación de conocimiento a partir de los mismos.


## 1. - Actividades 

1. **Exploración del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/)**
    - Análisis inicial: Revisar, leer y explorar el sitio web.
    - Revisar, leer y explorar la estructura `HTML` del sitio web.
    - Reconocer diferentes etiquetas de contenido.
    -  **Análisis**: Es necesario estudiar la estructura del `HTML` para la pagina web `The world factbook`, esta estructura es una pauta _inicial-esencial_ para la identificación de las etiquetas  que contienen caracteristicas de interes. Por ejemplo:
       - titulos contenidos en etiquetas `<h2></h2>`
       - subtitulos contenidos en etiquetas `<h3></h3>`
       - parrafos contenidos en etiquetas `<p></p>`


<br>

2. **Extracción de los datos**
    - Haciendo uso de la herramienta `Jupyter Notebook` programar los módulos necesarios que responden a la necesidad de extraer el contenido de la página web.
    - Extraer de la página web los datos identificados a partir del lenguaje de programación Python utilizando la `librería BeautifulSoup`.
    - Extraer la información de cada uno de los países (historia, población, gobierno, economía, geografía, medio ambiente, comunicaciones, transporte...).
    - Mediante el uso de python, hacer un pre procesamiento de los datos (extracción y limpieza, es decir obtener el texto plano sin etiquetas HTML, sin espacios en blanco).
    - Guardar los datos para cada país en un archivo (único) plano en formato JSON.
        - Respetando la estructura `clave:valor` del archivo con formato JSON
    
<br>
    
3. **SQL**
    - Crear un modelo `entidad relación` que responda a las preguntas de negocio (*leer detenidamente el inciso 5*).
        - Crear la entidad.
        - Identificar atributos.
    - Esquematizar la base de datos, pasar del modelo `Entidad relación` al `lenguaje de definición de datos` (DDL).
    - Crear una base de datos en MySQL con el nombre `IIDDBDWorldFactbook`.
    - Crear una tabla en la base de datos `IIDDBDWorldFactbook` con el nombre `WorldFactbookDataAnalysis` con sus correspondientes campos, tipos de datos, etc.
    
**Nota**:
Será importante identificar los campos que respondan a las preguntas exploratorias del inciso 5. Estos campos se refieren a los datos estructurados contenidos en el archivo plano en formato JSON. <br>
Por ejemplo, `¿Cuáles son los países más y menos poblados?` quiere decir que existirá un atributo en la tabla `WorldFactbookDataAnalysis` llamado `population` que contiene el número total de población correspondiente a cada país. 

<br>
    
4. **ETL**
    - Mediante el uso de la herramienta de integración de datos, Talend, realizar un ETL (Extracción, Transformación y Carga) al archivo plano en formato JSON que contiene la información de los países.
    - Mapear los datos (keys) del archivo plano en formato JSON con los campos de la tabla `WorldFactbookDataAnalysis`. 
    - Entregar un único archivo que es un JOB con los componentes que realicen lo pedido. 
    - Debe entregar una captura de pantalla con el JOB que contiene los componentes (una única imagen) con el nombre `etl.png`
    
    
<br>

5. **Responder a las preguntas para explorar los datos**  
 
    5.1. *Población:*  
    - ¿Cuáles son los países más y menos poblados?
    - ¿Cuál es la densidad de población promedio por región o continente?
    - ¿Cuáles son los países con la tasa de crecimiento demográfico más alta o más baja?  
    
    5.2. *Economía:*
    - ¿Cuáles son las principales economías del mundo en términos de PIB?
    - ¿Cuáles son los países con el ingreso per cápita más alto o más bajo?
    - ¿Cuáles son los sectores económicos más importantes en diferentes países?  
    
    5.3. *Geografía:*
    - ¿Cuáles son los países más grandes y más pequeños en términos de área?
    - ¿Cuál es la longitud de las costas de diferentes países?
    - ¿Cuáles son los países con la altitud más alta o más baja?  
    
    5.4. *Educación:*
    - ¿Cuáles son los países con los niveles más altos de alfabetización?
    - ¿Cuál es la tasa de matriculación escolar en diferentes países?
    - ¿Cuáles son los países con la mayor inversión en educación?  
    
    5.5. *Salud:*
    - ¿Cuál es la esperanza de vida promedio en diferentes países?
    - ¿Cuáles son los países con la tasa de mortalidad infantil más alta o más baja?
    - ¿Cuáles son los principales problemas de salud en diferentes regiones?

<br>

6. **Resultados y conclusiones**
   - Se espera un único archivo `ipynb` llamado `webScrapingCIA.ipynb`.
   - Una carpeta llamada `core` que contendrá los paquetes de programaciñn desarrollados por el estudiante y que responden a la parte de extracción de los datos. 
   - Una carpeta llamada `data` que contendrá el archivo plano en formato JSON con la información extraída del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/).
   - Una carpeta llamada `SQL` que contendrá la definición de la base datos, la solución a las preguntas exploratorias y el modelo relacional de la base de datos que será exportado aplicando ingeniería inversa a la base de datos mediante la herramienta de visualización de MySQL.
   - Una carpeta llamada `ER` dentro de la carpeta `SQL` que contiene el modelo entidad-relación con nombre `er.png` este corresponde a la tabla de la base de datos `IIDDBDWorldFactbook`.
   - Una carpeta llamada `ETL` que contendrá el JOB y una captura de pantalla con el JOB que contiene los componentes (una única imagen) con el nombre `etl.png`
   - El siguiente es un ejemplo de la estructura de carpetas de lo esperado:  
     - ETL
       - `world-factbook.item`
       - `etl.png`
     - SQL
       - `dml-web-scraping.sql`
       - `ddl-web-scraping.sql`
       - ER
           - `er.png`
     - data
       - `world-factbook.json`
     - core
       - `ExtractHTML.py`
       - `ProcessHTML.py`
       - `Tools.py`
       - ...

In [2]:
import json
import os
from bs4 import BeautifulSoup

from core.Tools import Tools
from core.ExtractHTML import ExtractHTML
from core.ProcessHTML import ProcessHTML

if __name__ == "__main__":
    
    tools = Tools()
    
    baseURL = "https://www.cia.gov/the-world-factbook/countries"
    RAWCountries = tools.readFile(path=".", name="countries.txt")
    
    e = ExtractHTML(baseURL)
    """
    data = {
        e.conver_to_lower(countrie): 
            str(
                e.get_info_by_class(
                    e.get_info_by_contrie(e.format_country_name(e.conver_to_lower(countrie))),
                    "article-content",
                    "div"
                )
            ) for countrie in RAWCountries
    }
    
    tools.saveFileJson("data", "datos_paises_html.json", data)
    """

In [2]:
json_data = tools.readFileJson("data", "datos_paises_html.json")
p = ProcessHTML()

data_to_save = {}

# TODOS LOS PAISES
for countrie in RAWCountries:
    data = {}
    divs = p.get_divs(json_data[e.conver_to_lower(countrie)])

    # Recorrer cada div encontrado
    for div in divs:
        h2_value = p.get_value_h2(div)
        h3_tags = p.get_alls_h3(div)
        h3_data = {}
        
        for h3_tag in h3_tags:
            h3_value = h3_tag.text.strip() # Valor del <h3>valor</h3>
            
            if h3_value == "Population":
                h3_data[h3_value] = p.get_value_p(h3_tag)
            else:
                h3_data[h3_value] = p.parse_p_tags(h3_tag.find_next('p'))#Valor del <p>valor</p> o {} 
            
        data[h2_value] = h3_data # Agrega el json como key: h2: value: TODO lo que se proceso en los tags de h3
        
    data_to_save[e.conver_to_lower(countrie)] = data
    
tools.saveFileJson("data", "data_json_1.json", data_to_save)

Guardado con exito


In [3]:
json_data = tools.readFileJson("data", "data_json_1.json")
elements = ["Geography", "People and Society", "Economy"]

final_data = {}

# EXTRACCION DE INFORMACION NECESARIA
for countrie in RAWCountries:
    country_lower = e.conver_to_lower(countrie)
    
    if country_lower in json_data:
        country_info = json_data[country_lower]
        country_data = {}
        
        for element in elements:
            if element in country_info:
                country_data[element] = country_info[element]
        
        final_data[country_lower] = country_data
    else:
        print(f"Data not found for {countrie}")

tools.saveFileJson("data", "data_json_2.json", final_data)

Guardado con exito


In [4]:
json_data = tools.readFileJson("data", "data_json_2.json")
elements = ["Geography", "People and Society", "Economy"]
p = ProcessHTML()
final_data = {}

for pais in RAWCountries:
    country_lower = e.conver_to_lower(pais)
    countrie = json_data[country_lower]
    
    c = {
        'countrie': country_lower,
        'population': float(p.get_population( countrie.get('People and Society', {}).get('Population', '') )),
        'Population growth rate': p.limpiar_porcentaje( countrie.get('People and Society', {}).get('Population growth rate', '') ),
        'area': p.limpiar_campos( countrie.get('Geography', {}).get('Area', {}).get('total:', '') ),
        'Map references': countrie.get('Geography', {}).get('Map references', ''),
        'Coastline': float(p.limpiar_campos( countrie.get('Geography', {}).get('Coastline', '') )) if p.limpiar_campos( countrie.get('Geography', {}).get('Coastline', '') ) != '' else 0,
        'elevation highest point': p.limpiar( countrie.get('Geography', {}).get('Elevation', {}).get('highest point:', '') ),
        'elevation lowest point': p.limpiar( countrie.get('Geography', {}).get('Elevation', {}).get('lowest point:', '') ),
        'economy': {
            'GDP': p.procces_gpd( countrie.get('Economy', {}).get('GDP (official exchange rate)', '') ),
            'GDP_contribution_agriculture': p.limpiar_porcentaje( countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('agriculture:', '') ),
            'GDP_contribution_industry': p.limpiar_porcentaje( countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('industry:', '') ),
            'GDP_contribution_services': p.limpiar_porcentaje( countrie.get('Economy', {}).get('GDP - composition, by sector of origin', {}).get('services:', '') ),
        },
        'education': {
            'school life expectancy': p.limpiar_campos( countrie.get('People and Society', {}).get('School life expectancy (primary to tertiary education)', {}).get('total:', '') ),
            'Education expenditures': p.limpiar_porcentaje( countrie.get('People and Society', {}).get('Education expenditures', '') ),
        },
        'health': {
            'life expectancy at birth': p.limpiar_campos( countrie.get('People and Society', {}).get('Life expectancy at birth', {}).get('total population:', '') ),
            'infant mortality rate': p.get_decimal( countrie.get('People and Society', {}).get('Infant mortality rate', {}).get('total:', '') ),
            'Health problems': {
                'Current health expenditure': p.limpiar_porcentaje( countrie.get('People and Society', {}).get('Current health expenditure', '') ),
                'Physicians density': p.get_decimal( countrie.get('People and Society', {}).get('Physicians density', '') ),
                'Hospital bed density': p.get_decimal( countrie.get('People and Society', {}).get('Hospital bed density', '') ),
            }
        }
    }
    
    final_data[country_lower] = c

tools.saveFileJson("data", "world-factbook.json", final_data)

Guardado con exito


In [5]:
json_data = tools.readFileJson("data", "world-factbook.json")



for pais in RAWCountries:
    country_lower = e.conver_to_lower(pais)
    countrie = json_data[country_lower]
    
    print(json.dumps(countrie, indent=4))

{
    "countrie": "afghanistan",
    "population": 39232003.0,
    "Population growth rate": 2.26,
    "area": 652230.0,
    "Map references": "Asia",
    "Coastline": 0.0,
    "elevation highest point": 7492.0,
    "elevation lowest point": 258.0,
    "economy": {
        "GDP": 20240000000.0,
        "GDP_contribution_agriculture": 23.0,
        "GDP_contribution_industry": 21.1,
        "GDP_contribution_services": 55.9
    },
    "education": {
        "school life expectancy": 10.0,
        "Education expenditures": 2.9
    },
    "health": {
        "life expectancy at birth": 54.05,
        "infant mortality rate": "103.06",
        "Health problems": {
            "Current health expenditure": 15.5,
            "Physicians density": "0.25",
            "Hospital bed density": "0.4"
        }
    }
}
{
    "countrie": "akrotiri",
    "population": 36390.0,
    "Population growth rate": 0,
    "area": 123.0,
    "Map references": "Middle East",
    "Coastline": 56.3,
    "elevati

In [14]:
import re

def limpiar(text: str) -> float:
    #result = re.search(r'(-?[\d,.]+)\s*m?', str(text))
    result = re.search(r'(-?[\d,]+)\s*m?', text)

    if result:
        extracted_number = result.group(1)
        if ',' in extracted_number:
            number = extracted_number.replace(',', '')
            return float(number)
        else:
            return float(result.group(1)) if result.group(1) != '.' else 0

    return 0

print(limpiar('Mt. Fogo (a volcano on Fogo Island) 2,829 '))

2829.0
