# Web scraping: THE WORLD FACTBOOK

## Introducción

"The World Factbook" de la CIA es una publicación en línea que proporciona información detallada sobre diversos países y territorios de todo el mundo. Es una referencia ampliamente utilizada y una de las fuentes de información más completas y confiables sobre datos demográficos, geográficos, económicos, políticos y militares de diferentes naciones.  
<br>
La página web de "The World Factbook" de la CIA ofrece un amplio conjunto de datos sobre más de 250 países y territorios (262 para el 14 de junio del 2023). Proporciona información sobre aspectos como la geografía, la población, el gobierno, la economía, las comunicaciones, las fuerzas militares y mucho más. Estos datos incluyen descripciones, estadísticas, gráficos y mapas que permiten obtener una visión general de cada país o territorio.


## Objetivos

### Generales
- Recopilar datos desde una página web por medio de métodos de programación tradicional.

### Especifícos
- Analizar la estructura del contenidos de la página web `The World Factbook`. 
- Extraer datos mediante el uso de técnicas de web scrapping utilizando el lenguaje de programación Python.
- Modelar y diseñar la base de datos que almacenará los datos sustraidos de la página web `The World factbook`.


## Descripción del problema
El objetivo de este proyecto es realizar un proceso de Web Scraping en la página web "[The World factbook](https://www.cia.gov/the-world-factbook/)" para extraer datos relevantes sobre diversos países. Utilizando el lenguaje de programación Python y la biblioteca BeautifulSoup, se llevará a cabo la extracción y procesamiento de la información disponible en la página web.

Una vez obtenidos los datos, se almacenarán en un archivo plano en formato JSON, lo cual permitirá su posterior manipulación y análisis. El siguiente paso consistirá en realizar un proceso de ETL (Extracción, Transformación y Carga) para transferir los datos extraídos desde el archivo JSON a una base de datos relacional.

La base de datos relacional será utilizada como fuente de información para responder a las preguntas planteadas en el contexto del proyecto. Mediante consultas a la base de datos, se podrán obtener estadísticas, características y visualizaciones relevantes sobre los países y sus atributos.

Este proyecto tiene como finalidad demostrar las habilidades en Web Scraping, procesamiento de datos y manejo de bases de datos relacionales. Además, proporcionará una oportunidad para aplicar técnicas de visualización de datos y responder preguntas analíticas a partir de la información recopilada.

A través de este proyecto, se espera que los participantes adquieran experiencia práctica en la obtención de datos, manipulación de información, modelado de datos y generación de conocimiento a partir de los mismos.


## 1. - Actividades 

1. **Exploración del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/)**
    - Análisis inicial: Revisar, leer y explorar el sitio web.
    - Revisar, leer y explorar la estructura `HTML` del sitio web.
    - Reconocer diferentes etiquetas de contenido.
    -  **Análisis**: Es necesario estudiar la estructura del `HTML` para la pagina web `The world factbook`, esta estructura es una pauta _inicial-esencial_ para la identificación de las etiquetas  que contienen caracteristicas de interes. Por ejemplo:
       - titulos contenidos en etiquetas `<h2></h2>`
       - subtitulos contenidos en etiquetas `<h3></h3>`
       - parrafos contenidos en etiquetas `<p></p>`


<br>

2. **Extracción de los datos**
    - Haciendo uso de la herramienta `Jupyter Notebook` programar los módulos necesarios que responden a la necesidad de extraer el contenido de la página web.
    - Extraer los datos identificados a partir del lenguaje de programación Python utilizando la librería BeautifulSoup.
    - Extraer la información de cada uno de los países (historia, población, gobierno, economía, geografía, medio ambiente, comunicaciones, transporte...).
    - Mediante el uso de python, hacer un pre procesamiento de los datos (extracción y limpieza, es decir obtener el texto plano sin etiquetas HTML, sin espacios en blanco).
    - Guardar los datos para cada país en un archivo (único) plano en formato JSON.
    
<br>
    
3. **ETL**
    - Mediante el uso de la herramienta de integración de datos, Talend, realizar un ETL (Extracción, Transformación y Carga) al archivo plano en formato JSON que contiene la información de los países.
    - Identificar las características relevantes a partir de los datos, aplicando feature engineering, para mapear estos datos con los campos de la base de datos relacional. 
    - Diseño de la base de datos
        - Crear el modelo de la base de datos a partir de la data sustraida (identificación de entidades, atributos, cardinalidad, dominios, etc)
        - Esquematizar la base de datos, pasando del modelo relacional al lenguaje de manipulación de datos `DML`

<br>

4. **Responder a las preguntas para explorar los datos**  
 
    5.1. *Población:*  
    - ¿Cuáles son los países más y menos poblados?
    - ¿Cuál es la densidad de población promedio por región o continente?
    - ¿Cuáles son los países con la tasa de crecimiento demográfico más alta o más baja?  
    
    5.2. *Economía:*
    - ¿Cuáles son las principales economías del mundo en términos de PIB?
    - ¿Cuáles son los países con el ingreso per cápita más alto o más bajo?
    - ¿Cuáles son los sectores económicos más importantes en diferentes países?  
    
    5.3. *Geografía:*
    - ¿Cuáles son los países más grandes y más pequeños en términos de área?
    - ¿Cuál es la longitud de las costas de diferentes países?
    - ¿Cuáles son los países con la altitud más alta o más baja?  
    
    5.4. *Educación:*
    - ¿Cuáles son los países con los niveles más altos de alfabetización?
    - ¿Cuál es la tasa de matriculación escolar en diferentes países?
    - ¿Cuáles son los países con la mayor inversión en educación?  
    
    5.5. *Salud:*
    - ¿Cuál es la esperanza de vida promedio en diferentes países?
    - ¿Cuáles son los países con la tasa de mortalidad infantil más alta o más baja?
    - ¿Cuáles son los principales problemas de salud en diferentes regiones?

<br>

5. **Resultados y conclusiones**
   - Se espera un único archivo `ipynb` llamado `webScrapingCIA.ipynb`.
   - Una carpeta llamada `core` que contendrá los paquetes de programaciñn desarrollados por el estudiante y que responden a la parte de extracción de los datos. 
   - Una carpeta llamada `data` que contendrá el archivo plano en formato JSON con la información extraída del sitio web [The World factbook](https://www.cia.gov/the-world-factbook/).
   - Una carpeta llamada `SQL` que contendrá la definición de la base datos, la solución a las preguntas exploratorias y el modelo relacional de la base de datos que será exportado aplicando ingeniería inversa a la base de datos mediante la herramienta de visualizaciñn de MySQL.
   - Una carpeta llamada `ETL` que contendrá el JOB 
   - El siguiente es un ejemplo de la estructura de carpetas de lo esperado:  
     - ETL
       - `world-factbook.item`
     - SQL
       - `dml-web-scraping.sql`
       - `ddl-web-scraping.sql`
       - `eer.png`
     - data
       - `world-factbook.json`
     - core
       - `ExtractHTML.py`
       - `ProcessHTML.py`
       - `Tools.py`
       - ...

In [1]:
from core.ExtractHTML import ExtractHTML
from core.Country import Country
from core.ProcessHTML import ProcessHTML
from core.Tools import Tools
import json
import os
import re

In [2]:
if __name__ == "__main__":
    
    baseURL = "https://www.cia.gov/the-world-factbook/countries"
    
    tools = Tools()
    RAWCountries = tools.readFile(path=".", name="countries.txt")
    
    j_son = {}
    
    country = Country(baseURL)
    countries = country.getCountries(RAWCountries)
    urlsWorldFactbook = country.formURLofWebPage(countries)
    urlCountries = urlsWorldFactbook

    HTML = ExtractHTML()
    
    for i, urlCountry in enumerate(urlCountries[:50]):
#     for i, urlCountry in enumerate(urlCountries):
        
        countryContent = {}
        HTMLCountry = HTML.extactHTML(urlCountry)

        if HTMLCountry:

            processHTML = ProcessHTML()
            subtitlesContent = processHTML.unwrapDiv(HTMLCountry=HTMLCountry)
            subtitles = processHTML.getSubtitles(subtitlesContent)
            divContent = [ tag.find_all("div") for tag in subtitlesContent ]
            processDivContent = [ processHTML.filterContentByH3(div) for div in divContent ] 


            for j, subtitlesContent in enumerate(processDivContent): 

                subtitle = tools.formatKey( subtitles[j] ) 
                countryContent[subtitle] = processHTML.formData(subtitlesContent)
        
            j_son[countries[i]] = countryContent
    
    tools.saveFile(path="./data", name="world-factbook.json", data=json.dumps(j_son))

Guardado con exito


In [None]:
countries

In [None]:
tools.readFile(path="./data", name="world-factbook.json")