# Descripción general del proyecto de práctica

En este proyecto práctico, utilizarás las habilidades adquiridas a través del curso y crearás un pipeline ETL completo para acceder a datos de un sitio web y procesarlos para cumplir con los requisitos.

# Escenario del Proyecto
Una empresa internacional que busca expandir su negocio en diferentes países del mundo te ha reclutado. Has sido contratado como ingeniero de datos junior y se te ha asignado la tarea de crear un script automatizado que pueda extraer la lista de todos los países en orden de sus PIB en miles de millones de USD (redondeado a 2 decimales), según lo registrado por el Fondo Monetario Internacional (FMI). Dado que el FMI publica esta evaluación dos veces al año, este código será utilizado por la organización para extraer la información a medida que se actualiza.

Puedes encontrar los datos requeridos en esta página web: [https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29].

La información requerida debe hacerse accesible como un archivo JSON ‘Countries_by_GDP.json’ así como una tabla ‘Countries_by_GDP’ en un archivo de base de datos ‘World_Economies.db’ con los atributos ‘Country’ y ‘GDP_USD_billion’.

Tu jefe quiere que demuestres el éxito de este código ejecutando una consulta en la tabla de la base de datos para mostrar solo las entradas con una economía de más de 100 mil millones de USD. Además, registra todo el proceso de ejecución en un archivo llamado ‘etl_project_log.txt’.

Debes crear un código en Python <code>etl_project_gdp.py</code> que realice todas las tareas requeridas.

# Laboratorio Práctico: Extraer, Transformar y Cargar Datos del PIB


## Introducción
En este proyecto práctico, pondrás en práctica las habilidades adquiridas a lo largo del curso y crearás un pipeline ETL completo para acceder a datos de un sitio web y procesarlos para cumplir con los requisitos.

## Escenario del Proyecto:
Una empresa internacional que busca expandir su negocio en diferentes países del mundo te ha reclutado. Has sido contratado como un ingeniero de datos junior y se te ha asignado la tarea de crear un script automatizado que pueda extraer la lista de todos los países en orden de sus PIBs en miles de millones de USD (redondeados a 2 decimales), según lo registrado por el Fondo Monetario Internacional (FMI). Dado que el FMI publica esta evaluación dos veces al año, este código será utilizado por la organización para extraer la información a medida que se actualiza.

Los datos requeridos parecen estar disponibles en la URL mencionada a continuación:

URL

```link
'https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29'

```

La información requerida debe estar accesible como un archivo CSV <code>Countries_by_GDP</code>.csv así como una tabla <code>Countries_by_GDP</code> en un archivo de base de datos <code>World_Economies.db</code> con atributos <code>Country</code> y <code>GDP_USD_billion</code>.

Tu jefe quiere que demuestres el éxito de este código ejecutando una consulta en la tabla de la base de datos para mostrar solo las entradas con una economía de más de 100 mil millones de USD. Además, debes registrar en un archivo todo el proceso de ejecución con el nombre<code>etl_project_log.txt</code>.

Debes crear un código en Python <code>'etl_project_gdp.py'</code> que realice todas las tareas requeridas.

## Objetivos
Debes completar las siguientes tareas para este proyecto:

1. Escribir una función de extracción de datos para recuperar la información relevante de la URL requerida.

2. Transformar la información disponible del PIB a 'Mil millones de USD' de 'Millones de USD'.

3. Cargar la información transformada en el archivo CSV requerido y como un archivo de base de datos.

4. Ejecutar la consulta requerida en la base de datos.

5. Registrar el progreso del código con marcas de tiempo apropiadas.

## Configuración inicial
Antes de comenzar a construir el código, necesitas instalar las bibliotecas requeridas para ello.

Las bibliotecas necesarias para el código son las siguientes:

1. <code>coderequests</code> - La biblioteca utilizada para acceder a la información desde la URL.

2. <code>bs4</code> - La biblioteca que contiene la función BeautifulSoup utilizada para el webscraping.

3. <code>pandas</code> - La biblioteca utilizada para procesar los datos extraídos, almacenarlos en los formatos requeridos y comunicarse con las bases de datos.

4. <code>sqlite3</code> - La biblioteca necesaria para crear una conexión con el servidor de bases de datos.

5. <code>numpy</code> - La biblioteca requerida para la operación de redondeo matemático según lo requerido en los objetivos.

6. <code>datetime</code> - La biblioteca que contiene la función datetime utilizada para extraer la marca de tiempo con fines de registro.

Como se discutió anteriormente, utiliza el siguiente formato de comando en una ventana de terminal para instalar las bibliotecas.

1
```terminal
    python3.11 -m pip install <library_name>
```

Mientras requests, sqlite3 y datetime vienen incluidos con python, las otras bibliotecas deberán ser instaladas.

Instalando Bibliotecas
Una vez que las bibliotecas requeridas estén instaladas, crea un archivo <code>etl_project_gdp.py</code> en la ruta </code>\home\project\</code>.

## Estructura del código
El código debe ser creado de manera organizada para que puedas realizar cada tarea con una función dedicada. Para referencia, puedes copiar y pegar la estructura como se muestra a continuación en etl_project_gdp.py.

```python

    # Code for ETL operations on Country-GDP data

    # Importing the required libraries

    def extract(url, table_attribs):
        ''' This function extracts the required
        information from the website and saves it to a dataframe. The
        function returns the dataframe for further processing. '''

        return df

    def transform(df):
        ''' This function converts the GDP information from Currency
        format to float value, transforms the information of GDP from
        USD (Millions) to USD (Billions) rounding to 2 decimal places.
        The function returns the transformed dataframe.'''

        return df

    def load_to_csv(df, csv_path):
        ''' This function saves the final dataframe as a `CSV` file 
        in the provided path. Function returns nothing.'''

    def load_to_db(df, sql_connection, table_name):
        ''' This function saves the final dataframe as a database table
        with the provided name. Function returns nothing.'''

    def run_query(query_statement, sql_connection):
        ''' This function runs the stated query on the database table and
        prints the output on the terminal. Function returns nothing. '''

    def log_progress(message):
        ''' This function logs the mentioned message at a given stage of 
        the code execution to a log file. Function returns nothing'''

    ''' Here, you define the required entities and call the relevant 
    functions in the correct order to complete the project. Note that this
    portion is not inside any function.'''

```

## Preliminar: Importación de bibliotecas y definición de valores conocidos
Según lo requerido, escribe los comandos en <code>etl_project_gdp.py</code> en la posición especificada en la estructura del código para importar las bibliotecas relevantes.

In [9]:
import pandas as pd
import numpy as np
import sqlite3
import requests
from bs4 import BeautifulSoup
from datetime import datetime

Además, necesitas inicializar todas las entidades conocidas. Estas se mencionan a continuación:

1. URL:
```url
'https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29'
```

2. table_attribs: Los atributos o nombres de columna para el dataframe almacenados como una lista. Dado que los datos disponibles en el sitio web están en millones de USD, los atributos deberían ser inicialmente ‘Country’ y ‘GDP_USD_millions’. Esto se modificará en la función de transformación más adelante.

3. db_name: Como se mencionó en el escenario del proyecto, ‘World_Economies.db’

4. table_name: Como se mencionó en el escenario del proyecto, ‘Countries_by_GDP’

5. csv_path: Como se mencionó en el escenario del proyecto, ‘Countries_by_GDP.csv’

Deberías registrar el proceso de inicialización

In [10]:
url = 'https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29'
table_attribs = ["Country", "GDP_USD_millions"]
db_name = 'World_Economies.db'
table_name = 'Countries_by_GDP'
csv_path = 'Countries_by_GDP.csv'

## Tarea 1: Extracción de información
La extracción de información de una página web se realiza mediante el proceso de web scraping. Para esto, tendrás que analizar el enlace y idear la estrategia de cómo obtener la información requerida. Los siguientes puntos son importantes a observar para esta tarea.

1. Inspecciona la URL y anota la posición de la tabla. Ten en cuenta que incluso las imágenes con subtítulos se almacenan en formato tabular. Por lo tanto, en la página web dada, nuestra tabla está en la tercera posición, o índice 2. De entre esto, requerimos las entradas bajo ‘País/Territorio’ y ‘FMI -> Estimación’.

2. Ten en cuenta que hay algunas entradas en las que la estimación del FMI se muestra como ‘—‘. Además, hay una entrada en la parte superior llamada ‘Mundo’, que no necesitamos. Separa esta entrada de las demás porque esta entrada no tiene un hipervínculo y todas las demás en la tabla sí lo tienen. Así que puedes aprovechar eso y acceder solo a las filas para las que la entrada bajo ‘País/Territorio’ tiene un hipervínculo asociado.
> Ten en cuenta que ‘—‘ es un carácter especial y no un guion general, ‘-‘. Copia el carácter de las instrucciones aquí para usarlo en el código.

Asumiendo que la función recibe los parámetros URL y table_attribs como argumentos, completa la función <code>extract()</code> en el código siguiendo los pasos a continuación.

1. Extrae la página web como texto. (Usa la función 'requests.get()' con el atributo 'text'.)

2. Analiza el texto en un objeto HTML (Usa la función 'BeautifulSoup()' con el argumento 'html.parser'.)

3. Usa la función 'BeautifulSoup()' con el argumento 'html.parser'. (Usa la función 'pandas.DataFrame' con el argumento 'column' establecido como table_attribs.)

4. Extrae todos los atributos ‘tbody’ del objeto HTML y luego extrae todas las filas de la tabla en el índice 2 usando el atributo ‘tr’. (Usa la función 'find_all()' del objeto HTML para reunir todos los atributos de un tipo específico.)

5. Verifica el contenido de cada fila, teniendo el atributo ‘td’, para las siguientes condiciones.
    a. La fila no debe estar vacía.
    b. La primera columna debe contener un hipervínculo.
    c. La tercera columna no debe ser ‘—‘.
    (Ejecuta un bucle for y verifica las condiciones usando declaraciones if.)

6. Almacena todas las entradas que coincidan con las condiciones en el paso 5 en un diccionario con claves iguales a las entradas de table_attribs. Agrega uno a uno todos estos diccionarios al dataframe. (Necesitarás la función pandas.concat() para agregar el diccionario. Recuerda mantener el parámetro ignore_index como 'True'.)


In [11]:
def extract(url, table_attribs):
    page = requests.get(url).text
    data = BeautifulSoup(page,'html.parser')
    df = pd.DataFrame(columns=table_attribs)
    tables = data.find_all('tbody')
    rows = tables[2].find_all('tr')

    for row in rows:
        col = row.find_all('td')
        if len(col)!=0:
            if col[0].find('a') is not None and '—' not in col[2]:
                data_dict = {
                            "Country": col[0].a.contents[0],
                            "GDP_USD_millions": col[2].contents[0] 
                            }
                df1 = pd.DataFrame(data_dict, index = [0])
                df = pd.concat([df,df1],ignore_index=True)
    return df



## Tarea 2: Transformar información

La función de transformación necesita modificar el ‘GDP_USD_millions’. Debes cubrir los siguientes puntos como parte del proceso de transformación.

1. Convierte el contenido de la columna 'GDP_USD_millions' del dataframe df de formato de moneda a números flotantes.
    a. Guarda la columna del dataframe como una lista. b. Itera sobre el contenido de la lista y utiliza las funciones split() y join() para convertir el texto de la moneda en texto numérico. Convierte el texto numérico a float.

2. Divide todos estos valores entre 1000 y redondea a 2 decimales. (Utiliza la función numpy.round() para redondear. Asigna la lista modificada de nuevo al dataframe.)

3. Modifica el nombre de la columna de 'GDP_USD_millions' a 'GDP_USD_billions'.
    Necesitarás la función df.rename().

In [12]:
def transform(df):
    GDP_list = df["GDP_USD_millions"].tolist()
    GDP_list = [float("".join(x.split(','))) for x in GDP_list]
    GDP_list = [np.round(x/1000,2) for x in GDP_list ]
    df["GDP_USD_millions"] = GDP_list
    df = df.rename(columns = {"GDP_USD_millions":"GDP_USD_billions"})
    return df

## Tarea 3: Cargando información
El proceso de carga para este proyecto es doble.

1. Tienes que guardar el dataframe transformado en un archivo CSV. Para esto, pasa el dataframe df y la ruta del archivo CSV a la función load_to_csv() y añade las declaraciones requeridas allí. (Usa el objeto de función 'to_csv()' para el dataframe de pandas.)

In [13]:
def load_to_csv(df, csv_path):
    df.to_csv(csv_path)

2. Tienes que guardar el dataframe transformado como una tabla en la base de datos. Esto debe ser implementado en la función <code>load_to_db()</code>, que acepta el dataframe df, el objeto de conexión a la base de datos SQL conn, y la variable del nombre de la tabla table_name que se usará. (Usa el objeto de función 'to_sql()' para el dataframe de pandas.)

In [14]:
def load_to_db(df, sql_connection, table_name):
    df.to_sql(table_name, sql_connection, if_exists ='replace', index=False)

## Tarea 4: Consultando la tabla de la base de datos
Suponiendo que se ha iniciado la consulta apropiada y la declaración de consulta se ha pasado a la función run_query(), junto con el objeto de conexión SQL sql_connection y la variable del nombre de la tabla table_name, esta función debería ejecutar la declaración de consulta en la tabla y recuperar la salida como un dataframe filtrado. Este dataframe puede ser simplemente impreso. (Utiliza la función pandas.read_sql() para ejecutar la consulta en la tabla de la base de datos.)

In [15]:
def run_query(query_statement, sql_connection):
    print(query_statement)
    query_output = pd.read_sql(query_statement, sql_connection)
    print(query_output)

## Tarea 5: Registro de progreso
El registro debe realizarse utilizando la función <code>log_progress()</code>. Esta función se llamará varias veces durante la ejecución de este código y se le pedirá que agregue una entrada de registro en un archivo .txt, etl_project_log.txt. La entrada debe estar en el siguiente formato:

> '<Time_stamp> : <message_text>'

Aquí, el texto del mensaje se pasa a la función como un argumento. Cada entrada debe estar en una línea separada. (Utiliza la función datetime.now() para obtener la marca de tiempo actual.)

In [22]:
def log_progress(message):
    timestamp_format = '%Y-%h-%d-%H:%M:%S'
    now = datetime.now()
    timestamp = now.strftime(timestamp_format) 
    with open("./etl_project_log.txt","a") as f:
        f.write(timestamp + ' : '+message + '\n')

## Llamadas a funciones
Ahora, debes establecer la secuencia de llamadas a funciones para tus tareas asignadas. Sigue la secuencia a continuación.

|Tarea                  	      |  Mensaje de registro al completar                                       |
|---------------------------------|-------------------------------------------------------------------------|
|Declarar valores conocidos  	  |  Preliminares completos. Iniciando proceso ETL.                         |
|Llamar a la función extract()    |  Extracción de datos completa. Iniciando proceso de transformación.     |
|Llamar a la función transform()  |	Transformación de datos completa. Iniciando proceso de carga.           |
|Llamar a load_to_csv()	          |  Datos guardados en archivo CSV.                                        |
|Iniciar conexión SQLite3	      |  Conexión SQL iniciada.                                                 |
|Llamar a load_to_db()	          |  Datos cargados en la base de datos como tabla. Ejecutando la consulta. |
|Llamar a run_query()*	          |  Proceso completo.                                                      |
|Cerrar conexión SQLite3	      |       -                                                                 |    

> Nota: La declaración de consulta que se ejecutará aquí es
```python
f"SELECT * from {table_name} WHERE GDP_USD_billions >= 100"
```


In [23]:
log_progress('Preliminaries complete. Initiating ETL process')

df = extract(url, table_attribs)

log_progress('Data extraction complete. Initiating Transformation process')

df = transform(df)

log_progress('Data transformation complete. Initiating loading process')

load_to_csv(df, csv_path)

log_progress('Data saved to CSV file')

sql_connection = sqlite3.connect('World_Economies.db')

log_progress('SQL Connection initiated.')

load_to_db(df, sql_connection, table_name)

log_progress('Data loaded to Database as table. Running the query')

query_statement = f"SELECT * from {table_name} WHERE GDP_USD_billions >= 100"
run_query(query_statement, sql_connection)

log_progress('Process Complete.')

sql_connection.close()

SELECT * from Countries_by_GDP WHERE GDP_USD_billions >= 100
          Country  GDP_USD_billions
0   United States          26854.60
1           China          19373.59
2           Japan           4409.74
3         Germany           4308.85
4           India           3736.88
..            ...               ...
64          Kenya            118.13
65         Angola            117.88
66           Oman            104.90
67      Guatemala            102.31
68       Bulgaria            100.64

[69 rows x 2 columns]


## Ejecución de código y salida esperada
Una vez que el código esté completo, ejecútalo a través de la terminal utilizando el siguiente comando:
```terminal
python3.11 etl_project_gdp.py
```

Deberías poder hacer las siguientes observaciones.

1. Salida del terminal

![image.png](attachment:image.png)

2. Archivos creados y el contenido del registro

![image-2.png](attachment:image-2.png)

Nota Importante:

>Manteniendo la consistencia de la estructura del laboratorio, la página web a la que se accede está enrutada a través de una base de datos de archivos. A menudo, en caso de que el servidor de archivos esté ocupado, los usuarios pueden encontrar una ejecución retrasada y/o un error como:
requests.exceptions.ConnectionError: HTTPSConnectionPool(host=’web.archive.org’, port=443): Max retries exceeded with url.
En tal situación, intenta ejecutar el código nuevamente. Si el problema persiste, puedes cambiar la URL a la versión en vivo, como:
https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29




## Solución del proyecto de práctica
En caso de que no puedas obtener la salida requerida del código o estés enfrentando algunos errores, el archivo final para etl_project_gdp.py se comparte a continuación. Ten en cuenta que esto es para tu ayuda, y te animamos a que primero intentes resolver los errores por tu cuenta.

<details><summary>Click here for the solution</summary>

```python
# Code for ETL operations on Country-GDP data

# Importing the required libraries

from bs4 import BeautifulSoup
import requests
import pandas as pd
import numpy as np
import sqlite3
from datetime import datetime 

def extract(url, table_attribs):
    ''' The purpose of this function is to extract the required
    information from the website and save it to a dataframe. The
    function returns the dataframe for further processing. '''

    page = requests.get(url).text
    data = BeautifulSoup(page,'html.parser')
    df = pd.DataFrame(columns=table_attribs)
    tables = data.find_all('tbody')
    rows = tables[2].find_all('tr')
    for row in rows:
        col = row.find_all('td')
        if len(col)!=0:
            if col[0].find('a') is not None and '—' not in col[2]:
                data_dict = {"Country": col[0].a.contents[0],
                             "GDP_USD_millions": col[2].contents[0]}
                df1 = pd.DataFrame(data_dict, index=[0])
                df = pd.concat([df,df1], ignore_index=True)
    return df

def transform(df):
    ''' This function converts the GDP information from Currency
    format to float value, transforms the information of GDP from
    USD (Millions) to USD (Billions) rounding to 2 decimal places.
    The function returns the transformed dataframe.'''

    GDP_list = df["GDP_USD_millions"].tolist()
    GDP_list = [float("".join(x.split(','))) for x in GDP_list]
    GDP_list = [np.round(x/1000,2) for x in GDP_list]
    df["GDP_USD_millions"] = GDP_list
    df=df.rename(columns = {"GDP_USD_millions":"GDP_USD_billions"})
    return df

def load_to_csv(df, csv_path):
    ''' This function saves the final dataframe as a `CSV` file 
    in the provided path. Function returns nothing.'''

    df.to_csv(csv_path)

def load_to_db(df, sql_connection, table_name):
    ''' This function saves the final dataframe to as a database table
    with the provided name. Function returns nothing.'''

    df.to_sql(table_name, sql_connection, if_exists='replace', index=False)

def run_query(query_statement, sql_connection):
    ''' This function runs the stated query on the database table and
    prints the output on the terminal. Function returns nothing. '''

    print(query_statement)
    query_output = pd.read_sql(query_statement, sql_connection)
    print(query_output)

def log_progress(message):
    ''' This function logs the mentioned message at a given stage of the 
    code execution to a log file. Function returns nothing.'''

    timestamp_format = '%Y-%h-%d-%H:%M:%S' # Year-Monthname-Day-Hour-Minute-Second 
    now = datetime.now() # get current timestamp 
    timestamp = now.strftime(timestamp_format) 
    with open("./etl_project_log.txt","a") as f: 
        f.write(timestamp + ' : ' + message + '\n')    

''' Here, you define the required entities and call the relevant 
functions in the correct order to complete the project. Note that this
portion is not inside any function.'''

url = 'https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29'
table_attribs = ["Country", "GDP_USD_millions"]
db_name = 'World_Economies.db'
table_name = 'Countries_by_GDP'
csv_path = './Countries_by_GDP.csv'

log_progress('Preliminaries complete. Initiating ETL process')

df = extract(url, table_attribs)

log_progress('Data extraction complete. Initiating Transformation process')

df = transform(df)

log_progress('Data transformation complete. Initiating loading process')

load_to_csv(df, csv_path)

log_progress('Data saved to CSV file')

sql_connection = sqlite3.connect('World_Economies.db')

log_progress('SQL Connection initiated.')

load_to_db(df, sql_connection, table_name)

log_progress('Data loaded to Database as table. Running the query')

query_statement = f"SELECT * from {table_name} WHERE GDP_USD_billions >= 100"
run_query(query_statement, sql_connection)

log_progress('Process Complete.')

sql_connection.close()
```
</details>

## Conclusión
¡Felicidades por completar este proyecto!

En este proyecto, realizaste operaciones complejas de Extracción, Transformación y Carga sobre datos del mundo real. Para este momento, deberías ser capaz de:

- Extraer información relevante de sitios web utilizando Webscraping y la API de requests.
- Transformar los datos a un formato requerido.
- Cargar los datos procesados en un archivo local o como una tabla de base de datos.
- Consultar la tabla de la base de datos utilizando Python.
- Crear registros detallados de todas las operaciones realizadas.