# Resumen del proyecto final

En este proyecto, pondrás a prueba todas las habilidades adquiridas a lo largo del curso y tu conocimiento básico de Python. Trabajarás con datos del mundo real y realizarás las operaciones de Extracción, Transformación y Carga según sea necesario. A lo largo del proyecto, notarás algunas salidas que necesitas para responder preguntas en el cuestionario evaluado. También tomarás instantáneas, que subirás en la tarea evaluada por pares.

## Escenario del Proyecto
Una empresa multinacional te ha contratado como ingeniero de datos. Tu trabajo consiste en acceder y procesar datos según los requisitos.

Tu jefe te pidió que compilaras la lista de los 10 bancos más grandes del mundo clasificados por capitalización de mercado en miles de millones de USD. Además, necesitas transformar los datos y almacenarlos en USD, GBP, EUR e INR según la información de tipo de cambio que se te ha proporcionado en un archivo CSV. Debes guardar la tabla de información procesada localmente en formato CSV y como una tabla de base de datos. Los gerentes de diferentes países consultarán la tabla de la base de datos para extraer la lista y anotar el valor de capitalización de mercado en su propia moneda.

## Direcciones
1. Escribe una función para extraer la información tabular de la URL dada bajo el encabezado Por Capitalización de Mercado, y guárdala en un marco de datos.
2. Escribe una función para transformar el dataframe añadiendo columnas para la Capitalización de Mercado en GBP, EUR y INR, redondeadas a 2 decimales, basadas en la información de la tasa de cambio compartida como un archivo CSV.
3. Escribe una función para cargar el dataframe transformado en un archivo CSV de salida.
4. Escribe una función para cargar el dataframe transformado en un servidor de base de datos SQL como una tabla.
5. Escribe una función para ejecutar consultas en la tabla de la base de datos.
6. Ejecuta las siguientes consultas en la tabla de la base de datos:
    1. Extrae la información de la oficina de Londres, que es Nombre y MC_GBP_Billones
    2. Extrae la información de la oficina de Berlín, que es Nombre y MC_EUR_Billones
    3. Extrae la información de la oficina de Nueva Delhi, que es Nombre y MC_INR_Billones
7. Escribe una función para registrar el progreso del código.
8. Mientras ejecutas los comandos de inicialización de datos y llamadas a funciones, mantén entradas de registro apropiadas.

# Laboratorio Práctico: Adquisición y Procesamiento de Información sobre los Bancos Más Grandes del Mundo

En este proyecto, pondrás a prueba todas las habilidades adquiridas a lo largo del curso y tu conocimiento básico de Python. Trabajarás con datos del mundo real y realizarás las operaciones de Extracción, Transformación y Carga (ETL) según sea necesario.

**Descargo de responsabilidad**:

>Cloud IDE no es una plataforma persistente, y perderás tu progreso cada vez que reinicies este laboratorio. Recomendamos guardar una copia de tu archivo en tu máquina local como medida de protección contra la pérdida de datos.

## Escenario del Proyecto:
Has sido contratado como ingeniero de datos por una organización de investigación. Tu jefe te ha pedido que crees un código que se pueda utilizar para compilar la lista de los 10 bancos más grandes del mundo clasificados por capitalización de mercado en miles de millones de USD. Además, los datos deben ser transformados y almacenados en GBP, EUR e INR, de acuerdo con la información de tipo de cambio que se te ha proporcionado en un archivo CSV. La tabla de información procesada debe guardarse localmente en formato CSV y como tabla de base de datos.

Tu trabajo es crear un sistema automatizado para generar esta información de manera que se pueda ejecutar en cada trimestre financiero para preparar el informe.

Los detalles del código a crear se han compartido a continuación.


|Parámetro	                                |Valor                                                                                                                              |
|-------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------|
|Nombre del código	                        |banks_project.py                                                                                                                   |
|URL de datos	                            | https://web.archive.org/web/20230908091635 /https://en.wikipedia.org/wiki/List_of_largest_banks                                   |
|Ruta del CSV de tipo de cambio	            | https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMSkillsNetwork-PY0221EN-Coursera/labs/v2/exchange_rate.csv   |
|Atributos de la tabla (solo al extraer)    |Name, MC_USD_Billion                                                                                                               |
|Atributos de la tabla (final)	            |Name, MC_USD_Billion, MC_GBP_Billion, MC_EUR_Billion, MC_INR_Billion                                                               |
|Ruta de salida CSV	                        |./Largest_banks_data.csv                                                                                                           |
|Nombre de la base de datos	                |Banks.db                                                                                                                           |
|Nombre de la tabla	                        |Largest_banks                                                                                                                      |
|Archivo de registro	                    |code_log.txt                                                                                                                       |

## Tareas del Proyecto

- **Tarea 1**:
Escribe una función <code>log_progress()</code> para registrar el progreso del código en diferentes etapas en un archivo <code>code_log.txt</code>. Utiliza la lista de puntos de registro proporcionada para crear entradas de registro en cada etapa del código.



- **Tarea 2**:
Extrae la información tabular de la URL dada bajo el encabezado ‘Por capitalización de mercado’ y guárdala en un dataframe.
a. Inspecciona la página web e identifica la posición y el patrón de la información tabular en el código HTML.
b. Escribe el código para una función <code>extract()</code> que realice la extracción de datos requerida.
c. Ejecuta una llamada a la función <code>extract()</code> para verificar la salida.



- **Tarea 3**:
Transforma el dataframe añadiendo columnas para la Capitalización de Mercado en GBP, EUR e INR, redondeadas a 2 decimales, basándote en la información de tipo de cambio compartida como un archivo CSV.
a. Escribe el código para una función <code>transform()</code> que realice la tarea mencionada.
b. Ejecuta una llamada a la función <code>transform()</code> y verifica la salida.



-  **Tarea 4**:
Carga el dataframe transformado en un archivo CSV de salida. Escribe una función <code>load_to_csv()</code>, ejecuta una llamada a la función y verifica la salida.



- **Tarea 5**:
Carga el dataframe transformado en un servidor de base de datos SQL como una tabla. Escribe una función <code>load_to_db()</code>, ejecuta una llamada a la función y verifica la salida.



- **Tarea 6**:
Ejecuta consultas en la tabla de la base de datos. Escribe una función <code>run_queries()</code>, ejecuta un conjunto dado de consultas y verifica la salida.



- **Tarea 7**:
Verifica que las entradas de registro se hayan completado en todas las etapas revisando el contenido del archivo <code>code_log.txt</code>.

# Preliminares: Instalación de bibliotecas y descarga de datos
Antes de construir el código, necesitas instalar las bibliotecas requeridas.

Las bibliotecas necesarias para el código son:

<code>requests</code> - La biblioteca utilizada para acceder a la información desde la URL.

<code>bs4</code> - La biblioteca que contiene la función BeautifulSoup utilizada para el webscraping.

<code>pandas</code> - La biblioteca utilizada para procesar los datos extraídos, almacenarlos en los formatos requeridos y comunicarse con las bases de datos.

<code>sqlite3</code> - La biblioteca necesaria para crear una conexión con el servidor de base de datos.

<code>numpy</code> - La biblioteca necesaria para las operaciones matemáticas de redondeo.

<code>datetime</code> - La biblioteca que contiene la función datetime utilizada para extraer la marca de tiempo con fines de registro.

Instala las bibliotecas requeridas desde la ventana del terminal. La sintaxis del comando es:

```terminal
    python3.11 -m pip install <library_name>
```

También, descarga el archivo de tipo de cambio requerido utilizando el comando del terminal:
```terminal
    wget https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMSkillsNetwork-PY0221EN-Coursera/labs/v2/exchange_rate.csv
```
## Estructura del Código
Crea el archivo banks_project.py en la ruta \home\project\. Copia y pega la siguiente estructura de código en el archivo:

```python
# Code for ETL operations on Country-GDP data
# Importing the required libraries
def log_progress(message):
    ''' This function logs the mentioned message of a given stage of the
    code execution to a log file. Function returns nothing'''
def extract(url, table_attribs):
    ''' This function aims to extract the required
    information from the website and save it to a data frame. The
    function returns the data frame for further processing. '''
    return df
def transform(df, csv_path):
    ''' This function accesses the CSV file for exchange rate
    information, and adds three columns to the data frame, each
    containing the transformed version of Market Cap column to
    respective currencies'''
    return df
def load_to_csv(df, output_path):
    ''' This function saves the final data frame as a CSV file in
    the provided path. Function returns nothing.'''
def load_to_db(df, sql_connection, table_name):
    ''' This function saves the final data frame to a database
    table with the provided name. Function returns nothing.'''
def run_query(query_statement, sql_connection):
    ''' This function runs the query on the database table and
    prints the output on the terminal. Function returns nothing. '''
''' Here, you define the required entities and call the relevant
functions in the correct order to complete the project. Note that this
portion is not inside any function.'''
```

En esta etapa, importa las bibliotecas necesarias en el espacio mencionado en la estructura del código. Guarda el archivo usando Ctrl+S.

Además, inicializa todas las variables conocidas según lo compartido en el escenario del proyecto.


## Tarea 1: Función de registro
Escribe la función para registrar el progreso del código, <code>log_progress()</code>. La función acepta el mensaje que se va a registrar y lo ingresa a un archivo de texto <code>code_log.txt</code>.

El formato que se debe utilizar para el registro debe tener la sintaxis:

```python
<time_stamp> : <message> </code>
```
Cada entrada de registro debe ocurrir en la siguiente línea en el archivo de texto.

Debes asociar las entradas de registro correctas con cada una de las llamadas a funciones ejecutadas. Usa la siguiente tabla para anotar el mensaje de registro al final de cada llamada a función que sigue.


|Tarea	                            |Mensaje de registro al completar                                           |
|-----------------------------------|---------------------------------------------------------------------------|
|Declarar valores conocidos	        |Preliminares completos. Iniciando el proceso ETL                           |
|Llamar a la función extract()	    |Extracción de datos completa. Iniciando el proceso de transformación       |
|Llamar a la función transform()	|Transformación de datos completa. Iniciando el proceso de carga            |
|Llamar a load_to_csv()	            |Datos guardados en el archivo CSV                                          |
|Iniciar conexión SQLite3	        |Conexión SQL iniciada                                                      |
|Llamar a load_to_db()	            |Datos cargados en la base de datos como una tabla, ejecutando consultas    |
|Llamar a run_query()	            |Proceso completo                                                           |
|Cerrar conexión SQLite3	        |Conexión del servidor cerrada                                              |

En esta etapa, ahora debes hacer la primera entrada de registro de la tabla anterior.

## Instrucciones para la tarea revisada por pares:
Toma una captura de pantalla del código, tal como se creó para la función <code>log_progress()</code> y guárdala en tu máquina local como <code>Task_1_log_function.png</code>


## Tarea 2 : Extracción de datos
Analiza la página web en la URL dada:

```url
https://web.archive.org/web/20230908091635/https://en.wikipedia.org/wiki/List_of_largest_banks
```

Identifique la posición de la tabla requerida bajo el encabezado <code>Por capitalización de mercado</code>. Escriba la función <code>extract()</code> para recuperar la información de la tabla a un marco de datos de Pandas.

>Nota: Recuerde eliminar el último carácter del contenido de la columna Capitalización de mercado, como, '\n', y convertir el valor al formato de punto flotante.

Escriba una llamada a la función <code>extract()</code> y muestre el marco de datos devuelto.

Haga la entrada de registro relevante.

Ejecute el código utilizando el comando:

```terminal
python3.11 banks_project.py
```

### Pregunta del cuestionario:
Mientras inspeccionas la página web, anota los atributos de los datos en la primera fila. Habrá preguntas del cuestionario basadas en estos atributos.

Instrucciones para la tarea evaluada por pares:
Toma una captura de pantalla del código HTML de la tabla, obtenido al inspeccionar la página web. Asegúrate de que el contenido de al menos la primera fila de la tabla, tal como se ingresó en el código HTML, sea completamente visible. Guarda esta captura de pantalla en tu máquina local como <code>Task_2a_extract.png</code>.

Toma una captura de pantalla del código, tal como se creó para la función </code>extract()<code> y guárdala en tu máquina local como <code>Task_2b_extract.png</code>.

Toma una captura de pantalla de la salida, tal como se obtuvo al ejecutarla en la terminal, y guárdala en tu máquina local como <code>Task_2c_extract.png</code>.




## Tarea 3 : Transformación de datos
La función Transform necesita realizar las siguientes tareas:

1. Leer el archivo CSV de tasas de cambio y convertir el contenido en un diccionario de modo que los contenidos de la primera columna sean las claves del diccionario y los contenidos de la segunda columna sean los valores correspondientes.

    Puedes usar la sintaxis mencionada a continuación para lograr esto. Recuerda modificar la declaración según tu código.
    ```python
        dict = dataframe.set_index('Col_1_header').to_dict()['Col_2_header']
    ```

2. Agrega 3 columnas diferentes al dataframe, a saber, MC_GBP_Billion, MC_EUR_Billion y MC_INR_Billion, cada una conteniendo el contenido de MC_USD_Billion escalado por el correspondiente factor de tipo de cambio. Recuerda redondear los datos resultantes a 2 decimales.

Se proporciona una declaración de muestra para agregar la columna MC_GBP_Billion. Puedes usar esto para agregar las otras dos declaraciones por tu cuenta.

```python
df['MC_GBP_Billion'] = [np.round(x*exchange_rate['GBP'],2) for x in df['MC_USD_Billion']]
```

Escribe la llamada a la función <code>transform()</code> y muestra el contenido del marco de datos devuelto. Comenta todas las declaraciones de impresión anteriores.

Haz la entrada de registro relevante y ejecuta el código.

### Pregunta del cuestionario:
1. Experimenta con la declaración proporcionada para agregar las columnas transformadas al marco de datos. Habrá una pregunta sobre esto en el cuestionario.

2. Muestra el contenido de <code>df['MC_EUR_Billion'][4]</code>, que es la capitalización de mercado del 5º banco más grande en miles de millones de EUR. Toma nota de este valor, ya que será la respuesta a una pregunta en el cuestionario final.

### Instrucción de tarea calificada por pares:
Toma una captura de pantalla del código, tal como se creó para la función <code>transform()</code>, y guárdalo en tu máquina local como <code>Task_3a_transform.png</code>.

Toma una instantánea de la salida y guárdala como <code>Task_3b_tranform.png</code>.

## Tarea 4: Carga a CSV
Escribe la función para cargar el dataframe transformado a un archivo CSV, como load_to_csv(), en la ruta mencionada en el escenario del proyecto.

Haz la entrada de registro relevante.

### Indicación de tarea evaluada por pares:
Haz doble clic en el archivo CSV creado en la pestaña <code>Explorer</code> en la cinta izquierda del panel de programación en Cloud IDE. Ten en cuenta que su contenido se muestra en la pantalla del editor. Toma una captura de pantalla de esta pantalla y guárdala como <code>Task_4_CSV.png</code>.

## Tarea 5: Carga a la Base de Datos
Escribe la función para cargar el marco de datos transformado a una base de datos SQL, como <code>load_to_db()</code>. Utiliza los nombres de la base de datos y de la tabla mencionados en el escenario del proyecto.

Antes de llamar a esta función, inicia la conexión al servidor de base de datos SQLite3 con el nombre <code>Banks.db</code>. Pasa este objeto de conexión, junto con el nombre de la tabla requerida <code>Largest_banks</code> y el marco de datos transformado, a la función <code>load_to_db()</code> en la llamada a la función.

Haz la entrada de registro relevante.

Al llamar a la función con éxito, habrás cargado el contenido de la tabla con los datos requeridos y el archivo <code>Banks.db</code> será visible en la pestaña <code>Explorer</code> del IDE bajo la carpeta <code>project</code>.

### Indicación de tarea evaluada por pares:
Toma una sola captura de pantalla del código, tal como se creó para las funciones <code>load_to_csv()</code> y <code>load_to_db()</code>, y guárdala en tu máquina local como <code>Task_4_5_save_file.png</code>.

## Tarea 6: Función para Ejecutar consultas en la Base de Datos
Escribe la función <code>run_queries()</code> que acepte la declaración de consulta y el objeto de conexión de SQLite3, y genere la salida de la consulta. La declaración de consulta debe imprimirse junto con la salida de la consulta.

Ejecuta 3 llamadas a la función utilizando las consultas mencionadas a continuación.

1. Imprimir el contenido de toda la tabla
Declaración de consulta:

```python
        SELECT * FROM Largest_banks
```

2. Imprimir la capitalización de mercado promedio de todos los bancos en mil millones de GBP.
Declaración de consulta:

```python
        SELECT AVG(MC_GBP_Billion) FROM Largest_banks
```

3. Imprimir solo los nombres de los 5 principales bancos
Declaración de consulta:

```python
        SELECT Name from Largest_banks LIMIT 5
```
Realiza la entrada de registro relevante.

### Indicación de tarea evaluada por pares:
Toma la captura de pantalla de la salida y guárdala como <code>Task_6_SQL.png</code>. Por favor, ajusta el tamaño del indicador del terminal para tomar una única captura de pantalla que capture las tres salidas juntas.

Indicación de pregunta del cuestionario:
Habrá una pregunta de cuestionario sobre la salida de estas consultas.

## Tarea 7: Verificar entradas de registro
Después de actualizar todas las llamadas a la función <code>log_progress()</code>, debes ejecutar el código para una ejecución final. Sin embargo, primero tendrás que eliminar el archivo <code>code_log.txt</code>, que se habría creado y actualizado a lo largo de las múltiples ejecuciones del código en este laboratorio. Puedes eliminar el archivo utilizando el siguiente comando en una terminal.

```terminal
        rm code_log.txt
```

Una vez que se haya eliminado el archivo existente, ahora ejecuta la ejecución final. Al completar la ejecución con éxito, abre el archivo <code>code_log.txt</code> haciendo clic en él en la pestaña <code>Explorer</code> de la barra de herramientas en el lado izquierdo del panel de programación del IDE, bajo la carpeta <code>project</code>. Deberías ver todas las entradas relevantes realizadas en el archivo de texto en relación con las etapas de ejecución del código.

### Indicación de tarea calificada por pares:
Toma una captura de pantalla del contenido del archivo y guárdalo como <code>Task_7_log_content.png</code>.

## Conclusión
¡Felicidades por completar este proyecto!

Con esto, ahora estás capacitado para realizar operaciones ETL en datos del mundo real y hacer que la información procesada esté disponible para su uso posterior en diferentes formatos.

Ahora deberías ser capaz de:

- Usar técnicas de Webscraping para extraer información de cualquier sitio web según sea necesario.

- Usar marcos de datos de Pandas y diccionarios para transformar datos según sea necesario.

- Cargar la información procesada en archivos CSV y como tablas de base de datos.

- Consultar las tablas de la base de datos utilizando las bibliotecas SQLite3 y pandas.

- Registrar el progreso del código adecuadamente.