# **Introducción al Proceso Preliminar de Extracción, Transformación y Carga (ETL)**  

En este notebook, nuestro objetivo principal es iniciar un proceso ETL (Extracción, Transformación y Carga) extrayendo datos desde una carpeta en Google Drive. Estos datos servirán como base para análisis posteriores y la construcción del producto final según los requisitos del cliente.  

Para lograrlo, utilizamos diversas bibliotecas que permiten una extracción eficiente y estructurada de la información, asegurando que los datos sean almacenados de manera organizada en Google Cloud Storage.  

## **Estructura del Código**  

El código sigue un enfoque modular, inspirado en el patrón **Model-View-Controller (MVC)**, y está dividido en las siguientes secciones:  

- **Definición de la Función de Extracción de Datos**  
  Implementa la lógica para obtener archivos JSON desde Google Drive y transferirlos a Google Cloud Storage, además de convertirlos al formato Parquet para facilitar su procesamiento.  

- **Carga del Archivo de Utilidades**  
  Se incluye un archivo de utilidades con funciones auxiliares que simplifican la integración de bibliotecas y la ejecución de tareas clave dentro del proceso ETL.  

- **Visualización de Datos Procesados**  
  Esta sección permite la interpretación y validación de los datos extraídos y transformados, facilitando su análisis posterior.  

El objetivo es mantener el código limpio y eficiente, minimizando la cantidad de celdas y agregando comentarios detallados cuando sea necesario para mejorar la comprensión del proceso. 🚀


## **Importación de librerías necesarias para extraer data**

In [5]:
import importlib
import os
import utils as ut
importlib.reload(ut)
import pandas as pd


# **1. Extracción de Datos**  

Hemos definido una función que nos permite extraer los datos proporcionados por el cliente desde diferentes carpetas en Google Drive.  
Esta función está alojada en el archivo de utilidades, el cual importamos desde `utils` como `ut`.  

## **1.1 Extracción de datos desde la carpeta de Yelp**  

- Creamos una variable llamada `drive_url`, donde almacenamos la URL de la carpeta en Google Drive.  
- También definimos otra variable llamada `main_folder_path`, en la que guardamos la ruta de la carpeta que contiene los archivos originales.  


In [4]:
drive_url='https://drive.google.com/drive/folders/1TI-SsMnZsNP6t930olEEWbBQdo_yuIZF'
main_folder_path = '../data'

# Call the function with the folder ID, destination folder, and credentials JSON file path
ut.json_extract(drive_url, main_folder_path)

Retrieving folder contents


Processing file 1byFtzpZXopdCN-XYmMHMpZqzgAqfQBBu business.pkl
Processing file 1e27q1-_ecuzGjFC1gtRXoYcZqv1NBie1 checkin.json
Processing file 1mwNNdOMSNty6WumYdH9FJNJZJYQ6oD1c review.json
Processing file 16I4fnJgOISvOK_ePN-BQ8dQbxtep9_8m tip.json
Processing file 1TT4ARRIV6i2fO1b5yb0aSUkjhxMb9u6g user.parquet


Retrieving folder contents completed
Building directory structure
Building directory structure completed
Downloading...
From (original): https://drive.google.com/uc?id=1byFtzpZXopdCN-XYmMHMpZqzgAqfQBBu
From (redirected): https://drive.google.com/uc?id=1byFtzpZXopdCN-XYmMHMpZqzgAqfQBBu&confirm=t&uuid=6afda8b9-af67-4493-8127-70fb6cd5ae42
To: c:\Users\Lenovo\Sergio\yelp-google-reviews\data\business.pkl
100%|██████████| 116M/116M [00:04<00:00, 28.0MB/s] 
Downloading...
From (original): https://drive.google.com/uc?id=1e27q1-_ecuzGjFC1gtRXoYcZqv1NBie1
From (redirected): https://drive.google.com/uc?id=1e27q1-_ecuzGjFC1gtRXoYcZqv1NBie1&confirm=t&uuid=8b3f7600-a096-4222-995f-12772f4ab4dd
To: c:\Users\Lenovo\Sergio\yelp-google-reviews\data\checkin.json
100%|██████████| 287M/287M [00:11<00:00, 24.3MB/s] 
Downloading...
From (original): https://drive.google.com/uc?id=1mwNNdOMSNty6WumYdH9FJNJZJYQ6oD1c
From (redirected): https://drive.google.com/uc?id=1mwNNdOMSNty6WumYdH9FJNJZJYQ6oD1c&confirm=t&uuid

Archivo ../data\checkin.json convertido a Parquet y guardado como ../data\checkin.parquet
Archivo ../data\review.json convertido a Parquet y guardado como ../data\review.parquet
Archivo ../data\tip.json convertido a Parquet y guardado como ../data\tip.parquet




## **1.2 Extracción de datos desde las carpetas 'metadata-sitios' y 'Review Estados'**  

De la misma manera en que realizamos la extracción de datos desde la carpeta de **YELP**, guardaremos en variables la información correspondiente al **ID de la carpeta en Google Drive** y la **ruta de las carpetas donde se encuentran los datos originales**.  

Este proceso garantizará que los datos sean almacenados de forma estructurada y listos para su procesamiento posterior.  
