# Programa DEP13 - Módulo Python Data Engineer
# Proyecto 2 : Copiando tablas entre MySQL y Google BigQuery

La tarea consiste en desarrollar una solución automatizada que permita el traspaso de datos desde una instancia SQL hacia BigQuery. La solución debe incluir las funciones necesarias para realizar esta operación. El estudiante debe usar las mejores prácticas de desarrollo de software y considerar las consideraciones de rendimiento y seguridad..

## Paso 1: Instalación de paquetes

Instalar los siguientes paquetes utilizando `pip`:

1. sqlalchemy
2. pymysql
3. google-cloud-bigquery
4. pyarrow
5. pandas
# 


In [None]:
# !pip install pandas 
# !pip install sqlalchemy
# !pip install pymysql
# !pip install google-cloud-bigquery
# !pip install pyarrow

## Paso 2: Importar paquetes necesarios

Importe los siguientes paquetes:

1. sqlalchemy
2. pandas
3. google.cloud.bigquery
4. os

In [1]:
from sqlalchemy import create_engine, MetaData, text
import pandas as pd
from google.cloud import bigquery
import os

## Paso 3: Funcion para lectura de tablas base de datos MySQL y copia a Big Query
El siguiente codigo copiara las tablas seleccionadas y en caso de que ya existan las sobreescribira.

In [2]:
def copiar_tablas_mysql_to_bigquery(tablas):
    # Configurar conexión a la base de datos MySQL
    mysql_url = 'mysql+pymysql://User:Pass@Host:Port/Database'
    engine = create_engine(mysql_url)

    # Configurar conexión a BigQuery
    #os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'BQservice.json'
    bq_client = bigquery.Client()

    # Obtener lista de tablas de la base de datos MySQL
    metadata = MetaData()
    metadata.reflect(bind=engine)
    all_tables = metadata.tables
    if not tablas:
        # Si no se proporcionan las tablas como argumento, copiar todas las tablas
        tablas = all_tables.keys()
    else:
        # Comprobar si las tablas existen en la base de datos
        tablas = [tabla for tabla in tablas if tabla in all_tables.keys()]

    for tabla in tablas:
        # Leer los datos de la tabla desde MySQL
        conn = engine.connect()
        query = text(f"SELECT * FROM {tabla}")
        result = conn.execute(query)
        data = result.fetchall()
        columns = result.keys()

        # Crear un DataFrame de Pandas con los datos obtenidos
        df = pd.DataFrame(data, columns=columns)

        # Convertir los tipos de datos a string
        for column in df.columns:
            df[column] = df[column].astype(str)

        # Cargar el DataFrame en BigQuery y sobrescribir la tabla existente si es necesario
        bq_table_name = f'project.dataset.{tabla}' # especificar el nombre del proyecto y el dataset
        job_config = bigquery.LoadJobConfig(schema=[bigquery.SchemaField(name, 'STRING') for name in df.columns])
        job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE # sobrescribir la tabla existente
        job = bq_client.load_table_from_dataframe(df, bq_table_name, job_config=job_config)
        job.result() # esperar a que la carga se complete

        print(f"Tabla {tabla} copiada exitosamente a BigQuery (sobrescrita si ya existía)")


## Paso 4: Ejemplo de uso
El menu de ejecucion es:

None : Copiar todas las tablas.
 1   : Copiar todas las tablas.
 2   : Copia solo una tabla y debe escribir el nombre de la tabla secioanda.

In [3]:
opciones = ['1', '2']
opcion = None
# opcion = '1'

while opcion not in opciones:
    print("Seleccione una opción:")
    print("1. Copiar todas las tablas")
    print("2. Seleccionar las tablas a copiar")
    opcion = input("Opción: ")

if opcion == '1':
    # Copiar todas las tablas
    copiar_tablas_mysql_to_bigquery([])
else:
    # Seleccionar las tablas a copiar
    tablas = input("Ingrese las tablas a copiar (separadas por comas): ").split(',')
    copiar_tablas_mysql_to_bigquery(tablas)

Seleccione una opción:
1. Copiar todas las tablas
2. Seleccionar las tablas a copiar
Tabla categories copiada exitosamente a BigQuery (sobrescrita si ya existía)
