In [None]:
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime
import pandas as pd
from sqlalchemy import create_engine
from minio import Minio

# Configuración de conexión a MinIO
minio_client = Minio(
    "minio.example.com",  # URL del servidor de MinIO
    access_key="minio_access_key",
    secret_key="minio_secret_key",
    secure=False  # Cambia a True si usas HTTPS
)

# Configuración de conexión a MySQL
db_engine = create_engine('mysql+pymysql://user:password@host/dbname')

# Diccionario de configuración para los datasets y tablas
config = {
    'datasets': [
        {
            'bucket': 'your-bucket-name',
            'file': 'dataset1.csv',
            'table': 'table1',
            'unique_column': 'id'
        },
        {
            'bucket': 'your-bucket-name',
            'file': 'dataset2.csv',
            'table': 'table2',
            'unique_column': 'unique_identifier'
        }
    ]
}

# Función para extraer datos desde MinIO
def extract_from_minio(bucket_name, object_name, **kwargs):
    response = minio_client.get_object(bucket_name, object_name)
    df = pd.read_csv(response)
    return df

# Función para filtrar los nuevos datos (sin duplicados) basados en una columna única
def filter_new_data(df, table_name, unique_column, **kwargs):
    # Leer los datos existentes en la base de datos
    existing_data = pd.read_sql(f"SELECT {unique_column} FROM {table_name}", db_engine)
    
    # Filtrar los datos que no estén presentes en la base de datos
    new_data = df[~df[unique_column].isin(existing_data[unique_column])]
    
    return new_data

# Función para cargar los datos nuevos a la base de datos
def load_to_db(new_data, table_name, **kwargs):
    if not new_data.empty:
        new_data.to_sql(table_name, db_engine, if_exists='append', index=False)

# Función para procesar un dataset: extracción, filtrado y carga
def process_dataset(dataset, **kwargs):
    df = extract_from_minio(dataset['bucket'], dataset['file'])
    new_data = filter_new_data(df, dataset['table'], dataset['unique_column'])
    load_to_db(new_data, dataset['table'])

# Función principal para ejecutar el proceso para todas las tablas
def execute_load_for_all_tables(**kwargs):
    for dataset in config['datasets']:
        process_dataset(dataset)

# Definir el DAG
default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2024, 9, 13),
    'retries': 1,
}

with DAG(
    dag_id='load_minio_to_mysql',
    default_args=default_args,
    schedule_interval='@daily',  # Cambiar a la frecuencia deseada
    catchup=False,
    tags=['minio', 'mysql', 'etl']
) as dag:

    # Definir las tareas
    load_task = PythonOperator(
        task_id='load_minio_data_to_mysql',
        python_callable=execute_load_for_all_tables,
        provide_context=True
    )

    load_task
