In [None]:
import pandas as pd
import geopandas as gpd
import psycopg2
from shapely import wkb
from sqlalchemy import create_engine

# Definir los directorios
FILE_PATH_SIGPAC = '/home/christianr/Documents/diginvasiveproject/datos/Cod PAC/sigpac.xlsx'
DB_CONNECTION_URL = "postgresql://sigpac:inia@localhost:5432/diginvasivedb"

# Funciones comentadas con sus respectivas ayudas

# Función para dividir código sigpac en campos
def dividir_id_rec(dataframe, campo_sigpac):
    """
    Divide el código SIGPAC de un campo en un DataFrame y crea nuevas columnas con códigos separados.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene el campo 'id_rec'.
        campo (str): Nombre del campo que contiene el código SIGPAC a dividir. Por defecto, 'id_rec'.
    
    Returns:
        pandas.DataFrame: Mismo dataframe de entrada con nuevas columnas que representan los elementos del código SIGPAC:
        provincia, municipio, agregado, zona, poligono, parcela.
    """
    # Separar los elementos del campo 'id_rec' usando ':' como delimitador
    elementos = dataframe[campo_sigpac].str.split(':', expand=True)
    
    # Asignar los nuevos campos al DataFrame
    dataframe['cod_prov'] = elementos[0].str[:2].astype('int')  # Los primeros 2 dígitos
    dataframe['cod_mun'] = elementos[0].str[2:].astype('int')   # Los dígitos restantes de la primera parte
    dataframe['cod_agr'] = elementos[1].astype('int')
    dataframe['cod_zon'] = elementos[2].astype('int')
    dataframe['cod_pol'] = elementos[3].astype('int')
    dataframe['cod_par'] = elementos[4].astype('int')
    dataframe['cod_rec'] = elementos[5].astype('int')
    
    return dataframe

# Función para cambiar los nombres propios con letras mayúsculas
def nombre_mayuscula(nombre_localidad):
    """
    Convierte los nombres propios a formato título, manteniendo los conectores en minúsculas.
    
    Args:
        nombre_localidad (str): Nombre de la localidad a formatear.
    
    Returns:
        str: Nombre de la localidad en formato título, con conectores en minúsculas.
    """
    conectores = ["de", "la", "los", "las", "el", "i"]
    palabras = nombre_localidad.split()
    resultado = []

    for i, palabra in enumerate(palabras):
        if (i == 0 and palabra in conectores) or palabra not in conectores:
            resultado.append(palabra.capitalize())
        else:
            resultado.append(palabra.lower())

    return " ".join(resultado)

# Función para añadir los nombres de provincias y municipios
def add_nom_prov_mun(dataframe):
    """
    Añade los nombres de provincias y municipios a un DataFrame utilizando el archivo excel del registro SIGPAC 2024.
    
    Args:
        dataframe (pandas.DataFrame): DataFrame de entrada con las columnas 'cod_prov' y 'cod_mun'.
        file_path (str): Ruta del archivo que contiene los datos de provincias y municipios. Por defecto, FILE_PATH_SIGPAC.
    
    Returns:
        pandas.DataFrame: DataFrame de salida con columnas adicionales para los nombres de provincia y municipio.
    """
    # import pandas as pd
    file_path = FILE_PATH_SIGPAC
    df = pd.read_excel(file_path)

    # Crear un diccionario con las provincias y reemplazos para mayor eficiencia
    reemplazos = {
        'Illes balears': 'Islas Baleares', 'Las palmas': 'Las Palmas', 'Santa cruz de tenerife': 'Santa Cruz de Tenerife',
        'Ciudad real': 'Ciudad Real', 'Nafarroa': 'Navarra', 'La rioja': 'La Rioja', 'Alacant': 'Alicante',
        'Castelló': 'Castellón', 'A coruña': 'La Coruña', 'Ourense': 'Orense', 'València': 'Valencia', 'Araba': 'Álava'
    }

    # Crear DataFrame de provincias y aplicar los reemplazos
    df_prov = df[['codigo_provincia', 'nombre_provincia']].drop_duplicates()
    df_prov['nom_provincia'] = df_prov['nombre_provincia'].str.capitalize().replace(reemplazos)

    # Unir el DataFrame original con el de provincias
    df_provincia = dataframe.merge(df_prov[['codigo_provincia', 'nom_provincia']], left_on='cod_prov', right_on='codigo_provincia',
                                   how='left').drop('codigo_provincia', axis=1)

    # Crear DataFrame de municipios y renombrar columnas
    df_mun = df[['codigo_provincia', 'codigo_municipio', 'nombre_municipio']].drop_duplicates()
    df_mun.rename(columns={'codigo_provincia': 'cod_prov', 'codigo_municipio': 'cod_mun', 'nombre_municipio':'nom_municipio'}, inplace=True)
    df_mun['nom_municipio'] = df_mun['nom_municipio'].str.lower().apply(nombre_mayuscula)

    # Unir el DataFrame con el de municipios
    df_resultado = df_provincia.merge(df_mun, on=['cod_prov', 'cod_mun'], how='left')

    return df_resultado

# Función de consulta con la base de datos del SIGPAC 2024
def conn_sigpacdb(dataframe):
    """
    Realiza una consulta en la base de datos del SIGPAC 2024 para obtener las geometrías y datos adicionales sobre los casos positivos.
    
    Args:
        dataframe (pandas.DataFrame): DataFrame que contiene los códigos de provincia, municipio, agregado, zona y polígono.
        db_connection_url (str): URL de conexión a la base de datos. Por defecto, DB_CONNECTION_URL.
    
    Returns:
        pandas.DataFrame: DataFrame con los registros obtenidos de la base de datos.
    """
    # import psycopg2 
    # import pandas as pd

    # Conectar a la base de datos PostgreSQL
    conn = psycopg2.connect(DB_CONNECTION_URL)

    resultados = []
    for _, row in dataframe.iterrows():
        # Generar la consulta SQL para cada fila
        query = f"""
        SELECT * FROM SIGPAC
        WHERE provincia = {row['cod_prov']}
            AND municipio = {row['cod_mun']}
            AND agregado = {row['cod_agr']}
            AND zona = {row['cod_zon']}
            AND poligono = {row['cod_pol']}
        """
        # Ejecutar la consulta y almacenar los resultados
        result = pd.read_sql_query(query, conn)
        resultados.append(result)
    # Cerrar la conexión
    conn.close()

    return pd.concat(resultados, ignore_index=True) if resultados else pd.DataFrame()

# Consulta y unión de datos Palmeri al SIGPAC
def consulta_sigpac(dataframe, sigpac):
    """
    Une un DataFrame con datos del SIGPAC basándose en códigos coincidentes.
    
    Args:
        dataframe (pandas.DataFrame): DataFrame que contiene los códigos de referencia.
        sigpac (pandas.DataFrame): DataFrame con los datos del SIGPAC.
    
    Returns:
        pandas.DataFrame: DataFrame combinado con los datos del SIGPAC.
    """
    df_merged = pd.merge(
        dataframe, sigpac,
        left_on=['cod_prov', 'cod_mun','cod_agr','cod_zon','cod_pol','cod_par','cod_rec'],  # Columnas en el primer DataFrame
        right_on=['provincia', 'municipio','agregado','zona','poligono','parcela','recinto'],  # Columnas en el segundo DataFrame
        how='left'
    )
    df_merged.drop(['provincia', 'municipio','agregado','zona','poligono','parcela','recinto'], axis=1, inplace=True)
    return df_merged

# Revisar si existen filas sin geometría. Puede que no coincidan con el sigpac 2024.
def check_geometrias(dataframe):
    """
    Divide un DataFrame en dos, uno con registros que tienen geometría y otro con los que no la tienen.
    
    Args:
        dataframe (pandas.DataFrame): DataFrame que contiene la columna 'dn_geom'.
    
    Returns:
        tuple: DataFrames con registros que tienen geometría (positivos) y sin geometría (nulos).
    """
    
    df_nulos = dataframe[dataframe['dn_geom'].isnull()] # recintos no encontrados en el sigpac 2024
    df_positivos = dataframe[dataframe['dn_geom'].notnull()] # recintos encontrados en el sigpac 2024
    
    return (df_nulos, df_positivos)

# Generar geodataframe con casos positivos
def generate_gdf(pos_dataframe):
    """
    Genera un GeoDataFrame con los registros que contienen geometría.
    
    Args:
        pos_dataframe (pandas.DataFrame): DataFrame con geometría representada en la columna 'dn_geom'.
    
    Returns:
        geopandas.GeoDataFrame: GeoDataFrame con la geometría asignada y CRS definido.
    """
    # import pandas as pd
    # import geopandas as gpd
    # from shapely import wkb

    # Convertir la columna 'dn_geom' a objetos geométricos
    pos_dataframe['dn_geom'] = pos_dataframe['dn_geom'].apply(lambda x: wkb.loads(bytes.fromhex(x)))

    # Convertir el DataFrame en un GeoDataFrame
    gdf = gpd.GeoDataFrame(pos_dataframe, geometry='dn_geom')

    # Definir CRS
    geodataframe = gdf.set_crs(epsg=4326, inplace=True)
    return geodataframe

# Guardar los resultados en tabla de la base de datos
def save_gdf_to_db(geodataframe, nombre_tabla):
    """
    Guarda un GeoDataFrame en una tabla de la base de datos PostgreSQL con PostGIS.
    
    Args:
        geodataframe (geopandas.GeoDataFrame): GeoDataFrame que se desea guardar en la base de datos.
        nombre_tabla (str): Nombre de la tabla destino en la base de datos.
        db_connection_url (str): URL de conexión a la base de datos. Por defecto, DB_CONNECTION_URL.
    
    Returns:
        None
    """
    # from sqlalchemy import create_engine

    # Conexión a la base de datos PostgreSQL con PostGIS habilitado
    engine = create_engine(DB_CONNECTION_URL)

    # Guardar en PostGIS
    geodataframe.to_postgis(nombre_tabla, engine, if_exists='replace', index=False)