# Script de migracion de datos

Este programa está diseñado para procesar datos de, en el caso de los planes de mantenimiento, se tienen 2 planes de mantenimiento (Lineas de Alta Demanda LAD y Lineas de Baja Demanda LBD) descargándolos, transformándolos y guardándolos en un archivo Excel. La clase principal, GoogleSheetProcessor, maneja todo el flujo de trabajo, desde la obtención de datos hasta su procesamiento y almacenamiento. A continuación se describe el funcionamiento detallado del programa.

## Funcionalidades Principales
1. Inicialización (__init__)
La clase se inicializa con la URL de una hoja de cálculo de Google Sheets. Durante la inicialización, se extraen los identificadores del archivo y de la hoja específica, y se construye la URL para exportar la hoja en formato CSV.

### Atributos:

sheet_url: URL de la hoja de cálculo de Google Sheets.
spreadsheet_id: ID único de la hoja de cálculo.
sheet_id: ID único de la hoja dentro de la hoja de cálculo.
csv_export_url: URL para exportar la hoja en formato CSV.

### Diccionarios predefinidos:

valores: Diccionario que asocia códigos con valores numéricos. Este diccionario de valores es dependiendo las columnas de la hoja de calculo, especifico a las frecuencias 
regimen: Diccionario que asocia códigos con sus unidades de medida correspondientes.


1. Extracción de Identificadores
extract_spreadsheet_id(url): Extrae el ID de la hoja de cálculo desde la URL.
extract_sheet_id(url): Extrae el ID de la hoja específica desde la URL.
2. Construcción de la URL de Exportación
construct_csv_export_url(): Construye la URL que permite descargar la hoja de cálculo en formato CSV.
3. Descarga de la Hoja en CSV
download_csv(output_filename='temp_sheet.csv'): Descarga la hoja de cálculo en formato CSV y la guarda con un nombre de archivo especificado (por defecto, temp_sheet.csv).
4. Procesamiento de Datos
process_data(filename="temp_sheet.csv", valores="", regimen=""):
Carga el archivo CSV y realiza una serie de transformaciones y filtrados en los datos, como la conversión de valores, la asignación de unidades, y la reestructuración del DataFrame.
Comprueba que las claves de los diccionarios valores y regimen coinciden, lanzando un AssertionError si no es así.
Filtra los datos para excluir planes y mantener solo las columnas relevantes.
Realiza transformaciones en el DataFrame para preparar la información que se almacenará en Excel.
Retorna los DataFrames df_plan, df_action, df_speciality y filtered_data.
5. Guardar Resultados en Excel
save_to_excel(output_path="Salida.xlsx", filename="mix_plan.csv", valores="", regimen=""):
Llama al método process_data para obtener los DataFrames procesados.
Guarda los DataFrames resultantes en un archivo Excel con hojas separadas para acciones, planes, especialidades y actividades filtradas.
6. Funciones Auxiliares
get_unique(df: pd.DataFrame, column: str): Genera un DataFrame con valores únicos de una columna específica, ajustando los índices.
buscarIndice(df: pd.DataFrame, valor, columna='value'): Busca el índice de un valor específico en un DataFrame y lo retorna como un entero.

```mermaid
graph TD
    A[Inicio] --> B[Inicializa GoogleSheetProcessor con lad.value]
    B --> C[Lee CSV desde input/pad.csv]
    C --> D[Inicializa GoogleSheetProcessor con lbd.value]
    D --> E[Lee CSV desde input/pbd.csv]
    E --> F[Concatena los DataFrames df1 y df2]
    F --> G[Guarda el DataFrame combinado indicado en el campo salida]    
    G --> H[Guarda el Dataframe directamente en la base de datos indicada]

```

Descripción del Flujograma
* Inicio: El proceso comienza con la inicialización del primer GoogleSheetProcessor con la URL contenida en lad.value.
* Lectura del primer CSV: Se lee el archivo CSV asociado al primer DataFrame desde la ruta input/pad.csv.
* Inicialización del segundo GoogleSheetProcessor: Se inicializa el segundo objeto GoogleSheetProcessor con la URL contenida en lbd.value.
* Lectura del segundo CSV: Se lee el archivo CSV asociado al segundo DataFrame desde la ruta input/pbd.csv.
* Concatenación de DataFrames: Los dos DataFrames (df1 y df2) se combinan en uno solo mediante pd.concat.
* Guardar el DataFrame combinado: El DataFrame combinado se guarda en un archivo CSV en la ruta input/mix_plan.csv.
* Procesamiento y Almacenamiento de hoja de calculo procesada: Se puede almacenar en archivo excel o directamente en la base de datos, 


### Pantalla 1
Al presionar el boton de _Generar Archivo Excel_ se realiza la generación del archivo excel en la carpeta output, colocando el nombre del archivo excel que se encuetnra en el campo de salida.

![Pantalla 1](assets/pantalla1.png "Pantalla 1")

### Pantalla 2

En este apartado se colocan los datos de conexion de la base de datos. Al presionar el botón de _Cargar en Base de datos_ se procede a conectar y a volcar el dataframe en la base de datos indicada en los datos de usuario, password, host y base de datos de destino.

![Pantalla 2](assets/pantalla2.png "Pantalla 2")



> Nota. Exportar directamente en la base de datos aun no es posible, se requiere complementar el codigo.

In [59]:
import pandas as pd
import requests

class GoogleSheetProcessor:
    def __init__(self, sheet_url:str):
        self.sheet_url = sheet_url
        self.spreadsheet_id = self.extract_spreadsheet_id(sheet_url)
        self.sheet_id = self.extract_sheet_id(sheet_url)
        self.csv_export_url = self.construct_csv_export_url()

        # Diccionarios originales
        self.valores = {
            "D": 1, "S": 1, "M": 5, "MC": 1, "2M": 2, "T": 3, "4M": 4, "SE": 6,
            "8M": 8, "A": 1, "1.5A": 18, "2A": 2, "3A": 3, "4A": 4, "5A": 5,
            "6A": 6, "8A": 8, "10A": 10, "1000": 1000, "6000": 6000, "22500": 22500,
            "40000": 40000, "55000": 55000
        }

        self.regimen = {
            "D": 'dia', "S": 'semana', "M": 'semana', "MC": 'mes', "2M": 'mes', "T": 'mes',
            "4M": 'mes', "SE": 'mes', "8M": 'mes', "A": 'Año', "1.5A": 'mes', "2A": 'Año',
            "3A": 'Año', "4A": 'Año', "5A": 'Año', "6A": 'Año', "8A": 'Año', "10A": 'Año',
            "1000": 'horas', "6000": 'horas', "22500": 'horas', "40000": 'horas', "55000": 'horas'
        }

    def extract_spreadsheet_id(self, url):
        return url.split('/d/')[1].split('/')[0]

    def extract_sheet_id(self, url):
        return url.split('gid=')[1]

    def construct_csv_export_url(self):
        return f"https://docs.google.com/spreadsheets/d/{self.spreadsheet_id}/export?format=csv&gid={self.sheet_id}"

    def download_csv(self, output_filename='temp_sheet.csv'):
        # Descarga el archivo CSV y lo guarda temporalmente
        response = requests.get(self.csv_export_url)
        response.raise_for_status()  # Asegurarse de que la solicitud fue exitosa
        with open(output_filename, 'wb') as f:
            f.write(response.content)
        return output_filename
    def get_unique(self, df: pd.DataFrame, column: str):
        """
        Obtiene un DataFrame con valores únicos de la columna 'Column', con índices ajustados.

        Returns:
        pd.DataFrame: Un DataFrame con valores únicos de la columna 'Column' y un índice ajustado.
        """
        df[column] = df[column].str.strip()
        df = df[df[column].notnull()]
        df_unique = pd.DataFrame(df[column].unique(), columns=['value'])
        df_unique.index = df_unique.index + 1
        return df_unique
    def buscarIndice(self, df:pd.DataFrame, valor,columna='value'):
        return int (df[df[columna]==valor].index[0])


    def read_csv(self, filename="temp_sheet.csv"):
        # Lee el archivo CSV usando pandas
        self.df = pd.read_csv(filename)
        self.df.columns = self.df.loc[2, :].to_list()  # la fila 2 como fila
        self.df = self.df.loc[4:, :]   # Obtener desde la fila 4 en adelante
        return self.df
    
    def process_data_with_validation(self, df: pd.DataFrame, valores: dict):
        # Iterar sobre las claves del diccionario valores
        for col in valores.keys():
            # Verificar si la columna existe en el DataFrame
            if col in df.columns:
                # Comprobar si la columna no es booleana
                if not pd.api.types.is_bool_dtype(df[col]):
                    # Si no es booleana, intentamos convertirla
                    df[col] = df[col].apply(lambda x: True if str(x).upper() == 'TRUE' else False)
                    # df[list(valores.keys())] = df[valores.keys()].applymap(lambda x: True if x == 'TRUE' else False)
            else:
                print(f"La columna '{col}' no se encuentra en el DataFrame.")
        return df

    def process_data(self,filename = "temp_sheet.csv",valores="", regimen=""):        
        df = pd.DataFrame()
        df = pd.read_csv(filename)

        if valores == "":valores = self.valores    
        if regimen == "":regimen = self.regimen
        
        if valores.keys() != regimen.keys():
            raise AssertionError(f"Las claves no coinciden: {valores.keys()} != {regimen.keys()}")

        # Realiza el procesamiento necesario
        # Este es un lugar para incluir toda la lógica de procesamiento
        
        # Suponiendo que el procesamiento produce 'filtered_data' y otros DataFrames
        df_plan = pd.DataFrame()  # Placeholder
        df_action = pd.DataFrame()  # Placeholder
        df_speciality = pd.DataFrame()  # Placeholder
        filtered_data = pd.DataFrame()  # Placeholder        
        #print(valores)
        ## convertir a booleano
        # df[list(valores.keys())] = df[valores.keys()].applymap(lambda x: True if x == 'TRUE' else False)
        ## convertir a booleano
        df = self.process_data_with_validation(df,valores)
        #print(df.dtypes)

        # Quitar planes
        df = df[df['Tipo_plan']!= 'Plan']   # Se cambio de Tipo a Tipo_plan el 5-9-24

        # Obtener la unidades
        parametros = regimen
        df['unidad'] = df.apply(lambda row: next((parametros[key] for key in parametros.keys() if key in row and row[key] == True), None), axis=1)
        # Obtener los valores
        parametros = valores
        df['valor'] = df.apply(lambda row: next((parametros[key] for key in parametros.keys() if key in row and row[key] == True), None), axis=1)
        # Filtrar las columnas necesarias solamente
        #print("Valores unicos en unidades: ")
        #print(df['unidad'].unique())        
        # Mantener solo las columnas necesarias
        columns = ['Plan','Accion','Trabajo','Actividad','Tipo_plan','Parada','Relevancia','Especialidad','valor','unidad']
        df = df[columns]
        # Crear la nueva columna fk_activity que tendra relaciones con las actividades padre
        df['fk_activity']= None
        df['fkc_regime']= None

        # renombrar los nombres de las columnas
        nuevos_nombres = {
            'Plan': 'fk_plan',
            'Accion': 'fk_action',
            'Actividad': 'name',
            'Tipo_plan': 'fkc_activity_type',
            'Relevancia': 'fkc_priority',
            'Especialidad': 'fk_specialty',
            'valor': 'time_interval_value',
            'unidad': 'fk_periodicity_unit',
            'Parada': 'stoppage',
        }
        df.rename(columns=nuevos_nombres, inplace=True)
                # Mantener las columnas del excel en el orden indicado
        columnas_excel = ['fk_activity','fk_plan','fk_action','name','fkc_activity_type','fkc_priority','fk_specialty','fkc_regime','stoppage','time_interval_value','fk_periodicity_unit'] 

        df = df[columnas_excel]
        df_plan = self.get_unique(df,"fk_plan")
        df_action = self.get_unique(df,"fk_action")
        df_speciality = self.get_unique(df,"fk_specialty")
        df_activity_type = self.get_unique(df,"fkc_activity_type")
        df_regime = self.get_unique(df,"fkc_regime")

        # Filter the data
        #df = df_raw.copy(deep=True)
        filtered_data = df[(df['fkc_activity_type'] == 'Actividad') | (df['fkc_activity_type'] == 'Tarea')]

        # Add fk_activity column
        filtered_data['fk_activity'] = None

        # Buscar fk_activity para las Tareas que provienen de una Actividad
        parent_index = None
        for i, row in filtered_data.iterrows():
            if row['fkc_activity_type'] == 'Actividad':
                parent_index = i
            elif row['fkc_activity_type'] == 'Tarea':
                filtered_data.at[i, 'fk_activity'] = parent_index

        filtered_data['fk_plan']= filtered_data['fk_plan'].apply(lambda x: self.buscarIndice(df_plan,x)) 
        return df_plan, df_action, df_speciality, filtered_data   


    def save_to_excel(self, output_path="Salida.xlsx",filename="mix_plan.csv",valores="",regimen=""):
        df_plan, df_action, df_speciality, filtered_data = self.process_data(filename=filename,valores=valores,regimen=regimen)  
        with pd.ExcelWriter(output_path) as writer:
            df_action.to_excel(writer, sheet_name='actions')
            df_plan.to_excel(writer, sheet_name='plans')
            df_speciality.to_excel(writer, sheet_name='specialties')
            filtered_data.to_excel(writer, sheet_name='activities')

In [60]:
''' # https://ipywidgets.readthedocs.io/en/latest/examples/Widget%20List.html
import warnings
import pandas as pd
import ipywidgets as widgets
from ipywidgets import Button, Layout
from IPython.display import display

#warnings.simplefilter(action='ignore', category=FutureWarning)

valores = {
    "D": 1,
    "S": 1,
    "2S": 2,
    "M": 5,
    "MC": 1,
    "2M": 2,
    "T": 3,
    "SE": 6,
    "8M": 8,
    "A": 1,
    "1.5A": 18,
    "2A": 2,
    "3A": 3,
    "4A": 4,
    "5A": 5,
    "6A": 6,
    "8A": 8,
    "10A": 10,
    "1000": 1000,
    "1300": 1300,
    "1800": 1800,
    "6000": 6000,
    "22500": 6000,
    "40000": 40000,
    "55000": 55000,
    "55000C": 55000
}

regimen = {
    "D": 'dia',
    "S": 'semana',
    "2S": 'semana',
    "M": 'semana',
    "MC": 'mes',
    "2M": 'mes',
    "T": 'mes',
    "SE": 'mes',
    "8M": 'mes',
    "A": 'Año',
    "1.5A": 'mes',
    "2A": 'Año',
    "3A": 'Año',
    "4A": 'Año',
    "5A": 'Año',
    "6A": 'Año',
    "8A": 'Año',
    "10A": 'Año',
    "1000": 'horas',
    "1300": 'horas',
    "1800": 'horas',
    "6000": 'horas',
    "22500": 'horas',
    "40000": 'horas',
    "55000": 'horas',
    "55000C": 'ciclos'
}

lad = widgets.Textarea(value='https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1199302294',placeholder='Plan Maestro LAD',description='Lineas Alta Demanda:',disabled=False,layout=Layout(width='70%',height="200px"))
lbd = widgets.Textarea(value='https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1199302294',placeholder='Plan Maestro LBD',description='Lineas Baja Demanda:',disabled=False,layout=Layout(width='70%',height="200px"))
host = widgets.Text(value='192.168.100.50',placeholder='Host',description='Host:',disabled=False)
basedatos = widgets.Text(value='simyo2',placeholder='BaseDatos',description='BaseDatos',disabled=False)
usuario = widgets.Text(value='mantto',description='Usuario')
password = widgets.Password(value='Sistemas0',description='Password')
button1 = widgets.Button(description="Generar Archivo Excel",button_style='success',layout=Layout(width='20%'))
button2 = widgets.Button(description="Cargar en Base de datos",button_style='danger',layout=Layout(width='20%'))
output = widgets.Output()
salida = widgets.Text(value="Salida.xlsx",description="Nombre:",disabled=False)
accordion = widgets.Accordion(children=[ salida], titles=(['Archivo Salida']))
accordion1 = widgets.Accordion(children=[ usuario,password,host,basedatos], titles=('Usuario','Password','Host','Base de Datos'))

display(lad,lbd,host,usuario,password,accordion,button1, accordion1,button2,output)

def on_button_clicked(b):    
    # Combinacion de dataframes
    gs1 = GoogleSheetProcessor(lad.value) #("https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1199302294")
    archivo = "input/pad.csv"
    #gs.download_csv(archivo)
    df1 = gs1.read_csv(archivo)

    gs2 = GoogleSheetProcessor (lbd.value) #("https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1199302294")
    archivo = "input/pbd.csv"
    #gs.download_csv(archivo)
    df2 = gs2.read_csv(archivo)
    # Realizar el merge de ambos planes en un solo dataframe
    df_merged = pd.concat([df1,df2],ignore_index=True).reset_index(drop=True)

    filename = "input/mix_plan.csv"
    df_merged.to_csv(filename)
    
    #df_plan, df_action, df_speciality, filtered_data = gs1.process_data(filename=filename,valores=valores,regimen=regimen)      
######################    

#####################

    df_plan, df_action, df_speciality, filtered_data = gs1.process_data(filename=filename,valores=valores,regimen=regimen)  
    with pd.ExcelWriter("output/"+salida.value) as writer:
        df_action.to_excel(writer, sheet_name='actions')
        df_plan.to_excel(writer, sheet_name='plans')
        df_speciality.to_excel(writer, sheet_name='specialties')
        filtered_data.to_excel(writer, sheet_name='activities')
    
    # gs1.save_to_excel(output_path=salida.value,valores=valores,regimen=regimen,filename="mix_plan.csv")        
    with output:
        print("Se Genera archivo excel Salida.xlsx")

button1.on_click(on_button_clicked)
button2.on_click(lambda _: print("Boton 2 accionado"))
#https://ipywidgets.readthedocs.io/en/7.6.3/examples/Widget%20Styling.html '''



In [61]:

# Bloque de variables
descargar = False
url_alta_demanda ="https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1199302294"
archivo_ad = "input/pad_actividades.csv"
url_baja_demanda = "https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1199302294"
archivo_bd = "input/pbd_actividades.csv"
filename_actividades = "input/mix_plan_actividades.csv"

valores = {"D": 1,"S": 1,"2S": 2,"M": 5,"MC": 1,"2M": 2,"T": 3,"SE": 6,"8M": 8,"A": 1,"1.5A": 18,"2A": 2,"3A": 3,"4A": 4,"5A": 5,"6A": 6,"8A": 8,"10A": 10,"1000": 1000,"1300": 1300,"1800": 1800,"6000": 6000,"22500": 6000,"40000": 40000,"55000": 55000,"55000C": 55000}

regimen = {"D": 'dia',"S": 'semana',"2S": 'semana',"M": 'semana',"MC": 'mes',"2M": 'mes',"T": 'mes',"SE": 'mes',"8M": 'mes',"A": 'Año',"1.5A": 'mes',"2A": 'Año',"3A": 'Año',"4A": 'Año',"5A": 'Año',"6A": 'Año',"8A": 'Año',"10A": 'Año',"1000": 'horas',"1300": 'horas',"1800": 'horas',"6000": 'horas',"22500": 'horas',"40000": 'horas',"55000": 'horas',"55000C": 'ciclos'}

In [62]:
# Combinacion de dataframes
gs1 = GoogleSheetProcessor(url_alta_demanda)
if descargar : gs1.download_csv(archivo_ad)
df1 = gs1.read_csv(archivo_ad)

In [63]:
gs2 = GoogleSheetProcessor (url_baja_demanda)
if descargar: gs2.download_csv(archivo_bd)
df2 = gs2.read_csv(archivo_bd)

In [64]:
if ((df1.columns == df2.columns).any) :
    print("No son iguales las columnas, verificar la igualdad de columnas")

No son iguales las columnas, verificar la igualdad de columnas


In [65]:
# Realizar el merge de ambos planes en un solo dataframe
df_merged = pd.concat([df1,df2],ignore_index=True).reset_index(drop=True)
df_merged.to_csv(filename_actividades)

In [66]:
df_plan, df_action, df_speciality, filtered_data = gs1.process_data(filename=filename_actividades,valores=valores,regimen=regimen)  

In [119]:
df_speciality

Unnamed: 0,value
1,OPERATIVA
2,MECANICO
3,ELECTROMECANICO
4,ELECTRICO
5,BASADA EN CONDICION
6,HIDRAULICO
7,REPARACIONES MAYORES
8,ELECTRONICO


In [118]:
# Datos base de datos destino
filtered_data
fkc_columns = [col for col in filtered_data.columns if col.startswith('fkc_')]
# filtered_data[fkc_columns]
# Obtener los valores únicos de las columnas filtradas
unique_values = pd.unique(filtered_data[fkc_columns].values.ravel())
unique_values



array(['Actividad', 'MEDIA', None, 'Tarea', 'BAJA', 'ALTA', 'BAJA '],
      dtype=object)

array(['Actividad', 'MEDIA', None, 'Tarea', 'BAJA', 'ALTA', 'BAJA '],
      dtype=object)

In [132]:
unique_values

array(['Actividad', 'MEDIA', None, 'Tarea', 'BAJA', 'ALTA', 'BAJA '],
      dtype=object)

In [139]:
# Antes se debe eliminar de la tabla activities

query = f"select * from classifiers where name in {list(unique_values)}"
query

"select * from classifiers where name in ['Actividad', 'MEDIA', None, 'Tarea', 'BAJA', 'ALTA', 'BAJA ']"

In [None]:
from sqlalchemy import create_engine, text
import pandas as pd

def update_plans_table(usuario, password, host, database, tabla, columna, df_plan):
    # Crear el engine de SQLAlchemy
    engine = create_engine(f'postgresql://{usuario}:{password}@{host}/{database}')

    # Leer la tabla en un DataFrame de pandas
    df = pd.read_sql(f"SELECT * FROM {tabla}", engine)

    # Renombrar columna 'value' a 'name' si existe
    if 'value' in df_plan.columns:
        df_plan = df_plan.rename(columns={'value': 'name'})

    # Identificar las columnas que están en df pero no en df_plan
    missing_columns = [col for col in df.columns if col not in df_plan.columns]

    # Añadir las columnas faltantes a df_plan con valores NaN
    for col in missing_columns:
        df_plan[col] = pd.NA  # O usa otro valor predeterminado si es necesario

    # Añadir/actualizar las columnas necesarias en df_plan
    df_plan['id'] = df_plan.index
    df_plan['is_active'] = True
    df_plan['created_by'] = 1
    df_plan['updated_by'] = 1
    df_plan['created_at'] = pd.Timestamp.now()
    df_plan['updated_at'] = pd.Timestamp.now()

    # Obtener el nombre de la secuencia asociada a la columna 'id' en la tabla 'plans_test'
    with engine.connect() as connection:
        result = connection.execute(text(f"SELECT pg_get_serial_sequence('{tabla}', '{columna}');"))
        id_secuencia = result.scalar()  # Obtener el nombre de la secuencia

    # Eliminar todos los registros de la tabla
    with engine.connect() as connection:
        connection.execute(text(f"DELETE FROM {tabla};"))
        connection.commit()

    # Insertar nuevos datos con pandas to_sql
    df_plan.to_sql(tabla, engine, if_exists='replace', index=False)

    # Obtener el valor máximo de la columna 'id'
    with engine.connect() as connection:
        result = connection.execute(text(f"SELECT MAX(id) FROM {tabla};"))
        max_id = result.scalar() or 0  # Si no hay registros, usar 0

    # Reiniciar el valor de la secuencia
    with engine.connect() as connection:
        connection.execute(text(f"ALTER SEQUENCE {id_secuencia} RESTART WITH {max_id + 1};"))

# Ejemplo de uso
# Definir el DataFrame df_plan con tus datos

# Llamada a la función
update_plans_table(
    usuario='postgres', 
    password='postgres', 
    host='localhost', 
    database='simyo3', 
    tabla='plans_test', 
    columna='id', 
    df_plan=df_plan
)

In [None]:
import uuid



In [127]:
from sqlalchemy import text


def eliminar_registros(usuario, password, host, database, tabla):
    """
    Elimina todos los registros de una tabla especificada en la base de datos.    
    """
    # Crear el engine de SQLAlchemy
    engine = create_engine(f'postgresql://{usuario}:{password}@{host}/{database}')
    
    
    with engine.connect() as connection:
        # Ejecutar la sentencia SQL para eliminar todos los registros
        connection.execute(text(f"DELETE FROM {tabla};"))
        connection.commit()  # Confirmar los cambios


eliminar_registros('postgres', 'postgres', 'localhost', 'simyo3', 'activities')

In [128]:
from sqlalchemy import create_engine, text
import pandas as pd

def actualizar_tabla_postgres(usuario, password, host, database, tabla, columna, df):
    # Crear el engine de SQLAlchemy
    engine = create_engine(f'postgresql://{usuario}:{password}@{host}/{database}')

    # Leer la tabla en un DataFrame de pandas
    df_origen = pd.read_sql(f"SELECT * FROM {tabla}", engine)
    
    # Renombrar la columna 'value' a 'name' si existe
    if 'value' in df.columns:
        df = df.rename(columns={'value': 'name'})
    
    # Si existe la columna uuid en la tabla original, crear esa columna
    if 'uuid' in df_origen.columns:
        df['uuid'] = [str(uuid.uuid4()) for _ in range(len(df_plan))]
    
    if 'is_active' in df_origen.columns:
        df['is_active'] = True


    # Identificar las columnas que están en df pero no en df_origen
    missing_columns = [col for col in df_origen.columns if col not in df.columns]

    # Añadir las columnas faltantes a df con valores NaN
    for col in missing_columns:
        df[col] = pd.NA  # O usa otro valor predeterminado si es necesario

    # Añadir las columnas comunes en las tablas
    df['id'] = df.index
    
    df['created_by'] = 1
    df['updated_by'] = 1
    df['created_at'] = pd.Timestamp.now()
    df['updated_at'] = pd.Timestamp.now()

    

    # Eliminar todos los registros de la tabla
    with engine.connect() as connection:
        connection.execute(text(f"DELETE FROM {tabla};"))
        connection.commit()
    
    # Insertar nuevos datos con pandas to_sql
    df.to_sql(tabla, engine, if_exists='replace', index=False)

    # Obtener el valor máximo de la columna 'id'
    with engine.connect() as connection:
        result = connection.execute(text(f"SELECT MAX({columna}) FROM {tabla};"))
        max_id = result.scalar() or 0  # Si no hay registros, usar 0

    
    # Obtener el nombre de la secuencia asociada a la columna 'id'
    with engine.connect() as connection:
        result = connection.execute(text(f"""
            SELECT pg_get_serial_sequence('{tabla}', '{columna}');
        """))
        id_secuencia = result.scalar()  # Obtener el nombre de la secuencia
    
        
    # Reiniciar el valor de la secuencia
    with engine.connect() as connection:
        # Si se tienen 
        if id_secuencia : connection.execute(text(f"ALTER SEQUENCE {id_secuencia} RESTART WITH {max_id + 1};"))

# Ejemplo de cómo llamar a la función:
actualizar_tabla_postgres('postgres', 'postgres', 'localhost', 'simyo3', 'plans', 'id', df_plan)




IntegrityError: (psycopg2.errors.ForeignKeyViolation) update o delete en «plans» viola la llave foránea «activities_copy1_fk_plan_fkey» en la tabla «activities_original»
DETAIL:  La llave (id)=(1) todavía es referida desde la tabla «activities_original».

[SQL: DELETE FROM plans;]
(Background on this error at: https://sqlalche.me/e/20/gkpj)

In [None]:
# El cargado de las 

In [121]:
from sqlalchemy import create_engine, text
import pandas as pd

usuario = 'postgres'
password = 'postgres'
host ='localhost'
database = 'simyo3'
tabla = 'specialties'
# Nombre de la tabla y la columna
columna = 'id'
df = df_speciality

# Crear el engine de SQLAlchemy
engine = create_engine(f'postgresql://{usuario}:{password}@{host}/{database}')

# Leer la tabla en un DataFrame de pandas
df_origen = pd.read_sql(f"SELECT * FROM {tabla}", engine)
if 'value' in df.columns:
    df = df.rename(columns={'value': 'name'})
# Identificar las columnas que están en df pero no en df
missing_columns = [col for col in df.columns if col not in df.columns]

# Añadir las columnas faltantes a df con valores NaN
for col in missing_columns:
    df[col] = pd.NA  # O usa otro valor predeterminado si es necesario


df['id'] = df.index
df['is_active'] = True
df['created_by']=1
df['updated_by']=1
df['created_at']=pd.Timestamp.now()
df['updated_at']=pd.Timestamp.now()
#Las columnas adicionales deberán ser colocados en este apartado

# Obtener el nombre de la secuencia asociada a la columna 'id' en la tabla 'plans_test'
with engine.connect() as connection:
    result = connection.execute(text(f"""
        SELECT pg_get_serial_sequence('{tabla}', '{columna}');
    """))
    id_secuencia = result.scalar()  # Obtener el nombre de la secuencia

# Eliminar todos los registros de la tabla
with engine.connect() as connection:
    connection.execute(text(f"DELETE FROM {tabla};"))
    connection.commit()
    
# Insertar nuevos datos con pandas to_sql
df.to_sql(tabla, engine, if_exists='replace', index=False)

# Obtener el valor máximo de la columna 'id'
with engine.connect() as connection:
    result = connection.execute(text(f"SELECT MAX(id) FROM {tabla};"))
    max_id = result.scalar() or 0  # Si no hay registros, usar 0

# Reiniciar el valor de la secuencia
with engine.connect() as connection:
    connection.execute(text(f"ALTER SEQUENCE {id_secuencia} RESTART WITH {max_id + 1};"))

IntegrityError: (psycopg2.errors.ForeignKeyViolation) update o delete en «specialties» viola la llave foránea «activities_fk_specialty_fkey» en la tabla «activities»
DETAIL:  La llave (id)=(1) todavía es referida desde la tabla «activities».

[SQL: DELETE FROM specialties;]
(Background on this error at: https://sqlalche.me/e/20/gkpj)

In [None]:

#df_plan, df_action, df_speciality, filtered_data = gs1.process_data(filename=filename,valores=valores,regimen=regimen)      
######################    

#####################


with pd.ExcelWriter("output/"+salida.value) as writer:
    df_action.to_excel(writer, sheet_name='actions')
    df_plan.to_excel(writer, sheet_name='plans')
    df_speciality.to_excel(writer, sheet_name='specialties')
    filtered_data.to_excel(writer, sheet_name='activities')

# gs1.save_to_excel(output_path=salida.value,valores=valores,regimen=regimen,filename="mix_plan.csv")        


In [117]:
df_action

['OPERATIVA',
 'MECANICO',
 'ELECTROMECANICO',
 'ELECTRICO',
 'BASADA EN CONDICION',
 'HIDRAULICO',
 'REPARACIONES MAYORES',
 'ELECTRONICO']