In [19]:
import pandas as pd
import requests
import sqlalchemy
import sqlite3


class GoogleSheetProcessor:
    def __init__(self, sheet_url1: str):
        self.sheet_url1 = sheet_url1
        self.spreadsheet_id = self.extract_spreadsheet_id(sheet_url1)
        self.sheet_id = self.extract_sheet_id(sheet_url1)
        self.csv_export_url = self.construct_csv_export_url()

    def extract_spreadsheet_id(self, url: str):
        return url.split('/d/')[1].split('/')[0]

    def extract_sheet_id(self, url: str):
        return url.split('gid=')[1]

    def construct_csv_export_url(self):
        return f"https://docs.google.com/spreadsheets/d/{self.spreadsheet_id}/export?format=csv&gid={self.sheet_id}"

    def download_csv(self, output_filename: str = 'temp_sheet.csv'):
        # Descarga el archivo CSV y lo guarda temporalmente
        response = requests.get(self.csv_export_url)
        response.raise_for_status()  # Asegurarse de que la solicitud fue exitosa
        with open(output_filename, 'wb') as f:
            f.write(response.content)
        return pd.read_csv(output_filename)

    def validate_no_duplicate_columns(self, df: pd.DataFrame):
        # Validar si existen columnas duplicadas en el DataFrame
        duplicate_columns = df.columns[df.columns.duplicated()]
        if not duplicate_columns.empty:
            raise ValueError(
                f"Columnas duplicadas encontradas: {duplicate_columns.tolist()}")

    def convertir_booleano_amef(self, df: pd.DataFrame, ini: int, end: int):
        """
        Convierte a tipo booleano las columnas en el rango dado, si no son ya booleanas.

        Parámetros:
        - df: DataFrame en el que se realizará la conversión.
        - ini: Índice de la columna inicial.
        - end: Índice de la columna final.

        Retorna:
        - DataFrame con las columnas convertidas a booleano.
        """
        # Iterar sobre las columnas en el rango especificado
        for col in df.columns[ini + 1:end]:
            # Verificar si la columna no es de tipo booleano
            if df[col].dtype != bool:
                # Convertir la columna a booleano
                df[col] = df[col].map(lambda x: True if str(
                    x).upper() == 'TRUE' else False)

        return df

    def load_data_from_postgres(
            self,
            db_url: str = 'postgresql://postgres:postgres@localhost/simyo',
            query: str = """
                SELECT
                    base."id",
                    "structure".tag,
                    locations.location_code,
                    "plans"."name",
                    base.fk_plan
                FROM
                    base
                    INNER JOIN
                    locations
                    ON
                        base.fk_location = locations."id"
                    INNER JOIN
                    "structure"
                    ON
                        base.fk_structure = "structure"."id"
                    LEFT JOIN
                    "plans"
                    ON
                        base.fk_plan = "plans"."id"
                """):
        """
        Conecta a la base de datos PostgreSQL, ejecuta la consulta SQL y devuelve un DataFrame.

        Parámetros:
        - db_url (str): URL de la base de datos PostgreSQL.
        - query (str): Consulta SQL a ejecutar.

        Retorna:
        - DataFrame con los datos obtenidos de la consulta.
        """
        # Crear un engine de SQLAlchemy para conectarse a la base de datos
        engine = sqlalchemy.create_engine(db_url)

        # Ejecutar la consulta y cargar los resultados en un DataFrame
        df = pd.read_sql_query(query, engine)

        # Establecer la columna 'id' como índice del DataFrame
        df.index = df['id'].values

        return df

    def process_dataframe(self, df: pd.DataFrame, columns_to_remove: list):

        # Si existen columnas con nombres duplicados, arrojar un error de columnas duplicadas
        if df.columns.duplicated().any():
            assert False, "Hay columnas duplicadas en el DataFrame df1"
        # Eliminar columnas innecesarias
        df = df.drop(columns=columns_to_remove, errors='ignore')

        # Eliminar filas donde 'TIPO' tenga valores 'Sistema' o 'Subsistema'
        df = df[~df['Tipo_equipo'].isin(['Sistema', 'Subsistema'])] # 

        # Filtrar filas donde la columna 'Plan' no sea nula
        df = df[df['Plan'].notna()]

        return df

    def create_output_dataframe(self, df: pd.DataFrame):
        # Crear un DataFrame de salida con columnas específicas
        # Iterar sobre las filas del dataframe
        df_salida = pd.DataFrame()
        for index, row in df.iterrows():
            # Buscar el índice de la columna 'AMEF'
            try:
                amef_index = df.columns.get_loc('AMEF')
            except KeyError:
                continue

            # Iterar a partir de la columna siguiente a 'AMEF'
            for col in df.columns[amef_index + 1:]:
                # print(col)
                if row[col] == True:  # Si el valor es True
                    # Adicionar una nueva fila al dataframe de salida
                    new_row = pd.DataFrame({
                        'tag': [row['Tag']],
                        'location_code': [col],
                        'plan': [row['Plan']]
                    })
                    df_salida = pd.concat(
                        [df_salida, new_row], ignore_index=True)
        return df_salida

    def load_data_from_db(self, query: str, db_path: str):
        # Cargar datos desde una base de datos SQLite
        conn = sqlite3.connect(db_path)
        df_db = pd.read_sql_query(query, conn)
        conn.close()
        return df_db

    def read_csv(self, filename="temp_sheet.csv", column_row=None, row_ini=None):
        # Lee el archivo CSV usando pandas
        # df = pd.DataFrame()
        df = pd.read_csv(filename, header=column_row,
                         skiprows=None, skipfooter=0)
        if column_row and row_ini is None:
            return df
        else:
            df.columns = df.loc[column_row, :].to_list()  # la fila 2 como fila
            df = df.loc[row_ini:, :]   # Obtener desde la fila 4 en adelante
            return df

    def merge_dataframes(self, df1: pd.DataFrame, df2: pd.DataFrame, on_columns: list):
        # Realizar el merge de dos DataFrames
        return pd.merge(df1, df2, on=on_columns, how='left', suffixes=('_left', '_right'))

    def process(
            self,
            df_input,
            columns_to_remove: list = ['RO', 'AM', 'AZ', 'MO', 'VE', 'BL', 'NA', 'CE', 'CA', 'PL']):
        # Método principal que engloba toda la lógica
        # df = self.download_csv()  # Descarga y carga del CSV
        # df = self.read_csv(filename=filename_input,column_row=2,row_ini=4)
        # print(filename_input)
        # df = pd.read_csv(filename_input)

        # self.validate_no_duplicate_columns(df)  # Validar columnas duplicadas
        # Método principal que engloba toda la lógica
        df = self.process_dataframe(
            df_input, columns_to_remove)  # Procesar el DataFrame
        amef_index = df.columns.get_loc('AMEF')
        end = len(df.columns)
        df = self.convertir_booleano_amef(df, amef_index, end)
        # Crear DataFrame de salida
        df_output = self.create_output_dataframe(df)

        cantidad_activos = df.iloc[:, amef_index + 1:].sum().sum()
        print(f"Existen {cantidad_activos} activos en la hoja de datos")
        if len(df_output) != cantidad_activos:
            assert False, "La cantidad de activos no corresponde con la salida"
        
        # Cargar datos desde la base de datos
        df_db = self.load_data_from_postgres()  
        # Merge de DataFrames
        df_result = self.merge_dataframes(df_output, df_db, ['tag', 'location_code'])  

        return df_output, df_db, df_result

In [6]:
''' ## Script 2
# https://ipywidgets.readthedocs.io/en/latest/examples/Widget%20List.html
import warnings
import pandas as pd
import ipywidgets as widgets
from ipywidgets import Button, Layout
from IPython.display import display

#warnings.simplefilter(action='ignore', category=FutureWarning)

lad = widgets.Textarea(value='https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1115106678#gid=1115106678',placeholder='Plan Maestro LAD',description='Lineas Alta Demanda:',disabled=False,layout=Layout(width='70%',height="200px"))
lbd = widgets.Textarea(value='https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1115106678#gid=1115106678',placeholder='Plan Maestro LBD',description='Lineas Baja Demanda:',disabled=False,layout=Layout(width='70%',height="200px"))
host = widgets.Text(value='192.168.100.50',placeholder='Host',description='Host:',disabled=False)
basedatos = widgets.Text(value='simyo2',placeholder='BaseDatos',description='BaseDatos',disabled=False)
usuario = widgets.Text(value='mantto',description='Usuario')
password = widgets.Password(value='Sistemas0',description='Password')
button1 = widgets.Button(description="Generar Archivo Excel",button_style='success',layout=Layout(width='20%'))
button2 = widgets.Button(description="Cargar en Base de datos",button_style='danger',layout=Layout(width='20%'))
output = widgets.Output()
salida = widgets.Text(value="output/Salida_Planes.xlsx",description="Nombre:",disabled=False)
accordion = widgets.Accordion(children=[ salida], titles=(['Archivo Salida']))
accordion1 = widgets.Accordion(children=[ usuario,password,host,basedatos], titles=('Usuario','Password','Host','Base de Datos'))

display(lad,lbd,host,usuario,password,accordion,button1, accordion1,button2,output)

def on_button_clicked(b):    
    # Combinacion de dataframes
    gs1 = GoogleSheetProcessor(lad.value) # ("https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1115106678#gid=1115106678")
    archivo = "input/pad_planes.csv"
    #gs1.download_csv(archivo)
    df1 = pd.read_csv(archivo,header=3,true_values=['True','TRUE'],false_values=['False',"FALSE",""])


    gs2 = GoogleSheetProcessor (lbd.value) #("https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1115106678#gid=1115106678")
    archivo = "input/pbd_planes.csv"
    #gs2.download_csv(archivo)
    df2 = pd.read_csv(archivo,header=3,true_values=['True','TRUE'],false_values=['False',"FALSE",""])

    df_merged = pd.concat([df1,df2],ignore_index=True).reset_index(drop=True)
    filename = "input/mix_planes.csv"
    df_merged.to_csv(filename,sep=';')

    df_output, df_db, df_result=gs1.process(df_merged)
    df_result.to_excel(salida.value)
    
    # gs1.save_to_excel(output_path=salida.value,valores=valores,regimen=regimen,filename="mix_plan.csv")        
    with output:
        print(f"Se Genera archivo excel {salida.value}")

button1.on_click(on_button_clicked)
button2.on_click(lambda _: print("Boton 2 accionado"))
#https://ipywidgets.readthedocs.io/en/7.6.3/examples/Widget%20Styling.html
## Script 2 '''



In [14]:
descargar = False
url_alta_demanda ="https://docs.google.com/spreadsheets/d/1oUHkuKpHtuhMirNW6SvAQ4A0ns5PZs71iZ_WFXZHNn8/edit?gid=1115106678#gid=1115106678"
archivo_ad = "input/pad.csv"
url_baja_demanda = "https://docs.google.com/spreadsheets/d/1yOaSeqRBr1FW6tvFMi_Y-s4011cKBoyiWU5dTMlujrU/edit?gid=1115106678#gid=1115106678"
archivo_bd = "input/pbd.csv"

In [20]:
# Combinacion de dataframes
gs1 = GoogleSheetProcessor(url_baja_demanda)
if descargar : gs1.download_csv(archivo_ad)
df1 = pd.read_csv(archivo_ad,header=3,true_values=['True','TRUE'],false_values=['False',"FALSE",""])

In [21]:
gs2 = GoogleSheetProcessor (url_baja_demanda)

if descargar: gs2.download_csv(archivo_bd)
df2 = pd.read_csv(archivo_bd,header=3,true_values=['True','TRUE'],false_values=['False',"FALSE",""])


In [23]:
df_merged = pd.concat([df1,df2],ignore_index=True).reset_index(drop=True)
filename = "input/mix_planes.csv"
df_merged.to_csv(filename,sep=';')  # Exportar archivo mezclado

In [24]:
df_output, df_db, df_result=gs1.process(df_merged)

Existen 12815 activos en la hoja de datos


In [26]:
df_db

Unnamed: 0,id,tag,location_code,name,fk_plan
1,1,ACC-PRI-MEPA,RO-S2-M1,,
2,2,ACC-PRI-MEPA,RO-S1-M1,,
3,3,ACC-PRI-MEPA,AM-S1-M1,,
4,4,ACC-PRI-MEPA,AM-S2-M1,,
5,5,ACC-PRI-MEPA,VE-S2-M1,,
...,...,...,...,...,...
20307,20307,LIN-VEH-V176-CELF2,BL-LIN-VH-V176,,
20135,20135,LIN-VEH-V148-CBN,BL-LIN-VH-V148,,
20133,20133,LIN-VEH-V148-SUS,BL-LIN-VH-V148,,
20308,20308,SUM-GEED-GEE-GENE,BL-S1-M1-GSA,,


In [5]:

import sqlalchemy
import pandas as pd
def get_data_from_dataframe(            
            query = "select * from classifiers",
            db_url: str = 'postgresql://postgres:postgres@localhost/simyo3',
            ):
        """
        Conecta a la base de datos PostgreSQL, ejecuta la consulta SQL y devuelve un DataFrame.

        Parámetros:
        - db_url (str): URL de la base de datos PostgreSQL.
        - query (str): Consulta SQL a ejecutar.

        Retorna:
        - DataFrame con los datos obtenidos de la consulta.
        """
        # Crear un engine de SQLAlchemy para conectarse a la base de datos
        engine = sqlalchemy.create_engine(db_url)

        # Ejecutar la consulta y cargar los resultados en un DataFrame
        df = pd.read_sql_query(query, engine)

        # Establecer la columna 'id' como índice del DataFrame
        df.index = df['id'].values

        return df
df = get_data_from_dataframe()
df

Unnamed: 0,id,fk_classifiers_type,name,description,grup_1,notEnabled,is_active,created_by,updated_by,deleted_by,created_at,updated_at,deleted_at
5,5,3,ACORDE A LA DISPONIBILIDAD,ACORDE A LA DISPONIBILIDAD,1,,False,1,1.0,1.0,2022-05-30 16:05:18.891000+00:00,2022-05-30 16:05:18.891000+00:00,2022-07-18 14:05:18.891000+00:00
17,17,5,ELECTRICO,ELECTRICO,1,,True,1,1.0,,2022-05-30 16:05:18.891000+00:00,2022-05-30 16:05:18.891000+00:00,NaT
18,18,5,MECANICO,MECANICO,1,,True,1,1.0,,2022-05-30 16:05:18.891000+00:00,2022-05-30 16:05:18.891000+00:00,NaT
19,19,5,HIDRAULICO,HIDRAULICO,1,,True,1,1.0,,2022-05-30 16:05:18.891000+00:00,2022-05-30 16:05:18.891000+00:00,NaT
20,20,6,Nivel 1 - Industria,INDUSTRIA. (Empresa de transporte por cable Mi...,1,True,True,1,1.0,,2022-05-30 16:05:18.891000+00:00,2022-05-30 16:05:18.891000+00:00,NaT
...,...,...,...,...,...,...,...,...,...,...,...,...,...
164,164,30,LECTURAS,REGIMEN POR LECTURAS,1,,True,1,1.0,,2023-10-18 22:29:51.035370+00:00,2023-10-18 22:29:51.035370+00:00,NaT
165,165,30,FECHAS/LECTURAS,REGIMEN POR FECHAS Y LECTURAS,1,,True,1,1.0,,2023-10-18 22:29:51.035370+00:00,2023-10-18 22:29:51.035370+00:00,NaT
166,166,31,ACTIVIDAD,ACTIVIDAD,1,,True,1,1.0,,2023-10-19 14:01:31.707049+00:00,2023-10-19 14:01:31.707049+00:00,NaT
167,167,31,TAREA,TAREA,1,,True,1,1.0,,2023-10-19 14:01:31.707049+00:00,2023-10-19 14:01:31.707049+00:00,NaT


In [None]:
from sqlalchemy import create_engine, text
import pandas as pd

# Crear la conexión con la base de datos usando SQLAlchemy
engine = create_engine('postgresql+psycopg2://tu_usuario:tu_password@tu_host:tu_puerto/tu_db')

# Nombre de la tabla y secuencia
table_name = 'nombre_de_tu_tabla'
sequence_name = f'{table_name}_id_seq'

# Paso 1: Conectar a la base de datos
with engine.connect() as connection:

    # Paso 2: Eliminar los datos existentes en la tabla (truncate)
    connection.execute(text(f"TRUNCATE TABLE {table_name} RESTART IDENTITY"))

    # Nota: RESTART IDENTITY elimina los datos y reinicia automáticamente la secuencia para los campos seriales,
    # lo cual es más sencillo que manejar el 'ALTER SEQUENCE' manualmente.

    # Paso 3: Crear un DataFrame con los datos a insertar
    df = pd.DataFrame({
        'columna1': ['valor1', 'valor2'],
        'columna2': ['valor3', 'valor4']
    })

    # Paso 4: Insertar los nuevos datos en la tabla
    df.to_sql(table_name, engine, if_exists='append', index=False)

# Cerramos la conexión y terminamos la operación


In [None]:
# Añadir df_plan

id = 'plans_id_seq'

In [None]:

import psycopg2

# Paso 1: Conectar a la base de datos PostgreSQL
try:
    conn = psycopg2.connect(
        dbname='db_name',       # Reemplaza con el nombre de tu base de datos
        user='user',            # Reemplaza con el usuario de la base de datos
        password='password',    # Reemplaza con la contraseña del usuario
        host='localhost',       # Reemplaza si tu base de datos está en otro servidor
        port='5432'             # Reemplaza si usas otro puerto, el puerto por defecto es 5432
    )
    
    import psycopg2

    # Conexión a la base de datos
    conn = psycopg2.connect("dbname='db_name' user='user' password='password' host='localhost' port='5432'")
    cursor = conn.cursor()

    # Ejecución de la consulta para reiniciar la secuencia
    cursor.execute("ALTER SEQUENCE table_name_id_seq RESTART WITH new_value;")

    # Confirmar los cambios
    conn.commit()

    # Cerrar conexión
    cursor.close()
    conn.close()
    
    print("Conexión a la base de datos establecida con éxito")    
    
except Exception as e:
    print(f"Error al conectar a la base de datos: {e}")

# Paso 2: Crear un cursor para ejecutar consultas
cursor = conn.cursor()

# Especificar el nombre de la secuencia y el nuevo valor
sequence_name = 'table_name_id_seq'  # Reemplaza con el nombre de tu secuencia
new_value = 100  # El valor desde el que quieres que se reinicie la secuencia

# Ejecutar la consulta SQL
try:
    cursor.execute(f"ALTER SEQUENCE {sequence_name} RESTART WITH {new_value};")
    print(f"La secuencia {sequence_name} fue reiniciada con éxito a {new_value}")
except Exception as e:
    print(f"Error al ejecutar la consulta SQL: {e}")


# Insertar el DataFrame en la tabla, asegurando que si existen conflictos de columnas, las reemplace
df.to_sql('table_name', con=engine, if_exists='append', index=False)