In [1]:
#!pip install -U openpyxl

In [2]:
import os
import re
import pandas as pd
import numpy as np
from datetime import date, datetime
from openpyxl import load_workbook
import warnings
warnings.filterwarnings('ignore')

In [3]:
dh_inicio = datetime.today()

### CARGA DOS ARQUIVOS DOS CICLOS

In [5]:
# Caminho da pasta dos arquivos
caminho_pasta = r"C:\Users\MGI\OneDrive - mtegovbr\COMAT\BASE\CICLOS-1-2-3-4"

# Lista os arquivos da pasta
arquivos = os.listdir(caminho_pasta)

# Filtra apenas arquivos (ignora subpastas)
arquivos = [f for f in arquivos if os.path.isfile(os.path.join(caminho_pasta, f))]

# Cria um DataFrame com os nomes
df = pd.DataFrame(arquivos, columns=["nome_arquivo"])

# Salva em Excel
#df.to_excel(r"C:\Users\MGI\Documents\COMAT\REFERENCIAS\CICLOS-1-2-3\CICLO_1_2_3_arquivos.xlsx", index=False)

print("Lista de arquivos salva com sucesso!")

Lista de arquivos salva com sucesso!


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 835 entries, 0 to 834
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   nome_arquivo  835 non-null    object
dtypes: object(1)
memory usage: 6.7+ KB


## FORM2_2-Estrutura_CONSOLIDADO

In [8]:
# Lista para armazenar os DataFrames da aba FORM2.2
dados_form2_2 = []

for arquivo in arquivos:
    caminho_arquivo = os.path.join(caminho_pasta, arquivo)
    try:
        # L√™ a c√©lula E6 da planilha FORM2.2 usando openpyxl
        wb = load_workbook(caminho_arquivo, data_only=True)
        ws = wb['FORM2.2']
        nivel_controle = ws['E6'].value
        desc_controle  = ws['B8'].value
        ciclo_entrega = arquivo[:2]

        # L√™ os dados a partir da 10¬™ linha (header=9)
        df = pd.read_excel(caminho_arquivo, sheet_name='FORM2.2', header=9)
        df = df.iloc[:18]   # apenas linhas de 0 a 18
      # Renomeia as colunas com base nas posi√ß√µes
        novos_nomes = {
            df.columns[1]: 'ID',
            df.columns[2]: 'MEDIDA',
            df.columns[3]: 'DESCRI√á√ÉO DA MEDIDA',
            df.columns[4]: 'RESPOSTA DAS MEDIDAS',
        }
        df.rename(columns=novos_nomes, inplace=True)
        
        df['ID'] = df['ID'].apply(lambda x: str(x) if pd.notnull(x) else x)             
        
        # Adiciona colunas auxiliares
        df['Nome da Origem.2'] = arquivo
        df['Nome da Origem.1'] = df['Nome da Origem.2'].str.extract(r'-(.*?)-')
        df['NIVEL_CONTROLE'] = nivel_controle
        #df['DESCRI√á√ÉO_CONTROLE'] = desc_controle
        df['Ciclo_Entrega'] = ciclo_entrega        
        
        # Seleciona as colunas desejadas
        colunas = [
            'ID', 'MEDIDA', 'DESCRI√á√ÉO DA MEDIDA', 'RESPOSTA DAS MEDIDAS', 'NIVEL_CONTROLE', 'Nome da Origem.1',
            'Nome da Origem.2','Ciclo_Entrega'
            ]
        df = df[colunas]

       
        
        # Adiciona ao consolidado
        dados_form2_2.append(df)
        #print(f"‚úÖ Leitura conclu√≠da com sucesso: {arquivo}")
    except Exception as e:
        print(f"‚ùå Erro ao ler 'FORM2.2' em {arquivo}: {e}")

# Consolida tudo em um √∫nico DataFrame
df_form2_2 = pd.concat(dados_form2_2, ignore_index=True)


# Resumo da execu√ß√£o

total_arquivos_consolidados = df_form2_2['Nome da Origem.2'].nunique()
total_arquivos = len(arquivos)
sucesso = len(dados_form2_2)
erros = total_arquivos - sucesso

print("\nüìä Resumo da execu√ß√£o:")
print(f"üóÇÔ∏è Total de arquivos considerados: {total_arquivos}")
print(f"‚úÖ Arquivos lidos com sucesso: {sucesso}")
print(f"‚ùå Arquivos com erro: {erros}")
 
print(f"üì¶ Total de arquivos √∫nicos no consolidado (Nome da Origem.2): {total_arquivos_consolidados}")

print("‚úÖ ‚úÖ Consolida√ß√£o conclu√≠da com sucesso!")


üìä Resumo da execu√ß√£o:
üóÇÔ∏è Total de arquivos considerados: 835
‚úÖ Arquivos lidos com sucesso: 835
‚ùå Arquivos com erro: 0
üì¶ Total de arquivos √∫nicos no consolidado (Nome da Origem.2): 835
‚úÖ ‚úÖ Consolida√ß√£o conclu√≠da com sucesso!


In [9]:
colunas1 = [
            'ID', 'MEDIDA', 'DESCRI√á√ÉO DA MEDIDA', 'RESPOSTA DAS MEDIDAS', 'NIVEL_CONTROLE', 'Nome da Origem.1',
            'Nome da Origem.2','Ciclo_Entrega'
            ]
df = df_form2_2
for col in colunas1:
    if col in df.columns:
        vazios = df[col].isnull().sum() + (df[col].astype(str).str.strip() == '').sum()
        print(f"{col}: {vazios} vazios")
    else:
        print(f"Coluna '{col}' n√£o encontrada")

ID: 836 vazios
MEDIDA: 836 vazios
DESCRI√á√ÉO DA MEDIDA: 836 vazios
RESPOSTA DAS MEDIDAS: 839 vazios
NIVEL_CONTROLE: 16 vazios
Nome da Origem.1: 0 vazios
Nome da Origem.2: 0 vazios
Ciclo_Entrega: 0 vazios


In [10]:
df_form2_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6681 entries, 0 to 6680
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ID                    5846 non-null   object
 1   MEDIDA                5845 non-null   object
 2   DESCRI√á√ÉO DA MEDIDA   5845 non-null   object
 3   RESPOSTA DAS MEDIDAS  5842 non-null   object
 4   NIVEL_CONTROLE        6665 non-null   object
 5   Nome da Origem.1      6681 non-null   object
 6   Nome da Origem.2      6681 non-null   object
 7   Ciclo_Entrega         6681 non-null   object
dtypes: object(8)
memory usage: 417.7+ KB


In [11]:
df_form2_2 = df_form2_2.dropna()
df_form2_2 = df_form2_2[df_form2_2['ID'].notna()]
df_form2_2 = df_form2_2.reset_index(drop=True)

In [12]:
# Fun√ß√£o para extrair o n√∫mero do ciclo (C1 ‚Üí 1, C4 ‚Üí 4)
#def extrair_numero_ciclo(ciclo):
#    match = re.search(r'C(\d+)', str(ciclo))
#    return int(match.group(1)) if match else None

# Aplica a extra√ß√£o no DataFrame consolidado
#df_form2_2['numero_ciclo'] = df_form2_2['maior_ciclo'].apply(extrair_numero_ciclo)

# Agrupa por √≥rg√£o (ajuste o nome da coluna conforme seu caso real)
#df_maior_ciclo_por_orgao = df_form2_2.loc[
#    df_form2_2.groupby('Nome da Origem.1')['numero_ciclo'].idxmax()
#][['Nome da Origem.1', 'maior_ciclo']].rename(columns={'maior_ciclo': 'maior_ciclo_por_orgao'})

# Junta de volta ao DataFrame consolidado, se quiser
#df_form2_2 = df_form2_2.merge(df_maior_ciclo_por_orgao, on='Nome da Origem.1', how='left')


In [13]:
#df_form2_2.rename(columns={'maior_ciclo_por_orgao': 'Ciclo de Entrega2'}, inplace=True)
#df_form2_2['Mais_Recente'] = np.where(df_form2_2['Ciclo de Entrega'] == df_form2_2['Ciclo de Entrega2'], 'Sim', 'N√£o')
#df_form2_2['Mais_Recente_2'] = df_form2_2['Ciclo de Entrega'].astype(str) + df_form2_2['Ciclo de Entrega2'].astype(str)
#df_form2_2.drop(columns=['maior_ciclo', 'ciclo_num', 'numero_ciclo'], inplace=True)

In [14]:
df_form2_2.head()

Unnamed: 0,ID,MEDIDA,DESCRI√á√ÉO DA MEDIDA,RESPOSTA DAS MEDIDAS,NIVEL_CONTROLE,Nome da Origem.1,Nome da Origem.2,Ciclo_Entrega
0,0.1,O √≥rg√£o nomeou uma autoridade m√°xima de Tecnol...,A autoridade m√°xima de Tecnologia da Informa√ß√£...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1
1,0.2,O √≥rg√£o nomeou um Gestor de Seguran√ßa da Infor...,O Gestor de Seguran√ßa da Informa√ß√£o √© respons√°...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1
2,0.3,O √≥rg√£o nomeou um respons√°vel pela unidade de ...,O respons√°vel pela unidade de controle interno...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1
3,0.4,O √≥rg√£o instituiu um Comit√™ de Seguran√ßa da In...,Instituir um Comit√™ de Seguran√ßa da Informa√ß√£o...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1
4,0.5,O √≥rg√£o instituiu uma Equipe de Tratamento e R...,Instituir e implementar Equipe de Tratamento e...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1


In [15]:
df_form2_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5828 entries, 0 to 5827
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ID                    5828 non-null   object
 1   MEDIDA                5828 non-null   object
 2   DESCRI√á√ÉO DA MEDIDA   5828 non-null   object
 3   RESPOSTA DAS MEDIDAS  5828 non-null   object
 4   NIVEL_CONTROLE        5828 non-null   object
 5   Nome da Origem.1      5828 non-null   object
 6   Nome da Origem.2      5828 non-null   object
 7   Ciclo_Entrega         5828 non-null   object
dtypes: object(8)
memory usage: 364.4+ KB


In [16]:
# Garante a ordem dos ciclos
#df_form2_2['Ciclo de Entrega'] = pd.Categorical(
#    df_form2_2['Ciclo de Entrega'], 
#    categories=['C1', 'C2', 'C3', 'C4'], 
#    ordered=True
#)

In [17]:
#ciclos = ['C1', 'C2', 'C3', 'C4']

In [18]:
# Etapa 1: ordena os ciclos corretamente
#ciclos_ordenados = sorted(
#    df_form2_2['Ciclo de Entrega'].dropna().unique(), 
#    key=lambda x: int(x[1:]) if str(x)[1:].isdigit() else 0
#)

#df_resultado = pd.DataFrame()

# Etapa 2: itera sobre cada ciclo de entrega
#for i, ciclo in enumerate(ciclos_ordenados):
    # Ciclos v√°lidos at√© o atual
#    ciclos_ate_ciclo = ciclos_ordenados[:i+1]

    # Filtra linhas at√© o ciclo atual e que s√£o marcadas como mais recentes
#    df_filtrado = df_form2_2[
#        (df_form2_2['Ciclo de Entrega'].isin(ciclos_ate_ciclo)) &
#        (df_form2_2['Mais_Recente'] == 'Sim')
#    ].copy()

    # Adiciona o contexto do ciclo
#    df_filtrado['Ciclo_Contexto'] = ciclo

    # Concatena ao resultado
#    df_resultado = pd.concat([df_resultado, df_filtrado], ignore_index=True)

# Etapa 3: Exporta para Excel sem tipos problem√°ticos
# Remove colunas que possam gerar erro no Excel (ex: listas, objetos complexos)
#for col in df_resultado.columns:
#    if df_resultado[col].apply(lambda x: isinstance(x, (list, dict))).any():
#        df_resultado[col] = df_resultado[col].astype(str)

# Salvar para Excel (opcional)
# df_resultado.to_excel("resultado_ciclos.xlsx", index=False)

# Exibe algumas linhas como verifica√ß√£o
#df_resultado.head()

In [19]:
df_consolidado = df_form2_2

In [20]:
df_consolidado['Ciclo_Entrega'] = df_consolidado['Ciclo_Entrega'].astype(str).str.strip().str.upper()

# Filtrar somente ciclos v√°lidos que seguem o padr√£o "C" seguido de n√∫mero
ciclos_ordenados = sorted(
    [c for c in df_consolidado['Ciclo_Entrega'].unique() if c.startswith('C') and c[1:].isdigit()],
    key=lambda x: int(x[1:])
)

df_resultado = pd.DataFrame()
chave = ['Nome da Origem.1', 'ID']

for i, ciclo in enumerate(ciclos_ordenados):
    ciclos_ate_agora = ciclos_ordenados[:i+1]

    df_filtrado = df_consolidado[df_consolidado['Ciclo_Entrega'].isin(ciclos_ate_agora)].copy()

    # Mapeia a ordem dos ciclos dinamicamente
    ordem_map = {c: idx for idx, c in enumerate(ciclos_ate_agora)}
    df_filtrado['ordem_ciclo'] = df_filtrado['Ciclo_Entrega'].map(ordem_map)

    # Ordena para pegar o mais recente por grupo
    df_filtrado = (
        df_filtrado
        .sort_values(chave + ['ordem_ciclo'], ascending=[True]*len(chave) + [False])
        .drop_duplicates(subset=chave, keep='first')
    )

    df_filtrado['Ciclo_Contexto'] = ciclo
    df_resultado = pd.concat([df_resultado, df_filtrado.drop(columns='ordem_ciclo')], ignore_index=True)



In [21]:
df_resultado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7102 entries, 0 to 7101
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ID                    7102 non-null   object
 1   MEDIDA                7102 non-null   object
 2   DESCRI√á√ÉO DA MEDIDA   7102 non-null   object
 3   RESPOSTA DAS MEDIDAS  7102 non-null   object
 4   NIVEL_CONTROLE        7102 non-null   object
 5   Nome da Origem.1      7102 non-null   object
 6   Nome da Origem.2      7102 non-null   object
 7   Ciclo_Entrega         7102 non-null   object
 8   Ciclo_Contexto        7102 non-null   object
dtypes: object(9)
memory usage: 499.5+ KB


In [22]:
df_resultado.head()

Unnamed: 0,ID,MEDIDA,DESCRI√á√ÉO DA MEDIDA,RESPOSTA DAS MEDIDAS,NIVEL_CONTROLE,Nome da Origem.1,Nome da Origem.2,Ciclo_Entrega,Ciclo_Contexto
0,0.1,O √≥rg√£o nomeou uma autoridade m√°xima de Tecnol...,A autoridade m√°xima de Tecnologia da Informa√ß√£...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1,C1
1,0.2,O √≥rg√£o nomeou um Gestor de Seguran√ßa da Infor...,O Gestor de Seguran√ßa da Informa√ß√£o √© respons√°...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1,C1
2,0.3,O √≥rg√£o nomeou um respons√°vel pela unidade de ...,O respons√°vel pela unidade de controle interno...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1,C1
3,0.4,O √≥rg√£o instituiu um Comit√™ de Seguran√ßa da In...,Instituir um Comit√™ de Seguran√ßa da Informa√ß√£o...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1,C1
4,0.5,O √≥rg√£o instituiu uma Equipe de Tratamento e R...,Instituir e implementar Equipe de Tratamento e...,Sim,5,ABIN,C1-ABIN-Ferramenta_frameworkpsi_pt-3-basica-se...,C1,C1


In [23]:
# Substitui "C1" por "Ciclo 1", "C2" por "Ciclo 2", etc.
df_form2_2['Ciclo_Entrega'] = df_form2_2['Ciclo_Entrega'].str.extract(r'(\d+)')[0].astype(int).apply(lambda x: f'Ciclo {x}')

In [24]:
# Salva em Excel
df_form2_2.to_excel(r"C:\Users\MGI\OneDrive - mtegovbr\COMAT\FONTE_PAINEL\FORM2_2-Estrutura_C.xlsx", sheet_name = "FORM2_2-Estrutura_C", index=False)

In [25]:
# Substitui "C1" por "Ciclo 1", "C2" por "Ciclo 2", etc.
df_resultado['Ciclo_Entrega'] = df_resultado['Ciclo_Entrega'].str.extract(r'(\d+)')[0].astype(int).apply(lambda x: f'Ciclo {x}')
df_resultado['Ciclo_Contexto'] = df_resultado['Ciclo_Contexto'].str.extract(r'(\d+)')[0].astype(int).apply(lambda x: f'Ciclo {x}')

In [26]:
## 1. Converte colunas num√©ricas com v√≠rgula decimal
#for col in df_resultado.select_dtypes(include=['float', 'int']).columns:
#    df_resultado[col] = df_resultado[col].map(lambda x: f"{x:,.2f}".replace('.', ',') if pd.notnull(x) else x)

In [27]:
# Salva em Excel
df_resultado.to_excel(r"C:\Users\MGI\OneDrive - mtegovbr\COMAT\FONTE_PAINEL\FORM2_2-Estrutura_Recente.xlsx", sheet_name = "FORM2_2-Estrutura_Recente", index=False)

In [28]:
# Salvando o DataFrame em CSV com o separador correto e garantindo que o ID seja tratado como texto
#df_resultado.to_csv(r"C:\Users\MGI\OneDrive - mtegovbr\COMAT\FONTE_PAINEL\FORM2_2-Estrutura_Recente.csv",
#    sep=';',  # Usando ponto e v√≠rgula como separador (dependendo da configura√ß√£o regional)
#    index=False,  # N√£o incluir o √≠ndice
#    encoding='utf-8-sig',  # Codifica√ß√£o para garantir compatibilidade com o Excel
#    float_format="%.2f",  # Formato de n√∫meros com 2 casas decimais
#    quotechar='"',  # Envolver os campos em aspas para garantir que os valores n√£o sejam alterados
#    quoting=1  # For√ßar o uso de aspas
#)

In [29]:
dh_termino = datetime.today()
duracao = dh_termino - dh_inicio
print(dh_inicio)
print(dh_termino)
print(duracao)

2025-05-21 09:32:06.946433
2025-05-21 09:51:00.330181
0:18:53.383748


In [30]:
colunas1 = [
            'ID', 'MEDIDA', 'DESCRI√á√ÉO DA MEDIDA', 'RESPOSTA DAS MEDIDAS', 'NIVEL_CONTROLE', 'Nome da Origem.1',
            'Nome da Origem.2','Ciclo_Entrega'
            ]
df = df_resultado
for col in colunas1:
    if col in df.columns:
        vazios = df[col].isnull().sum() + (df[col].astype(str).str.strip() == '').sum()
        print(f"{col}: {vazios} vazios")
    else:
        print(f"Coluna '{col}' n√£o encontrada")

ID: 0 vazios
MEDIDA: 0 vazios
DESCRI√á√ÉO DA MEDIDA: 0 vazios
RESPOSTA DAS MEDIDAS: 0 vazios
NIVEL_CONTROLE: 0 vazios
Nome da Origem.1: 0 vazios
Nome da Origem.2: 0 vazios
Ciclo_Entrega: 0 vazios
