# ETL - Python - OCR para Word e PDF

## Tratamento de dados vindo de ums Docx e tratando apenas uma coluna de sublistas em regex, pandas e python

In [1]:
import pandas as pd
import io

# Simulando o carregamento dos dados da imagem em um DataFrame.
# Em um cenário real, você usaria pd.read_csv() ou pd.read_excel().
dados_texto = """Linha de Transmissao
Perda Dupla
Lt 525 Kv Abdon Batista - Siderópolis 2
Lt S Lt 525 Kv Blumenau - Gaspar 2 C2 e Lt 525 Kv Biguaçu - Gaspar 2
Lt S Lt 525 Kv Blumenau - Gaspar 2 C1 e Lt 525 Kv Curitiba - Gaspar 2
Lt 525 Kv Candiota 2 Guaíba 3 C1 e C2
Lt 525 Kv Capivari Do Sul - Gravataí e Capivari do Sul - Guaíba 3
Lt S Lt 525 Kv Guaíba 3 - Nova Santa Rita C1 e Lt 525 Kv Guaíba 3 - Povo Novo C1
Lt 525 Kv Guaíra - Sarandi
Lt 525 Kv Marmeleiro 2 - Povo Novo
Lt 525 Kv Sarandi - Londrina
Lt 525 Kv Caxias Norte - Itá e Caxias Norte - Caxias C2
Lt 525 Kv Curitiba Leste - Joinville Sul C1 E Lt 525 Kv Blumenau - Joinville Sul C1
Lt 525 Kv Curitiba - Joinville Sul C1 e Lt 525 Kv Joinville Sul - Gaspar 2 C2
Lt 525 Kv Blumenau - Gaspar 2 C1 e Lt 525 Kv Curitiba - Gaspar 2
Lt 525 Kv Blumenau - Gaspar 2 C2 e LT 525 Kv Biguaçu - Gaspar 2
Lt 525 Kv Joinville Sul - Gaspar 2 C2 e Lt 525 Kv Blumenau - Gaspar 2 C2
Lt S Lt 525 Kv Guaíba 3 Povo Novo C2 e C3
Lt S Lt 525 Kv Gravataí - Capivari Do Sul e Lt 525 Kv Guaíba 3 - Capivari do Sul
Lt S Lt 525 Kv Guaíba 3 - Gravataí e Lt 525 Kv Guaíba 3 - Capivari do Sul
Lt S Lt 525 Kv Campos Novos - Caxias Norte e Lt 525 Kv Caxias Norte - Caxias C1
Lt S Lt 525 Kv Itá - Caxias Norte e Lt 525 Kv Caxias Norte - Caxias C2."""

# Convertendo o texto simulado em um DataFrame
df = pd.read_csv(io.StringIO(dados_texto), header=None, names=['Linha Original'])

# --- Ação Principal: Limpeza da Coluna ---

# Definimos o nome da coluna que queremos limpar
nome_da_coluna = 'Linha Original'

# Usamos str.replace com regex para remover 'Lt S ' ou 'LT S ' do início
# O '^' indica o início da string
df['Linha Limpa'] = df[nome_da_coluna].str.replace(r'^(Lt S |LT S )', '', regex=True)
# Opcional: remover espaços extras que possam ter sobrado no início
df['Linha Limpa'] = df['Linha Limpa'].str.lstrip()

# Exibindo o resultado para comparação
print(df[['Linha Original', 'Linha Limpa']])

# Para salvar o resultado em um novo arquivo CSV:
# df[['Linha Limpa']].to_csv('linhas_limpas.csv', index=False)


                                       Linha Original  \
0                                Linha de Transmissao   
1                                         Perda Dupla   
2             Lt 525 Kv Abdon Batista - Siderópolis 2   
3   Lt S Lt 525 Kv Blumenau - Gaspar 2 C2 e Lt 525...   
4   Lt S Lt 525 Kv Blumenau - Gaspar 2 C1 e Lt 525...   
5               Lt 525 Kv Candiota 2 Guaíba 3 C1 e C2   
6   Lt 525 Kv Capivari Do Sul - Gravataí e Capivar...   
7   Lt S Lt 525 Kv Guaíba 3 - Nova Santa Rita C1 e...   
8                          Lt 525 Kv Guaíra - Sarandi   
9                  Lt 525 Kv Marmeleiro 2 - Povo Novo   
10                       Lt 525 Kv Sarandi - Londrina   
11  Lt 525 Kv Caxias Norte - Itá e Caxias Norte - ...   
12  Lt 525 Kv Curitiba Leste - Joinville Sul C1 E ...   
13  Lt 525 Kv Curitiba - Joinville Sul C1 e Lt 525...   
14  Lt 525 Kv Blumenau - Gaspar 2 C1 e Lt 525 Kv C...   
15  Lt 525 Kv Blumenau - Gaspar 2 C2 e LT 525 Kv B...   
16  Lt 525 Kv Joinville Sul - G

## Tratamento de contigencias multiplas em perdas duplas

In [2]:
volume_7_string_table = """
    • Contingência Dupla das LT 230 kV Alegrete 2 - Livramento 2 e LT 230 kV Bagé 2 – Livramento 2 
    • Contingência Dupla das LT 230 kV Atlântida 2 - Gravataí 3 e LT 230 kV Atlântida 2 - Osório 2 
    • Contingência dupla LT 230 kV Cachoeirinha 3 – Cidade Industrial e LT 230 kV Cachoeirinha 3 – Canoas 2 
    • Contingência dupla LT 230 kV Cachoeirinha 3 – Cidade Industrial e LT 230 kV Canoas 2 – Cidade Industrial 
    • Contingência dupla LT 230 kV Cachoeirinha 3 – Gravataí 2 C1 e C2 
    • Contingência Dupla das LT 230 kV Camaquã 3 - N. Santa Rita e LT 230 kV N. Santa Rita - Porto Alegre 9 
    • Contingência Dupla das LT 230 kV Campo Bom – Caxias C1 e C2 
    • Contingência Dupla das LT 230 kV Campo Bom – Gravataí 2 C1 e C2 
    • Contingência Dupla das LT 230 kV N. Santa Rita - Candelária 2 e LT 230 kV Lajeado 2 - Nova Santa Rita 
    • Contingência Dupla das LT 230 kV N. Santa Rita - Candelária 2 e LT 230 kV Candelária 2 - UHE Itaúba 
    • Contingência Dupla das LT 230 kV Cidade Industrial - N. Santa Rita C1 e LT 230 kV Cidade Industrial - N. Santa Rita C2 
    • Contingência Dupla das LT 230 kV Cidade Industrial - N. Santa Rita C1 e LT 230 kV Cidade Industrial - Polo Petroquímico C1 
    • Contingência Dupla das LT 230 kV Cidade Industrial - N. Santa Rita C3 e LT 230 kV Cidade Industrial - Venâncio Aires 
    • Contingência Dupla das LT 230 kV Cidade Industrial - Polo Petroquímico e LT 230 kV Polo Petroquímico - N. Santa Rita 
    • Contingência Dupla das LT 230 kV Campo Bom – Gravataí 2 C1 e LT 230 kV Campo Bom – Gravataí 2 C2 
    • Contingência Dupla das LT 230 kV Caxias - Caxias 6 e LT 230 kV Caxias - Nova Petrópolis 2 
    • Contingência Dupla das LT 230 kV Caxias – Farroupilha C1 e LT 230 kV Caxias – Farroupilha C2 
    • Contingência Dupla das LT 230 kV Charqueadas 3 – Cidade Industrial e LT 230 kV Charqueadas – Scharlau 2 
    • Contingência Dupla das LT 230 kV Charqueadas 3 – Santa Cruz 1 e LT 230kV Santa Cruz 1 – UHE Itaúba 
    • Contingência Dupla das LT 230 kV Charqueadas – Scharlau 2 e LT 230 kV Farroupilha – Scharlau 2 
    • Contingência Dupla da LT 230 kV Charqueadas 3 – Cidade Industrial e LT 230 kV Cidade Industrial – Guaíba 2  
    • Contingência Dupla das LT 230 kV Canoas 1 - Porto Alegre 9 e LT 230 kV Cidade Industrial – Porto Alegre 9 
    • Contingência Dupla das LT 230 kV Cidade Industrial - Canoas 1 e LT 230 kV Cidade Industrial – Porto Alegre 9 
    • Contingência Dupla das LT 230 kV Cidade Industrial - Gravataí 2 C2 e LT 230 kV Canoas 2 - Cidade Industrial 
    • Contingência Dupla das LT 230 kV Cidade Industrial - Gravataí 2 C3 e LT 230 kV Cidade Industrial – Gravataí 2 C4 
    • Contingência Dupla das LT 230 kV Cidade Industrial - Guaíba 2 e LT 230 kV Charqueadas - Cidade Industrial 
    • Contingência Dupla das LT 230 kV UHE Dona Francisca - Santa Maria 3 C1 e LT 230 kV UHE Dona Francisca - UHE Itaúba C1 
    • Contingência Dupla das LT 230 kV Farroupilha – Scharlau 2 e LT 230 kV Farroupilha - Garibaldi 1 
    • Contingência dupla das LT 230 kV Guaíba 2 - Guaíba 3 C1 e C1 
    • Contingência Dupla das LT 230 kV Gravataí 2 - Gravataí 3 C1 e LT 230 kV Gravataí 2 - Gravataí 3 C2 
    • Contingência Dupla das LT 230 kV Gravataí 2 - Gravataí 3 C2 e LT 230 kV Gravataí 3 - Osório 2 (Ramal Fibraplac) 
    • Contingência Dupla das LT 230 kV Gravataí 2 – Porto Alegre 6 C1 e LT 230 kV Gravataí 2 – Porto Alegre 6 C2 
    • Contingência Dupla das LT 230 kV Gravataí 2 - Jardim Botânico e LT 230 kV Gravataí 2 - Viamão 3 
    • Contingência Dupla das LT 230 kV Gravataí 2 - Jardim Botânico e LT 230 kV Porto Alegre 6 – Viamão 3 
    • Contingência Dupla das LT 230 kV Gravataí 2 - Jardim Botânico e LT 230 kV Porto Alegre 4 - Porto Alegre 6 
    • Contingência Dupla das LT 230 kV Jardim Botânico - Porto Alegre 10 e LT 230 kV Porto Alegre 4 - Porto Alegre 6 
    • Contingência Dupla das LT 230 kV Lajeado 2 - N. Santa Rita e LT 230 kV Lajeado 2 - UHE Passo Real 
    • Contingência Dupla das LT 230 kV Livramento 3 – Santa Maria 3 C1 e C2 
    • Contingência Dupla das LT 230 kV Lajeado 2 - UHE Passo Real e LT 230 kV Venâncio Aires – UHE Passo Real 
    • Contingência Dupla das LT 230 kV N. Santa Rita - Scharlau 2 C1 e LT 230 kV N. Santa Rita - Scharlau 2 C2 
    • Contingência Dupla das LT 230 kV Porto Alegre 4 - Porto Alegre 6 e LT 230 kV Porto Alegre 4 - Porto Alegre 10 
    • Contingência Dupla das LT 230 kV Passo Fundo - Santa Marta e LT 230 kV Tapera 2 - Santa Marta 
    • Contingência Dupla das LT 230 kV Polo Petroquímico - UHE Itaúba e LT 230 kV N. Santa Rita - Polo Petroquímico 
    • Contingência Dupla das LT 230 kV Santa Rosa 1 - Santo Ângelo 2 e LT 230 kV Santo Ângelo - Santo Ângelo 2 
    • Contingência Dupla das LT 230 kV Tapera 2 - UHE Passo Real e LT 230 kV UHE Itaúba - UHE Passo Real 
    • Contingência Dupla das LT 230 kV Farroupilha - Caxias 5 e LT 230 kV Lajeado Grande – Caxias 5 
    • Contingência Dupla das LT 230 kV Garibaldi 1 – Vinhedos e LT 230 kV Monte Claro – Vinhedos 
    • Contingência Dupla das LT 230 kV Garibaldi 1 – Vinhedos e LT 230 kV Farroupilha – Garibaldi 1 
    • Contingência Dupla das LT 230 kV Porto Alegre 13 – Restinga e LT 230 kV Porto Alegre 6 - Porto Alegre 13 
    • Contingência Dupla das LT 230 kV Vila Maria – Nova Prata 2 C2 e LT 230 kV Passo Fundo - Vila Maria C2 
    • Contingência Dupla das LT 230 kV Vila Maria – Nova Prata 2 C1 e LT 230 kV Passo Fundo - Vila Maria C1
    • Contingência Dupla das LT 230 kV Maçambará 3 - Santo Ângelo C1 e LT 230 kV Maçambará 3 - Maçambará C1 
    • Contingência Dupla das LT 230 kV Maçambará 3 - Santo Ângelo C2 e LT 230 kV Maçambará 3 - Maçambará C1 
    • Contingência Dupla das LT 230 kV LT 230 kV Maçambará 3 - Maçambará C2 e LT 230 kV Maçambará 3 - Santo Ângelo C1
    • Contingência Dupla das LT 230 kV LT 230 kV Maçambará 3 - Maçambará C2 e LT 230 kV Maçambará 3 - Santo Ângelo C2 
    • Contingência Dupla das LT 230 kV Monte Claro – Nova Prata 2 C1 e LT 230kV Nova Prata 2 – Vila Maria 1 C1
    • Contingência Dupla das LT 230 Charqueadas 3 – Charqueadas e LT 230 Charqueadas 3 – Cidade Industrial  
    • Contingência Dupla das LT 230 kV Cachoeirinha 3 – Gravataí 2 C1 e C2 
    • Contingência Dupla das LT 230 kV Charqueadas 3 – Charqueadas e LT 230kV Charqueadas 3 – Cidade Industrial  
    • Contingência Dupla das LT 230 Charqueadas 3 – Santa Cruz 1 e LT 230 kV Charqueadas 3 – Charqueadas 
    • Contingência Dupla das LT 230 kV Caxias Norte – Farroupilha C2 e LT 230 kV Caxias Norte – Caxias do Sul 2 
    • Contingência Dupla das LT 230 kV Caxias Norte – Farroupilha C1 e LT 230 kV Caxias Norte – Caxias do Sul 5 
    • Contingência Dupla das LT 230 Charqueadas 3 – Charqueadas e LT 230 Charqueadas 3 – Cidade Industrial  
    • Contingência Dupla das LT 230 Charqueadas 3 – Santa Cruz 1 e LT 230 kV Charqueadas 3 – Charqueadas 
    • Contingência Dupla da LT 230 kV Caxias Norte – Caxias do Sul 5 e LT 230 kV Lajeado Grande – Caxias do Sul 5 
    • Contingência Dupla da LT 230 kV Caxias do Norte – Caxias do Sul 5 e LT 230 kV Caxias Norte – Farroupilha C1 
    • Contingência Dupla da LT 230 kV Caxias do Sul 2 – Caxias Norte e LT 230 kV Caxias do Sul 5 – Caxias Norte 
"""

In [3]:
import pandas as pd

# Split the multiline string into individual lines and remove empty ones
lines = [line.strip() for line in volume_7_string_table.split('\n') if line.strip()]

# Create a DataFrame from the list of lines
df_volume_7 = pd.DataFrame(lines, columns=['Contingência Dupla'])

print("Initial DataFrame created successfully with the 'Contingência Dupla' column.")
print(df_volume_7.head())

Initial DataFrame created successfully with the 'Contingência Dupla' column.
                                  Contingência Dupla
0  • Contingência Dupla das LT 230 kV Alegrete 2 ...
1  • Contingência Dupla das LT 230 kV Atlântida 2...
2  • Contingência dupla LT 230 kV Cachoeirinha 3 ...
3  • Contingência dupla LT 230 kV Cachoeirinha 3 ...
4  • Contingência dupla LT 230 kV Cachoeirinha 3 ...


In [4]:
prefixes = [
    '• Contingência Dupla das ',
    '• Contingência dupla das ',
    '• Contingência Dupla da '
]

def clean_line_entry(entry):
    # Remove the initial bullet point and any leading/trailing whitespace
    entry = entry.lstrip('• ').strip()
    for prefix in prefixes:
        if entry.startswith(prefix.strip()):
            entry = entry[len(prefix.strip()):]
            break

    # Find the first occurrence of 'LT' and extract from there
    lt_index = entry.find('LT')
    if lt_index != -1:
        entry = entry[lt_index:].strip()
    return entry

df_volume_7['Linha Processada'] = df_volume_7['Contingência Dupla'].apply(clean_line_entry)

print("DataFrame with processed lines:")
#print(df_volume_7.head())

DataFrame with processed lines:


In [5]:
print("Displaying the 'Linha Processada' column:")
print(df_volume_7[['Linha Processada']].head())

# To display the full DataFrame column as a table, one might use to_string() or to_markdown()
print("\n\n\n")
print(df_volume_7[['Linha Processada']].to_string())
# print(df_volume_7[['Linha Processada']].to_markdown(index=False))

df_volume_7[['Linha Processada']].to_excel(f'./df_volume_7.xlsx', index=False)
print("Tabela gerada com suscesso")

Displaying the 'Linha Processada' column:
                                    Linha Processada
0  LT 230 kV Alegrete 2 - Livramento 2 e LT 230 k...
1  LT 230 kV Atlântida 2 - Gravataí 3 e LT 230 kV...
2  LT 230 kV Cachoeirinha 3 – Cidade Industrial e...
3  LT 230 kV Cachoeirinha 3 – Cidade Industrial e...
4      LT 230 kV Cachoeirinha 3 – Gravataí 2 C1 e C2




                                                                                       Linha Processada
0                                 LT 230 kV Alegrete 2 - Livramento 2 e LT 230 kV Bagé 2 – Livramento 2
1                                 LT 230 kV Atlântida 2 - Gravataí 3 e LT 230 kV Atlântida 2 - Osório 2
2                    LT 230 kV Cachoeirinha 3 – Cidade Industrial e LT 230 kV Cachoeirinha 3 – Canoas 2
3                 LT 230 kV Cachoeirinha 3 – Cidade Industrial e LT 230 kV Canoas 2 – Cidade Industrial
4                                                         LT 230 kV Cachoeirinha 3 – Gravataí 2 C1 e C2
5           