# Limpeza de Dados com Python: Processando Colunas de Texto Rico (HTML)
Este notebook orienta como limpar uma coluna de texto contendo HTML para extrair apenas o texto relevante. 
Servirá para todas as consultas que possuem campos de texto rico. 

### Objetivo
Ao final, os dados limpos serão salvos em um novo arquivo CSV contendo apenas as colunas processadas e relevantes, excluindo as colunas originais que contêm o HTML.

### Passos:
1. **Leitura do arquivo CSV**: Carregar os dados originais.
2. **Análise inicial**: Inspecionar os dados para verificar a estrutura.
3. **Função de limpeza**: Implementar uma função para remover tags HTML.
4. **Aplicação da limpeza**: Criar uma nova coluna com o texto limpo.
5. **Exportação**: Salvar apenas as colunas limpas em um novo arquivo CSV.


In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
from bs4 import BeautifulSoup
import os

In [2]:
# Passo 1: Leitura do Arquivo CSV

file_path = 'C:\\Users\\MeloJr\\Projetos\\mgi\\limpeza_dados_TR\\termo_referencia.csv'
df = pd.read_csv(file_path)

In [3]:
# Visualizando as primeiras linhas do arquivo para entender a estrutura
df.head()

Unnamed: 0,tx_tipo_artefato,tx_estado_artefato,id_artefato,nr_ano,id_uasg,in_estado,in_tipo,nm_uasg,id_unico,id_secao_artefato,...,dt_operacao_secao,conteudo_secao,id_item_secao,nr_ordem_item,no_item,in_obrigatorio_item,dt_operacao_item,id_operacao_item,id_login_item,conteudo_item
0,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420943,...,2023-04-01 12:59:54.364,"<p><span style=""font-size:12px"">O sistema ser&...",4420943,7,Descrição da solução como um todo,S,2022-08-19 10:37:53.924,2,4091231969,"<p><span style=""font-size:12px"">O sistema ser&..."
1,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420944,...,2023-04-01 12:59:54.364,"<p style=""text-align:justify""><span style=""fon...",4420944,8,Estimativa das Quantidades a serem Contratadas,S,2022-08-19 10:37:53.924,2,4091231969,"<p style=""text-align:justify""><span style=""fon..."
2,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420945,...,2023-04-01 12:59:54.364,"<p style=""text-align:justify""><span style=""fon...",4420945,9,Estimativa do Valor da Contratação,S,2022-08-19 10:37:53.924,2,4091231969,"<p style=""text-align:justify""><span style=""fon..."
3,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420946,...,2023-04-01 12:59:54.364,"<p><span style=""font-size:12px"">Como a usina s...",4420946,10,Justificativa para o Parcelamento ou não da So...,S,2022-08-19 10:37:53.924,2,4091231969,"<p><span style=""font-size:12px"">Como a usina s..."
4,TR,Excluído,1132930,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000002/2023,4420947,...,2023-02-24 21:58:24.690,"<p><span style=""font-size:12px"">N&atilde;o h&a...",4420947,11,Contratações Correlatas e/ou Interdependentes,S,2022-08-19 10:37:53.924,2,4091231969,"<p><span style=""font-size:12px"">N&atilde;o h&a..."


In [4]:
# Passo 2: Função de Limpeza de HTML
def clean_html(content):
    if pd.isnull(content):
        return ''
    # Converte para string e processa como HTML
    soup = BeautifulSoup(str(content), "html.parser")
    # Remove as tags HTML e substitui quebras de linha por espaços
    cleaned_text = soup.get_text().replace('\n', ' ').replace('\r', '')
    # Remove espaços extras, se houver
    return ' '.join(cleaned_text.split())

In [5]:
# Passo 3: Aplicando a Função de Limpeza na Coluna 'conteudo_item'
df['conteudo_item_clean'] = df['conteudo_item'].apply(clean_html)

# Visualizando as primeiras linhas do resultado
df[['conteudo_item', 'conteudo_item_clean']].head()

  soup = BeautifulSoup(str(content), "html.parser")


Unnamed: 0,conteudo_item,conteudo_item_clean
0,"<p><span style=""font-size:12px"">O sistema ser&...",O sistema será composto por: Modulo fotovoltai...
1,"<p style=""text-align:justify""><span style=""fon...",O sistema possui previsão de gerar uma mínima ...
2,"<p style=""text-align:justify""><span style=""fon...",Previsão de consumo mensal de 252.450 kWh ao c...
3,"<p><span style=""font-size:12px"">Como a usina s...","Como a usina será implantada pela Cessionária,..."
4,"<p><span style=""font-size:12px"">N&atilde;o h&a...",Não há.


In [6]:
# Passo 3: Aplicando a Função de Limpeza na Coluna 'conteudo_secao'
df['conteudo_secao_clean'] = df['conteudo_secao'].apply(clean_html)

# Visualizando as primeiras linhas do resultado
df[['conteudo_secao', 'conteudo_secao_clean']].head()


  soup = BeautifulSoup(str(content), "html.parser")


Unnamed: 0,conteudo_secao,conteudo_secao_clean
0,"<p><span style=""font-size:12px"">O sistema ser&...",O sistema será composto por: Modulo fotovoltai...
1,"<p style=""text-align:justify""><span style=""fon...",O sistema possui previsão de gerar uma mínima ...
2,"<p style=""text-align:justify""><span style=""fon...",Previsão de consumo mensal de 252.450 kWh ao c...
3,"<p><span style=""font-size:12px"">Como a usina s...","Como a usina será implantada pela Cessionária,..."
4,"<p><span style=""font-size:12px"">N&atilde;o h&a...",Não há.


In [7]:
# Passo 4: Removendo Colunas Sujas e Exportando os Dados Limpos para um Novo Arquivo CSV
# Remova a coluna original 'conteudo_item' e mantenha apenas 'conteudo_item_clean' e outras colunas relevantes
df_clean = df.drop(columns=['conteudo_item', 'conteudo_secao'])

# Substitua 'dados_limpos.csv' pelo nome desejado para o arquivo de saída
output_file = 'dados_limpos.csv'
df_clean.to_csv(output_file, index=False)

print(f"Dados limpos foram salvos em {output_file}")


Dados limpos foram salvos em dados_limpos.csv


In [8]:
# Carregar o arquivo CSV com os dados limpos
cleaned_df = pd.read_csv('dados_limpos.csv')

# Exibir as primeiras linhas para verificar o resultado
cleaned_df.head()

Unnamed: 0,tx_tipo_artefato,tx_estado_artefato,id_artefato,nr_ano,id_uasg,in_estado,in_tipo,nm_uasg,id_unico,id_secao_artefato,...,dt_operacao_secao,id_item_secao,nr_ordem_item,no_item,in_obrigatorio_item,dt_operacao_item,id_operacao_item,id_login_item,conteudo_item_clean,conteudo_secao_clean
0,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420943,...,2023-04-01 12:59:54.364,4420943,7,Descrição da solução como um todo,S,2022-08-19 10:37:53.924,2,4091231969,O sistema será composto por: Modulo fotovoltai...,O sistema será composto por: Modulo fotovoltai...
1,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420944,...,2023-04-01 12:59:54.364,4420944,8,Estimativa das Quantidades a serem Contratadas,S,2022-08-19 10:37:53.924,2,4091231969,O sistema possui previsão de gerar uma mínima ...,O sistema possui previsão de gerar uma mínima ...
2,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420945,...,2023-04-01 12:59:54.364,4420945,9,Estimativa do Valor da Contratação,S,2022-08-19 10:37:53.924,2,4091231969,Previsão de consumo mensal de 252.450 kWh ao c...,Previsão de consumo mensal de 252.450 kWh ao c...
3,TR,Excluído,1132929,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000001/2023,4420946,...,2023-04-01 12:59:54.364,4420946,10,Justificativa para o Parcelamento ou não da So...,S,2022-08-19 10:37:53.924,2,4091231969,"Como a usina será implantada pela Cessionária,...","Como a usina será implantada pela Cessionária,..."
4,TR,Excluído,1132930,2023,200999,1,6,MINISTÉRIO DA GESTÃO E DA INOVAÇÃO,200999/000002/2023,4420947,...,2023-02-24 21:58:24.690,4420947,11,Contratações Correlatas e/ou Interdependentes,S,2022-08-19 10:37:53.924,2,4091231969,Não há.,Não há.
