# Limpeza de Dados com Python: Processando Colunas de Texto Rico (HTML)
Este notebook orienta como limpar uma coluna de texto contendo HTML para extrair apenas o texto relevante. 
Servirá para todas as consultas que possuem campos de texto rico. 

### Objetivo
Ao final, os dados limpos serão salvos em um novo arquivo CSV contendo apenas as colunas processadas e relevantes, excluindo as colunas originais que contêm o HTML.

### Passos:
1. **Leitura do arquivo CSV**: Carregar os dados originais.
2. **Análise inicial**: Inspecionar os dados para verificar a estrutura.
3. **Função de limpeza**: Implementar uma função para remover tags HTML.
4. **Aplicação da limpeza**: Criar uma nova coluna com o texto limpo.
5. **Exportação**: Salvar apenas as colunas limpas em um novo arquivo CSV.


In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
from bs4 import BeautifulSoup
import warnings

In [2]:
# Suprimir avisos específicos do BeautifulSoup
warnings.filterwarnings("ignore", category=UserWarning, module='bs4')

In [5]:
# Passo 1: Leitura do Arquivo CSV

file_path = 'C:\\Users\\MeloJr\\Projetos\\mgi\\mapeamento-novo-dc\\limpeza_dados_TR\\Edital_202410161942.csv'
df = pd.read_csv(file_path)

In [8]:
# Visualizando as primeiras linhas do arquivo para entender a estrutura
df.head()

Unnamed: 0,tx_tipo_artefato,tx_estado_artefato,id_artefato,nr_ano,id_uasg,in_estado,in_tipo,nm_uasg,id_unico,id_secao_artefato,...,dt_operacao_secao,conteudo_secao,id_item_secao,nr_ordem_item,no_item,in_obrigatorio_item,dt_operacao_item,id_operacao_item,id_login_item,conteudo_item
0,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013759,...,2024-05-13 18:17:07.641,,8013759,12,Descrição da solução de TIC a ser contratada,S,2022-09-16 09:34:09.160,1,6894567603,
1,Edital,Excluído,2522484,2024,180158,1,10,ESP-COM.POL.INT.3(CPI-3-CEL.PAULO M.SERRAT FI,180158/000037/2024,9029358,...,2024-07-22 16:28:56.091,,9029358,17,Anexos,S,2023-01-02 11:55:09.191,2,66323967391,
2,Edital,Em Edição,1537145,2023,170156,3,10,SUP.REGIONAL RECEITA FEDERAL 9A.RF/PR,170156/000001/2023,5805056,...,2024-01-10 11:40:53.610,,5805056,10,Contratações Correlatas e/ou Interdependentes,S,2022-08-15 20:34:33.489,1,7229667410,
3,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013756,...,2024-05-13 18:17:07.641,,8013756,9,Análise comparativa de soluções,S,2022-09-16 09:34:09.160,1,6894567603,
4,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013757,...,2024-05-13 18:17:07.641,,8013757,10,Registro de soluções consideradas inviáveis,S,2022-09-16 09:34:09.160,1,6894567603,


In [9]:
# Passo 2: Função de Limpeza de HTML
def clean_html(content):
    if pd.isnull(content):
        return ''
    # Converte para string e processa como HTML
    content = str(content)
    soup = BeautifulSoup(content, "html.parser")
    # Remove as tags HTML e substitui quebras de linha por espaços
    cleaned_text = soup.get_text().replace('\\n', ' ').replace('\\r', '')
    # Remove espaços extras, se houver
    return ' '.join(cleaned_text.split())

In [11]:
# Passo 3: Aplicando a Função de Limpeza na Coluna 'conteudo_item'
df['conteudo_item_clean'] = df['conteudo_item'].apply(clean_html)

# Visualizando as primeiras linhas do resultado
df[['conteudo_item', 'conteudo_item_clean']].head(100)

  soup = BeautifulSoup(content, "html.parser")


Unnamed: 0,conteudo_item,conteudo_item_clean
0,,
1,,
2,,
3,,
4,,
...,...,...
95,"<table border=""1"" cellpadding=""1"" cellspacing=...",MEDICAMENTO SIDEC CMM QUANTIDADE ADQUIRIDA aci...
96,<p>O valor total estimado da contrata&ccedil;&...,O valor total estimado da contratação é de R$ ...
97,"<p style=""text-align:justify""><span style=""fon...",5.1. A estimativa de preços para a presente co...
98,<p>A entrega de medicamentos deve ser iniciada...,A entrega de medicamentos deve ser iniciada no...


In [12]:
# Passo 3: Aplicando a Função de Limpeza na Coluna 'conteudo_secao'
df['conteudo_secao_clean'] = df['conteudo_secao'].apply(clean_html)

# Visualizando as primeiras linhas do resultado
df[['conteudo_secao', 'conteudo_secao_clean']].head()


  soup = BeautifulSoup(content, "html.parser")


Unnamed: 0,conteudo_secao,conteudo_secao_clean
0,,
1,,
2,,
3,,
4,,


In [13]:
# Passo 4: Removendo Colunas Sujas e Exportando os Dados Limpos para um Novo Arquivo CSV
# Remova a coluna original 'conteudo_item' e mantenha apenas 'conteudo_item_clean' e outras colunas relevantes
df_clean = df.drop(columns=['conteudo_item', 'conteudo_secao'])

# Substitua 'dados_limpos.csv' pelo nome desejado para o arquivo de saída
output_file = 'dados_limpos.csv'
df_clean.to_csv(output_file, index=False)

print(f"Dados limpos foram salvos em {output_file}")


Dados limpos foram salvos em dados_limpos.csv


In [14]:
# Carregar o arquivo CSV com os dados limpos
cleaned_df = pd.read_csv('dados_limpos.csv')

In [15]:
# Exibir as primeiras linhas para verificar o resultado
cleaned_df.head()

Unnamed: 0,tx_tipo_artefato,tx_estado_artefato,id_artefato,nr_ano,id_uasg,in_estado,in_tipo,nm_uasg,id_unico,id_secao_artefato,...,dt_operacao_secao,id_item_secao,nr_ordem_item,no_item,in_obrigatorio_item,dt_operacao_item,id_operacao_item,id_login_item,conteudo_item_clean,conteudo_secao_clean
0,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013759,...,2024-05-13 18:17:07.641,8013759,12,Descrição da solução de TIC a ser contratada,S,2022-09-16 09:34:09.160,1,6894567603,,
1,Edital,Excluído,2522484,2024,180158,1,10,ESP-COM.POL.INT.3(CPI-3-CEL.PAULO M.SERRAT FI,180158/000037/2024,9029358,...,2024-07-22 16:28:56.091,9029358,17,Anexos,S,2023-01-02 11:55:09.191,2,66323967391,,
2,Edital,Em Edição,1537145,2023,170156,3,10,SUP.REGIONAL RECEITA FEDERAL 9A.RF/PR,170156/000001/2023,5805056,...,2024-01-10 11:40:53.610,5805056,10,Contratações Correlatas e/ou Interdependentes,S,2022-08-15 20:34:33.489,1,7229667410,,
3,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013756,...,2024-05-13 18:17:07.641,8013756,9,Análise comparativa de soluções,S,2022-09-16 09:34:09.160,1,6894567603,,
4,Edital,Excluído,2218365,2024,90167,1,10,"ESP-HOSP. REG. DR.VIVALDO M.SIMOES, OSASCO",90167/000028/2024,8013757,...,2024-05-13 18:17:07.641,8013757,10,Registro de soluções consideradas inviáveis,S,2022-09-16 09:34:09.160,1,6894567603,,
