# Dados Iniciais

O bloco de código a seguir foi desenvolvido para validar quais os links que realmente podem ser utilizados com certa facilidade para montagem de um banco de dados inicial com os decretos de políticas públicas. O arquivo `politicas-base.csv` foi baixado do [catalogo ipea](https://catalogo.ipea.gov.br/consulta).

In [3]:
import pandas as pd
import re

count = 0
def links_counter(link):
    global count
    if pd.isna(link):
        return  # Se o texto for NaN (vazio), simplesmente retorna sem fazer nada
    if re.search(r'http://legis.senado.leg.br/norma/\d+', link):
        count += 1 # +publicacao
    elif re.search(r'(http|https)://www.in.gov.br/', link):
        count += 1 # full
    elif re.search(r'https://www.planalto.gov.br/ccivil_03', link):
        count += 1 # achar link
    elif re.search(r'http://www.planalto.gov.br/ccivil_03', link):
        count += 1 # full
    elif re.search(r'https://legislacao.presidencia.gov.br/atos/', link):
        count += 1 # achar link e vai para www.planalto
    elif re.search(r'https://www2.camara.leg.br/legin', link):
        count += 1 # full
    elif re.search(r'https://bvsms.saude.gov.br/', link):
        count += 1 # full
    elif re.search(r'http.*\.pdf', link):
        count += 1 # pdf
    else: print(link)

# Carrega o arquivo CSV
df = pd.read_csv('politicas-base.csv')

# Remove duplicatas com base na coluna 'id'
df = df.drop_duplicates(subset='id')

lines_num = len(df)
print("Número de linhas após remover duplicatas:", lines_num)

# Aplicar a função em cada link na coluna 'link_legislacao', se a coluna existir
if 'link_legislacao' in df.columns:
    df['link_legislacao'].apply(links_counter)
else:
    print("Coluna 'link_legislacao' não encontrada.")

print("Contagem de dados uteis:", count)


Número de linhas após remover duplicatas: 898
http://www2.camara.gov.br/legin/fed/decret/2011/decreto-7535-26-julho-2011-611105-norma-pe.html
https://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?jornal=515&pagina=1&data=03/12/2020&totalArquivos=171
https://legislacao.presidencia.gov.br/atos?tipo=LEI&numero=13494&ano=2017&ato=c9bITWU5EeZpWT5be
https://www.lexml.gov.br/urn/urn:lex:br:federal:lei:1999-12-14;
	9896
https://www.lexml.gov.br/urn/urn:lex:br:federal:lei:2000-12-18;
	10075
https://antigo.mctic.gov.br/mctic/opencms/legislacao/portarias/migracao/Portaria_MD_n_1317_de_04112004.html
https://www.infoconsult.com.br/legislacao/portaria_mefp/1990/p_mefp_365_1990.htm
http://portal.mec.gov.br/index.php?option=com_docman&view=download&alias=14699-portaria-norm-n015-instititui-politica-nac-ifes&category_slug=novembro-2013-pdf&Itemid=30192
https://anmlegis.datalegis.inf.br/action/UrlPublicasAction.php?acao=getAtoPublico&sgl_tipo=POR&num_ato=00001317&seq_ato=000&vlr_ano=1997&sgl_orgao

Segunda análise selecionando apenas os links mais fáceis de extrair os textos dos decretos.

In [4]:
import pandas as pd
import re

count = 0
def links_counter(link):
    global count
    if pd.isna(link):
        return  # Se o texto for NaN (vazio), simplesmente retorna sem fazer nada
    if re.search(r'http://legis.senado.leg.br/norma/\d+', link):
        count += 1 # +publicacao
    elif re.search(r'(http|https)://www.in.gov.br/', link):
        count += 1 # full
    elif re.search(r'https://www2.camara.leg.br/legin', link):
        count += 1 # full
    elif re.search(r'https://bvsms.saude.gov.br/', link):
        count += 1 # full
    else: print(link)

# Carrega o arquivo CSV
df = pd.read_csv('politicas-base.csv')

# Remove duplicatas com base na coluna 'id'
df = df.drop_duplicates(subset='id')

lines_num = len(df)
print("Número de linhas após remover duplicatas:", lines_num)

# Aplicar a função em cada link na coluna 'link_legislacao', se a coluna existir
if 'link_legislacao' in df.columns:
    df['link_legislacao'].apply(links_counter)
else:
    print("Coluna 'link_legislacao' não encontrada.")

print("Contagem de dados uteis:", count)

Número de linhas após remover duplicatas: 898
https://www.planalto.gov.br/ccivil_03/_ato2004-2006/2006/dnn/dnn10906.htm
https://www.planalto.gov.br/ccivil_03/_ato2011-2014/2013/decreto/d8141.htm
https://www.planalto.gov.br/ccivil_03/_ato2019-2022/2019/decreto/d10157.htm
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2014/decreto/d8243.htm
https://legislacao.presidencia.gov.br/atos/?tipo=DEC&numero=1857&ano=1996&ato=046oXW61EMJpWT3db
http://www.planalto.gov.br/ccivil_03/_ato2019-2022/2020/decreto/D10458.htm
https://www.planalto.gov.br/ccivil_03/_ato2011-2014/2013/decreto/d7948.htm
https://www.planalto.gov.br/ccivil_03/decreto/1980-1989/1985-1987/d94338.htm
https://www.planalto.gov.br/ccivil_03/decreto/1980-1989/D95886.htm
https://www.planalto.gov.br/ccivil_03/_ato2019-2022/2019/decreto/d9863.htm
http://www2.camara.gov.br/legin/fed/decret/2011/decreto-7535-26-julho-2011-611105-norma-pe.html
http://www.planalto.gov.br/ccivil_03/_ato2007-2010/2008/dnn/dnn11503.htm
https://www.planalto.

## Pegando os Dados na Internet

O bloco de código a seguir, utiliza os filtros de links estabelecidos pelas análises precedentes para buscar os dados através dos links e adiciona-los em um novo arquivo `dados_politicas.csv`.

In [5]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
    
def is_good_link(link):
    if isinstance(link, str) == False:
        return False
    if re.search(r'http://legis.senado.leg.br/norma/\d+', link):
        return True
    elif re.search(r'(http|https)://www.in.gov.br/', link):
        return True
    elif re.search(r'https://www2.camara.leg.br/legin', link):
        return True
    elif re.search(r'https://bvsms.saude.gov.br/', link):
        return True
    else:
        return False
    
# Função para buscar o texto na internet a partir de um link
def search_text(link):
    try:
        print(link)
        if isinstance(link, str) == False:
            return ''
        if is_good_link(link):
            if "http://legis.senado.leg.br/norma/" in link:
                link += '/publicacao'
        else:
            return ''
        resposta = requests.get(link)
        resposta.raise_for_status()  # Levanta uma exceção para respostas não-sucedidas
        # Parsea o HTML
        soup = BeautifulSoup(resposta.text, 'html.parser')
        # Extrai todo o texto visível
        for script in soup(["script", "style"]):  # Remover todos os scripts e estilos
            script.decompose()
        text = soup.get_text()
        # Limpa o texto
        lines = (line.strip() for line in text.splitlines())
        chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
        text = '\n'.join(chunk for chunk in chunks if chunk)
        return text
    except requests.RequestException as e:
        return f"Erro ao acessar {link}: {str(e)}"

# Carrega o arquivo CSV
df = pd.read_csv('politicas-base.csv')

# Remove duplicatas com base na coluna 'id'
df = df.drop_duplicates(subset='id')

# Busca textos nos links
df['dados textuais'] = df['link_legislacao'].apply(search_text)

# Seleciona apenas as colunas "id" e "dados textuais"
df_data_text = df[['id', 'dados textuais']]

# Salva o novo DataFrame em um arquivo CSV
df_data_text.to_csv('dados_politicas.csv', index=False)

# Exibe as primeiras linhas do novo DataFrame
print(df_data_text.head())


http://legis.senado.leg.br/norma/574380
http://legis.senado.leg.br/norma/578987
http://legis.senado.leg.br/norma/32967095
http://legis.senado.leg.br/norma/408182
http://legis.senado.leg.br/norma/592890
http://legis.senado.leg.br/norma/577969
http://legis.senado.leg.br/norma/410178
https://www.planalto.gov.br/ccivil_03/_ato2004-2006/2006/dnn/dnn10906.htm
http://legis.senado.leg.br/norma/514406
https://www.planalto.gov.br/ccivil_03/_ato2011-2014/2013/decreto/d8141.htm
http://legis.senado.leg.br/norma/30760785
http://legis.senado.leg.br/norma/412601
http://legis.senado.leg.br/norma/26244567
http://legis.senado.leg.br/norma/579139
http://legis.senado.leg.br/norma/413961
http://legis.senado.leg.br/norma/409690
http://legis.senado.leg.br/norma/412067
http://legis.senado.leg.br/norma/411917
http://legis.senado.leg.br/norma/26288727
http://legis.senado.leg.br/norma/584647
http://legis.senado.leg.br/norma/413488
http://legis.senado.leg.br/norma/412000
http://legis.senado.leg.br/norma/401043
htt

## Extração de Textos Relevantes

In [6]:
import pandas as pd

# Função para extrair apenas o texto relevante dos dados obtidos dos links na etapa anterior
def relevant_text(text):
    try:
        # Tratamento para dados advindos dos links 'http://legis.senado.leg.br/norma/\d+'
        # Localizar e extrair o trecho relevante entre "[Detalhes da Norma]" e "ENGLISHESPAÑOLFRANÇAIS"
        start = text.find("[Detalhes da Norma]")
        end = text.find("ENGLISHESPAÑOLFRANÇAIS")
        if start != -1 and end != -1:
            text = text[start+len("[Detalhes da Norma]"):end]
        elif start != -1:
            text = text[start+len("[Detalhes da Norma]"):]  # Caso o texto final não esteja presente
        else:
            # Tratamento para os demais links
            # Descarta textos pequenos pois são apenas textos de interface da página web
            if len(text) < 3000:
                return "Texto relevante não encontrado"

        return text.strip()
    except requests.RequestException as e:
        return f"Erro: {str(e)}"


# Carrega o arquivo CSV 
df = pd.read_csv('dados_politicas.csv')

# Remove linhas onde 'dados textuais' está vazia ou só tem espaços em branco
df = df[df['dados textuais'].notna() & df['dados textuais'].str.strip().astype(bool)]

# Limpeza do texto obtido na etapa anterior
df['texto'] = df['dados textuais'].apply(relevant_text)

# Seleciona apenas as colunas "id" e "texto"
df_data_text = df[['id', 'texto']]

lines_num = len(df_data_text)
print("Número de linhas:", lines_num)

# Salva o novo DataFrame em um arquivo CSV
df_data_text.to_csv('textos_politicas.csv', index=False)

# Exibe as primeiras linhas do novo DataFrame
print(df_data_text.head())


Número de linhas: 392
   id                                              texto
0   1  Este texto não substitui o original publicado ...
1   2  Este texto não substitui o original publicado ...
2   3  Este texto não substitui o original publicado ...
3   4  Este texto não substitui o original publicado ...
4   5  Este texto não substitui o original publicado ...


### Preparando Corpus com dados obtidos e resumos

In [1]:
import pandas as pd

texts_df = pd.read_csv('textos_politicas.csv')
summaries_df = pd.read_csv('resumos_politicas.csv')

if 'id' in texts_df.columns and 'id' in summaries_df.columns:
    combined_df = pd.merge(texts_df, summaries_df, on='id', how='inner')
else:
    combined_df = pd.concat([texts_df, summaries_df], axis=1)
    combined_df = combined_df.dropna(subset=[summaries_df.columns[0]])

combined_df.to_csv('combined_corpus.csv', index=False)

print("Resultado registrado em 'combined_corpus.csv'")


Resultado registrado em 'combined_corpus.csv'
