# Construção da base de notícias ESG a partir da captura do Google RSS

- Autor: Daniel Saraiva Leite - 2023
- Projeto Análise de sentimentos sobre notícias do tema ESG

In [3]:
import warnings
import pandas as pd
import datetime as dt
from noticias_google_buscador import busca_noticias_google_news
from noticias_google_buscador_esg import *
import numpy as np

warnings.filterwarnings('ignore')
arquivo_termos_esg = 'datasets/palavras_chave_esg.xlsx'
base_noticias = 'datasets/base_noticias.xlsx'
lista_empresas = 'datasets/lista_empresas.xlsx'

In [4]:
df_atual = pd.read_excel(base_noticias)
df_empresas = pd.read_excel(lista_empresas)

hash_noticias_ja_existentes = list(df_atual['hash'])

# processa empresas
for i, row in df_empresas[df_empresas['buscar'].str.upper() == 'SIM'].iterrows():
    
    empresa = row['empresa']
    
    aplicar_filtros= ( (not pd.isnull(row['aplicar_filtros_relevancia'])) and   row['aplicar_filtros_relevancia'].upper() == 'SIM')
    inclui_apenas_nome_empresa = ( (not pd.isnull(row['tipo_busca_exaustiva'])) and    row['tipo_busca_exaustiva'].upper() == 'SIM')
    
    atualiza = (  (not pd.isnull(row['tipo_busca_atualizacao'])) and    row['tipo_busca_atualizacao'].upper() == 'SIM' and (not pd.isnull(row['ultima_data_publicacao'])))
    ultima_data = row['ultima_data_publicacao'].date()
    
    print('\n' +  str(dt.datetime.now())  + ' Buscando empresa ' + empresa)
    dfEmpresasListadas = df_empresas
    
    df1 = busca_noticias_google_esg(empresa, atualiza=atualiza, ultima_data = ultima_data, inclui_apenas_nome_empresa = inclui_apenas_nome_empresa)
    
    if len(df1) >0:
        # ajustes
        df1['data_publicacao'] = df1['data_publicacao'].dt.date
        df1 = ajusta_nomes_empresas_dataframe(df1)

        # cria hash
        df1['hash'] = df1.apply(lambda row: criar_hash_noticia(texto=row['titulo'], empresa=row['empresa'], titulo=row['titulo'], data=row['data_publicacao']), axis=1)
        print(str(dt.datetime.now())  + ' ... noticias encontradas: ' + str(len(df1)))
    
    if len(df1) >0:
        df1 = df1[~df1['hash'].isin(hash_noticias_ja_existentes)]
        print(str(dt.datetime.now())  + ' ... noticias novas: ' + str(len(df1)))
    
    if len(df1) > 0:
        df2 = recupera_noticias_completas(df1)
        #print(df1)
        print(str(dt.datetime.now())  + ' ... textos buscados: ' + str(len(df2)))
            
        if aplicar_filtros:
            df3 = filtra_noticias_nao_relacionadas(df2, empresa)
            if len(df3) >0:
                df4 = filtra_citacao_relevante(df3, empresa, dfEmpresasListadas )
                print(str(dt.datetime.now())  + ' ... novas noticias após filtro citaçoes: ' + str(len(df4)))
                
        else:
            df4 = df2
        
        if len(df4) >0:
            df5 = classifica_textos_coletados(df4)
            df6 = df5
            print(str(dt.datetime.now())  + ' ... novas noticias após filtros: ' + str(len(df6)))
            df_atual = pd.read_excel(base_noticias)
            df = pd.concat([df_atual,df6]).drop_duplicates(ignore_index=True)
            df = df.drop_duplicates(['titulo','empresa','fonte', 'texto_completo'], keep='first')
            df.to_excel(base_noticias, index=False)


# complementando os dados
# atualiza nome, cnpj, setor
df_noticias = pd.read_excel(base_noticias)
df_empresas = pd.read_excel(lista_empresas)
df_noticias['Nome'] = df_noticias['empresa'].map(df_empresas.set_index('empresa')['Nome'])
df_noticias['CNPJ'] = df_noticias['empresa'].map(df_empresas.set_index('empresa')['CNPJ'])
df_noticias['Razão social'] = df_noticias['empresa'].map(df_empresas.set_index('empresa')['RAZÃO SOCIAL'])
df_noticias['Código'] = df_noticias['empresa'].map(df_empresas.set_index('empresa')['Código'])
df_noticias['Setor'] = df_noticias['empresa'].map(df_empresas.set_index('empresa')['SETOR'])
df_noticias.to_excel(base_noticias, index=False)

# atualiza ultima data de captura
df_empresas['ultima_data_publicacao'] = df_empresas['empresa'].map(df_noticias[['empresa', 'data_publicacao']].groupby('empresa').max()['data_publicacao'] )
df_empresas.to_excel(lista_empresas, index=False)

print('\nCaptura concluída')


2024-02-25 21:56:45.378783 Buscando empresa bahema
...... buscando no google bahema
2024-02-25 21:57:25.077632 ... noticias encontradas: 1
2024-02-25 21:57:25.086397 ... noticias novas: 1
2024-02-25 21:57:27.417002 ... textos buscados: 1
2024-02-25 21:57:27.563984 ... novas noticias após filtros: 1

2024-02-25 21:57:41.536372 Buscando empresa gafisa
...... buscando no google gafisa
2024-02-25 21:57:44.597361 ... noticias encontradas: 1
2024-02-25 21:57:44.605979 ... noticias novas: 1
2024-02-25 21:57:45.738078 ... textos buscados: 0

2024-02-25 21:57:45.738683 Buscando empresa itau unibanco
...... buscando no google itau+unibanco
2024-02-25 21:57:48.242661 ... noticias encontradas: 15
2024-02-25 21:57:48.250585 ... noticias novas: 14
2024-02-25 21:58:15.832538 ... textos buscados: 14
2024-02-25 21:58:17.256383 ... novas noticias após filtros: 14

2024-02-25 21:58:31.231932 Buscando empresa magazine luiza
...... buscando no google magazine+luiza
2024-02-25 21:58:34.448862 ... noticias 