# Script_extract_data

In [None]:
from bs4 import BeautifulSoup
import requests
import json
import os

OUTPUT_DIRECTORY = "E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data"


def obter_soup_da_url(url, headers=None):
    """
    Realiza uma requisição GET para a URL fornecida e retorna o objeto BeautifulSoup.
    """
    try:
        session = requests.Session()
        if headers:
            session.headers.update(headers)
        response = session.get(url)
        response.raise_for_status()
        return BeautifulSoup(response.content, "html.parser")
    except requests.exceptions.RequestException as e:
        print(f"Erro ao acessar a URL {url}: {e}")
        return None

def extrair_dados_da_tabela(soup):
    """
    Extrai os dados da tabela dentro do elemento <tbody id="rankigns">.
    """
    tbody = soup.select_one("#rankigns > tbody")
    tabela = {}
    linha_atual = None

    if tbody:
        valores = []
        for linha in tbody.find_all('tr'):
            for celula in linha.find_all('td'):
                div_oculta = celula.find('div', style='visibility: hidden')
                if div_oculta and div_oculta.text.strip():
                    valores.append(div_oculta.text.strip())

        for item in valores:
            if item.isupper() and item.isalpha():
                linha_atual = item
                tabela[linha_atual] = []
            elif item.isupper() and item.isalnum():
                linha_atual = item
                tabela[linha_atual] = []
            elif linha_atual is not None:
                tabela[linha_atual].append(item)
    else:
        print("Tbody não encontrado nesta página.")

    return tabela

def main():
    """
    Função principal para executar o processo de scraping e salvamento em arquivos JSON.
    """
    url_fixa = "https://investidor10.com.br/acoes/rankings/"
    urls_relativas = [
        {'href': 'maiores-dividend-yield/'},
        {'href': 'maiores-valor-de-mercado/'},
        {'href': 'maiores-receitas/'},
        {'href': 'maiores-lucros/'},
        {'href': 'maiores-roes/'},
        {'href': 'menores-pls/'},
        {'href': 'maiores-altas-30-dias/'},
        {'href': 'maiores-altas-12-meses/'},
        {'href': 'maiores-crescimento-lucro/'},
        {'href': 'maiores-caixas/'},
        {'href': 'maiores-crescimento-receita/'},
        {'href': 'maiores-margens-liquidas/'}
    ]

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
        "Referer": "https://google.com"
    }

    # Cria a pasta de saída se ela não existir
    os.makedirs(OUTPUT_DIRECTORY, exist_ok=True)

    for url_info in urls_relativas:
        url_completa = url_fixa + url_info['href']
        print(f"\nProcessando URL: {url_completa}")
        soup = obter_soup_da_url(url_completa, headers)

        if soup:
            json_data = extrair_dados_da_tabela(soup)
            if json_data:
                nome_arquivo = url_info['href'].replace('/', '_').replace('-', '_') + ".json"
                caminho_completo = os.path.join(OUTPUT_DIRECTORY, nome_arquivo)

                try:
                    with open(caminho_completo, 'w', encoding='utf-8') as f:
                        json.dump(json_data, f, ensure_ascii=False, indent=4)
                    print(f"Dados salvos em '{caminho_completo}'")
                except IOError as e:
                    print(f"Erro ao salvar o arquivo {caminho_completo}: {e}")
            else:
                print("Nenhum dado de tabela encontrado nesta URL.")

if __name__ == "__main__":
    main()

  OUTPUT_DIRECTORY = "E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data"



Processando URL: https://investidor10.com.br/acoes/rankings/maiores-dividend-yield/
Dados salvos em 'E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_dividend_yield_.json'

Processando URL: https://investidor10.com.br/acoes/rankings/maiores-valor-de-mercado/
Dados salvos em 'E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_valor_de_mercado_.json'

Processando URL: https://investidor10.com.br/acoes/rankings/maiores-receitas/
Dados salvos em 'E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_receitas_.json'

Processando URL: https://investidor10.com.br/acoes/rankings/maiores-lucros/
Dados salvos em 'E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_lucros_.json'

Processando URL: https://investidor10.com.br/acoes/rankings/maiores-roes/
Dados salvos em 'E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_roes_.json'

Processando U

# Script_data_transformation

* O Pandas exige que todas as colunas de um DataFrame tenham o mesmo numero de linhas. Se for apresentado dados onde uma "coluna" coluna" (representada por uma lista ou array no seu dicionário) tem mais ou menos elementos do que outra, ele não consegue construir o DataFrame.


In [3]:
# Bibliotecas
import pandas as pd 
import json 
import os 

# --- DEFINA O CAMINHO DA PASTA AQUI ---
json_file_path =  "E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_altas_12_meses_.json"

# Verifica se o arquivo existe antes de tentar carrega-lo
if os.path.exists(json_file_path):
    df = pd.read_json(json_file_path)
    print("DataFrame carregado com sucesso!")
else: 
    print(f"O arquivo JSON não foi encontrado no caminho: {json_file_path}")

  json_file_path =  "E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_altas_12_meses_.json"
  json_file_path =  "E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data\maiores_altas_12_meses_.json"


ValueError: All arrays must be of the same length

In [19]:
import pandas as pd
import json
import os


def json_para_dataframe(json_file_path):
    """
    Lê um arquivo JSON no formato {chave: [valores]} e converte para um DataFrame.
    Retorna o DataFrame ou None se houver erro.
    """
    try:
        with open(json_file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)

        if not isinstance(data, dict):
            print(f"Aviso: O arquivo {os.path.basename(json_file_path)} não contém um dicionário no formato esperado.")
            return None

        max_cols = max(len(v) for v in data.values())

        column_names = ['Ativo'] + [f'Valor_{i+1}' for i in range(max_cols)]

        rows = []
        for ativo, valores in data.items():
            row = {'Ativo': ativo}
            for i, valor in enumerate(valores):
                row[f'Valor_{i+1}'] = valor
            rows.append(row)

        df = pd.DataFrame(rows, columns=column_names)

        return df

    except json.JSONDecodeError as e:
        print(f"Erro ao decodificar o JSON em {os.path.basename(json_file_path)}: {e}")
        return None
    except Exception as e:
        print(f"Ocorreu um erro no arquivo {os.path.basename(json_file_path)}: {e}")
        return None


def processar_jsons(input_folder, output_folder):
    """
    Processa todos os arquivos JSON de uma pasta e salva os DataFrames em CSV na pasta de saída.
    Depois de processar, remove todos os arquivos JSON da pasta de entrada.
    """
    os.makedirs(output_folder, exist_ok=True)

    arquivos_json = [f for f in os.listdir(input_folder) if f.endswith('.json')]

    if not arquivos_json:
        print("Nenhum arquivo JSON encontrado na pasta.")
        return

    for filename in arquivos_json:
        json_path = os.path.join(input_folder, filename)
        print(f"Lendo arquivo: {filename}")

        df = json_para_dataframe(json_path)

        if df is not None:
            csv_filename = filename.replace('.json', '.csv')
            output_path = os.path.join(output_folder, csv_filename)
            df.to_csv(output_path, index=False, encoding='utf-8-sig')
            print(f"Arquivo salvo: {output_path}")

    # 🔥 Remove os arquivos JSON após o processamento
    print("\nRemovendo arquivos JSON da pasta de entrada...")
    for filename in arquivos_json:
        file_path = os.path.join(input_folder, filename)
        try:
            os.remove(file_path)
            print(f"Removido: {file_path}")
        except Exception as e:
            print(f"Erro ao tentar remover {file_path}: {e}")

    print("\nProcessamento concluído e arquivos JSON removidos!")


# 🔧 --- CONFIGURAÇÕES DO USUÁRIO ---
input_folder = r"E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data"
output_folder = r"E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv"

# 🚀 --- EXECUÇÃO ---
processar_jsons(input_folder, output_folder)


Lendo arquivo: maiores_altas_12_meses_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_altas_12_meses_.csv
Lendo arquivo: maiores_altas_30_dias_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_altas_30_dias_.csv
Lendo arquivo: maiores_caixas_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_caixas_.csv
Lendo arquivo: maiores_crescimento_lucro_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_crescimento_lucro_.csv
Lendo arquivo: maiores_crescimento_receita_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_crescimento_receita_.csv
Lendo arquivo: maiores_dividend_yield_.json
Arquivo salvo: E:\Documentos\Web_scraping\Web_scraping_beautifulsoup4\Investidor_10\data_csv\maiores_dividend_yield_.csv
Lendo arquiv