<a href="https://colab.research.google.com/github/lgregs/TCC-CD-USP/blob/main/use_db.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import sqlite3
import pandas as pd

In [2]:
db_file = '/content/drive/MyDrive/TCC/balancos.sqlite'

try:
    conn = sqlite3.connect(db_file)
    print(f"Conex√£o bem-sucedida ao banco de dados: {db_file}")

    # Carregar todos os pares (CompanyCode, Year) para o Python
    # GROUP BY CompanyCode, Year garante que temos apenas um registro por empresa por ano
    query = """
    SELECT CompanyCode, Year
    FROM balancos_financeiros
    GROUP BY CompanyCode, Year;
    """
    df_company_years = pd.read_sql_query(query, conn)

    # Desconecta do banco de dados ap√≥s carregar o necess√°rio para liberar recursos
    conn.close()
    print("Dados CompanyCode e Year carregados com sucesso. Conex√£o SQL fechada.")

except Exception as e:
    print(f"ERRO: N√£o foi poss√≠vel conectar ao banco de dados ou carregar dados iniciais: {e}")
    # Certifique-se de que a conex√£o √© fechada mesmo em caso de erro
    if 'conn' in locals() and conn:
        conn.close()
    exit() # Interrompe a execu√ß√£o se houver um erro cr√≠tico aqui

# 2. Encontrar o range de anos para iterar
min_global_year = df_company_years['Year'].min()
max_global_year = df_company_years['Year'].max()

# Estrutura para armazenar TODOS os resultados qualificados
all_qualified_periods = []

# Agrupa os anos por empresa em um set ANTES dos loops para evitar recalculo repetitivo
company_year_sets = df_company_years.groupby('CompanyCode')['Year'].apply(set)

print(f"\nIniciando busca por per√≠odos cont√≠nuos entre {min_global_year} e {max_global_year}...")

# Iterar sobre todos os poss√≠veis anos de in√≠cio
for start_year in range(min_global_year, max_global_year + 1):
    # Iterar sobre todos os poss√≠veis anos de fim, a partir do ano de in√≠cio
    for end_year in range(start_year, max_global_year + 1):
        period_length = end_year - start_year + 1

        # Filtro: queremos apenas per√≠odos com mais de 5 anos
        if period_length <= 5:
            continue

        current_period_years = set(range(start_year, end_year + 1))

        qualified_companies = []
        for company, years_present in company_year_sets.items():
            # Verifica se o per√≠odo atual est√° contido nos anos presentes da empresa
            if current_period_years.issubset(years_present):
                qualified_companies.append(company)

        num_qualified_companies = len(qualified_companies)

        if num_qualified_companies > 0: # Armazena apenas per√≠odos com pelo menos 1 empresa
            all_qualified_periods.append({
                'start_year': start_year,
                'end_year': end_year,
                'period_length': period_length,
                'num_companies': num_qualified_companies,
                'companies': qualified_companies
            })

# 3. Classificar os per√≠odos encontrados
# Crit√©rio de ordena√ß√£o: Primeiro por n√∫mero de empresas (decrescente), depois por comprimento do per√≠odo (decrescente)
all_qualified_periods.sort(key=lambda x: (x['num_companies'], x['period_length']), reverse=True)

# Supondo que 'all_qualified_periods' j√° foi gerada pelo c√≥digo anterior
# e cont√©m os resultados da an√°lise de per√≠odos cont√≠nuos.

long_periods_with_many_companies = [
    period for period in all_qualified_periods
    if period['period_length'] >= 15 and period['num_companies'] >= 50
]

# Opcional: Reordenar, embora 'all_qualified_periods' j√° esteja ordenada
# long_periods_with_many_companies.sort(key=lambda x: (x['num_companies'], x['period_length']), reverse=True)

print(f"\n--- Per√≠odos Cont√≠nuos com Mais de 10 Anos e Mais de 100 Empresas ---")

if long_periods_with_many_companies:
    print(f"Total de {len(long_periods_with_many_companies)} per√≠odos encontrados que atendem aos crit√©rios.")

    # Imprimir os top N per√≠odos (voc√™ pode ajustar N aqui)
    top_n_periods_to_show = 5 # Mostra os 5 melhores desses per√≠odos filtrados

    for i, period in enumerate(long_periods_with_many_companies[:top_n_periods_to_show]):
        print(f"\n--- Per√≠odo {i+1} ---")
        print(f"Per√≠odo: **{period['start_year']} a {period['end_year']}** (Dura√ß√£o: **{period['period_length']} anos**)")
        print(f"N√∫mero de Empresas: **{period['num_companies']}**")

        # Exemplo de Empresas (limita a exibi√ß√£o para n√£o sobrecarregar)
        if len(period['companies']) > 5:
            print(f"Exemplo de Empresas: {period['companies'][:5]} e mais {len(period['companies']) - 5} empresas.")
        else:
            print(f"Empresas: {period['companies']}")
else:
    print("Nenhum per√≠odo cont√≠nuo encontrado com mais de 15 anos e mais de 100 empresas.")

Conex√£o bem-sucedida ao banco de dados: /content/drive/MyDrive/TCC/balancos.sqlite
Dados CompanyCode e Year carregados com sucesso. Conex√£o SQL fechada.

Iniciando busca por per√≠odos cont√≠nuos entre 2008 e 2024...

--- Per√≠odos Cont√≠nuos com Mais de 10 Anos e Mais de 100 Empresas ---
Total de 6 per√≠odos encontrados que atendem aos crit√©rios.

--- Per√≠odo 1 ---
Per√≠odo: **2010 a 2024** (Dura√ß√£o: **15 anos**)
N√∫mero de Empresas: **293**
Exemplo de Empresas: ['ACSEL', 'ADEL', 'ADESE', 'AEFES', 'AFYON'] e mais 288 empresas.

--- Per√≠odo 2 ---
Per√≠odo: **2008 a 2024** (Dura√ß√£o: **17 anos**)
N√∫mero de Empresas: **227**
Exemplo de Empresas: ['ADEL', 'AEFES', 'AFYON', 'AGHOL', 'AGYO'] e mais 222 empresas.

--- Per√≠odo 3 ---
Per√≠odo: **2008 a 2023** (Dura√ß√£o: **16 anos**)
N√∫mero de Empresas: **227**
Exemplo de Empresas: ['ADEL', 'AEFES', 'AFYON', 'AGHOL', 'AGYO'] e mais 222 empresas.

--- Per√≠odo 4 ---
Per√≠odo: **2009 a 2024** (Dura√ß√£o: **16 anos**)
N√∫mero de Empresa

In [7]:
import sqlite3
import pandas as pd

db_file = '/content/drive/MyDrive/TCC/balancos.sqlite'
conn = sqlite3.connect(db_file)

# Find target companies
target_period = next(
    (p for p in all_qualified_periods if p['start_year'] == 2008 and p['end_year'] == 2024),
    None
)

if not target_period:
    raise ValueError("Per√≠odo 2 (2008-2024) not found!")

companies_tuple = tuple(target_period['companies'])
years_tuple = tuple(range(2008, 2025))

query = f"""
SELECT *
FROM balancos_financeiros
WHERE CompanyCode IN {companies_tuple}
AND Year IN {years_tuple};
"""

df_period2 = pd.read_sql_query(query, conn)

# üöÄ Export directly to CSV
df_period2.to_csv('balancos_periodo_2008_2024.csv', index=False)

conn.close()

print("CSV export complete: balancos_periodo_2008_2024.csv")


CSV export complete: balancos_periodo_2008_2024.csv
