# BLOCO 2: DADOS FONTE CNC FLORA

# 2.1: CARREGANDO E EXPLORANDO DADOS DO CNC FLORA

In [2]:
import pandas as pd
from pathlib import Path

print("--- Célula 1: Análise Exploratória da Fonte CNCFlora (ambos os arquivos) ---")

# --- 1. Carregando o arquivo CSV principal ---
caminho_csv = Path('../../data/raw/cncflora/lista_vermelha_cnc_flora.csv')

try:
    # Usando o separador de vírgula (,) que você confirmou no exemplo
    df_lista_vermelha = pd.read_csv(caminho_csv, sep=',')
    
    print(f"\nArquivo '{caminho_csv.name}' carregado com sucesso!")
    print("-" * 50)
    
    print("\n[A] ANÁLISE DO ARQUIVO CSV (lista_vermelha_cnc_flora.csv):")
    print("\n[A.1] Informações Gerais:")
    df_lista_vermelha.info()
    
    print("\n[A.2] Amostra dos Dados:")
    display(df_lista_vermelha.head())
    
    print("\n[A.3] Contagem de Valores Nulos:")
    valores_nulos_csv = df_lista_vermelha.isnull().sum()
    print(valores_nulos_csv[valores_nulos_csv > 0].sort_values(ascending=False))
    print("-" * 50)

except FileNotFoundError:
    print(f"\nERRO: Arquivo CSV não encontrado em '{caminho_csv.resolve()}'")
except Exception as e:
    print(f"\nOcorreu um erro inesperado ao carregar o arquivo CSV: {e}")

# --- 2. Carregando o arquivo TXT de apoio ---
caminho_txt = Path('../../data/raw/cncflora/termos_plantas.txt')

try:
    # Assumindo que o TXT é separado por tabulação ('\t'), que é comum.
    # Se der erro, podemos ajustar o separador.
    df_termos = pd.read_csv(caminho_txt, sep='\t')

    print(f"\nArquivo '{caminho_txt.name}' carregado com sucesso!")
    print("-" * 50)
    
    print("\n[B] ANÁLISE DO ARQUIVO TXT (termos_plantas.txt):")
    print("\n[B.1] Informações Gerais:")
    df_termos.info()
    
    print("\n[B.2] Amostra dos Dados:")
    display(df_termos.head())
    print("-" * 50)

except FileNotFoundError:
    print(f"\nERRO: Arquivo TXT não encontrado em '{caminho_txt.resolve()}'")
except Exception as e:
    print(f"\nOcorreu um erro inesperado ao carregar o arquivo TXT: {e}")

--- Célula 1: Análise Exploratória da Fonte CNCFlora (ambos os arquivos) ---

Arquivo 'lista_vermelha_cnc_flora.csv' carregado com sucesso!
--------------------------------------------------

[A] ANÁLISE DO ARQUIVO CSV (lista_vermelha_cnc_flora.csv):

[A.1] Informações Gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7546 entries, 0 to 7545
Data columns (total 9 columns):
 #   Column                                                          Non-Null Count  Dtype  
---  ------                                                          --------------  -----  
 0   Grupo                                                           7524 non-null   object 
 1   Nome Avaliado (entrada sistema CNCFlora)                        7524 non-null   object 
 2   Nome popular                                                    1171 non-null   object 
 3   Categoria de risco de extinção                                  7524 non-null   object 
 4   Data avaliação                                       

Unnamed: 0,Grupo,Nome Avaliado (entrada sistema CNCFlora),Nome popular,Categoria de risco de extinção,Data avaliação,Reavaliação?,Histórico de Avaliações,Classificação de Ameaças Sistema IUCN / Ameaças cadastradas,Classificação Ações de Conservação IUCN / Ações de conservação
0,Angiospermas,Aphelandra bradeana,,DD,2018.0,Não se aplica,"Inéditas não ameaçadas (NT, DD, LC)",7.1.1 Increase in fire frequency/intensity,
1,Angiospermas,Aphelandra espirito-santensis,,EN,2013.0,Não,Continuou em P443 na mesma categoria de ameaça...,,4.4 Protected areas|1.2.1.3 Sub-national level
2,Angiospermas,Aphelandra gigantea,"crista-de-galinha,PORTUGUES,sudeste/NA/crista-...",LC,2013.0,,,,4.4 Protected areas|1.2.1.1 International leve...
3,Angiospermas,Aphelandra hirta,,LC,2013.0,,,,4.4 Protected areas|1.2.1.3 Sub-national level
4,Angiospermas,Aphelandra longiflora,"canela-de-jacomi,PORTUGUES,centro-oeste/erva-d...",LC,2013.0,,,,4.4 Protected areas|1.2.1.1 International leve...



[A.3] Contagem de Valores Nulos:
Nome popular                                                      6375
Histórico de Avaliações                                           2301
Reavaliação?                                                      2301
Classificação de Ameaças Sistema IUCN / Ameaças cadastradas       1830
Classificação Ações de Conservação IUCN / Ações de conservação     576
Data avaliação                                                      36
Grupo                                                               22
Categoria de risco de extinção                                      22
Nome Avaliado (entrada sistema CNCFlora)                            22
dtype: int64
--------------------------------------------------

Arquivo 'termos_plantas.txt' carregado com sucesso!
--------------------------------------------------

[B] ANÁLISE DO ARQUIVO TXT (termos_plantas.txt):

[B.1] Informações Gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1974 entries, 0 to 1973
Data col

Unnamed: 0,"Justicia birae,Angiospermas"
0,"Justicia carajensis,Angiospermas"
1,"Justicia cowanii,Angiospermas"
2,"Justicia divergens,Angiospermas"
3,"Justicia mcdadeana,Angiospermas"
4,"Justicia potamogeton,Angiospermas"


--------------------------------------------------


# 2.2: Corrigindo o Carregamento e Padronizando Colunas

In [3]:
import unicodedata
import re

print("--- Célula 2: Corrigindo o carregamento de 'df_termos' e padronizando colunas de 'df_lista_vermelha' ---")

# --- 1. Corrigindo o carregamento do df_termos ---
try:
    caminho_txt = Path('../../data/raw/cncflora/termos_plantas.txt')
    # CORREÇÃO: Usando sep=',', informando que não há cabeçalho (header=None)
    # e nomeando as colunas explicitamente.
    df_termos = pd.read_csv(
        caminho_txt, 
        sep=',', 
        header=None, 
        names=['nome_cientifico_completo', 'grupo_taxonomico']
    )
    
    print("\n[1] Arquivo 'termos_plantas.txt' carregado CORRETAMENTE:")
    display(df_termos.head())
    print("-" * 50)

except Exception as e:
    print(f"Ocorreu um erro ao recarregar o arquivo TXT: {e}")


# --- 2. Padronizando as colunas do df_lista_vermelha ---
# (Esta lógica é a mesma que usamos com sucesso para a Scopus)
try:
    print("\n[2] Padronizando nomes das colunas de 'df_lista_vermelha':")
    print("\nColunas ANTES da padronização:")
    print(df_lista_vermelha.columns.tolist())

    novas_colunas = []
    for col in df_lista_vermelha.columns:
        col = str(col)
        col_normalizada = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        col_minuscula = col_normalizada.lower()
        col_com_underscore = col_minuscula.replace(' ', '_').replace('/', '_') # Substitui / por _
        col_final = re.sub(r'[^a-z0-9_]', '', col_com_underscore) # Remove caracteres especiais restantes
        novas_colunas.append(col_final)

    df_lista_vermelha.columns = novas_colunas
    
    print("\nColunas DEPOIS da padronização:")
    print(df_lista_vermelha.columns.tolist())
    
    print("\nAmostra do DataFrame com colunas padronizadas:")
    display(df_lista_vermelha.head())
    print("-" * 50)
    
except NameError:
    print("ERRO: O DataFrame 'df_lista_vermelha' não foi encontrado. Execute a Célula 1 primeiro.")

--- Célula 2: Corrigindo o carregamento de 'df_termos' e padronizando colunas de 'df_lista_vermelha' ---

[1] Arquivo 'termos_plantas.txt' carregado CORRETAMENTE:


Unnamed: 0,nome_cientifico_completo,grupo_taxonomico
0,Justicia birae,Angiospermas
1,Justicia carajensis,Angiospermas
2,Justicia cowanii,Angiospermas
3,Justicia divergens,Angiospermas
4,Justicia mcdadeana,Angiospermas


--------------------------------------------------

[2] Padronizando nomes das colunas de 'df_lista_vermelha':

Colunas ANTES da padronização:
['Grupo', 'Nome Avaliado (entrada sistema CNCFlora)', 'Nome popular', 'Categoria de risco de extinção', 'Data avaliação', 'Reavaliação?', 'Histórico de Avaliações', 'Classificação de Ameaças Sistema IUCN / Ameaças cadastradas', 'Classificação Ações de Conservação IUCN / Ações de conservação']

Colunas DEPOIS da padronização:
['grupo', 'nome_avaliado_entrada_sistema_cncflora', 'nome_popular', 'categoria_de_risco_de_extincao', 'data_avaliacao', 'reavaliacao', 'historico_de_avaliacoes', 'classificacao_de_ameacas_sistema_iucn___ameacas_cadastradas', 'classificacao_acoes_de_conservacao_iucn___acoes_de_conservacao']

Amostra do DataFrame com colunas padronizadas:


Unnamed: 0,grupo,nome_avaliado_entrada_sistema_cncflora,nome_popular,categoria_de_risco_de_extincao,data_avaliacao,reavaliacao,historico_de_avaliacoes,classificacao_de_ameacas_sistema_iucn___ameacas_cadastradas,classificacao_acoes_de_conservacao_iucn___acoes_de_conservacao
0,Angiospermas,Aphelandra bradeana,,DD,2018.0,Não se aplica,"Inéditas não ameaçadas (NT, DD, LC)",7.1.1 Increase in fire frequency/intensity,
1,Angiospermas,Aphelandra espirito-santensis,,EN,2013.0,Não,Continuou em P443 na mesma categoria de ameaça...,,4.4 Protected areas|1.2.1.3 Sub-national level
2,Angiospermas,Aphelandra gigantea,"crista-de-galinha,PORTUGUES,sudeste/NA/crista-...",LC,2013.0,,,,4.4 Protected areas|1.2.1.1 International leve...
3,Angiospermas,Aphelandra hirta,,LC,2013.0,,,,4.4 Protected areas|1.2.1.3 Sub-national level
4,Angiospermas,Aphelandra longiflora,"canela-de-jacomi,PORTUGUES,centro-oeste/erva-d...",LC,2013.0,,,,4.4 Protected areas|1.2.1.1 International leve...


--------------------------------------------------


# 2.3: Limpeza de Conteúdo (Nulos e Colunas Multivaloradas)

In [5]:
print("--- Célula 3: Limpando o conteúdo do DataFrame da CNCFlora ---")

try:
    df_cncflora_limpo = df_lista_vermelha.copy()

    # --- 1. Adicionar um ID único para cada avaliação ---
    # Isso será nossa chave primária para a futura tabela fato
    df_cncflora_limpo.reset_index(inplace=True)
    df_cncflora_limpo.rename(columns={'index': 'avaliacao_id'}, inplace=True)
    print("[1] ID único ('avaliacao_id') criado para cada registro.")

    # --- 2. Remover coluna com excesso de nulos ---
    if 'nome_popular' in df_cncflora_limpo.columns:
        df_cncflora_limpo = df_cncflora_limpo.drop(columns=['nome_popular'])
        print("[2] Coluna 'nome_popular' removida com sucesso.")

    # --- 3. Preencher valores nulos (NaN) restantes ---
    for col in df_cncflora_limpo.select_dtypes(include=['object']).columns:
        df_cncflora_limpo[col] = df_cncflora_limpo[col].fillna('NAO INFORMADO')
    if 'data_avaliacao' in df_cncflora_limpo.columns:
        df_cncflora_limpo['data_avaliacao'] = df_cncflora_limpo['data_avaliacao'].fillna(0)
    print("[3] Valores nulos restantes foram preenchidos.")
    
    # --- 4. Corrigir tipo de dado da coluna de data ---
    if 'data_avaliacao' in df_cncflora_limpo.columns:
        df_cncflora_limpo['data_avaliacao'] = df_cncflora_limpo['data_avaliacao'].astype(int)
        print("[4] Tipo da coluna 'data_avaliacao' corrigido para inteiro.")

    print("\n--- Limpeza de conteúdo concluída! ---")
    print("DataFrame 'df_cncflora_limpo' está pronto para a modelagem.")
    display(df_cncflora_limpo.head())
    
except NameError:
    print("ERRO: O DataFrame 'df_lista_vermelha' não foi encontrado. Execute as Células 1 e 2 primeiro.")

--- Célula 3: Limpando o conteúdo do DataFrame da CNCFlora ---
[1] ID único ('avaliacao_id') criado para cada registro.
[2] Coluna 'nome_popular' removida com sucesso.
[3] Valores nulos restantes foram preenchidos.
[4] Tipo da coluna 'data_avaliacao' corrigido para inteiro.

--- Limpeza de conteúdo concluída! ---
DataFrame 'df_cncflora_limpo' está pronto para a modelagem.


Unnamed: 0,avaliacao_id,grupo,nome_avaliado_entrada_sistema_cncflora,categoria_de_risco_de_extincao,data_avaliacao,reavaliacao,historico_de_avaliacoes,classificacao_de_ameacas_sistema_iucn___ameacas_cadastradas,classificacao_acoes_de_conservacao_iucn___acoes_de_conservacao
0,0,Angiospermas,Aphelandra bradeana,DD,2018,Não se aplica,"Inéditas não ameaçadas (NT, DD, LC)",7.1.1 Increase in fire frequency/intensity,NAO INFORMADO
1,1,Angiospermas,Aphelandra espirito-santensis,EN,2013,Não,Continuou em P443 na mesma categoria de ameaça...,NAO INFORMADO,4.4 Protected areas|1.2.1.3 Sub-national level
2,2,Angiospermas,Aphelandra gigantea,LC,2013,NAO INFORMADO,NAO INFORMADO,NAO INFORMADO,4.4 Protected areas|1.2.1.1 International leve...
3,3,Angiospermas,Aphelandra hirta,LC,2013,NAO INFORMADO,NAO INFORMADO,NAO INFORMADO,4.4 Protected areas|1.2.1.3 Sub-national level
4,4,Angiospermas,Aphelandra longiflora,LC,2013,NAO INFORMADO,NAO INFORMADO,NAO INFORMADO,4.4 Protected areas|1.2.1.1 International leve...


# 2.4: Criando a 1ª Dimensão (Ações de Conservação)

In [7]:
print("--- Célula 4: Criando dim_acoes_conservacao e a tabela ponte ---")

try:
    # CORREÇÃO: Ajustado o nome da coluna para ter 3 underscores, como no DataFrame limpo.
    coluna_acoes = 'classificacao_acoes_de_conservacao_iucn___acoes_de_conservacao'

    # 1. Cria uma tabela de trabalho com o ID da avaliação e a coluna multivalorada
    df_acoes_trab = df_cncflora_limpo[['avaliacao_id', coluna_acoes]].copy()
    df_acoes_trab = df_acoes_trab[df_acoes_trab[coluna_acoes] != 'NAO INFORMADO']

    # 2. Divide e explode a coluna
    df_acoes_trab[coluna_acoes] = df_acoes_trab[coluna_acoes].str.split('|')
    df_acoes_explodido = df_acoes_trab.explode(coluna_acoes)
    df_acoes_explodido[coluna_acoes] = df_acoes_explodido[coluna_acoes].str.strip()
    df_acoes_explodido.dropna(subset=[coluna_acoes], inplace=True)
    
    # 3. Cria a tabela de dimensão com valores únicos
    dim_acoes_conservacao = pd.DataFrame(df_acoes_explodido[coluna_acoes].unique(), columns=['acao_conservacao'])
    dim_acoes_conservacao.reset_index(inplace=True)
    dim_acoes_conservacao.rename(columns={'index': 'acao_id'}, inplace=True)
    
    print("\n[1] Tabela 'dim_acoes_conservacao' criada:")
    display(dim_acoes_conservacao.head())
    
    # 4. Cria a tabela ponte
    pon_avaliacao_acao = pd.merge(
        df_acoes_explodido,
        dim_acoes_conservacao,
        left_on=coluna_acoes,
        right_on='acao_conservacao',
        how='left'
    )
    pon_avaliacao_acao = pon_avaliacao_acao[['avaliacao_id', 'acao_id']]
    
    print("\n[2] Tabela 'pon_avaliacao_acao' criada:")
    display(pon_avaliacao_acao.head())

except NameError:
    print("ERRO: O DataFrame 'df_cncflora_limpo' não foi encontrado. Execute a Célula 3 primeiro.")
except KeyError:
    print(f"ERRO DE CHAVE: Uma das colunas especificadas não foi encontrada. Verifique os nomes das colunas em 'df_cncflora_limpo'.")

--- Célula 4: Criando dim_acoes_conservacao e a tabela ponte ---

[1] Tabela 'dim_acoes_conservacao' criada:


Unnamed: 0,acao_id,acao_conservacao
0,0,4.4 Protected areas
1,1,1.2.1.3 Sub-national level
2,2,1.2.1.1 International level
3,3,1.2.2.3 Sub-national level
4,4,2.1 Site/area management



[2] Tabela 'pon_avaliacao_acao' criada:


Unnamed: 0,avaliacao_id,acao_id
0,1,0
1,1,1
2,2,0
3,2,2
4,2,1


# 2.5: Criando a 2ª Dimensão (Ameaças)

In [9]:
print("--- Célula 5: Criando dim_ameacas e a tabela ponte ---")

try:
    # CORREÇÃO: Ajustado o nome da coluna para 3 underscores, como no DataFrame limpo.
    coluna_ameacas = 'classificacao_de_ameacas_sistema_iucn___ameacas_cadastradas'

    # 1. Cria uma tabela de trabalho com o ID da avaliação e a coluna multivalorada
    df_ameacas_trab = df_cncflora_limpo[['avaliacao_id', coluna_ameacas]].copy()
    df_ameacas_trab = df_ameacas_trab[df_ameacas_trab[coluna_ameacas] != 'NAO INFORMADO']

    # 2. Divide e explode a coluna (assumindo o mesmo delimitador '|')
    df_ameacas_trab[coluna_ameacas] = df_ameacas_trab[coluna_ameacas].str.split('|')
    df_ameacas_explodido = df_ameacas_trab.explode(coluna_ameacas)
    df_ameacas_explodido[coluna_ameacas] = df_ameacas_explodido[coluna_ameacas].str.strip()
    df_ameacas_explodido.dropna(subset=[coluna_ameacas], inplace=True)
    df_ameacas_explodido = df_ameacas_explodido[df_ameacas_explodido[coluna_ameacas] != '']

    # 3. Cria a tabela de dimensão com valores únicos
    dim_ameacas = pd.DataFrame(df_ameacas_explodido[coluna_ameacas].unique(), columns=['ameaca_descricao'])
    dim_ameacas.reset_index(inplace=True)
    dim_ameacas.rename(columns={'index': 'ameaca_id'}, inplace=True)
    
    print("\n[1] Tabela 'dim_ameacas' criada:")
    display(dim_ameacas.head())
    
    # 4. Cria a tabela ponte
    pon_avaliacao_ameaca = pd.merge(
        df_ameacas_explodido,
        dim_ameacas,
        left_on=coluna_ameacas,
        right_on='ameaca_descricao',
        how='left'
    )
    pon_avaliacao_ameaca = pon_avaliacao_ameaca[['avaliacao_id', 'ameaca_id']]
    
    print("\n[2] Tabela 'pon_avaliacao_ameaca' criada:")
    display(pon_avaliacao_ameaca.head())

except NameError:
    print("ERRO: O DataFrame 'df_cncflora_limpo' não foi encontrado. Execute a Célula 3 primeiro.")
except KeyError:
    print(f"ERRO DE CHAVE: A coluna '{coluna_ameacas}' não foi encontrada. Verifique o nome da coluna em 'df_cncflora_limpo'.")

--- Célula 5: Criando dim_ameacas e a tabela ponte ---

[1] Tabela 'dim_ameacas' criada:


Unnamed: 0,ameaca_id,ameaca_descricao
0,0,7.1.1 Increase in fire frequency/intensity
1,1,1.1 Agriculture
2,2,1.1.2 Wood plantation
3,3,1.1.4 Livestock
4,4,1 Habitat Loss/Degradation (human induced)



[2] Tabela 'pon_avaliacao_ameaca' criada:


Unnamed: 0,avaliacao_id,ameaca_id
0,0,0
1,5,1
2,5,2
3,5,3
4,6,4


# 2.6: Montagem da Tabela Fato e Dimensões Simples

In [10]:
print("--- Célula 6: Criando as dimensões simples e a tabela fato ---")

try:
    # --- 1. Criar Dimensões Simples ---
    # Para a coluna 'grupo'
    dim_grupo = pd.DataFrame(df_cncflora_limpo['grupo'].unique(), columns=['grupo_nome'])
    dim_grupo.reset_index(inplace=True)
    dim_grupo.rename(columns={'index': 'grupo_id'}, inplace=True)
    
    # Para a coluna 'categoria_de_risco_de_extincao'
    dim_categoria_risco = pd.DataFrame(df_cncflora_limpo['categoria_de_risco_de_extincao'].unique(), columns=['categoria_risco'])
    dim_categoria_risco.reset_index(inplace=True)
    dim_categoria_risco.rename(columns={'index': 'categoria_risco_id'}, inplace=True)

    print("\n[1] Dimensões simples criadas:")
    print("dim_grupo:")
    display(dim_grupo.head())
    print("\ndim_categoria_risco:")
    display(dim_categoria_risco.head())

    # --- 2. Montar a Tabela Fato ---
    # Começamos com a nossa tabela limpa
    fato_avaliacoes_cncflora = df_cncflora_limpo.copy()

    # Adicionamos as chaves estrangeiras das novas dimensões simples
    fato_avaliacoes_cncflora = pd.merge(fato_avaliacoes_cncflora, dim_grupo, left_on='grupo', right_on='grupo_nome', how='left')
    fato_avaliacoes_cncflora = pd.merge(fato_avaliacoes_cncflora, dim_categoria_risco, left_on='categoria_de_risco_de_extincao', right_on='categoria_risco', how='left')

    # Selecionamos as colunas finais para a tabela fato
    colunas_fato = [
        'avaliacao_id',
        'grupo_id', # Chave estrangeira
        'categoria_risco_id', # Chave estrangeira
        'nome_avaliado_entrada_sistema_cncflora',
        'data_avaliacao',
        'reavaliacao',
        'historico_de_avaliacoes'
    ]
    
    fato_avaliacoes_cncflora = fato_avaliacoes_cncflora[colunas_fato]
    
    print("\n[2] Tabela Fato 'fato_avaliacoes_cncflora' criada:")
    display(fato_avaliacoes_cncflora.head())
    
except NameError:
    print("ERRO: O DataFrame 'df_cncflora_limpo' não foi encontrado. Execute as células anteriores primeiro.")

--- Célula 6: Criando as dimensões simples e a tabela fato ---

[1] Dimensões simples criadas:
dim_grupo:


Unnamed: 0,grupo_id,grupo_nome
0,0,Angiospermas
1,1,Briófitas
2,2,Samambaias e Licófitas
3,3,Gimnospermas
4,4,NAO INFORMADO



dim_categoria_risco:


Unnamed: 0,categoria_risco_id,categoria_risco
0,0,DD
1,1,EN
2,2,LC
3,3,VU
4,4,CR



[2] Tabela Fato 'fato_avaliacoes_cncflora' criada:


Unnamed: 0,avaliacao_id,grupo_id,categoria_risco_id,nome_avaliado_entrada_sistema_cncflora,data_avaliacao,reavaliacao,historico_de_avaliacoes
0,0,0,0,Aphelandra bradeana,2018,Não se aplica,"Inéditas não ameaçadas (NT, DD, LC)"
1,1,0,1,Aphelandra espirito-santensis,2013,Não,Continuou em P443 na mesma categoria de ameaça...
2,2,0,2,Aphelandra gigantea,2013,NAO INFORMADO,NAO INFORMADO
3,3,0,2,Aphelandra hirta,2013,NAO INFORMADO,NAO INFORMADO
4,4,0,2,Aphelandra longiflora,2013,NAO INFORMADO,NAO INFORMADO


# 2.7: Criando a Dimensão Mestre de Espécies

In [11]:
import re

print("--- Célula 7: Criando a dimensão mestre de espécies (CNCFlora + Scopus) ---")

try:
    # --- 1. Carregar os dados da Scopus ---
    caminho_scopus = Path('../../data/processed/scopus_dados_limpos_temp.csv')
    df_scopus_limpo = pd.read_csv(caminho_scopus)
    print("[1] Dados da Scopus carregados com sucesso.")

    # --- 2. Preparar o nosso "Dicionário de Busca" a partir dos dados da CNCFlora ---
    # Usamos o df_termos que já carregamos na Célula 2
    lista_de_plantas = df_termos['nome_cientifico_completo'].dropna().unique().tolist()
    # Criamos um padrão de regex que busca por qualquer um dos nomes da lista
    # O r'\b' garante que estamos buscando palavras inteiras
    regex_pattern = r'\b(' + '|'.join(re.escape(nome) for nome in lista_de_plantas) + r')\b'
    print(f"[2] Dicionário de busca com {len(lista_de_plantas)} nomes de plantas foi criado.")

    # --- 3. Preparar o texto da Scopus para a busca ---
    # Combinamos título e resumo em uma única coluna para buscar em ambos
    df_scopus_limpo['texto_busca'] = (df_scopus_limpo['title'].fillna('') + ' ' + df_scopus_limpo['abstract'].fillna(''))

    # --- 4. Executar a busca ---
    # Usamos .str.findall() para encontrar TODAS as espécies mencionadas em cada artigo
    df_scopus_limpo['especies_encontradas'] = df_scopus_limpo['texto_busca'].str.findall(regex_pattern, flags=re.IGNORECASE)
    print("[3] Busca por nomes de espécies nos artigos da Scopus concluída.")
    
    # --- 5. Criar a tabela de ligação (ponte) Artigo-Espécie para a Scopus ---
    # Filtramos apenas os artigos onde encontramos alguma espécie
    df_scopus_com_especies = df_scopus_limpo[df_scopus_limpo['especies_encontradas'].apply(lambda x: len(x) > 0)]
    # Explodimos a lista de espécies para ter uma linha por menção
    pon_artigo_especie_scopus_temp = df_scopus_com_especies[['eid', 'especies_encontradas']].explode('especies_encontradas')
    pon_artigo_especie_scopus_temp.rename(columns={'eid': 'article_id', 'especies_encontradas': 'nome_cientifico'}, inplace=True)
    pon_artigo_especie_scopus_temp.drop_duplicates(inplace=True)

    # --- 6. Criar a Dimensão Mestre de Espécies ---
    # Pegamos os nomes únicos da CNCFlora
    especies_cncflora = pd.DataFrame(df_termos['nome_cientifico_completo'].unique(), columns=['nome_cientifico'])
    # Pegamos os nomes únicos encontrados na Scopus
    especies_scopus = pd.DataFrame(pon_artigo_especie_scopus_temp['nome_cientifico'].unique(), columns=['nome_cientifico'])
    
    # Juntamos as duas listas e removemos duplicatas
    dim_especies = pd.concat([especies_cncflora, especies_scopus], ignore_index=True).drop_duplicates().reset_index(drop=True)
    dim_especies.reset_index(inplace=True)
    dim_especies.rename(columns={'index': 'especie_id'}, inplace=True)
    
    print("\n[4] Dimensão Mestre 'dim_especies' criada:")
    display(dim_especies.head())
    
    # --- 7. Finalizar a tabela ponte com o ID da dimensão mestre ---
    pon_artigo_especie_scopus = pd.merge(
        pon_artigo_especie_scopus_temp,
        dim_especies,
        on='nome_cientifico',
        how='left'
    )[['article_id', 'especie_id']]
    
    print("\n[5] Tabela ponte 'pon_artigo_especie_scopus' finalizada:")
    display(pon_artigo_especie_scopus.head())

except FileNotFoundError:
    print(f"\nERRO: Arquivo '{caminho_scopus.resolve()}' não encontrado.")
    print("Certifique-se de que o script da Scopus foi executado e o arquivo foi salvo em 'data/processed/'.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

--- Célula 7: Criando a dimensão mestre de espécies (CNCFlora + Scopus) ---
[1] Dados da Scopus carregados com sucesso.
[2] Dicionário de busca com 1975 nomes de plantas foi criado.
[3] Busca por nomes de espécies nos artigos da Scopus concluída.

[4] Dimensão Mestre 'dim_especies' criada:


Unnamed: 0,especie_id,nome_cientifico
0,0,Justicia birae
1,1,Justicia carajensis
2,2,Justicia cowanii
3,3,Justicia divergens
4,4,Justicia mcdadeana



[5] Tabela ponte 'pon_artigo_especie_scopus' finalizada:


Unnamed: 0,article_id,especie_id
0,2-s2.0-85162981044,887
1,2-s2.0-85149013333,874
2,2-s2.0-85160833451,292
3,2-s2.0-85167577291,1707
4,2-s2.0-85143804200,76


# 2.8: Finalizando o Modelo - Criação das Tabelas Fato

In [12]:
print("--- Célula 8: Criando as tabelas fato finais ---")

try:
    # --- 1. Criar a Tabela Fato da CNCFlora ---
    print("\n[1] Processando a tabela fato da CNCFlora...")
    
    # Começamos com a nossa base limpa
    fato_avaliacoes_cncflora = df_cncflora_limpo.copy()
    
    # Adicionamos a chave estrangeira da dimensão de espécies
    fato_avaliacoes_cncflora = pd.merge(
        fato_avaliacoes_cncflora,
        dim_especies,
        left_on='nome_avaliado_entrada_sistema_cncflora',
        right_on='nome_cientifico',
        how='left'
    )

    # Adicionamos as chaves de outras dimensões simples (recriando-as aqui para garantir)
    dim_grupo = pd.DataFrame(df_cncflora_limpo['grupo'].unique(), columns=['grupo_nome'])
    dim_grupo.reset_index(inplace=True); dim_grupo.rename(columns={'index': 'grupo_id'}, inplace=True)
    
    dim_categoria_risco = pd.DataFrame(df_cncflora_limpo['categoria_de_risco_de_extincao'].unique(), columns=['categoria_risco'])
    dim_categoria_risco.reset_index(inplace=True); dim_categoria_risco.rename(columns={'index': 'categoria_risco_id'}, inplace=True)

    fato_avaliacoes_cncflora = pd.merge(fato_avaliacoes_cncflora, dim_grupo, left_on='grupo', right_on='grupo_nome', how='left')
    fato_avaliacoes_cncflora = pd.merge(fato_avaliacoes_cncflora, dim_categoria_risco, left_on='categoria_de_risco_de_extincao', right_on='categoria_risco', how='left')

    # Selecionamos as colunas finais para a tabela fato, removendo as colunas de texto que viraram dimensões
    colunas_fato_cncflora = [
        'avaliacao_id',
        'especie_id', # <-- A CHAVE DE LIGAÇÃO PRINCIPAL!
        'grupo_id',
        'categoria_risco_id',
        'data_avaliacao',
        'reavaliacao',
        'historico_de_avaliacoes'
    ]
    
    fato_avaliacoes_cncflora = fato_avaliacoes_cncflora[colunas_fato_cncflora]

    print("Tabela 'fato_avaliacoes_cncflora' finalizada:")
    display(fato_avaliacoes_cncflora.head())

    # --- 2. Criar a Tabela Fato da Scopus ---
    print("\n[2] Processando a tabela fato da Scopus...")
    
    # Na Scopus, a ligação com as espécies é feita pela tabela ponte 'pon_artigo_especie_scopus'
    # A tabela fato é o nosso DataFrame limpo, sem as colunas que foram "explodidas"
    
    colunas_para_remover_scopus = [
        'authors',
        'authors_id',
        'author_full_names',
        'affiliations',
        'author_keywords',
        'index_keywords',
        'texto_busca', # Coluna temporária que criamos
        'especies_encontradas' # Coluna temporária que criamos
    ]
    
    # Garante que vai remover apenas as colunas que de fato existem
    colunas_existentes_para_remover = [col for col in colunas_para_remover_scopus if col in df_scopus_limpo.columns]

    fato_artigos_scopus = df_scopus_limpo.drop(columns=colunas_existentes_para_remover)
    fato_artigos_scopus.rename(columns={'eid': 'article_id'}, inplace=True)

    print("Tabela 'fato_artigos_scopus' finalizada:")
    display(fato_artigos_scopus.head())

except NameError as e:
    print(f"ERRO: Um dos DataFrames necessários não foi encontrado. Certifique-se de que todas as células anteriores foram executadas. Detalhe: {e}")

--- Célula 8: Criando as tabelas fato finais ---

[1] Processando a tabela fato da CNCFlora...
Tabela 'fato_avaliacoes_cncflora' finalizada:


Unnamed: 0,avaliacao_id,especie_id,grupo_id,categoria_risco_id,data_avaliacao,reavaliacao,historico_de_avaliacoes
0,0,,0,0,2018,Não se aplica,"Inéditas não ameaçadas (NT, DD, LC)"
1,1,,0,1,2013,Não,Continuou em P443 na mesma categoria de ameaça...
2,2,,0,2,2013,NAO INFORMADO,NAO INFORMADO
3,3,,0,2,2013,NAO INFORMADO,NAO INFORMADO
4,4,,0,2,2013,NAO INFORMADO,NAO INFORMADO



[2] Processando a tabela fato da Scopus...
Tabela 'fato_artigos_scopus' finalizada:


Unnamed: 0,title,year,source_title,volume,issue,page_start,page_end,page_count,cited_by,doi,...,publisher,issn,coden,language_of_original_document,abbreviated_source_title,document_type,publication_stage,open_access,source,article_id
0,Technological properties of wood from small di...,2023,European Journal of Forest Research,142,5,1225,1238,13,1,10.1007/s10342-023-01588-3,...,Springer Science and Business Media Deutschlan...,16124669,nao_informado,English,Eur. J. For. Res.,Article,Final,nao_informado,Scopus,2-s2.0-85162981044
1,Structure of Eschweilera amazonica R. Knuth (m...,2023,Scientia Forestalis/Forest Sciences,51,0,0,0,0,1,10.18671/scifor.v51.52,...,University of Sao Paolo,14139324,nao_informado,Portuguese,Sci Forest,Article,Final,All Open Access; Gold Open Access,Scopus,2-s2.0-85149013333
2,"A rare new species of Protium from Rondônia, B...",2023,Brittonia,75,2,210,214,4,0,10.1007/s12228-023-09749-9,...,Springer,0007196X,BRTAA,English,Brittonia,Article,Final,nao_informado,Scopus,2-s2.0-85160833451
3,A new species of Conchocarpus and first record...,2023,Phytotaxa,601,2,174,184,10,0,10.11646/phytotaxa.601.2.4,...,Magnolia Press,11793155,nao_informado,English,Phytotaxa,Article,Final,nao_informado,Scopus,2-s2.0-85167577291
4,Chemical and nutritional characterization of A...,2023,Food Research International,163,0,0,0,0,5,10.1016/j.foodres.2022.112290,...,Elsevier Ltd,09639969,FORIE,English,Food Res. Int.,Article,Final,nao_informado,Scopus,2-s2.0-85143804200


# 2.9: Salvando Todas as Tabelas do Modelo CNCFlora

In [13]:
print("--- Célula 9: Salvando os resultados do modelo dimensional da CNCFlora ---")

try:
    # 1. Definir o caminho da pasta de saída
    caminho_saida = Path('../../data/processed/cncflora')
    
    # Cria a pasta de saída, se ela não existir
    caminho_saida.mkdir(parents=True, exist_ok=True)
    print(f"[1] Diretório de saída '{caminho_saida}' está pronto.")

    # 2. Criar um dicionário com todas as tabelas a serem salvas
    # A chave é o nome do arquivo (sem .csv) e o valor é o DataFrame
    tabelas_para_salvar = {
        # Tabela Fato
        "fato_avaliacoes_cncflora": fato_avaliacoes_cncflora,
        
        # Dimensões
        "dim_especies": dim_especies, # A dimensão mestre
        "dim_acoes_conservacao": dim_acoes_conservacao,
        "dim_ameacas": dim_ameacas,
        "dim_grupo": dim_grupo,
        "dim_categoria_risco": dim_categoria_risco,
        
        # Tabelas Ponte
        "pon_avaliacao_acao": pon_avaliacao_acao,
        "pon_avaliacao_ameaca": pon_avaliacao_ameaca
    }

    # 3. Loop para salvar cada tabela
    print("\n[2] Salvando arquivos CSV...")
    for nome_arquivo, df_tabela in tabelas_para_salvar.items():
        if df_tabela is not None:
            caminho_completo = caminho_saida / f"{nome_arquivo}.csv"
            df_tabela.to_csv(caminho_completo, index=False)
            print(f" -> Arquivo salvo: {nome_arquivo}.csv")
        else:
            print(f" -> Aviso: DataFrame para '{nome_arquivo}' não foi gerado e não foi salvo.")
            
    print("\n--- Processo de salvamento concluído! ---")

except NameError as e:
    print(f"ERRO: Um dos DataFrames necessários não foi encontrado. Certifique-se de que todas as células anteriores foram executadas. Detalhe: {e}")

--- Célula 9: Salvando os resultados do modelo dimensional da CNCFlora ---
[1] Diretório de saída '../../data/processed/cncflora' está pronto.

[2] Salvando arquivos CSV...
 -> Arquivo salvo: fato_avaliacoes_cncflora.csv
 -> Arquivo salvo: dim_especies.csv
 -> Arquivo salvo: dim_acoes_conservacao.csv
 -> Arquivo salvo: dim_ameacas.csv
 -> Arquivo salvo: dim_grupo.csv
 -> Arquivo salvo: dim_categoria_risco.csv
 -> Arquivo salvo: pon_avaliacao_acao.csv
 -> Arquivo salvo: pon_avaliacao_ameaca.csv

--- Processo de salvamento concluído! ---
