<a href="https://colab.research.google.com/github/gr3g-z/SENAI-SESI/blob/main/projetoSesi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Questão 1

## 1.1)

Cada país origem deve ter seu próprio diretório e dentro dele subdiretórios para os países destino, e dentro deles os arquivos nomeados com as datas da consulta.
Manter a organização por país de origem e destino aumenta a eficiência do conjunto de dados e facilita requesições e manuteções futuras.
ex:

In [None]:
/base_comex/
    ├── [BRA]/
    │   ├── [AFG]/
    │   │   ── 2019.txt
    │   │   ── 2020.txt
    │   │   ── 2021.txt
    │   ├── [ARG]/
    │   │   ── 2019.txt
    │   │   ── 2020.txt
    │   │   ── 2021.txt
    │   │
    ├── [CHN]/
         [...]

## 1.2)

Inicialmente seria necessário fazer um request na API e para isso seria preciso configura-la.
- Utilizando Python podemos importar a biblioteca Requests e OS para fazer uma requisição na API e incluir dados no diretório.

In [None]:
import requests
import os

In [None]:
# API
API_ENDPOINT = "https://api.comercioexterior.com/consulta"# Endereço da API
API_KEY = "PASSWORD_123"# Chave da API


Após configurar a API

- Criar uma lista com os Países Origem a partir da organização de pastas do diretório.
Todas as pastas subsequentes de base_comex serão um país origem, logo, é possível pegar o nome de todas elas e inserir em uma lista para que possamos iterar sobre eles posteriormente.

In [None]:
def lista_paises_origem(base_path):
    try:

        pastas = [nome for nome in os.listdir(base_path)
                   if os.path.isdir(os.path.join(base_path, nome))]
        return sorted(pastas)
    except Exception as e:
        print(f"Erro ao listar pastas: {e}")
        return []

path = '/caminho/para/base_comex'

# Obtem a lista de países de origem
paises_origem = lista_paises_origem(path) #variavel com a lista

In [None]:
# Função para consultar API e salvar dados
def get_dados(pais_origem, pais_destino, ano):
    params = {
        'pais_origem': pais_origem,
        'pais_destino': pais_destino,
        'ano': ano,
        'api_key': API_KEY
    }#Dicionário com os parâmetros da consulta
    attempts = 3
    for attempt in range(attempts):
        response = requests.get(API_ENDPOINT, params=params)
        if response.status_code == 200:
            return response.json()
        else:
            print(f"Erro na consulta {pais_origem}-{pais_destino}-{ano}: {response.status_code}")
            time.sleep(5)  # Esperar antes de tentar novamente
    return None



Função que cria a estrutura de diretórios necessária para armazenar os dados.
Cria diretórios para todas as combinações de países de origem e destino, exceto quando são iguais caso os diretórios não existam.

In [None]:
def criar_estrutura_diretorios(path):
    for pais_origem in lista_paises:
        for pais_destino in lista_paises:
            if pais_origem != pais_destino:
                path = os.path.join(path, pais_origem, pais_destino)
                os.makedirs(path, exist_ok=True)

In [None]:
# Criar estrutura de diretórios
criar_estrutura_diretorios(path)

# Iterar sobre países de origem, destinos e anos para fazer consultas e salvar dados
for pais_origem in paises_origem:
    for pais_destino in paises_origem:
        if pais_origem != pais_destino:
            for ano in anos:
                dados = get_dados(pais_origem, pais_destino, ano)
                if dados:
                    # Caminho do arquivo onde os dados serão salvos
                    file_path = os.path.join(path, pais_origem, pais_destino, f"{ano}.txt")
                    with open(file_path, 'w') as file:
                        file.write(str(dados))


Podemos Dividir o Código em 5 Etapas

- 1 - **Configurações Iniciais:** Configurações da API.
- 2 - **Lista Países de Origem:** Obtém a lista de países de origem baseada na estrutura de diretórios existente.
- 3 - **Consulta API:** Define uma função para fazer consultas na API com várias tentativas em caso de falha.
- 4 - **Cria Diretórios:** Cria a estrutura de diretórios necessária para armazenar os dados caso não existam.
- 5 - **Itera e Consulta:** Itera sobre todos os países de origem, destino e anos, faz consultas na API, e salva os dados em arquivos organizados por diretórios.

## 1.3)

A resposta estaria em:

<td>
/base_comex/BRA/WLD/2020.txt
</td>

Pois BRA seria o país de origem, WLD o destino e neste caso o WLD representa o comércio enviado ao Mundo.

## 1.4)

O ideal seria Atualizar a base Mensalmente.
Considerando que estamos no Inicio de Fevereiro de 2025, os dados de 2024 já devem estar disponíveis.

Etapa 1 - Verificar e Atualizar Dados Mensais para 2024

In [None]:
# TENDO EM VISTA QUE TEMOS ESTA FUNÇÃO PARA SALVAR OS DADOS
def salvar_dados(mes_ou_tipo, dados):
    # Caminho do arquivo baseado no tipo de dado (mensal ou anual) e no mês
    path = '/caminho/para/base_comex/BRA/CHN/'
    if mes_ou_ano == 'anual':
        file_path = os.path.join(path, '2024', 'final.txt')
    else:
        file_path = os.path.join(path, '2024', f'{mes_ou_ano}.txt')

    # Salvar dados no arquivo
    with open(file_path, 'w') as file:
        file.write(str(dados))  # Ajuste conforme necessário (por exemplo, JSON, CSV, etc.)


Executar consultas com Parâmetro M para cada mês de 2024 para garantir que as informações estejam completas até fevereiro de 2025.

In [None]:
def atualizar_dados_mensais(ano):
    meses = ['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12']
    for mes in meses:
        dados = get_dados(pais_origem, pais_destino, ano, 'M', mes)
        salvar_dados(mes, dados)

atualizar_dados_mensais(2024)


Etapa 2 - Verificar e Atualizar os dados anuais

In [None]:
def atualizar_dados_anuais(ano):
    dados = get_dados(pais_origem, pais_destino, ano, 'A')
    salvar_dados('final', dados)

atualizar_dados_anuais(2024)

Etapa 3 - Armazenar os Dados.

In [None]:
/base_comex/
    ├── [BRA]/
    │   ├── [ARG]/
    │   │   ├── 2024/
    │   │   │   ├── 01.txt
    │   │   │   ├── 02.txt
    │   │   │   ├── ...
    │   │   │   └── Anual.txt


Etapa 4 - Agendamento de Consultas

Definir datas para realizar as consultas de forma Automatizada.

Acredito que o melhor caminho seja utilizar o CRON do Linux e agendar uma consulta dentro de uma VM.

Porém aqui esta uma maneira alternativa com código Python

In [None]:
import schedule
import time

def tarefa_diaria():
    atualizar_dados_mensais(2025)

def tarefa_trimestral():
    atualizar_dados_anuais(2025)

schedule.every().day.at("07:00").do(tarefa_diaria)
schedule.every().three_months.do(tarefa_trimestral)

while True:
    schedule.run_pending()
    time.sleep(60)


Etapa 5 - Verificar os dados

É muito importante evitar dados inconsistentes então seria interessante comparar os dados anuais com os mensais

Etapa 6 - Manter logs de manutenção.

# Questão 2

Etapas para manter o dataset de empresas atualizado:

- 1 - Baixar Arquivos
- 2 - Extrair Arquivos
- 3 - Empilhar Arquivos

In [None]:
def baixar_arquivos():
    for i in range(10):
        url = f'http://200.152.38.155/CNPJ/{i}.zip'
        response = requests.get(url)
        with open(f'arquivos/{i}.zip', 'wb') as arquivo:
            arquivo.write(response.content)


In [None]:
def extrair_arquivos():
    for i in range(10):
        with zipfile.ZipFile(f'arquivos/{i}.zip', 'r') as zip_ref:
            zip_ref.extractall(f'arquivos_extraidos/{i}')


In [None]:
def empilhar_arquivos():
    df_list = []
    for i in range(10):
        df = pd.read_csv(f'arquivos_extraidos/{i}/arquivo.csv')
        df_list.append(df)
    df_final = pd.concat(df_list, ignore_index=True)
    df_final.to_csv('dataset_final.csv', index=False)

# Questão 3

In [None]:

SELECT
    e.employee_name,
    (SELECT d.department_name
     FROM departments d
     JOIN employee_department_history edh ON d.department_id = edh.department_id
     WHERE edh.employee_id = e.employee_id
     ORDER BY edh.start_date ASC
     LIMIT 1) AS first_department,
    (SELECT d.department_name
     FROM departments d
     JOIN employee_department_history edh ON d.department_id = edh.department_id
     WHERE edh.employee_id = e.employee_id AND edh.end_date IS NULL) AS current_department,
    COUNT(DISTINCT edh.department_id) AS total_departments
FROM employees e
JOIN employee_department_history edh ON e.employee_id = edh.employee_id
GROUP BY e.employee_id, e.employee_name;


# Questão 4

Seria interessante particionar o arquivo, ter o aquivo em menores frações pode ser vantajoso para ler somente aquilo que sera necessário e criar indices a partir de uma tabela de mapeamento.

# Questão 5

**Engenharia de Features**
- Criar novas variáveis a partir das existentes.

**Normalização dos Dados**
- Padronizar as variáveis para melhorar a performance do modelo.

**Especificação do Modelo**
- Revisar se o modelo indicado é o ideal para o problema

**Validação Cruzada**
- Garantie que o modelo não está com overfitting ou underfitting nos dados.

**Revisão do Contexto Econômico**
- Certificar que o modelo econométrico está fundamentado na teoria econômica correta.

Consultoria e Revisão
- Pedir a revisão do seu trabalho por outros especialistas/colegas para obter ajudas e sugestões.



# Questão 6

Supondo que só uma seja verdadeira.

- a) Falso
- b) Falso
- c) Falso
- d) Verdadeiro
- e) Falso