In [1]:
import pandas as pd
import requests
from unidecode import unidecode
import numpy as np

In [6]:
def consulta_api(url):
    # Fazendo a requisição GET
    response = requests.get(url)
    # Verifica se a requisição foi bem-sucedida (código de status 200)
    if response.status_code == 200:
        print("requisição bem sucedida")
        data = response.json()
        #transforma em dataframe
        df = pd.DataFrame(data)
    else:
        # Se a requisição não foi bem-sucedida, imprime o código de status
        print(f"A requisição falhou com o código de status {response.status_code}")
    return df


In [7]:
url_area_colhida = 'https://apisidra.ibge.gov.br/values/t/5457/n6/all/v/216/p/2019/c782/40124?formato=json'
area_colhida = consulta_api(url_area_colhida)

requisição bem sucedida


verifiquei que há linhas no campo de valor que estão nula, se fizer sentido ao negócio uma opção seria preenche-lo com uma média do valor de hectare daquele municipio ou estado. Por enquanto apenas transformei em NaN

In [4]:
def organize_df(df):
    #renomeia as colunas do dataframe como a primeira linha
    new_columns = df.iloc[0]  
    df = df[1:] 
    df.columns = new_columns 
    if df.shape[0]>0:
        #realiza ajustes nos nomes da coluna
        df.columns = df.columns.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.lower().str.replace(' ', '_')
        df = df.rename(columns=lambda x: x.replace('(codigo)', 'id'))
        #separa o municipio do estado
        df[['municipio', 'estado']] = df['municipio'].str.split(' - ', expand=True)
        #padroniza as linhas para minusculo e sem acento
        df[df.columns.difference(['estado'])] = df[df.columns.difference(['estado'])].applymap(lambda x: unidecode(str(x)).lower())
        # Converter para inteiros, transformando valores não numéricos em NaN
        colunas_para_int = ['nivel_territorial_id', 'unidade_de_medida_id','valor','municipio_id','variavel_id', 'ano_id', 'ano','produto_das_lavouras_temporarias_e_permanentes_id']
        for coluna in colunas_para_int:
            df[coluna] = pd.to_numeric(df[coluna], errors='coerce')
    else:
        print("Não há dados disponíveis para o ano selecionado")
    return df

In [8]:
df_area_colhida = organize_df(area_colhida)

In [9]:
url_quantidade_produzida = 'https://apisidra.ibge.gov.br/values/t/5457/n6/all/v/214/p/2018/c782/40124?formato=json'
quantidade_produzida = consulta_api(url_quantidade_produzida)

requisição bem sucedida


In [10]:
# import psycopg2
# import pandas as pd
# from sqlalchemy import create_engine

# # Supondo que você já tenha um DataFrame chamado df

# # Conectar ao PostgreSQL (substitua os valores pelos seus próprios)
# conn = psycopg2.connect(
#     dbname="veeries",
#     user="postgres",
#     password="232144",
#     host="localhost",
#     port="5432",
# )

# # Criar uma tabela a partir do DataFrame
# engine = create_engine('postgresql://postgres:232144@localhost:5432/veeries')
# df_area_colhida.to_sql('area_colhida', engine, if_exists='replace', index=False)  # Substitua 'nome_da_tabela' pelo nome desejado para a tabela

# # Fechar a conexão
# conn.close()


construindo as funções pedidas

precisei criar no  banco de dados uma constrição
"ALTER TABLE public.area_colhida
ADD CONSTRAINT municipio_ano_unique UNIQUE (municipio_id, ano_id)" para que a função de insert_or_update pudesse funcionar

In [5]:
import psycopg2
from psycopg2 import sql



def insert_or_update_postgres(df,tabela):

    # Conectar ao banco de dados
    conn = psycopg2.connect(
    dbname="veeries",
    user="postgres",
    password="232144",
    host="localhost",
    port="5432",
    )
    # Substituir valores NaN por None. Apenas como None o postgres reconhece como valor ausente
    df.replace({np.nan: None}, inplace=True)

    cur = conn.cursor()
    for index, row in df.iterrows():
        query = sql.SQL("""
        INSERT INTO public.{tabela} 
        VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
        ON CONFLICT (municipio_id,ano_id) DO UPDATE
        SET
            nivel_territorial_id = EXCLUDED.nivel_territorial_id,
            nivel_territorial = EXCLUDED.nivel_territorial,
            unidade_de_medida_id = EXCLUDED.unidade_de_medida_id,
            unidade_de_medida = EXCLUDED.unidade_de_medida,
            valor = EXCLUDED.valor,
            municipio_id = EXCLUDED.municipio_id,
            municipio = EXCLUDED.municipio,
            variavel_id = EXCLUDED.variavel_id,
            variavel = EXCLUDED.variavel,
            ano_id = EXCLUDED.ano_id,
            ano = EXCLUDED.ano,
            produto_das_lavouras_temporarias_e_permanentes_id = EXCLUDED.produto_das_lavouras_temporarias_e_permanentes_id,
            produto_das_lavouras_temporarias_e_permanentes = EXCLUDED.produto_das_lavouras_temporarias_e_permanentes,
            estado = EXCLUDED.estado;
        """.format(tabela=tabela))
        # Executar a query com os valores correspondentes
        cur.execute(query, (
            row['nivel_territorial_id'],
            row['nivel_territorial'],
            row['unidade_de_medida_id'],
            row['unidade_de_medida'],
            row['valor'],
            row['municipio_id'],
            row['municipio'],
            row['variavel_id'],
            row['variavel'],
            row['ano_id'],
            row['ano'],
            row['produto_das_lavouras_temporarias_e_permanentes_id'],
            row['produto_das_lavouras_temporarias_e_permanentes'],
            row['estado']
        ))

    # Commit (salvar) as mudanças
    conn.commit()

    # Fechar a conexão
    cur.close()
    conn.close()

    return print('Inserção ou Atualização concluídas')


In [6]:
def insert_or_update(tabela:str, year: int, **kwargs):
    if tabela == 'area_colhida':
        url = 'https://apisidra.ibge.gov.br/values/t/5457/n6/all/v/216/p/{ano}/c782/40124?formato=json'.format(ano=year)
    elif tabela == 'quantidade_produzida':
        url = 'https://apisidra.ibge.gov.br/values/t/5457/n6/all/v/214/p/{ano}/c782/40124?formato=json'.format(ano=year)
    else:
        print('url não disponível para esta tabela. As opções de tabela são: area_colhida, quantidade_produzida')
        pass
    df_tabela = consulta_api(url)
    df = organize_df(df_tabela)
    print("DataFrame gerado para a {tabela} - {ano}".format(tabela=tabela,ano=year))
    send = insert_or_update_postgres(df,tabela)
    return print("processo de busca e inserção no banco realizados")

In [7]:
from datetime import datetime

ano_corrente = datetime.now().year
anos = list(range(2018, ano_corrente + 1))
print(anos)


[2018, 2019, 2020, 2021, 2022, 2023, 2024]


In [8]:
insert_or_update('area_colhida',year=2020)

requisição bem sucedida
DataFrame gerado para a area_colhida - 2020
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados


In [14]:
for i in anos:
    dale = insert_or_update('area_colhida',year=i)

requisição bem sucedida
DataFrame gerado para a area_colhida - 2018
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a area_colhida - 2019
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a area_colhida - 2020
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a area_colhida - 2021
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a area_colhida - 2022
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
Não há dados disponíveis para o ano selecionado
DataFrame gerado para a area_colhida - 2023
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
Não há dados dis

In [15]:
for i in anos:
    dale = insert_or_update('quantidade_produzida',year=i)

requisição bem sucedida
DataFrame gerado para a quantidade_produzida - 2018
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a quantidade_produzida - 2019
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a quantidade_produzida - 2020
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a quantidade_produzida - 2021
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
DataFrame gerado para a quantidade_produzida - 2022
Inserção ou Atualização concluídas
processo de busca e inserção no banco realizados
requisição bem sucedida
Não há dados disponíveis para o ano selecionado
DataFrame gerado para a quantidade_produzida - 2023
Inserção ou Atualização concluídas
processo de busca e inserção no banco rea

In [1]:
import psycopg2
from psycopg2 import sql



def delete_postgres(year:int,tabela):

    # Conectar ao banco de dados
    conn = psycopg2.connect(
    dbname="veeries",
    user="postgres",
    password="232144",
    host="localhost",
    port="5432",
    )

    cur = conn.cursor()
    query = sql.SQL("""
        delete from public.{tabela}
                    where ano = {year}
        """.format(tabela=tabela, year=year))
        # Executar a query com os valores correspondentes
    cur.execute(query)
    # Commit (salvar) as mudanças
    conn.commit()

    # Fechar a conexão
    cur.close()
    conn.close()

    return print('Deletado dados de {year} da tabela {tabela}'.format(year=year,tabela=tabela))


In [3]:
delete_postgres(2018,'area_colhida')

Deletado dados de 2018 da tabela area_colhida
