In [23]:
import pandas as pd

In [24]:
def salvar_dados(df, nome_do_arquivo):
    df.to_csv(f"streamlit-data/{nome_do_arquivo}", sep=";", index=False)

In [25]:
import pandas as pd
import os

def analisar_csv_latin(nome_arquivo):
    """
    Função para analisar um arquivo CSV e gerar novos arquivos com informações extraídas.

    Args:
        caminho_arquivo (str): Caminho completo do arquivo CSV.
    """

    # Carregar o DataFrame
    df = pd.read_csv(nome_arquivo, sep=';', encoding="latin-1")

    # 1. Salvar informações sobre o arquivo
    informacoes = {'Arquivo': nome_arquivo, 'Linhas': len(df)}
    df_info = pd.DataFrame(informacoes, index=[0])

    # Criar um arquivo CSV para armazenar as informações
    df_info.to_csv('informacoes_arquivos.csv', mode='a', header=not os.path.exists('informacoes_arquivos.csv'))

    # 2. Salvar CNPJs únicos
    cnpjs_unicos = df['CNPJ da Revenda'].unique()
    pd.DataFrame({'CNPJs unicos': cnpjs_unicos}).to_csv('streamlit-data/cnpjs_unicos.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/cnpjs_unicos.csv'))

    # 3. Salvar número de coletas por estado
    coletas_por_estado = df.groupby('Estado - Sigla')['Data da Coleta'].count().reset_index()
    coletas_por_estado.columns = ['Estado', 'Numero de Coletas']
    coletas_por_estado.to_csv('streamlit-data/coletas_por_estado.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado.csv'))

    # 4. Salvar número de coletas por estado e cidade
    coletas_por_estado_cidade = df.groupby(['Estado - Sigla', 'Municipio'])['Data da Coleta'].count().reset_index()
    coletas_por_estado_cidade.columns = ['Estado', 'Cidade', 'Número de Coletas']
    coletas_por_estado_cidade.to_csv('streamlit-data/coletas_por_estado_cidade.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado_cidade.csv'))

In [26]:
import pandas as pd
import os

def analisar_csv_unicode(nome_arquivo):
    """
    Função para analisar um arquivo CSV e gerar novos arquivos com informações extraídas.

    Args:
        caminho_arquivo (str): Caminho completo do arquivo CSV.
    """

    # Carregar o DataFrame
    df = pd.read_csv(nome_arquivo, sep=';', dtype="unicode")

    # 1. Salvar informações sobre o arquivo
    informacoes = {'Arquivo': nome_arquivo, 'Linhas': len(df)}
    df_info = pd.DataFrame(informacoes, index=[0])

    # Criar um arquivo CSV para armazenar as informações
    df_info.to_csv('informacoes_arquivos.csv', mode='a', header=not os.path.exists('informacoes_arquivos.csv'))

    # 2. Salvar CNPJs únicos
    cnpjs_unicos = df['CNPJ da Revenda'].unique()
    pd.DataFrame({'CNPJs unicos': cnpjs_unicos}).to_csv('streamlit-data/cnpjs_unicos.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/cnpjs_unicos.csv'))

    # 3. Salvar número de coletas por estado
    coletas_por_estado = df.groupby('Estado - Sigla')['Data da Coleta'].count().reset_index()
    coletas_por_estado.columns = ['Estado', 'Numero de Coletas']
    coletas_por_estado.to_csv('streamlit-data/coletas_por_estado.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado.csv'))

    # 4. Salvar número de coletas por estado e cidade
    coletas_por_estado_cidade = df.groupby(['Estado - Sigla', 'Municipio'])['Data da Coleta'].count().reset_index()
    coletas_por_estado_cidade.columns = ['Estado', 'Cidade', 'Número de Coletas']
    coletas_por_estado_cidade.to_csv('streamlit-data/coletas_por_estado_cidade.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado_cidade.csv'))

In [30]:
import pandas as pd
import os

def analisar_csv(nome_arquivo):
    """
    Função para analisar um arquivo CSV e gerar novos arquivos com informações extraídas.

    Args:
        caminho_arquivo (str): Caminho completo do arquivo CSV.
    """

    # Carregar o DataFrame
    df = pd.read_csv(nome_arquivo, sep=';')

    # 1. Salvar informações sobre o arquivo
    informacoes = {'Arquivo': nome_arquivo, 'Linhas': len(df)}
    df_info = pd.DataFrame(informacoes, index=[0])

    # Criar um arquivo CSV para armazenar as informações
    df_info.to_csv('informacoes_arquivos.csv', mode='a', header=not os.path.exists('informacoes_arquivos.csv'))

    # 2. Salvar CNPJs únicos
    cnpjs_unicos = df['CNPJ da Revenda'].unique()
    pd.DataFrame({'CNPJs unicos': cnpjs_unicos}).to_csv('streamlit-data/cnpjs_unicos.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/cnpjs_unicos.csv'))

    # 3. Salvar número de coletas por estado
    coletas_por_estado = df.groupby('Estado - Sigla')['Data da Coleta'].count().reset_index()
    coletas_por_estado.columns = ['Estado', 'Numero de Coletas']
    coletas_por_estado.to_csv('streamlit-data/coletas_por_estado.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado.csv'))

    # 4. Salvar número de coletas por estado e cidade
    coletas_por_estado_cidade = df.groupby(['Estado - Sigla', 'Municipio'])['Data da Coleta'].count().reset_index()
    coletas_por_estado_cidade.columns = ['Estado', 'Cidade', 'Número de Coletas']
    coletas_por_estado_cidade.to_csv('streamlit-data/coletas_por_estado_cidade.csv', index=False, mode='a', header=not os.path.exists('streamlit-data/coletas_por_estado_cidade.csv'))

In [29]:
for ano in ["13", "14", "15", "16", "17", "18", "19", "22", "23"]:
    for semestre in ["01", "02"]:
        analisar_csv(f"ca-20{ano}-{semestre}.csv")
        
analisar_csv("ca-2020-01.csv")
analisar_csv("ca-2020-02.csv")
analisar_csv("ca-2021-01.csv")
analisar_csv_latin("ca-2021-02.csv")
analisar_csv("ca-2024-01.csv")

  df = pd.read_csv(nome_arquivo, sep=';')


In [37]:
def extrair_cnpjs_unicos():
    """
    Extrai os CNPJs únicos de um arquivo CSV e retorna um DataFrame com os resultados.

    Args:
      nome_arquivo: Nome do arquivo CSV contendo os CNPJs.

    Returns:
      Um DataFrame Pandas com uma coluna 'CNPJ' contendo os CNPJs únicos.
    """

    # Carregar o DataFrame
    df = pd.read_csv(f"streamlit-data/cnpjs_unicos.csv")

    # Extrair os CNPJs únicos e criar um novo DataFrame
    pd.DataFrame({"CNPJ": df["CNPJs unicos"].unique()}).to_csv(
        "streamlit-data/cnpjs_unicos_tratado.csv", index=False
    )

In [34]:
extrair_cnpjs_unicos()

In [None]:
df_cnpj_unicos = pd.read_csv("streamlit-data/cnpjs_unicos_tratado.csv")
print(len(df_cnpj_unicos))

In [None]:
"""
Consolida as coletas por estado, somando o número de coletas para cada estado.

Args:
arquivo_entrada: Nome do arquivo CSV de entrada.
arquivo_saida: Nome do arquivo CSV de saída para o resultado consolidado.
"""

# Carrega o DataFrame
df = pd.read_csv("streamlit-data\coletas_por_estado.csv", sep=",")

# Agrupa os dados por estado e soma o número de coletas
df_consolidado = df.groupby("Estado")["Numero de Coletas"].sum().reset_index()

# Salva o resultado em um novo arquivo CSV
df_consolidado.to_csv("streamlit-data\coletas_por_estado_tratado.csv", index=False)

In [None]:
# Carrega o DataFrame
df = pd.read_csv("streamlit-data\coletas_por_estado_cidade.csv", sep=",")

# Agrupa os dados por Estado e Cidade, e soma o número de coletas
df_consolidado = (
    df.groupby(["Estado", "Cidade"])["Número de Coletas"].sum().reset_index()
)

# Salva o resultado em um novo arquivo CSV
df_consolidado.to_csv(
    "streamlit-data\coletas_por_estado_cidade_tratado.csv", index=False
)

In [20]:
import pandas as pd

def filtrar_e_calcular_media(df, estado, municipio):

    # Filtrar o dataframe pelo estado e município fornecidos
    df_filtrado = df[(df['Estado - Sigla'] == estado) & (df['Municipio'] == municipio)]

    # Converter a coluna 'Data da Coleta' para o formato datetime, caso ainda não esteja
    df_filtrado['Data da Coleta'] = pd.to_datetime(df_filtrado['Data da Coleta'], errors='coerce')

    # Remover linhas com datas inválidas (NaT) após conversão
    df_filtrado = df_filtrado.dropna(subset=['Data da Coleta'])

    # Criar colunas 'Ano' e 'Mes' extraindo de 'Data da Coleta'
    df_filtrado['Ano'] = df_filtrado['Data da Coleta'].dt.year
    df_filtrado['Mes'] = df_filtrado['Data da Coleta'].dt.month

    # Calcular a média mensal para cada produto
    df_resultado = (
        df_filtrado
        .groupby(['Ano', 'Mes', 'Produto'])['Valor de Venda']
        .mean()
        .reset_index()
    )

    return df_resultado

In [22]:
def extrair_estados_municipios_unicos(df):
    # Selecionar as colunas 'Estado - Sigla' e 'Municipio', garantindo que sejam únicas
    df_estados_municipios = df[['Estado - Sigla', 'Municipio']].drop_duplicates()

    # Renomear colunas para facilitar a leitura
    df_estados_municipios = df_estados_municipios.rename(columns={'Estado - Sigla': 'Estado', 'Municipio': 'Municipio'})

    return df_estados_municipios


In [23]:
def gerar_medias_para_todos_municipios(df):

    df_estados_municipios = extrair_estados_municipios_unicos(df)

    # Iterar sobre cada linha no DataFrame de estados e municípios
    for _, row in df_estados_municipios.iterrows():
        estado = row["Estado"]
        municipio = row["Municipio"]

        # Chamar a função de cálculo de média
        df_media = filtrar_e_calcular_media(df, estado, municipio)

        # Gerar o nome do arquivo no formato desejado e salvar
        nome_arquivo = f"streamlit-data\mes_{estado}_{municipio.replace(' ', '_')}_mes_a_mes.csv"
        df_media.to_csv(nome_arquivo, index=False)

In [24]:
df = pd.read_csv("precos-combustiveis-2013-2024.csv", sep=";")
df['Valor de Venda'] = df['Valor de Venda'].str.replace(',', '.').astype(float)
gerar_medias_para_todos_municipios(df)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Data da Coleta'] = pd.to_datetime(df_filtrado['Data da Coleta'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Data da Coleta'] = pd.to_datetime(df_filtrado['Data da Coleta'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Da