In [None]:
import pandas as pd

caminho_dados = 'dados/acidentes.csv'
separador_original = ';'
codificacao = 'utf-8'

caminho_dados_virgula = 'dados/acidentes-virgula.csv'
separador_virgula = ','

try:
    # 1. Carregar o CSV original usando o separador correto (;)
    df = pd.read_csv(caminho_dados, sep=separador_original, encoding=codificacao)

    print("CSV original lido com sucesso! Primeiras 5 linhas:")
    print(df.head())
    print("\nInformações do DataFrame original:")
    df.info()

    # 2. Salvar o DataFrame em um novo arquivo CSV usando a vírgula (,) como separador
    # index=False evita que o Pandas grave o índice do DataFrame como uma nova coluna no CSV
    df.to_csv(caminho_dados_virgula, sep=separador_virgula, encoding=codificacao, index=False)

    print(f"\nArquivo ajustado salvo como '{caminho_dados_virgula}' com separador '{separador_virgula}'.")


except FileNotFoundError:
    print(f"Erro: Arquivo '{caminho_dados}' não encontrado. Verifique o caminho.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

CSV original lido com sucesso! Primeiras 5 linhas:
         data_extracao  predial1  queda_arr                 data  feridos  \
0  2025-06-01 01:33:13       0.0        0.0  2020-10-17 00:00:00        1   
1  2025-06-01 01:33:13     598.0        0.0  2020-01-01 00:00:00        1   
2  2025-06-01 01:33:13    1271.0        0.0  2020-01-01 00:00:00        1   
3  2025-06-01 01:33:13    1901.0        0.0  2020-01-02 00:00:00        2   
4  2025-06-01 01:33:13    3302.0        0.0  2020-01-02 00:00:00        1   

   feridos_gr  mortes  morte_post  fatais  auto  ...  longitude   latitude  \
0           0       0           0       0     3  ...   0.000000   0.000000   
1           0       0           0       0     0  ...        NaN        NaN   
2           1       0           0       0     1  ...        NaN        NaN   
3           0       0           0       0     0  ...        NaN        NaN   
4           0       0           0       0     1  ... -51.211535 -30.081535   

                 

In [None]:
df = pd.read_csv('dados/acidentes-virgula.csv')


if not df.empty: # Só prossegue se o DataFrame não estiver vazio
    print("\n--- Nomes de todas as colunas no seu DataFrame: ---")
    print(df.columns.tolist()) # Isso vai te dar a lista exata dos nomes das colunas

    # AGORA, OLHE A SAÍDA ACIMA! Encontre o nome exato da coluna de data.
    # Pode ser 'Data', 'data_ocorrencia', 'DATA_ACIDENTE', 'data ' (com espaço), etc.

    # Substitua 'NOME_EXATO_DA_SUA_COLUNA_DE_DATA' pelo nome que você encontrou acima.
    # Exemplo: se for 'Data_da_Ocorrência', use 'Data_da_Ocorrência'
    nome_da_coluna_de_data_correta = 'data' # <<< AJUSTE AQUI!

    # Remover espaços em branco no início/fim dos nomes das colunas (boa prática)
    df.columns = df.columns.str.strip()

    # Re-imprima para ver se o nome da coluna de data foi limpo
    print("\n--- Nomes das colunas após remover espaços em branco: ---")
    print(df.columns.tolist())


In [34]:
if nome_da_coluna_de_data_correta in df.columns:
        print(f"\nColuna '{nome_da_coluna_de_data_correta}' encontrada no DataFrame. Prosseguindo...")

        # --- 2. Converter a Coluna de Data para Datetime (Se não for já) ---
        print(f"Tipo de dado atual da coluna '{nome_da_coluna_de_data_correta}': {df[nome_da_coluna_de_data_correta].dtype}")
        df[nome_da_coluna_de_data_correta] = pd.to_datetime(df[nome_da_coluna_de_data_correta], errors='coerce')
        print(f"Tipo de dado após a conversão: {df[nome_da_coluna_de_data_correta].dtype}")

        datas_invalidas = df[nome_da_coluna_de_data_correta].isna().sum()
        if datas_invalidas > 0:
            print(f"Atenção: {datas_invalidas} datas inválidas (NaT) foram geradas na coluna '{nome_da_coluna_de_data_correta}'.")
        else:
            print(f"Coluna '{nome_da_coluna_de_data_correta}' convertida para datetime sem NaTs.")
             # --- 3. Filtrar o DataFrame por Ano ---
        ano_inicio = 2020
        ano_fim = 2024

        # A filtragem agora usa o nome_da_coluna_de_data_correta
        df_filtrado_por_ano = df[
            (df[nome_da_coluna_de_data_correta].dt.year >= ano_inicio) &
            (df[nome_da_coluna_de_data_correta].dt.year <= ano_fim)
        ]

        print(f"\n--- DataFrame Filtrado por Ano ({ano_inicio} a {ano_fim}) ---")
        print(f"Número de linhas no DataFrame original: {len(df)}")
        print(f"Número de linhas no DataFrame filtrado: {len(df_filtrado_por_ano)}")

        print("\n>>> Primeiras 5 linhas do DataFrame Filtrado:")
        print(df_filtrado_por_ano.head())
        print("\n>>> Contagem de registros por ano (filtrado):")
        print(df_filtrado_por_ano[nome_da_coluna_de_data_correta].dt.year.value_counts().sort_index())

else:
    print(f"\nERRO FINAL: A coluna '{nome_da_coluna_de_data_correta}' ainda não foi encontrada no DataFrame após a limpeza. Por favor, verifique a lista de colunas impressa acima e ajuste o nome.")
    print("Tente copiar e colar o nome EXATO da coluna da lista acima.")




Coluna 'data' encontrada no DataFrame. Prosseguindo...
Tipo de dado atual da coluna 'data': datetime64[ns]
Tipo de dado após a conversão: datetime64[ns]
Atenção: 1 datas inválidas (NaT) foram geradas na coluna 'data'.

--- DataFrame Filtrado por Ano (2020 a 2024) ---
Número de linhas no DataFrame original: 69521
Número de linhas no DataFrame filtrado: 66120

>>> Primeiras 5 linhas do DataFrame Filtrado:
         data_extracao  predial1  queda_arr       data  feridos  feridos_gr  \
0  2025-06-01 01:33:13       0.0        0.0 2020-10-17        1           0   
1  2025-06-01 01:33:13     598.0        0.0 2020-01-01        1           0   
2  2025-06-01 01:33:13    1271.0        0.0 2020-01-01        1           1   
3  2025-06-01 01:33:13    1901.0        0.0 2020-01-02        2           0   
4  2025-06-01 01:33:13    3302.0        0.0 2020-01-02        1           0   

   mortes  morte_post  fatais  auto  ...  longitude   latitude  \
0       0           0       0     3  ...   0.000000

IndentationError: unindent does not match any outer indentation level (<string>, line 20)