# Relatório do tratamento - NACIONAL

### Visão Geral

Este relatório descreve o processo de tratamento aplicado ao conjunto de dados de acidentes em rodovias federais do Brasil. O objetivo do tratamento foi preparar os dados para análise, corrigindo problemas comuns como valores ausentes, inconsistências e formatos incorretos.

## Etapas do Tratamento

As seguintes etapas foram realizadas:
Importação e Pré-processamento

    - O arquivo CSV original foi lido com Pandas.
    - O número máximo de colunas exibidas foi aumentado para facilitar a visualização.
    - O diretório de trabalho foi definido.

Verificação de Linhas Duplicadas

    - Foi verificado que a coluna de número da ocorrência não é única, o que não indica necessariamente linhas duplicadas devido a ocorrências em locais diferentes.
    - Ao verificar linhas completamente duplicadas, foram encontradas 2492, que foram removidas.

Tipos de Dados

    - Os tipos de dados de cada coluna foram verificados.
    - As colunas de data e horário foram convertidas para datetime.
    - Uma nova coluna "ano" foi derivada da coluna de data.

Normalização de Categorias

    - Valores únicos das colunas categóricas foram verificados.
    - Mapeamentos foram criados para padronizar e corrigir erros ortográficos nos valores dessas colunas.
    - As colunas foram normalizadas aplicando os mapeamentos.

Tratamento de Nulos

    - Valores ausentes foram preenchidos com 0 para evitar problemas em operações numéricas.

Correção de Tipos

    - Colunas numéricas foram verificadas quanto à presença de não números.
    - Valores inválidos foram substituídos por 0 e as colunas foram convertidas para float64.

Conclusão

Os dados foram tratados com sucesso, resolvendo os principais problemas. Eles agora estão em formato e qualidade adequados para análise.

# Código do tratamento

## Configurando ambiente e realizando imports necessários

In [1]:
from google.colab import drive
import pandas as pd

# Definindo pasta onde estao os arquivos necessários
drive.mount('/content/drive')
%cd "/content/drive/MyDrive/Colab Notebooks/projeto"

# Configurando numero de colunas maximas que irão aparecer no DataFrame
pd.set_option('display.max_columns',100)

Mounted at /content/drive
/content/drive/MyDrive/Colab Notebooks/projeto


## Tratamento

In [2]:
#Leitura do arquivo
df = pd.read_csv('dados.csv', sep=',', low_memory = False)
df

Unnamed: 0,data,horario,n_da_ocorrencia,tipo_de_ocorrencia,km,trecho,sentido,lugar_acidente,tipo_de_acidente,automovel,bicicleta,caminhao,moto,onibus,outros,tracao_animal,transporte_de_cargas_especiais,trator_maquinas,utilitarios,ilesos,levemente_feridos,moderadamente_feridos,gravemente_feridos,mortos
0,01/01/2010,04:21:00,18,sem vítima,167,BR-393/RJ,Norte,Rodovia do Aço,Derrapagem,1,,,,,,,,,,1.0,0.0,0.0,0.0,0.0
1,01/01/2010,02:13:00,20,sem vítima,2695,BR-116/PR,Sul,Autopista Regis Bittencourt,Colisão Traseira,2.0,,,,,,,,,,3.0,,,,
2,01/01/2010,03:35:00,000024/2010,sem vítima,77,BR-290/RS,Norte,Concepa,COLISÃO LATERAL,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2,0.0,0.0,0.0,0.0
3,01/01/2010,07:31:00,000038/2010,sem vítima,52,BR-116/RS,Norte,Concepa,QUEDA DE MOTO,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0
4,01/01/2010,04:57:00,000027/2010,sem vítima,33,BR-290/RS,Norte,Concepa,QUEDA DE MOTO,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
864556,31/12/2022,00:08:00,4,Acidente com Danos Materiais,865000,BR-262/MG,Oeste,Concebra,Saida de Pista,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0
864557,31/12/2022,03:28:00,21,Com vítima,180000,BR-50/MG,Decrescente,ECO050,Capotamento,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0
864558,31/12/2022,05:05:55,14,Sem vítima,115100,BR-116/PR,Decrescente,Autopista Planalto Sul,Colisão traseira,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0
864559,31/12/2022,13:49:33,339,Acidente com Danos Materiais,379000,BR-262/MG,Leste,Concebra,Saida de Pista,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0


### Verificando e eliminando linhas duplicadas

In [3]:
df.n_da_ocorrencia.is_unique # Verif›icando se o número da occorrência é unico. O fato de ser único ou não, não nos diz muita coisa, ja que as ocorrências foram feitas em locais diferentes, podendo repetir o nº.

False

In [4]:
#Verificando linhas duplicadas
duplicated_rows = df[df.duplicated(keep=False)]
duplicated_rows.count()

data                              2492
horario                           2492
n_da_ocorrencia                   2492
tipo_de_ocorrencia                2492
km                                2492
trecho                            2492
sentido                           2492
lugar_acidente                    2492
tipo_de_acidente                  2492
automovel                         1282
bicicleta                          152
caminhao                          1002
moto                               616
onibus                             152
outros                             333
tracao_animal                      124
transporte_de_cargas_especiais       8
trator_maquinas                    124
utilitarios                        596
ilesos                            2486
levemente_feridos                  715
moderadamente_feridos              246
gravemente_feridos                 164
mortos                             167
dtype: int64

In [5]:
#Excluindo as linhas duplicadas
df = df.drop_duplicates()

#Verificando novamente se há linhas duplicadas
duplicated_rows = df[df.duplicated(keep=False)]
duplicated_rows.count()

data                              0
horario                           0
n_da_ocorrencia                   0
tipo_de_ocorrencia                0
km                                0
trecho                            0
sentido                           0
lugar_acidente                    0
tipo_de_acidente                  0
automovel                         0
bicicleta                         0
caminhao                          0
moto                              0
onibus                            0
outros                            0
tracao_animal                     0
transporte_de_cargas_especiais    0
trator_maquinas                   0
utilitarios                       0
ilesos                            0
levemente_feridos                 0
moderadamente_feridos             0
gravemente_feridos                0
mortos                            0
dtype: int64

### Tipos de dados

In [6]:
#Verificando os tipos de cada coluna
df.dtypes

data                               object
horario                            object
n_da_ocorrencia                    object
tipo_de_ocorrencia                 object
km                                 object
trecho                             object
sentido                            object
lugar_acidente                     object
tipo_de_acidente                   object
automovel                          object
bicicleta                         float64
caminhao                           object
moto                               object
onibus                            float64
outros                            float64
tracao_animal                     float64
transporte_de_cargas_especiais     object
trator_maquinas                   float64
utilitarios                        object
ilesos                             object
levemente_feridos                 float64
moderadamente_feridos             float64
gravemente_feridos                float64
mortos                            

#### Data

In [7]:
#Verificando a integridade da data no formato DateTime
type(df['data'][1])

#Segundo o output é uma string.


str

In [8]:
#Realizando uma conversão para normalizar a coluna data
df['data'] = pd.to_datetime(df['data'], dayfirst=True).dt.date


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['data'] = pd.to_datetime(df['data'], dayfirst=True).dt.date


In [9]:
#Verificando a integridade da data no formato DateTime
type(df['data'][1])

datetime.date

In [10]:
# Criar uma nova coluna 'ano' com o ano da data
df['ano'] = df['data'].apply(lambda x: x.year)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['ano'] = df['data'].apply(lambda x: x.year)


#### Horario

In [11]:
#Verificando a integridade do horario no formato DateTime
type(df['horario'][1])

#Segundo o output é uma sring.


str

In [12]:
df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S').dt.time

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S').dt.time


In [13]:
#Verificando a integridade do horario no formato DateTime
type(df['horario'][1])

datetime.time

In [14]:
#Olhando o DataFrame de forma Geral para conferir se as mudanças impactaram na estrutura.

df

Unnamed: 0,data,horario,n_da_ocorrencia,tipo_de_ocorrencia,km,trecho,sentido,lugar_acidente,tipo_de_acidente,automovel,bicicleta,caminhao,moto,onibus,outros,tracao_animal,transporte_de_cargas_especiais,trator_maquinas,utilitarios,ilesos,levemente_feridos,moderadamente_feridos,gravemente_feridos,mortos,ano
0,2010-01-01,04:21:00,18,sem vítima,167,BR-393/RJ,Norte,Rodovia do Aço,Derrapagem,1,,,,,,,,,,1.0,0.0,0.0,0.0,0.0,2010
1,2010-01-01,02:13:00,20,sem vítima,2695,BR-116/PR,Sul,Autopista Regis Bittencourt,Colisão Traseira,2.0,,,,,,,,,,3.0,,,,,2010
2,2010-01-01,03:35:00,000024/2010,sem vítima,77,BR-290/RS,Norte,Concepa,COLISÃO LATERAL,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2,0.0,0.0,0.0,0.0,2010
3,2010-01-01,07:31:00,000038/2010,sem vítima,52,BR-116/RS,Norte,Concepa,QUEDA DE MOTO,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0,2010
4,2010-01-01,04:57:00,000027/2010,sem vítima,33,BR-290/RS,Norte,Concepa,QUEDA DE MOTO,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0,2010
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
864556,2022-12-31,00:08:00,4,Acidente com Danos Materiais,865000,BR-262/MG,Oeste,Concebra,Saida de Pista,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0,2022
864557,2022-12-31,03:28:00,21,Com vítima,180000,BR-50/MG,Decrescente,ECO050,Capotamento,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0,2022
864558,2022-12-31,05:05:55,14,Sem vítima,115100,BR-116/PR,Decrescente,Autopista Planalto Sul,Colisão traseira,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,2022
864559,2022-12-31,13:49:33,339,Acidente com Danos Materiais,379000,BR-262/MG,Leste,Concebra,Saida de Pista,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0,2022


### Normalização de dados

Esta Seção serve para normalizar alguns dados e torná-los mais legíveis para uma eventual análise e apresentação.

#### Categorias

In [15]:
#Verificando os tipos de ocorrência
pd.unique(df['tipo_de_ocorrencia'])

array(['sem vítima', 'com vítima', 'Acidente com vítima',
       'ac01 - Acidente com Vítima Fatal', 'Acidente sem Vítima',
       'Acidente com Vítima', 'Atropelamento sem Morte',
       'ac02 - Acidente com Vítima', 'Atropelamento com Morte',
       'Atropelamento sem morte', 'Acidente sem vítima', 'Sem vítima',
       'Acidente sem Vítimas', 'Acidente com Vítimas',
       '3 - Acidente com Danos Materiais', '2 - Acidente com VITIMA',
       '1 - Acidente com Vitima Fatal',
       'ac03 - Acidente com vítima ilesa', 'AC03 - Acidente sem VITIMA',
       'AC02 - Acidente com VITIMA', 'ac02 - Acidente com vítima',
       'Acidente sem VITIMA', 'AV - Acidente com VITIMA',
       'Atropelamento com morte', 'ac03 - Acidente com Danos Materiais',
       'AC03 - ACIDENTE SEM VÍTIMA', 'ASV - Acidente SEM Vítima',
       '2 - Acidente com Vitima', 'Acidente com VITIMA',
       'Acidente COM VITIMA', 'Com vítima', 'AC04 - Atropelamento',
       'AC01 - Acidente com VITIMA FATAL', 'AC02-ACIDENTE

In [16]:
#Realizando mapeamento para eventual normalização.
mapeamento = {
    'acidente sem vitima': 'Acidente sem Vítima',
    'acidente com vitima': 'Acidente com Vítima',
    'ac01 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'atropelamento sem morte': 'Atropelamento sem Morte',
    'ac02 - acidente com vitima': 'Acidente com Vítima',
    'atropelamento com morte': 'Atropelamento com Morte',
    'sem vítima': 'Acidente sem Vítima',
    'acidente com vítimas': 'Acidente com Vítimas',
    'acidente com danos materiais': 'Acidente com Danos Materiais',
    '1 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'ac03 - acidente com vítima ilesa': 'Acidente com Vítima',
    'ac03 - acidente sem vítima': 'Acidente sem Vítima',
    'ac02 - acidente com vítima': 'Acidente com Vítima',
    'acidente com vitima': 'Acidente com Vítima',
    'av - acidente com vitima': 'Acidente com Vítima',
    'ac03 - acidente com danos materiais': 'Acidente com Danos Materiais',
    'ac03 - acidente sem vítima': 'Acidente sem Vítima',
    'acidente sem vítima': 'Acidente sem Vítima',
    'asv - acidente sem vítima': 'Acidente sem Vítima',
    '2 - acidente com vitima': 'Acidente com Vítima',
    'acidente com vitima': 'Acidente com Vítima',
    'com vítima': 'Acidente com Vítima',
    'ac04 - atropelamento': 'Atropelamento com Morte',
    'ac01 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'ac02-acidente com vítima': 'Acidente com Vítima',
    'ac03-acidente sem vítima': 'Acidente sem Vítima',
    'acidente com morte': 'Acidente com Morte',
    'ac02 - acidente com vítima': 'Acidente com Vítima',
    'ac03 - acidente sem vitimas': 'Acidente sem Vítima',
    'ac02 - acidente com vitima': 'Acidente com Vítima',
    'acidente com morte': 'Acidente com Morte',
    '3 - acidente com vitima sem lesão': 'Acidente com Vitima Sem Lesão',
    'acidente com morte': 'Acidente com Morte',
    'ac02 - acidente com vítima': 'Acidente com Vítima',
    'ac03 - acidente sem vitimas': 'Acidente sem Vítima',
    'ac02 - acidente com vitima': 'Acidente com Vítima',
    'acidente com morte': 'Acidente com Morte',
    'acidente com vítima - trecho contorno': 'Acidente com Vítima - TRECHO CONTORNO',
    'acidente sem vítima - trecho contorno': 'Acidente sem Vítima - TRECHO CONTORNO',
    'acidente fatal': 'Acidente Fatal',
    'ac01 - acidente com vítima fatal': 'Acidente com Vítima Fatal',
    '3 - acidente com vitima sem lesão': 'Acidente com Vitima Sem Lesão',
    'ac01 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'atropelamento fatal': 'Atropelamento Fatal',
    'acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'af - acidente com vitima fatal': 'Acidente com Vitima Fatal',
    'a pp - acidente envolvendo produto perigoso': 'Acidente envolvendo Produto Perigoso',
    'acidente sem vítima - trecho contorno': 'Acidente sem Vítima - TRECHO CONTORNO',
    'ac2 - acidente com vitima': 'Acidente com Vítima',
    'ac3 - acidente sem vitima': 'Acidente sem Vítima',
    'atropelamento': 'Atropelamento',
	   'a ppf - acidente envolvendo produto perigoso vitima fatal': 'Acidente envolvendo Produto Perigoso com Vítima Fatal',
    'ac05 - atropelamento fatal': 'Atropelamento Fatal',
    'in21 - suícidio': 'Suicídio',
    'ac01-acidente com vítima fatal': 'Acidente com Vítima Fatal',
    'ac01-acidente com vítima fatal': 'Acidente com Vítima Fatal',
    'acidente com vítima fatal': 'Acidente com Vítima Fatal',
    'atropelamento sem morte - trecho contorno': 'Atropelamento sem Morte - TRECHO CONTORNO',
    ' 2- acidente com vitima': 'Acidente com Vítima',
    'ac1 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'atropelamento sem morte - trecho contorno': 'Atropelamento sem Morte - TRECHO CONTORNO',
    'acidente com vítima - trecho contorno': 'Acidente com Vítima - TRECHO CONTORNO',
    'acidente com morte - trecho contorno': 'Acidente com Morte - TRECHO CONTORNO',
    'a ppv - acidente envolvendo produto perigoso com vitima': 'Acidente envolvendo Produto Perigoso com Vítima',
    'acidente fatal': 'Acidente Fatal',
    'ac01 - acidente com vitima fatal': 'Acidente com Vítima Fatal',
    'acidente com morte - trecho contorno': 'Acidente com Morte - TRECHO CONTORNO',
    'com víti': 'Acidente com Vítima',
    '3 - acidente com danos materiais': 'Acidente com danos Materiais',
    'ac03 - acidente sem vitima': 'Acidente sem Vitimas'
}

In [17]:
# Normalizando a coluna de ocorrencias
coluna_para_padronizar = 'tipo_de_ocorrencia'
df[coluna_para_padronizar] = df[coluna_para_padronizar].str.lower().replace(mapeamento)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[coluna_para_padronizar] = df[coluna_para_padronizar].str.lower().replace(mapeamento)


In [18]:
#Verificanda a normalização
pd.unique(df['tipo_de_ocorrencia'])

array(['Acidente sem Vítima', 'Acidente com Vítima',
       'acidente com vítima', 'Acidente com Vítima Fatal',
       'Atropelamento sem Morte', 'Atropelamento com Morte',
       'acidente sem vítimas', 'Acidente com Vítimas',
       'Acidente com danos Materiais', 'Acidente sem Vitimas',
       'Acidente com Danos Materiais', 'Acidente com Morte',
       'Acidente com Vítima - TRECHO CONTORNO',
       'Acidente sem Vítima - TRECHO CONTORNO', 'Acidente Fatal',
       'Acidente com Vitima Sem Lesão', 'Atropelamento Fatal',
       'Acidente com Vitima Fatal',
       'Acidente envolvendo Produto Perigoso', 'Atropelamento',
       'Acidente envolvendo Produto Perigoso com Vítima Fatal',
       'Suicídio', 'Atropelamento sem Morte - TRECHO CONTORNO', nan,
       'Acidente com Morte - TRECHO CONTORNO',
       'Acidente envolvendo Produto Perigoso com Vítima'], dtype=object)

In [19]:
# Realizando novamente mapeamento para melhorar a categorização
mapeamento = {
    'Acidente sem Vítima': 'acidente sem vitima',
    'acidente com vítima': 'acidente com vitima',
    'Acidente com Vítima': 'acidente com vitima',
    'Acidente com Vítima Fatal': 'acidente com vitima',
    'Atropelamento sem Morte': 'atropelamento',
    'Atropelamento com Morte': 'atropelamento',
    'acidente sem vítimas': 'acidente sem vitima',
    'Acidente com Vítimas': 'acidente com vitima',
    'Acidente com danos Materiais': 'acidente com danos materiais',
    'Acidente sem Vitimas': 'acidente sem vitima',
    'Acidente com Danos Materiais': 'acidente com danos materiais',
    'Acidente com Morte': 'acidente com vitima',
    'Acidente com Vítima - TRECHO CONTORNO': 'acidente com vitima',
    'Acidente sem Vítima - TRECHO CONTORNO': 'acidente sem vitima',
    'Acidente Fatal': 'acidente com vitima',
    'Acidente com Vitima Sem Lesão': 'acidente com vitima',
    'Atropelamento Fatal': 'atropelamento',
    'Acidente com Vitima Fatal': 'acidente com vitima',
    'Acidente envolvendo Produto Perigoso': 'acidente envolvendo produto perigoso',
    'Atropelamento': 'atropelamento',
    'Acidente envolvendo Produto Perigoso com Vítima Fatal': 'acidente envolvendo produto perigoso',
    'Suicídio': 'suicidio',
    'Atropelamento sem Morte - TRECHO CONTORNO': 'atropelamento',
    'Acidente com Morte - TRECHO CONTORNO': 'acidente com vitima',
    'Acidente envolvendo Produto Perigoso com Vítima':'acidente envolvendo produto perigoso'
}

In [20]:
# Normalizando a coluna de ocorrencias pela segunda vez
coluna_para_padronizar = 'tipo_de_ocorrencia'
df[coluna_para_padronizar] = df[coluna_para_padronizar].replace(mapeamento)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[coluna_para_padronizar] = df[coluna_para_padronizar].replace(mapeamento)


In [21]:
#Verificanda a segunda normalização
pd.unique(df['tipo_de_ocorrencia'])

array(['acidente sem vitima', 'acidente com vitima', 'atropelamento',
       'acidente com danos materiais',
       'acidente envolvendo produto perigoso', 'suicidio', nan],
      dtype=object)

In [22]:
# Analizando a coluna "sentido"
pd.unique(df['sentido'])

array([' Norte', 'Sul', 'Norte', 'Pista Norte', 'Pista Sul', 'Oeste',
       'Leste', nan, 'RJ', 'JF', 'SUL', 'NORTE', 'Crescente',
       'Decrescente', 'N', 'S', 'Sul - TRECHO CONTORNO',
       'Norte - TRECHO CONTORNO', 'Ambos', ' Sul'], dtype=object)

In [23]:
#mapeando e normalizando a coluna
mapeamento = {
    ' norte': 'Norte',
    'norte': 'Norte',
    'n': 'Norte',
    's' : 'Sul',
    'rio de janeiro':'Rio de Janeiro',
    'sul': 'Sul',
    'oeste': 'Oeste',
    'leste': 'Leste',
    'rj': 'Rio de Janeiro',
    'sul - trecho contorno': 'Sul - Trecho Contorno',
    'norte - trecho contorno': 'Norte - Trecho Contorno',
    'ambos': 'Ambos',
}

coluna_para_mapear = 'sentido'
df[coluna_para_mapear] = df[coluna_para_mapear].str.lower().replace(mapeamento)
pd.unique(df['sentido'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[coluna_para_mapear] = df[coluna_para_mapear].str.lower().replace(mapeamento)


array(['Norte', 'Sul', 'pista norte', 'pista sul', 'Oeste', 'Leste', nan,
       'Rio de Janeiro', 'jf', 'crescente', 'decrescente',
       'Sul - Trecho Contorno', 'Norte - Trecho Contorno', 'Ambos',
       ' sul'], dtype=object)

In [24]:
#Verificando a coluna "tipos de acidente"
pd.unique(df['tipo_de_acidente'])

array(['Derrapagem', 'Colisão Traseira', 'COLISÃO LATERAL',
       'QUEDA DE MOTO', 'SAÍDA DE PISTA', 'Saida de Pista',
       'Colisão Transversal', 'Queda de Moto', 'Choque - Objeto Fixo',
       'Choque em barreira New Jersey', 'Colisão Frontal',
       'Choque - Defensa, barreira ou "submarino"', 'Capotamento',
       'Colisão Lateral', 'Soterramento', 'Atropelamento de Animal',
       'Tombamento', 'Choque - Talude', 'Outros - Sequência',
       'COLISÃO TRASEIRA', 'Colisão traseira',
       'Choque - Elemento de Drenagem', 'Choque - Suporte de Sinalização',
       'Atropelamento - Morador', 'Choque em objeto fixo',
       'Queda de moto', 'Choque em objeto na pista', 'Choque em defensa',
       'Outros', 'Abalroamento longitudinal', 'Engavetamento',
       'Choque - Arvore', 'Queda de ribanceira', 'Choque Talude',
       'Não Def', 'Atropelamento de pedestre atravessando',
       'Atropelamento de animal', 'Colisão frontal', 'Choque - Poste',
       'Atropelamento - Pedestre', 'C

In [25]:
#Mapeando para normalizar
mapeamento = {
    'derrapagem': 'Derrapagem',
    'colisão traseira': 'Colisão Traseira',
     'Atropelamento - Ciclista': 'Atropelamento de Ciclista',
    'atropelamento ciclista': 'Atropelamento de Ciclista',
    'colisão lateral': 'Colisão Lateral',
    'queda de moto': 'Queda de Moto',
    'saída de pista': 'Saída de Pista',
    'colisão transversal': 'Colisão Transversal',
    'choque - objeto fixo': 'Choque - Objeto Fixo',
    'choque em barreira new jersey': 'Choque em Barreira New Jersey',
    'colisão frontal': 'Colisão Frontal',
    'choque - defensa, barreira ou "submarino"': 'Choque - Defensa, barreira ou "submarino"',
    'capotamento': 'Capotamento',
    'soterramento': 'Soterramento',
    'atropelamento de animal': 'Atropelamento de Animal',
    'tombamento': 'Tombamento',
    'choque - talude': 'Choque - Talude',
    'outros - sequência': 'Outros - Sequência',
    'choque - elemento de drenagem': 'Choque - Elemento de Drenagem',
    'choque - suporte de sinalização': 'Choque - Suporte de Sinalização',
    'atropelamento - morador': 'Atropelamento - Morador',
    'choque em objeto fixo': 'Choque em Objeto Fixo',
    'choque em objeto na pista': 'Choque em Objeto na Pista',
    'choque em defensa': 'Choque em Defensa',
    'outros': 'Outros',
    'abalroamento longitudinal': 'Abalroamento Longitudinal',
    'engavetamento': 'Engavetamento',
    'choque - arvore': 'Choque - Árvore',
    'queda de ribanceira': 'Queda de Ribanceira',
    'choque talude': 'Choque - Talude',
    'não def': 'Não Definido',
    'atropelamento de pedestre atravessando': 'Atropelamento de Pedestre Atravessando',
    'choque - poste': 'Choque - Poste',
    'atropelamento - pedestre': 'Atropelamento - Pedestre',
    'abalr.mesmo sentido': 'Abalroamento Mesmo Sentido',
    'choque em veículo parado na pista': 'Choque em Veículo Parado na Pista',
    'atropelamento - ciclista': 'Atropelamento - Ciclista',
    'choque - outros': 'Choque - Outros',
    'atropelamento - usuário': 'Atropelamento - Usuário',
    'choque - objeto sobre a pista': 'Choque - Objeto sobre a Pista',
    'ablr.sentido oposto': 'Abalroamento Sentido Oposto',
    'abalr.transversal': 'Abalroamento Transversal',
    'atropelamento - outros': 'Atropelamento - Outros',
    'atropelamento - andarilho': 'Atropelamento - Andarilho',
    'choque - veiculo parado na pista': 'Choque - Veículo Parado na Pista',
    'colisão com objeto fixo': 'Colisão com Objeto Fixo',
    'choque - defensa, barreira ': 'Choque - Defensa, barreira',
    'choque - barranco': 'Choque - Barranco',
    'atropelamento': 'Atropelamento',
    'queda de ciclista': 'Queda de Ciclista',
    'queda de carga': 'Queda de Carga',
    'abalroamento - longitudinal': 'Abalroamento Longitudinal',
    'atropelamento - animal': 'Atropelamento - Animal',
    'choque com objeto fixo': 'Choque com Objeto Fixo',
    'atropelamento e fuga': 'Atropelamento e Fuga',
    'tombamento de moto': 'Tombamento de Moto',
    'queda de ponte/viaduto': 'Queda de Ponte/Viaduto',
    'colisão c/ obstáculos': 'Colisão com Obstáculos',
    'saídas de pista': 'Saídas de Pista',
    'colisão lateral no sentido contrário': 'Colisão Lateral no Sentido Contrário',
    'colisão com veículos (traseira)': 'Colisão com Veículos (Traseira)',
    'colisão lateral no mesmo sentido': 'Colisão Lateral no Mesmo Sentido',
    'colisão - traseira': 'Colisão - Traseira',
    'atropelamento - pedestre atravessando': 'Atropelamento - Pedestre Atravessando',
    'abalroamento - transversal': 'Abalroamento Transversal',
    'veículo em chamas': 'Veículo em Chamas',
    'queda': 'Queda',
    'choque - defensa, barreira ou meio fio': 'Choque - Defensa, barreira ou meio-fio',
    'choque contra objeto fixo': 'Choque contra Objeto Fixo',
    'choque - cancela de pedagio': 'Choque - Cancela de Pedágio',
    'abalroamento transversal': 'Abalroamento Transversal',
    'choque - objeto não identificado': 'Choque - Objeto Não Identificado',
    'abalr. mesmo sentido': 'Abalroamento Mesmo Sentido',
    'choque contra objeto na faixa de rolamento': 'Choque - Objeto na Faixa de Rolamento',
    'atropelamento de animais': 'Atropelamento de Animais',
    'colisão - lateral': 'Colisão Lateral',
    'atropelamento de pedestre caminhando': 'Atropelamento de Pedestre Caminhando',
    'colisão com veículos (frontal)': 'Colisão com Veículos (Frontal)',
    'choque barreira': 'Choque - Barreira',
    'atropelamento animal': 'Atropelamento Animal',
    'choque - meio fio': 'Choque - Meio-fio',
    'choque com objeto': 'Choque com Objeto',
    'choque - sinalização': 'Choque - Sinalização',
    'atropelamento de bovino': 'Atropelamento de Bovino',
    'atropelamento de cachorro': 'Atropelamento de Cachorro',
    'choque - defensa metálica': 'Choque - Defensa Metálica',
    'choque': 'Choque',
    'acidentes de outra natureza': 'Acidentes de Outra Natureza',
    'colisão lateral em sentido contrário': 'Colisão Lateral em Sentido Contrário',
    'objeto lançado contra veículo': 'Objeto Lançado Contra Veículo',
    'colisão com obstáculo': 'Colisão com Obstáculo',
    'submersão': 'Submersão',
    'sequência': 'Sequência',
    'abalroamento mesmo sentido ': 'Abalroamento Mesmo Sentido',
    'atropelamento  de pedestre': 'Atropelamento de Pedestre',
    'queda de bicicleta': 'Queda de Bicicleta',
    'carreta deu l': 'Carreta Deu L',
    'atropel. de pedestre atravessando': 'Atropelamento de Pedestre Atravessando',
    'atropelamento - pedestre caminhando': 'Atropelamento - Pedestre Caminhando',
    'outros tipos de acidente': 'Outros Tipos de Acidente',
    'choque - pilar': 'Choque - Pilar',
    'abalr. transversal': 'Abalroamento Transversal',
    'atropelamento de equino': 'Atropelamento de Equino',
    'choque - veiculo parado no acostamento': 'Choque - Veículo Parado no Acostamento',
    'colisão com ciclista': 'Colisão com Ciclista',
    'choque - barreira': 'Choque - Barreira',
    'atropelamento - pessoa': 'Atropelamento - Pessoa',
    'colisão - frontal': 'Colisão - Frontal',
    'choque - talude ou barranco': 'Choque - Talude ou Barranco',
    'colisão lateral mesmo sentido': 'Colisão Lateral Mesmo Sentido',
    'atropelamento - ambulante': 'Atropelamento - Ambulante',
    'abalroamento mesmo sentido': 'Abalroamento Mesmo Sentido',
    'abalroamento sentido oposto': 'Abalroamento Sentido Oposto',
    'abal.mesmo sentido': 'Abalroamento Mesmo Sentido',
    'colisão': 'Colisão',
    'choque na cancela': 'Choque na Cancela',
    'abalr.sentido oposto': 'Abalroamento Sentido Oposto',
    'atropelamento - equino': 'Atropelamento - Equino',
    'choque defensa': 'Choque - Defensa',
    'atropelamento de ciclista': 'Atropelamento de Ciclista',
    'atropelamento - funcionário': 'Atropelamento - Funcionário',
    'saída de pista ': 'Saída de Pista',
    'atropelamento - sem informação': 'Atropelamento - Sem Informação',
    'atropelamento - bovino': 'Atropelamento de Bovino',
    'choque com objeto sobre a pista': 'Choque com Objeto sobre a Pista',
    'queda em ribanceira': 'Queda em Ribanceira',
    'atropelamento - cachorro': 'Atropelamento de Cachorro',
    'choque com veículo estacionado': 'Choque com Veículo Estacionado',
    'choque - new jersey': 'Choque - New Jersey',
    'incidente - choque na praça - cancela': 'Incidente - Choque na Praça - Cancela',
    'choque com objeto na pista': 'Choque com Objeto na Pista',
    'sul': 'Sul',
    'norte': 'Norte',
    'choque veículo parado na pista': 'Choque - Veículo Parado na Pista',
    'choque com veículo na faixa de rolamento': 'Choque com Veículo na Faixa de Rolamento',
    'atropel. de pedestre caminhando': 'Atropelamento de Pedestre Caminhando',
    'atropelamento de andarilho': 'Atropelamento de Andarilho',
    'queda veículo': 'Queda de Veículo',
    'abalroamento - mesmo sentido': 'Abalroamento Mesmo Sentido',
    'choque com objeto sobre a pist': 'Choque com Objeto sobre a Pista',
    'choque- poste/equipamento': 'Choque - Poste/Equipamento',
    'choque- placa/suporte sinalização': 'Choque - Placa/Suporte Sinalização',
    'explosão': 'Explosão',
    'choque com objeto na pista': 'Choque com Objeto na Pista',
    'atropelamento - morador/trabalhador': 'Atropelamento - Morador/Trabalhador',
    'abal.mesmo.sentido': 'Abalroamento Mesmo Sentido',
    'choque praça - cabine': 'Choque Praça - Cabine',
    'atropelamento - esportista': 'Atropelamento - Esportista',
    'queda de veículo em ribanceira, ponte ou viaduto': 'Queda de Veículo em Ribanceira, Ponte ou Viaduto',
    'acidente c/ vitima': 'Acidente com Vítima',
    'incêndio': 'Incêndio',
    'choque contra veículo no acostamento': 'Choque contra Veículo no Acostamento',
    'choque - submarino': 'Choque - Submarino',
    'Acidente sem Vítima': 'Acidente sem Vítima',
    'colisão com obstáculos': 'Colisão com Obstáculos',
    'colisão lateral - sentido contrário': 'Colisão Lateral no Sentido Contrário',
    'colisão traseira - veículos': 'Colisão Traseira - Veículos',
    'atropelamento animais': 'Atropelamento de Animais',
    'travessia canteiro central': 'Travessia Canteiro Central',
    'Queda de Carga sobre a Pista': 'Queda de Carga sobre a Pista',
    'Colisão na Praça - Submarino': 'Colisão na Praça - Submarino',
    'Acidente - Outra Natureza': 'Acidente - Outra Natureza',
    'choque - caixa de captação/fibra': 'Choque - Caixa de Captação/Fibra',
    'transposição de pista': 'Transposição de Pista',
    'danos eventuais': 'Danos Eventuais',
    'atropelamento - esportista/romeiro': 'Atropelamento - Esportista/Romeiro',
    'choque - obstáculo fixo': 'Choque - Obstáculo Fixo',
    'atropelamento - morador/trabalhador/estudante': 'Atropelamento - Morador/Trabalhador/Estudante',
    'atropelamento de animal ': 'Atropelamento de Animal',
    'choque na praça ? submarino': 'Choque na Praça - Submarino',
    'Atropelamento com Morte': 'Atropelamento com Morte',
    'queda de viaduto': 'Queda de Viaduto',
    'choque - canaleta': 'Choque - Canaleta',
    'queda de ponte / viaduto': 'Queda de Ponte / Viaduto',
    'abal.transversal': 'Abalroamento Transversal',
    'abal.sentido. oposto': 'Abalroamento Sentido Oposto',
    'incidente': 'Incidente',
    'choque - cabine de pedágio': 'Choque - Cabine de Pedágio',
    'colisão frontal - veículos': 'Colisão Frontal - Veículos',
    'abalr. sentido oposto': 'Abalroamento Sentido Oposto',
    'colisão objeto fixo': 'Colisão com Objeto Fixo',
    'Colisão Lateral Sentido Oposto': 'Colisão Lateral Sentido Oposto',
    'atropelamento sem morte': 'Atropelamento sem Morte',
    'abalroamento - sentido oposto': 'Abalroamento Sentido Oposto',
    'Choque - Poste/': 'Choque - Poste',
    'queda de carro': 'Queda de Carro',
    'choque com veículo no acostamento': 'Choque com Veículo no Acostamento',
    'choque / objeto não identificado': 'Choque / Objeto não Identificado',
    'atropelamento - abrigo de ônibus': 'Atropelamento - Abrigo de Ônibus',
    'queda de vegetação c/ veículo': 'Queda de Vegetação com Veículo',
}


In [26]:
#Normalizando Coluna
coluna_mapear = 'tipo_de_acidente'
df[coluna_mapear] = df[coluna_mapear].str.lower().replace(mapeamento)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[coluna_mapear] = df[coluna_mapear].str.lower().replace(mapeamento)


In [27]:
#Verificando normalização da coluna "tipos de acidente"
pd.unique(df['tipo_de_acidente'])

array(['Derrapagem', 'Colisão Traseira', 'Colisão Lateral',
       'Queda de Moto', 'Saída de Pista', 'saida de pista',
       'Colisão Transversal', 'Choque - Objeto Fixo',
       'Choque em Barreira New Jersey', 'Colisão Frontal',
       'Choque - Defensa, barreira ou "submarino"', 'Capotamento',
       'Soterramento', 'Atropelamento de Animal', 'Tombamento',
       'Choque - Talude', 'Outros - Sequência',
       'Choque - Elemento de Drenagem', 'Choque - Suporte de Sinalização',
       'Atropelamento - Morador', 'Choque em Objeto Fixo',
       'Choque em Objeto na Pista', 'Choque em Defensa', 'Outros',
       'Abalroamento Longitudinal', 'Engavetamento', 'Choque - Árvore',
       'Queda de Ribanceira', 'Não Definido',
       'Atropelamento de Pedestre Atravessando', 'Choque - Poste',
       'Atropelamento - Pedestre', 'Abalroamento Mesmo Sentido',
       'Choque em Veículo Parado na Pista', 'atropelamento de pedestre',
       'Atropelamento - Ciclista', 'Choque - Outros',
       'At

#### Nulos

Resolvi seguir a lógica de que se um valor é nulo ele não foi colocado por erro e/ou por não existir aquele dado. Sendo isso, irei transformar todos os nulos em 0 para evitar problemas em operações matemáticas futuras ou ate mesmo plotagem de gráficos.

In [28]:
#Verificando quantidade de nulos
df.isnull().sum()

data                                   0
horario                                0
n_da_ocorrencia                        0
tipo_de_ocorrencia                     3
km                                     4
trecho                                 0
sentido                             1698
lugar_acidente                         0
tipo_de_acidente                    1847
automovel                         174055
bicicleta                         576857
caminhao                          425871
moto                              494928
onibus                            564485
outros                            530008
tracao_animal                     599336
transporte_de_cargas_especiais    684094
trator_maquinas                   619193
utilitarios                       576499
ilesos                              3685
levemente_feridos                 433896
moderadamente_feridos             537802
gravemente_feridos                567817
mortos                            569710
ano             

In [29]:
#Preenchendo nulos com 0 no local
df.fillna(0, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.fillna(0, inplace=True)


In [30]:
#Verificando os nulos novamente
df.isnull().sum()

data                              0
horario                           0
n_da_ocorrencia                   0
tipo_de_ocorrencia                0
km                                0
trecho                            0
sentido                           0
lugar_acidente                    0
tipo_de_acidente                  0
automovel                         0
bicicleta                         0
caminhao                          0
moto                              0
onibus                            0
outros                            0
tracao_animal                     0
transporte_de_cargas_especiais    0
trator_maquinas                   0
utilitarios                       0
ilesos                            0
levemente_feridos                 0
moderadamente_feridos             0
gravemente_feridos                0
mortos                            0
ano                               0
dtype: int64

#### Verificando as colunas com tipos errados

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 863314 entries, 0 to 864560
Data columns (total 25 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   data                            863314 non-null  object 
 1   horario                         863314 non-null  object 
 2   n_da_ocorrencia                 863314 non-null  object 
 3   tipo_de_ocorrencia              863314 non-null  object 
 4   km                              863314 non-null  object 
 5   trecho                          863314 non-null  object 
 6   sentido                         863314 non-null  object 
 7   lugar_acidente                  863314 non-null  object 
 8   tipo_de_acidente                863314 non-null  object 
 9   automovel                       863314 non-null  object 
 10  bicicleta                       863314 non-null  float64
 11  caminhao                        863314 non-null  object 
 12  moto            

In [32]:
# Analisando se todos os valores são floats para futuras operações matemáticas
colunas_float = ['automovel', 'bicicleta', 'caminhao', 'moto', 'onibus', 'outros', 'tracao_animal', 'transporte_de_cargas_especiais', 'trator_maquinas', 'utilitarios', 'ilesos']

for coluna in colunas_float:
  try:
    df[coluna].sum()

  except TypeError:
    print(f'{coluna} contem tipos não float')

automovel contem tipos não float
caminhao contem tipos não float
moto contem tipos não float
transporte_de_cargas_especiais contem tipos não float
utilitarios contem tipos não float
ilesos contem tipos não float


In [33]:
# Normalizando colunas que precisam ser float, se a coluna não for float, o codigo tenta converter, se não conseguir, adiciona 0 no local
for coluna in colunas_float:
  lista = []

  for veiculo in df[coluna].tolist():
    try:
      lista.append(float(veiculo))
    except:
      lista.append(0)

  df[coluna] = lista

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[coluna] = lista


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 863314 entries, 0 to 864560
Data columns (total 25 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   data                            863314 non-null  object 
 1   horario                         863314 non-null  object 
 2   n_da_ocorrencia                 863314 non-null  object 
 3   tipo_de_ocorrencia              863314 non-null  object 
 4   km                              863314 non-null  object 
 5   trecho                          863314 non-null  object 
 6   sentido                         863314 non-null  object 
 7   lugar_acidente                  863314 non-null  object 
 8   tipo_de_acidente                863314 non-null  object 
 9   automovel                       863314 non-null  float64
 10  bicicleta                       863314 non-null  float64
 11  caminhao                        863314 non-null  float64
 12  moto            

In [35]:
#Olhando o dataframe para verificar integridade geral
display(df)

Unnamed: 0,data,horario,n_da_ocorrencia,tipo_de_ocorrencia,km,trecho,sentido,lugar_acidente,tipo_de_acidente,automovel,bicicleta,caminhao,moto,onibus,outros,tracao_animal,transporte_de_cargas_especiais,trator_maquinas,utilitarios,ilesos,levemente_feridos,moderadamente_feridos,gravemente_feridos,mortos,ano
0,2010-01-01,04:21:00,18,acidente sem vitima,167,BR-393/RJ,Norte,Rodovia do Aço,Derrapagem,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2010
1,2010-01-01,02:13:00,20,acidente sem vitima,2695,BR-116/PR,Sul,Autopista Regis Bittencourt,Colisão Traseira,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,0.0,2010
2,2010-01-01,03:35:00,000024/2010,acidente sem vitima,77,BR-290/RS,Norte,Concepa,Colisão Lateral,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,2010
3,2010-01-01,07:31:00,000038/2010,acidente sem vitima,52,BR-116/RS,Norte,Concepa,Queda de Moto,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2010
4,2010-01-01,04:57:00,000027/2010,acidente sem vitima,33,BR-290/RS,Norte,Concepa,Queda de Moto,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2010
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
864556,2022-12-31,00:08:00,4,acidente com danos materiais,865000,BR-262/MG,Oeste,Concebra,saida de pista,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2022
864557,2022-12-31,03:28:00,21,acidente com vitima,180000,BR-50/MG,decrescente,ECO050,Capotamento,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0,2022
864558,2022-12-31,05:05:55,14,acidente sem vitima,115100,BR-116/PR,decrescente,Autopista Planalto Sul,Colisão Traseira,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,2022
864559,2022-12-31,13:49:33,339,acidente com danos materiais,379000,BR-262/MG,Leste,Concebra,saida de pista,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2022


# Salvando arquivo tratado (Só execute depois que executar todos acima)

In [None]:
df.to_csv('dados_tratados.csv', index=False)

In [37]:
df.to_parquet('dados_tratados.parquet')

ArrowTypeError: ignored