# Coleta e Processamento/Tratamento dos Dados

Nesse notebook iremos executar os seguintes procedimentos:
* Importação dos datasets utilizados nesse trabalho e a junção deles (acidentes agrupados por ocorrência e por pessoa)

* Tratamento dos dados - exclusão de colunas que não serão utilizadas, tratamento de dados ausentes/duplicados, correção de textos, entre outras análises.

* Exportação do dataset gerado

In [1]:
import numpy as np
import pandas as pd
import glob
import warnings
warnings.filterwarnings("ignore")

* Importação e União dos datasets

Os datasets utilizados nesse projeto foram baixados do site da PRF (https://portal.prf.gov.br/dados-abertos-acidentes) no dia 20/11/2020.

Os datasets referentes aos acidentes agrupados por ocorrência devem ser colocados na pasta: C:\TCC\DATASETS

Os datasets referentes aos acidentes agrupados por pessoa (de 2011 a 2015) devem ser colocados na pasta: C:\TCC\DATASETS

Os datasets referentes aos acidentes agrupados por pessoa (de 2016 a 2020) devem ser colocados na pasta: C:\TCC\DATASETS\pessoa_parte2


In [2]:
# Importando todos os dados relativos a acidentes agrupados por ocorrência de 2011 a 2020
# Os datasets referentes aos acidentes agrupados por ocorrência devem ser colocados na pasta: C:\TCC\DATASETS
path = r'C:\TCC\DATASETS'
all_files = glob.glob(path + "/datatran*.csv")

li = []

for filename in all_files:
    df = pd.read_csv(filename, sep = ';', decimal=",", encoding = "ISO-8859-1",
                     index_col=False, parse_dates=[["data_inversa", "horario"]])
    nRow, nCol = df.shape
    print(f'Existem {nRow} linhas e {nCol} colunas no arquivo {filename}')
    li.append(df)

df = pd.concat(li, axis=0, ignore_index=True)
nRow, nCol = df.shape
print(f'Existem {nRow} linhas e {nCol} colunas no Dataframe gerado')

Existem 192326 linhas e 25 colunas no arquivo C:\TCC\DATASETS\datatran2011.csv
Existem 184568 linhas e 25 colunas no arquivo C:\TCC\DATASETS\datatran2012.csv
Existem 186748 linhas e 25 colunas no arquivo C:\TCC\DATASETS\datatran2013.csv
Existem 169201 linhas e 25 colunas no arquivo C:\TCC\DATASETS\datatran2014.csv
Existem 122161 linhas e 25 colunas no arquivo C:\TCC\DATASETS\datatran2015.csv
Existem 96363 linhas e 24 colunas no arquivo C:\TCC\DATASETS\datatran2016_atual.csv
Existem 89563 linhas e 29 colunas no arquivo C:\TCC\DATASETS\datatran2017.csv
Existem 69295 linhas e 29 colunas no arquivo C:\TCC\DATASETS\datatran2018.csv
Existem 67446 linhas e 29 colunas no arquivo C:\TCC\DATASETS\datatran2019.csv
Existem 45368 linhas e 29 colunas no arquivo C:\TCC\DATASETS\datatran2020.csv
Existem 1223039 linhas e 30 colunas no Dataframe gerado


In [3]:
#Importando todos os dados relativos a acidentes agrupados por pessoa de 2011 a 2020
#Serão importadas apenas as colunas: id, tipo_veiculo, ano_fabricacao_veiculo, tipo_envolvido, sexo, idade
path = r'C:\TCC\DATASETS'
all_files = glob.glob(path + "/acidentes*.csv")

li = []

for filename in all_files:
    dfpessoas = pd.read_csv(filename, sep = ',', usecols=['id','pesid','tipo_veiculo','ano_fabricacao_veiculo','tipo_envolvido','sexo','idade','estado_fisico'], 
                            decimal=",", encoding = "ISO-8859-1", index_col=False)
    nRow, nCol = dfpessoas.shape
    print(f'Existem {nRow} linhas e {nCol} colunas no arquivo {filename}')
    li.append(dfpessoas)

dfpessoas = pd.concat(li, axis=0, ignore_index=True)

path = r'C:\TCC\DATASETS\pessoa_parte2' # use your path
all_files = glob.glob(path + "/acidentes*.csv")

li = []

for filename in all_files:
    dfpessoas2016a2020 = pd.read_csv(filename, sep = ';', usecols=['id','pesid','tipo_veiculo','ano_fabricacao_veiculo','tipo_envolvido','sexo','idade','estado_fisico'], 
                            decimal=",", encoding = "ISO-8859-1", index_col=False)
    nRow, nCol = dfpessoas2016a2020.shape
    print(f'Existem {nRow} linhas e {nCol} colunas no arquivo {filename}')
    li.append(dfpessoas2016a2020)

dfpessoas2016a2020 = pd.concat(li, axis=0, ignore_index=True)

dfpessoas = pd.concat([dfpessoas, dfpessoas2016a2020], ignore_index=True)
nRow, nCol = dfpessoas.shape
print(f'Existem {nRow} linhas e {nCol} colunas no Dataframe gerado')

Existem 412289 linhas e 8 colunas no arquivo C:\TCC\DATASETS\acidentes2011.csv
Existem 396916 linhas e 8 colunas no arquivo C:\TCC\DATASETS\acidentes2012.csv
Existem 405820 linhas e 8 colunas no arquivo C:\TCC\DATASETS\acidentes2013.csv
Existem 368506 linhas e 8 colunas no arquivo C:\TCC\DATASETS\acidentes2014.csv
Existem 269052 linhas e 8 colunas no arquivo C:\TCC\DATASETS\acidentes2015.csv
Existem 216261 linhas e 8 colunas no arquivo C:\TCC\DATASETS\pessoa_parte2\acidentes2016_atual.csv
Existem 204395 linhas e 8 colunas no arquivo C:\TCC\DATASETS\pessoa_parte2\acidentes2017.csv
Existem 164802 linhas e 8 colunas no arquivo C:\TCC\DATASETS\pessoa_parte2\acidentes2018.csv
Existem 162273 linhas e 8 colunas no arquivo C:\TCC\DATASETS\pessoa_parte2\acidentes2019.csv
Existem 104383 linhas e 8 colunas no arquivo C:\TCC\DATASETS\pessoa_parte2\acidentes2020.csv
Existem 2704697 linhas e 8 colunas no Dataframe gerado


In [4]:
#Unindo os dois dataframes
df = df.merge(dfpessoas, how = "left", on = "id")
print("Formato do DataFrame: ", df.shape)

Formato do DataFrame:  (2704815, 37)


* Exclusão das colunas que não serão utilizadas

In [5]:
#Apagar do dataframe as colunas que não existem nos anos posteriores, assim como km e município
df = df.drop(columns=['ano','latitude','longitude','regional','delegacia','uop','km','municipio','ignorados','ilesos','mortos','feridos_leves','feridos_graves','feridos','classificacao_acidente'])

# ver o formato do DataFrame
print("Formato do DataFrame: ", df.shape)

# ver as 5 primeiras entradas dos dataset
df.head()

Formato do DataFrame:  (2704815, 22)


Unnamed: 0,br,causa_acidente,condicao_metereologica,data_inversa_horario,dia_semana,fase_dia,id,pessoas,sentido_via,tipo_acidente,...,uf,uso_solo,veiculos,pesid,tipo_veiculo,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo
0,101,Outras,Ceu Claro,2011-10-24 11:30:00,Segunda,Pleno dia,1000000.0,3,Crescente,Colisão Transversal,...,SC,Urbano,2,3063879.0,Caminhão,1997,Condutor,Ileso,21.0,Masculino
1,101,Outras,Ceu Claro,2011-10-24 11:30:00,Segunda,Pleno dia,1000000.0,3,Crescente,Colisão Transversal,...,SC,Urbano,2,3063899.0,Motocicletas,2008,Condutor,Ferido Grave,31.0,Masculino
2,101,Outras,Ceu Claro,2011-10-24 11:30:00,Segunda,Pleno dia,1000000.0,3,Crescente,Colisão Transversal,...,SC,Urbano,2,3064114.0,Motocicletas,2008,Passageiro,Ferido Grave,-1.0,Feminino
3,381,Outras,Sol,2011-10-28 06:00:00,Sexta,Amanhecer,1000001.0,1,Decrescente,Saída de Pista,...,MG,Rural,1,3063885.0,Caminhão-Trator,1997,Condutor,Ileso,57.0,Masculino
4,407,Falta de atenção,Ceu Claro,2011-10-28 16:20:00,Sexta,Pleno dia,1000002.0,3,Crescente,Colisão traseira,...,BA,Urbano,3,3064315.0,Automóvel,2002,Condutor,Ileso,29.0,Masculino


* Tratamento de dados duplicados

In [6]:
#Apagando os dados duplicados (sem excluir as colunas id e persid)
print('Dados duplicados...:', df.duplicated().sum())
df = df.drop_duplicates()
print('Apagando os Dados duplicados...:', df.duplicated().sum())

Dados duplicados...: 79
Apagando os Dados duplicados...: 0


In [7]:
#Verificando se existem dados vazios no Dataframe
print(df.isnull().sum())

br                         1087
causa_acidente                0
condicao_metereologica        7
data_inversa_horario          0
dia_semana                    0
fase_dia                      1
id                            0
pessoas                       0
sentido_via                   0
tipo_acidente                 0
tipo_pista                    0
tracado_via                   0
uf                            0
uso_solo                      0
veiculos                      0
pesid                         4
tipo_veiculo               4002
ano_fabricacao_veiculo    51777
tipo_envolvido                0
estado_fisico                 3
idade                     98651
sexo                        574
dtype: int64


In [8]:
#Removendo as linhas com dados ausentes da coluna pesid 
#(todas as variáveis importantes também estão ausentes) 
df.dropna(subset=['pesid'], inplace=True)
#Apagar do dataframe as colunas restantes que não serão utilizadas
df = df.drop(columns=['id','pesid'])
# ver o novo formato do DataFrame
print("Formato do DataFrame: ", df.shape)

Formato do DataFrame:  (2704732, 20)


### Tratamento dos dados de forma individual

* Criação dos atributos ano, mes e hora com base no atributo data_inversa_horario

* Tratamento do atributo idade e criação de um novo atributo com a faixa etária das vítimas

In [9]:
# Extraindo informações importantes da coluna data_inversa_horario
df['ano'] = df['data_inversa_horario'].dt.year
df['mes'] = df['data_inversa_horario'].dt.month
df['hora'] = df['data_inversa_horario'].dt.hour
df.drop(['data_inversa_horario'], axis=1, inplace = True)

#Padronizando a coluna idade
df['idade'].fillna(-1, inplace = True)
df['idade'] = df['idade'].where(df['idade'] < 111, -1)

def define_intervalo(num):
    if num ==-1:
        return 'Ignorada'
    elif num <=4:
        return '[0-4]'
    elif num <= 14:  
        return '[5-14]'
    elif num <= 24:
        return '[15-24]'
    elif num <= 34:
        return '[25-34]'
    elif num <= 44:
        return '[35-44]'
    elif num <= 54:
        return '[45-54]'
    elif num <= 64:
        return '[55-64]'
    elif num <= 74:
        return '[65-74]'    
    else:
        return '[+75]'

df['faixa_etaria'] = df['idade'].apply(define_intervalo)
df.drop(['idade'], axis=1, inplace = True)
print(df['faixa_etaria'].unique())

['[15-24]' '[25-34]' 'Ignorada' '[55-64]' '[35-44]' '[65-74]' '[45-54]'
 '[0-4]' '[+75]' '[5-14]']


* Padronizando o atributo alvo desse projeto: estado_fisico

In [10]:
df['estado_fisico'] = df['estado_fisico'].str.lower()
df['estado_fisico'] = df['estado_fisico'].str.rstrip()
df['estado_fisico'].fillna('ileso', inplace = True)
df['estado_fisico'] = df['estado_fisico'].str.replace('lesões graves', 'ferido grave')
df['estado_fisico'] = df['estado_fisico'].str.replace('lesões leves', 'ferido leve')
df['estado_fisico'] = df['estado_fisico'].str.replace('morto', 'óbito')
df['estado_fisico'] = df['estado_fisico'].str.replace('não informado', 'ileso')
df['estado_fisico'] = df['estado_fisico'].str.replace("\(.*\)", 'ileso')
df['estado_fisico'] = df['estado_fisico'].str.replace("ignorado", 'ileso')
df['estado_fisico'].unique()

array(['ileso', 'ferido grave', 'ferido leve', 'óbito'], dtype=object)

* Padronizando os atributos dia_semana e sexo

In [11]:
#Padronizando a coluna dia_semana
df['dia_semana'] = df['dia_semana'].str.lower()
df['dia_semana'] = df['dia_semana'].str.replace('-feira', '')
print(df['dia_semana'].unique())

#Padronizando a coluna sexo
df['sexo'] = df['sexo'].str.lower()
df['sexo'] = df['sexo'].str.replace('^m$', 'masculino')
df['sexo'] = df['sexo'].str.replace('^f$', 'feminino')
df['sexo'] = df['sexo'].str.replace('^i$', 'inválido')
df['sexo'] = df['sexo'].str.replace('não informado', 'inválido')
df['sexo'] = df['sexo'].str.replace('ignorado', 'inválido')
df['sexo'].fillna('inválido', inplace = True)
print(df['sexo'].unique())

['segunda' 'sexta' 'quinta' 'terça' 'sábado' 'quarta' 'domingo']
['masculino' 'feminino' 'inválido']


* Padronizando o atributo tipo_acidente

In [12]:
df['tipo_acidente'] = df['tipo_acidente'].str.lower()
df['tipo_acidente'] = df['tipo_acidente'].str.replace('colisão com objeto estático', 'colisão com objeto fixo')
df['tipo_acidente'] = df['tipo_acidente'].str.replace('queda de ocupante de veículo', 'queda de motocicleta / bicicleta / veículo')
df['tipo_acidente'] = df['tipo_acidente'].str.replace('atropelamento de pessoa', 'atropelamento de pedestre')
df['tipo_acidente'] = df['tipo_acidente'].str.replace('colisão com objeto em movimento', 'colisão com objeto móvel')
df['tipo_acidente'] = df['tipo_acidente'].str.replace('saída de leito carroçável', 'saída de pista')
df['tipo_acidente'] = df['tipo_acidente'].str.replace('colisão com bicicleta', 'colisão com objeto móvel')
df['tipo_acidente'].unique()

array(['colisão transversal', 'saída de pista', 'colisão traseira',
       'tombamento', 'colisão lateral', 'capotamento', 'colisão frontal',
       'derramamento de carga', 'atropelamento de animal',
       'colisão com objeto fixo',
       'queda de motocicleta / bicicleta / veículo',
       'atropelamento de pedestre', 'danos eventuais',
       'colisão com objeto móvel', 'incêndio', 'engavetamento'],
      dtype=object)

* Padronizando o atributo tipo_veiculo

In [13]:
df['tipo_veiculo'] = df['tipo_veiculo'].str.lower()
df['tipo_veiculo'].fillna('não informado', inplace = True)
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace("\(.*\)", 'não informado')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('micro-ônibus', 'microônibus')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('semireboque', 'semi-reboque')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('carroça-charrete', 'carroça')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('charrete', 'carroça')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('motocicletas', 'motocicleta')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('side-car', 'motocicleta')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('chassi-plataforma', 'outros')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('carro-de-mao', 'carro de mão')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('trator de esteiras', 'trator de esteira')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('trator de esteira', 'trator')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('trator misto', 'trator')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('trator de rodas', 'trator')
df['tipo_veiculo'] = df['tipo_veiculo'].str.replace('trem-bonde', 'bonde / trem')
df['tipo_veiculo'].unique()

array(['caminhão', 'motocicleta', 'caminhão-trator', 'automóvel',
       'microônibus', 'caminhonete', 'camioneta', 'utilitário',
       'bicicleta', 'motoneta', 'trator', 'não informado',
       'não identificado', 'ônibus', 'ciclomotor', 'caminhão-tanque',
       'carroça', 'semi-reboque', 'bonde / trem', 'reboque', 'triciclo',
       'carro de mão', 'quadriciclo', 'motor-casa', 'outros'],
      dtype=object)

* Padronizando a coluna causa_acidente

In [14]:
df['causa_acidente'] = df['causa_acidente'].str.lower()
df['causa_acidente'] = df['causa_acidente'].str.replace('condutor dormindo', 'dormindo')
df['causa_acidente'] = df['causa_acidente'].str.replace('defeito mecânico no veículo', 'defeito mecânico em veículo')
df['causa_acidente'] = df['causa_acidente'].str.replace('falta de atenção à condução', 'falta de atenção')
df['causa_acidente'] = df['causa_acidente'].str.replace('desobediência à sinalização', 'desobediência às normas de trânsito pelo condutor')
df['causa_acidente'] = df['causa_acidente'].str.replace("\(.*\)", 'outras')
df['causa_acidente'].unique()

array(['outras', 'falta de atenção', 'velocidade incompatível',
       'não guardar distância de segurança',
       'defeito mecânico em veículo',
       'desobediência às normas de trânsito pelo condutor',
       'animais na pista', 'ultrapassagem indevida', 'ingestão de álcool',
       'dormindo', 'defeito na via', 'fenômenos da natureza',
       'avarias e/ou desgaste excessivo no pneu',
       'restrição de visibilidade', 'falta de atenção do pedestre',
       'pista escorregadia',
       'sinalização da via insuficiente ou inadequada', 'mal súbito',
       'carga excessiva e/ou mal acondicionada',
       'objeto estático sobre o leito carroçável',
       'deficiência ou não acionamento do sistema de iluminação/sinalização do veículo',
       'ingestão de substâncias psicoativas', 'agressão externa',
       'desobediência às normas de trânsito pelo pedestre',
       'ingestão de álcool e/ou substâncias psicoativas pelo pedestre'],
      dtype=object)

* Padronizando os atributos fase_dia, tipo_pista e tracado_via

In [15]:
#Padronizando a coluna fase_dia
df['fase_dia'] = df['fase_dia'].str.lower()
df['fase_dia'] = df['fase_dia'].where(df['fase_dia'] != '(null)', 'ignorado')
df['fase_dia'].fillna('ignorado', inplace = True)
print(df['fase_dia'].unique())

#Padronizando a coluna tipo_pista
df['tipo_pista'] = df['tipo_pista'].str.replace("\(.*\)", 'ignorado')
print(df['tipo_pista'].unique())

#Padronizando a coluna tracado_via
df['tracado_via'] = df['tracado_via'].str.replace("\(.*\)", 'Não Informado')
print(df['tracado_via'].unique())

['pleno dia' 'amanhecer' 'plena noite' 'anoitecer' 'ignorado']
['Dupla' 'Simples' 'Múltipla' 'ignorado']
['Reta' 'Curva' 'Cruzamento' 'Não Informado' 'Interseção de vias'
 'Rotatória' 'Desvio Temporário' 'Viaduto' 'Ponte' 'Retorno Regulamentado'
 'Túnel']


* Padronizando o atributo br e uso_solo

In [16]:
#Padronizando a coluna br
df['br'].fillna(0, inplace = True)
df['br'] = df['br'].where(df['br'] != '(null)', '0')
df.br = df.br.astype('uint64')
print(df['br'].unique())

#Padronizando a coluna uso_solo
df['uso_solo'] = df['uso_solo'].str.replace('Sim', 'Urbano')
df['uso_solo'] = df['uso_solo'].str.replace('Não', 'Rural')
df['uso_solo'] = df['uso_solo'].where(df['uso_solo'] != '(null)', 'ignorado')
print(df['uso_solo'].unique())

[101 381 407 116 316 376 287 467  10  20  40 364 163 317 282 158 232 343
 153 280 369 262 277 386 222 104 470 324 285 354 319 230 242 424 304 476
 471 135 393 392 459 359 251  50 290  60 226 356 365 174  70 408 267 259
 406 373 472 423 465 155 401 361 428  80 493 452 293 367 156 414 412 474
 146 488 468 235 110 487 405 402 450 330 460 447 463 427 485 308 495 210
 404 469 480 418 377 429 410 272 419 425 421   0 416 432  30 473 498 634
 415 349   4 140  28 661 462 352 617 580 420 221 560 654 241 499 501 489
  84 687 178 552 453 505 183 265 426 270 441 152 681 154 767 719 323 337
 422 851 268   2 184 648 380 591 448  37 388   1 884 250 931 436 400 433
 211 417 186 660 434 403 435 122 482 484 457 486 451 475 430 120 342 383
 477]
['Urbano' 'Rural' 'ignorado']


* Padronizando o atributo condicao_metereologica e ano_fabricacao_veiculo

In [17]:
#Padronizando a coluna condicao_metereologica
df['condicao_metereologica'] = df['condicao_metereologica'].str.lower()
df['condicao_metereologica'].fillna('ignorada', inplace = True)
df['condicao_metereologica'] = df['condicao_metereologica'].str.replace('ignorado', 'ignorada')
df['condicao_metereologica'] = df['condicao_metereologica'].str.replace('céu claro', 'ceu claro')
df['condicao_metereologica'] = df['condicao_metereologica'].str.replace("\(.*\)", 'ignorada')
print(df['condicao_metereologica'].unique())

#Padronizando a coluna ano_fabricacao_veiculo
df['ano_fabricacao_veiculo'].fillna(-1, inplace = True)
df['ano_fabricacao_veiculo'] = df['ano_fabricacao_veiculo'].where(df['ano_fabricacao_veiculo'] != '    ', -1)
df['ano_fabricacao_veiculo'] = df['ano_fabricacao_veiculo'].where(df['ano_fabricacao_veiculo'] != '(null)', -1)
df['ano_fabricacao_veiculo'] = df['ano_fabricacao_veiculo'].astype(float).astype(int)
df['ano_fabricacao_veiculo'] = df['ano_fabricacao_veiculo'].where(df['ano_fabricacao_veiculo'] < 2021, -1)
print(df['ano_fabricacao_veiculo'].unique())

['ceu claro' 'sol' 'nublado' 'chuva' 'ignorada' 'vento' 'nevoeiro/neblina'
 'neve' 'granizo' 'garoa/chuvisco']
[1997 2008 2002 2011 2006 2007 2010 2005 2004 2009 2001 1978 1985 1969
   -1 2000 2003 1995 1998 1981 1993 1983 1999 1994 1987 1977 1979 1996
 1991 1989 1986 1990 1992 1980 1982 1971 1976 1974 1984 1988 1973 1975
 1972 1970 1952 1968 1966 1954 1963 1962 1964 1967 1959 2012 1958 1965
 1957 1851 1961 1960 2015 2013 2014 1951 1900 1950 1953 1947 1929 1928
 1955 1956 1942 2016 1899 1919 1896 1889 1946 1897 1852 1888 1885 2019
 1879 2017 1945 1901 1917 2018 2020]


* Padronizando o atributo tipo_envolvido (só existia um registro do tipo Vítima/Proprietário de Carga/CNH, e todos eram condutores)

Só existem 05 registros do tipo_envolvido igual a Ciclista. Em todos os casos, as informações importante para esse projeto
estão ausentes. Dessa forma, decidi pela exclusão deles.

In [18]:
df['tipo_envolvido'] = df['tipo_envolvido'].str.replace('Vítima', 'Condutor')
df['tipo_envolvido'] = df['tipo_envolvido'].str.replace('Proprietário de Carga', 'Condutor')
df['tipo_envolvido'] = df['tipo_envolvido'].str.replace('Proprietário da CNH', 'Condutor')

df_remove = df.loc[df['tipo_envolvido']=='Ciclista']
df = df.drop(df_remove.index)
df['tipo_envolvido'].unique()

array(['Condutor', 'Passageiro', 'Pedestre', 'Cavaleiro', 'Testemunha'],
      dtype=object)

#### Verificar se ainda existem valores nulos e mostrar o novo formato do Dataframe

In [19]:
print(df.isnull().sum())
print("Novo formato do DataFrame: ", df.shape)

br                        0
causa_acidente            0
condicao_metereologica    0
dia_semana                0
fase_dia                  0
pessoas                   0
sentido_via               0
tipo_acidente             0
tipo_pista                0
tracado_via               0
uf                        0
uso_solo                  0
veiculos                  0
tipo_veiculo              0
ano_fabricacao_veiculo    0
tipo_envolvido            0
estado_fisico             0
sexo                      0
ano                       0
mes                       0
hora                      0
faixa_etaria              0
dtype: int64
Novo formato do DataFrame:  (2704727, 22)


#### Salvando Processamento e Junção das Bases

In [20]:
df.to_csv('C:\TCC\DATASETS\dadostratados.csv')