# **0. Importação das Bibliotecas**

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import time

import re

# **1.0 Análise exploratória**

###  **Carregamento dos Arquivos:**

**OBS:** Os DataFrame df\_pessoas\_'ano' são DataFrames de complemento para os dados dos DataFrames df\_ocorrencia\_'ano'

- **Base de dados por pessoas:**

In [None]:
cols = ['id', 'pesid', 'uf', 'id_veiculo', 'tipo_veiculo', 'marca', 
        'ano_fabricacao_veiculo', 'tipo_envolvido', 'estado_fisico', 'idade','sexo']

filepath = '../input/brazil-highway-traffic-accidents/por_pessoas/'

df_pessoas_2007 = pd.read_csv(filepath + 'acidentes2007.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2008 = pd.read_csv(filepath + 'acidentes2008.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2009 = pd.read_csv(filepath + 'acidentes2009.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2010 = pd.read_csv(filepath + 'acidentes2010.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2011 = pd.read_csv(filepath + 'acidentes2011.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2012 = pd.read_csv(filepath + 'acidentes2012.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2013 = pd.read_csv(filepath + 'acidentes2013.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2014 = pd.read_csv(filepath + 'acidentes2014.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2015 = pd.read_csv(filepath + 'acidentes2015.csv', sep=',', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2016 = pd.read_csv(filepath + 'acidentes2016.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2017 = pd.read_csv(filepath + 'acidentes2017.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2018 = pd.read_csv(filepath + 'acidentes2018.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2019 = pd.read_csv(filepath + 'acidentes2019.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_pessoas_2020 = pd.read_csv(filepath + 'acidentes2020.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)

- **Cabeçalho**

Visualizar os 10 primeiros registros do conjunto de dados

In [None]:
df_pessoas_2007.head(10)

- **Adicionar coluna ```ano``` em todos os dataframes:**

In [None]:
df_pessoas_2007['ano'] = 2007
df_pessoas_2008['ano'] = 2008
df_pessoas_2009['ano'] = 2009
df_pessoas_2010['ano'] = 2010
df_pessoas_2011['ano'] = 2011
df_pessoas_2012['ano'] = 2012
df_pessoas_2013['ano'] = 2013
df_pessoas_2014['ano'] = 2014
df_pessoas_2015['ano'] = 2015
df_pessoas_2016['ano'] = 2016
df_pessoas_2017['ano'] = 2017
df_pessoas_2018['ano'] = 2018
df_pessoas_2019['ano'] = 2019
df_pessoas_2020['ano'] = 2020

- **Concatenar todos os dataframes**

In [None]:
df = pd.concat([df_pessoas_2007,df_pessoas_2008,df_pessoas_2009,df_pessoas_2010,df_pessoas_2011,
                              df_pessoas_2012,df_pessoas_2013,df_pessoas_2014,df_pessoas_2015,df_pessoas_2016,
                              df_pessoas_2017,df_pessoas_2018,df_pessoas_2019,df_pessoas_2020], sort = False)

- **Filtrar somente pelo escopo do Rio Grande do Sul sendo uf(RS)**

In [None]:
df= df[df['uf'] == 'RS']
df.head(10)

### **1.2 Descrição dos dados:**

Visualizar as colunas e os respectivos tipos de dados que elas estão classificadas

In [None]:
df.info()

- **Quantidade de linhas e colunas**

In [None]:
print(f"{df.shape[0]} linhas e {df.shape[1]} colunas.")

#### **1.2.1 breve limpeza dos dados**

- **Eliminar linhas duplicadas do dataframe:**

In [None]:
df.drop_duplicates(subset=cols, keep='first', inplace=True)

In [None]:
print(f"Após a remoção dos registros duplicados: {df.shape[0]} linhas e {df.shape[1]} colunas.")

- **_missing_ values**

In [None]:
# Porcentagem de valores faltantes
(df.isnull().sum()/df.shape[0]).sort_values()

- **Eliminar linhas com todos os valores incompletos ou nulos:**

In [None]:
df.dropna(how='all', inplace=True)

In [None]:
print(f"Após a remoção dos registros nulos: {df.shape[0]} linhas e {df.shape[1]} colunas.")

- **Reindexar os registros, por conta da remoção das duplicatas**

In [None]:
df.index = range(len(df))

### **3. Visualização dos valores possíveis**

Vamos verificar os valores das variáveis categóricas:

- **`tipo_envolvido`**
- **`estado_fisico`**
- **`tipo_veiculo`**
- **`marca`**
- **`sexo`**

e algumas visualizações sobre tendências nas variáveis numéricas como:
- **`ano_fabricacao_veiculo`**
- **`idade`**

In [None]:
df['tipo_envolvido'].unique()

In [None]:
df['estado_fisico'].unique()

In [None]:
df['tipo_veiculo'].unique()

In [None]:
df['marca'].unique()

In [None]:
df['sexo'].unique()

In [None]:
df.loc[df['idade'] > 100, 'idade'].value_counts()

---
- **Análise dos valores**

OK, para o **`tipo_envolvido`** temos os valores: 
* "Condutor", 
* "Passageiro", 
* "Pedestre", 
* "Testemunha", 
* "Cavaleiro", 
* "Vítima", 
* "Autor", 
* "Ciclista", 
* "Não Informado", 
* "Proprietário de Carga" 
* "Proprietário da CNH". 

Todos os valores estão limpos e não são duplicados.

---
**`estado_fisico`** possui os valores: 'Ileso       ', 'Ferido Leve ', 'Ferido Grave', 'Morto       ', 'Ignorado    ', '(null)', 'Morto', 'Ileso', 'Ferido Leve', 'Ignorado', nan, 'Lesões Graves', 'Lesões Leves', 'Óbito', 'Não Informado'. Podemos observar alguns espaços em branco que discretizam valores, porém são duplicados, e também há erro sobre os valores nulos '(null)' que devem ser descartados. E valores sinônimos, como Ferido ou Lesões, e óbito e morte. Portanto, os valores únicos reais são: 
* "Ileso", 
* "Ferido Leve", 
* "Ferido Grave", 
* "Óbito", 
* "Ignorado",
* "Não informado"

---
**`tipo_veiculo`** possui os valores: 
'Automóvel', 'Camioneta', '(null)', 'Caminhão', 'Caminhonete',
       'Motocicletas', 'Ônibus', 'Não identificado', 'Microônibus',
       'Caminhão-Trator', 'Motoneta', 'Bicicleta', 'Reboque', 'Carroça',
       'Utilitário', 'Semi-Reboque', 'Caminhão-Tanque', 'Charrete',
       'Trator de esteiras', 'Trator de rodas', 'Trator misto',
       'Carro-de-mao', 'Ciclomotor', 'Bonde / Trem', 'Triciclo',
       'Quadriciclo', 'Side-car', 'Motor-Casa', nan, 'Motocicleta',
       'Caminhão-trator', 'Carroça-charrete', 'Semireboque',
       'Micro-ônibus', 'Outros', 'Não Informado', 'Carro de mão',
       'Trem-bonde', 'Chassi-plataforma', 'Trator de esteira'. Possui o valor '(null)' que deve ser removido, e alguns valores equivalentes, como "Carro-de-mao' e 'Carro de mão'; Todos os tratores para "Trator"; "Semi-reboque" e "Semireboque"; "Micro-ônibus" e "Microonibus".
       
Os valores únicos reais são:
* "Automóvel",
* "Camioneta",
* "Caminhonete", (esses dois parecem ambíguos mas são distintos)
* "Motocicletas",
* "Ônibus",
* "Microônibus",
* "Caminhão-Trator",
* "Motoneta",
* "Bicicleta",
* "Reboque",
* "Carroça",
* "Utilitário",
* "Semi-reboque",
* "Caminhão-Tanque",
* "Charrete",
* "Trator"
* "Carro de mao",
* "Ciclomotor",
* "Bonde / Trem", 
* "Triciclo",
* "Quadriciclo", 
* "Side-car", 
* "Motor-Casa", 
* "Motocicleta",
* "Caminhão-trator",
* "Carroça-charrete",
* "Outros",
* "Não Informado",
* "Trem-bonde",
* "Chassi-plataforma"

---
**`marca`** possui um padrão de "marca" / "modelo do veículo".

---
**`sexo`** compreende os valores: 'Masculino', 'Feminino', nan, 'Não Informado', 'Inválido', 'M', 'F', 'I', 'Ignorado'. Porém esses valores são abreviações. Portanto, os valores reais e utilizados são:

* "Masculino",
* "Feminino",
* "Não Informado",
* "Inválido"

---
**`idade`** 

Esse campo possui idades superiores a 100, iremos descartá-los e preenche-los com a média.
A idade também possui valores que parecem representar a data de nascimento. Por isso, devemos subtrair do ano de 2020 o ano de nascimento, para aproximarmos a idade real.

# **2.0 Limpeza dos dados**

---
Coluna **`id`** (id do acidente):

Nesta coluna os valores nulos viram -1 e alteramos o tipo de dado da coluna para int64

In [None]:
#df["id"].isnull().value_counts()
df["id"].fillna(-1, inplace=True)
df["id"] = df["id"].astype(np.int64)
df["id"].value_counts().head(10)

---
Coluna **`pesid`** (id da pessoa):

Nesta coluna os valores nulos viram -1 e alteramos o tipo de dado da coluna para int64

In [None]:
# df.isnull().value_counts()
df["pesid"].fillna(-1, inplace=True)
df["pesid"] = df["pesid"].astype(np.int64)
df["pesid"].value_counts().head(10)

---
Coluna **`id_veiculo`** (id dos veículos):

Aqui normalizamos os campos (null) para número -1, retiramos os espaços em branco, dados com valores 'Na' viraram -1 e o tipo de dado da coluna foi alterado para int64

In [None]:
df["id_veiculo"] = df["id_veiculo"].replace('(null)', np.nan)
df["id_veiculo"].fillna(-1, inplace=True)
df["id_veiculo"] = df["id_veiculo"].astype(np.int64)
df["id_veiculo"].value_counts().head(10)

---
Coluna **`tipo_veiculo`**(tipo de veículos):

Normalizamos os campos (null) para 'Não Informado' e também normalizamos nomes parecidos mas com mesmo significado

In [None]:
seri = pd.Series(df["tipo_veiculo"])
seri = seri.str.strip()
df["tipo_veiculo"]= seri

df["tipo_veiculo"] = df["tipo_veiculo"].replace('(null)', np.nan)
df["tipo_veiculo"].fillna('Não informado', inplace=True)

correcao_nomes = {
    'Automóvel': 'Automóvel',
    'Caminhão': 'Caminhão',
    'Caminhão-Trator': 'Caminhão',
    'Caminhão-Tanque':'Caminhão',
    'Motocicletas': 'Motocicleta',
    'Motocicleta': 'Motocicleta',
    'Caminhonete': 'Caminhonete',
    'Ônibus': 'Ônibus',
    'Camioneta' : 'Camioneta',
    'Não informado': 'Não informado',
    'Não identificado': 'Não informado',
    'Não Informado': 'Não informado',
    'Caminhão-trator': 'Caminhão',
    'Motoneta': 'Motoneta',
    'Bicicleta': 'Bicicleta',
    'Microônibus': 'Micro-ônibus',
    'Micro-ônibus': 'Micro-ônibus',
    'Utilitário': 'Utilitário',
    'Ciclomotor':'Ciclomotor',
    'Outros': 'Outros',
    'Trator de rodas': 'Trator',
    'Trator misto': 'Trator',
    'Trator de esteiras': 'Trator',
    'Trator de esteira': 'Trator',
    'Carroça': 'Carroça',
    'Carroça-charrete': 'Carroça',
    'Semi-Reboque': 'Semi-reboque',
    'Semireboque': 'Semi-reboque',
    'Reboque': 'Reboque',
    'Triciclo': 'Triciclo',
    'Charrete': 'Charrete',
    'Bonde / Trem': 'Trem',
    'Trem-bonde': 'Trem',
    'Carro-de-mao': 'Carro de mão',
    'Carro de mão': 'Carro de mão',
    'Quadriciclo': 'Quadriciclo',
    'Motor-Casa': 'Motor-Casa',
    'Chassi-plataforma': 'Chassi-plataforma',
    'Side-car': 'Side-car',
}

df["tipo_veiculo"] = df["tipo_veiculo"].replace(correcao_nomes)

#df['tipo_veiculo'].unique()
df.tipo_veiculo.value_counts()

--- 
Coluna **`marca`**(marca e modelo dos veículos):

Normalizamos os campos (null) para 'Não Informado', normalizamos nomes parecidos dos fabricantes mas com mesmo significado para nomes padrão, retiramos espaços em branco no inicio e final das palavras

In [None]:
inicio = time.time()

seri = pd.Series(df["marca"])
seri = seri.str.strip()
df["marca"] = seri

df["marca"] = df["marca"].replace('(null)', np.nan)
df["marca"].fillna("Não informado", inplace=True)

str_old = ['I/ALFA ROMEO','I/ALFA ROMEU','I/AUDI','IMP/AUDI','I/BASHAN','I/BENELLI','I/BENZHOU','IMP/BMW','I/BMW',
           'IMP/GM','I/CHEVROLET','CHEV/','GM/','I/GM','I/CHEV','IMP/CITROEN','IMP/CETROEN','I/CITROEN',
           'CITROE/','IMP/CHRYSLER','I/CHRYSLER','IMP/DAIHATSU','CHRY/DODGE','I/DODGE','I/FIAT','IMP/FIAT',
           'IMP/FORD','M.A./FORD','I/FORD','H.DAVIDSON/','I/H DAVIDSON','I/RAM','I/HARLEY DAVIDSON','HARLEY DAVIDSON/',
           'REB/FORTCAR','I/HUARI','I/H.DAVIDSON','H/HONDA','I/HONDA','IMP/HONDA','HTA/HONDA','I/HYUNDAI',
           'HYUNDA/','IMP/HYUNDAI','I/IVECO','IMP/IVECOFIAT','I/JAGUAR','I/JAC','IMP/KAWAZAKI','AVA/KAWASAKI',
           'I/KAWASAKI','I/KIA','IMP/KIA','I/M.BENZ','MBENZ/','M.BENZ/','M.B./','I/MERCEDES',
           'IMP/MBENZ','IMP/M.BENZ','I/MB' ,'I/MBENZ','I/L.ROVER','IMP/LAND ROVER','I/LR',
           'IMP/ GM','IMP/CHEVROLET','I/CHANGHE','MMC/','I/MMC','IMP/MMC',
           'IMP/IVECO','MA/MASSEY','I/YINGANG','I/NISSAN','IMP/NISSAN','I/OPEL','I/PEUGEOT','IMP/PEUGEOT',
           'I/PORSCHE','I/RENAULT','IMP/RENAULT','I/SCANIA','IMP/SCANIA','I/SUZUKI','JTA/SUZUKI','IMP/SUZUKI',
           'I/SHAANXI','I/SHINERAY','I/TOYOTA','IMP/TOYOTA','I/TRAXX','IMP/VW','VW/','I/VW','I/VOLVO','IMP/VOLVO',
           'IMP/YAMAHA','I/YAMAHA','I/BRP','I/BUELL','I/BYD','I/CHACOMER','I/CHANGAN','I/CHARMING',
           'I/CHERY''I/DAF','I/DAJIANG','I/DAYANG','I/DAYUN','I/DUCATI','I/FERRARI','I/FOTON','I/FYM','I/HAFEI','I/JEEP',
           'I/MAN','I/MINI COOPER','I/DACIA RENAULT','I/LEOPARD','I/CTM GREEN SPORT','I/WUYANG','I/LIFAN','IMP/DAEWOO',
           'IMP/ASIA','I/SSANGYONG','I/SEAT','I/SINOTRUK','I/SUBARU','I/LIFAN','I/WUYANG','I/JIALING',
           'CITROEN PICASSO','FIAT UNO','FORD F250','Fiat/','GMC/','HARLEY-DAVIDSON/','HARLEYDAVIDSON/',
           'I/ASTON MARTIN','I/AUSTIN','I/ASIA','I/CHANGE','I/CHERY','I/CHRYLER','I/CRHYSLER','I/DAEWOO',
           'I/CTM','I/DAF','I/DAIHATSU','I/DERBI','I/DFM','I/GEELY','I/GREAT','I/HAOJIAN','I/HARLEY-DAVIDSON',
           'I/HERO','I/HP','I/HUANGHAI','I/HYOSUNG','I/INFINITI','I/JAG','I/JIANGSU','I/JIANSHE','I/JINBEI',
            '0CHEVROLET/','BMC/','BRP/','I/LAND ROVER','I/LEXUS','I/LONCIN',
            'I/MAZDA','I/MO','I/MOTOR-CASA','I/TRIUMPH','I/VOLKSWAGEN','IMP/ALFA ROMEO','IMP/DAELIM',
            'H DAVIDSON','IMP/HP','IMP/JEEP','IMP/KAWASAKI','IMP/L.ROVER','IMP/LADA','IMP/MAZDA','IMP/MERCED.',
            'IMP/MERCEDES','IMP/SEAT','IMP/VOLKSWAGEN','IVECOFIAT/','LR/','LROVER/','M. BENZ /','M.A./',
            'M.B/','M.BENZ','MA/VALTRA','MIA/MITSUBISHI','MO/FORD','MO/SCANIA','MPOLO/','MR/CASE',
            'MR/JOHNDEERE','REB/','RENALT/','SR/LIBRELATO','SR/RANDON','VOLKS/','VOLVO/ ','VW','Y/YAMAHA','M.A/CASE']


str_new = ['ALFA ROMEO/','ALFA ROMEO/','AUDI/','AUDI/','BASHAN/','BENELLI/','BENZHOU/','BMW/','BMW/',
         'CHEVROLET/','CHEVROLET/','CHEVROLET/','CHEVROLET/','CHEVROLET/','CHEVROLET/','CITROEN/','CITROEN/','CITROEN/',
         'CITROEN/','CHRYSLER/','CHRYSLER/','DAIHATSU/','DODGE/','DODGE/','FIAT/','FIAT/',
         'FORD/','FORD/','FORD/','HARLEY DAVIDSON/','HARLEY DAVIDSON/','DODGE/','HARLEY DAVIDSON/',
         'FORTCAR/','HUARI/','HARLEY DAVIDSON/','HONDA/','HONDA/','HONDA/','HONDA/','HYUNDAI/',
         'HYUNDAI/','HYUNDAI/','IVECO/','IVECO/','JAGUAR/','JAC/','KAWASAKI/','KAWASAKI/',
         'KAWASAKI','KIA/','KIA/','MERCEDES-BENZ/','MERCEDES-BENZ/','MERCEDES-BENZ/','MERCEDES-BENZ/','MERCEDES-BENZ/',
         'MERCEDES-BENZ/','MERCEDES-BENZ/','MERCEDES-BENZ/','MERCEDES-BENZ/','LAND ROVER/','LAND ROVER/','LAND ROVER/',
         'CHEVROLET/','CHEVROLET/','CHANGHE/','MITSUBISHI MOTORS/','MITSUBISHI MOTORS/','MITSUBISHI MOTORS/',
         'IVECO/','MASSEY FERGUSON/','NAZAXX/','NISSAN/','NISSAN/','OPEL/','PEUGEOT/','PEUGEOT/',
         'PORSCHE/','RENAULT/','RENAULT/','SCANIA/','SCANIA/','SUZUKI/','SUZUKI/','SUZUKI/',
         'SHAANXI/','SHINERAY/','TOYOTA/','TOYOTA/','TRAXX/','VOLKSWAGEN/','VOLKSWAGEN/','VOLKSWAGEN/','VOLVO/','VOLVO/',
         'YAMAHA/','YAMAHA/','BRP/','BUELL/','BYD/','CHACOMER/','CHANGAN/','CHARMING/',
         'CHERY/','DAF/','DAJIANG/','DAYANG/','DAYUN/','DUCATI/','FERRARI/','FOTON/','FYM/','HAFEI/','JEEP/',
         'MAN/','BMW/','RENAULT/','LEOPARD/','GREEN SPORT/','WUYANG/','LIFAN/','DAEWOO/',
         'ASIA/','SSANGYONG/','SEAT/','SINOTRUK/','SUBARU/','LIFAN/','WUYANG/','JIALING/',
         'CITROEN/PICASSO','FIAT/ UNO','FORD/ F250','FIAT/','CHEVROLET/','HARLEY DAVIDSON/','HARLEY DAVIDSON/',
         'ASTON MARTIN/','BMW/','ASIA/','CHANGE/','CHERY/','HARLEY DAVIDSON/','HARLEY DAVIDSON/','DAEWOO/',
         'CTM/','DAF/','DAIHATSU/','DERBI/','DFM/','GEELY/','GREAT/','HAOJIAN/','HARLEY DAVIDSON/',
         'HERO/','HP/','HUANGHAI/','HYOSUNG/','INFINITI/','JAG/','JIANGSU/','JIANSHE/','JINBEI/',
         'CHEVROLET/','BMW/','CAN-AM BRP/','LAND ROVER/','LEXUS/','LONCIN/',
         'MAZDA/','MO/','MOTOR-CASA/','TRIUMPH/','VOLKSWAGEN/','ALFA ROMEO/','DAELIM/',
         'HARLEY DAVIDSON/','HP/','JEEP/','KAWASAKI/','LAND ROVER/','LADA/','MAZDA/','MERCEDES-BENZ/',
         'MERCEDES-BENZ/','SEAT/','VOLKSWAGEN/','IVECO/','LAND ROVER/','LAND ROVER/','MERCEDES-BENZ/','CASE/',
         'MERCEDES-BENZ/','MERCEDES-BENZ/','VALTRA/','MITSUBISHI MOTORS/','FORD/','SCANIA/','MARCOPOLO/','CASE/',
         'JOHNDEERE/','REBOQUE','RENAULT/','LIBRELATO/','RANDON/','VOLKSWAGEN/','VOLKSWAGEN/','VOLKSWAGEN/','YAMAHA/','CASE/']

#df['marca'] = df['marca'].map(dict(zip(strArrumar, strNorm)))

for old, new in zip(str_old, str_new): #este for vai percorrer a lista de strArrumar e strNorm para fazer replace no df
    df['marca']= df['marca'].str.replace(old, new)
  
fim= time.time()
print('tempo de execução:',((fim - inicio)/60),'minutos')
df['marca'].value_counts().head(10)

---
Coluna **`ano_fabricacao_veiculo`**(ano de fabricação dos veículos):

Nesta coluna normalizamos os campos (null) para 'nan', normalizamos nomes em branco para valor '0', retiramos os espaços em branco no inicio e final das palavras, transformamos o tipo de dado desta coluna para int32 e também os valores maiores que 2020 foram setados como 0(zero).

In [None]:
seri = pd.Series(df["ano_fabricacao_veiculo"])
seri = seri.str.strip()
df["ano_fabricacao_veiculo"] = seri

df["ano_fabricacao_veiculo"] = df["ano_fabricacao_veiculo"].replace('(null)', np.nan)
df["ano_fabricacao_veiculo"] = df["ano_fabricacao_veiculo"].replace('', '0')
df["ano_fabricacao_veiculo"].fillna('0', inplace=True)

df["ano_fabricacao_veiculo"] = df["ano_fabricacao_veiculo"].astype(np.int32)
df.loc[df["ano_fabricacao_veiculo"] > 2020, "ano_fabricacao_veiculo"] = 0
df["ano_fabricacao_veiculo"].value_counts().head(10)

---
Coluna **`tipo_envolvido`**(quem se envolveu no acidente):

Nesta coluna retiramos espaços em branco no inicio e final das palavras

In [None]:
seri = pd.Series(df["tipo_envolvido"])
seri = seri.str.strip()
df["tipo_envolvido"] = seri

df["tipo_envolvido"].value_counts()

___
Coluna **`estado_fisico`**(estado físico da pessoa envolvida):

Normalizamos os nomes parecidos mas com mesmo significado, alteramos os valores (null) para 'Ileso', limpamos os espcaços em branco no inicio e fim das palavras

In [None]:
seri = pd.Series(df["estado_fisico"])
seri = seri.str.strip()
df["estado_fisico"] = seri

df["estado_fisico"] = df["estado_fisico"].replace('(null)', np.nan)
df["estado_fisico"].fillna('Ileso', inplace=True)

est = {'Lesões Leves': 'Ferido Leve', 
       'Lesões Graves': 'Ferido Grave', 
       'Morto': 'Óbito', 
       'Ignorado': 'Ileso',
       'Não Informado': 'Ileso', 
       'Óbito': 'Óbito', 
       'Ileso': 'Ileso', 
       'Ferido Leve': 'Ferido Leve', 
       'Ferido Grave': 'Ferido Grave'}
df["estado_fisico"] = df["estado_fisico"].map(est)

df["estado_fisico"].value_counts()

---
Coluna **`idade`**(idade da pessoa):

Nesta coluna normalizamos valores nulos para a média, alteramos o tipo de dado para int32, alteramos os valores com idade acima de 100 anos para o valor -1 e valores maiores que 1000 normalizamos para a média também

In [None]:
df['idade'].value_counts().head()

In [None]:
df.loc[df["idade"] > 1900, 'idade'] = df["idade"].mean()
df.loc[df["idade"] > 100, 'idade'] = np.nan
df["idade"].fillna(df["idade"].mean(), inplace=True)
df["idade"] = df["idade"].astype(np.int32)
df["idade"].value_counts().head(10)

---
Coluna **`sexo`**(sexo da pessoa): 

Nesta coluna limpamos os espaços em branco no inicio e fim das palavras e normalizamos os nomes parecidos mas com mesmo significado

In [None]:
seri = pd.Series(df["sexo"])
seri = seri.str.strip()
df["sexo"] = seri

sex = {'F': 'Feminino', 
       'M': 'Masculino', 
       'I':'Não Informado', 
       'Ignorado': 'Não Informado', 
       'Inválido':'Não Informado',
       'Não Informado': 'Não Informado', 
       'Masculino': 'Masculino',  
       'Feminino':'Feminino' }
df["sexo"] = df["sexo"].map(sex)

df["sexo"].value_counts()

- **Salvar DataFrame normalizado**

In [None]:
#df.to_csv('archive/csv_pessoas_normalizado.csv', encoding='latin-1', index=False)