In [532]:
import geopandas as gpd
import pandas as pd
import json
import requests
from os.path import exists
from re import sub

## Preparação: Requisição dos dados da API do Observatório

> Nota: Não é possível solicitar dados de vítima não fatal mais vítima fatal, pois retorna o código `http 500 - Internal Server Error` - Erro no tempo de execução. Será feito duas requisições separadas e inseridas em arquivos diferentes, e então feito a colagem em seguida.

In [533]:
session = requests.Session()

params_nao_fatal = {"data":"[[\"Todos\"],[\"PORTO VELHO\"],[\"VÍTIMA NÃO FATAL\"],[\"Todos\"],[\"1/2019\"],[\"12/2020\"]]",
          "labels": "[\"Natureza_do_Acidente\",\"Municipio\",\"Consequencia\",\"Via_1\",\"Data_Inicial\",\"Data_Final\"]"}

params_fatal = {"data":"[[\"Todos\"],[\"PORTO VELHO\"],[\"VÍTIMA FATAL\"],[\"Todos\"],[\"1/2019\"],[\"12/2020\"]]",
          "labels": "[\"Natureza_do_Acidente\",\"Municipio\",\"Consequencia\",\"Via_1\",\"Data_Inicial\",\"Data_Final\"]"}

cookie = {'chave':'lgpd'}

if not exists('AcidentesdeTransitoNaoFatal.json'):
    req = requests.Session.post(session, url='http://observatorio.sepog.ro.gov.br/TransitoPerfil/GetGeoData', json=params_nao_fatal, cookies=cookie, stream=True)
    with open('AcidentesdeTransitoNaoFatal.json', 'wb') as arq_acidentes:
        arq_acidentes.write(req.content)

if not exists('AcidentesdeTransitoFatal.json'):
    req = requests.Session.post(session, url='http://observatorio.sepog.ro.gov.br/TransitoPerfil/GetGeoData',json=params_fatal,cookies=cookie, stream=True)
    with open('AcidentesdeTransitoFatal.json', 'wb') as arq_acidentes:
        arq_acidentes.write(req.content)

## Primeiro passo: Normalização do JSON
- Será normalizado usando um método do pandas: [json_normalize](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html)

Formato padrão do dado:
```
{
    "<tipo de acidente>": {
        "<id>": {
            "LATITUDE": <float>,
            "LONGITUDE": <float>,
            "CONSEQUENCIA": <string>,
            "MUNICIPIO": <string>,
            "VEICULO_1": <string>,
            "VEICULO_2": <string>,
            "DATA_DO_FATO": <datetime>,
            "FROTA": <int>
        }
    }
}
```

In [534]:
with open('AcidentesdeTransitoNaoFatal.json', 'r') as arq_acidentes:
    acidentes = json.load(arq_acidentes)

    df = pd.DataFrame() # Crio um DataFrame vazio onde irá reunir os dados normalizados

    for tipo_acidente, acidente in acidentes.items(): # Para cada tipo de acidente ...
        for id_, informacoes in acidente.items(): # Para cada item do tipo de acidente...
            df_items = pd.json_normalize(informacoes)
            df = pd.concat((df, df_items), ignore_index=True)
df

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
0,-8.762072,-63.843155,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,02/01/2019 00:00:00,280860
1,-8.806092,-63.884237,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
2,-8.738549,-63.862959,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
3,-8.774956,-63.892546,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,25/01/2019 00:00:00,280860
4,-8.710393,-63.985594,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,27/01/2019 00:00:00,280860
...,...,...,...,...,...,...,...,...
9553,-8.800215,-63.795577,VÍTIMA NÃO FATAL,PORTO VELHO,,,12/07/2020 00:00:00,280860
9554,-8.800483,-63.734232,VÍTIMA NÃO FATAL,PORTO VELHO,,,08/07/2020 00:00:00,280860
9555,-9.158756,-64.193839,VÍTIMA NÃO FATAL,PORTO VELHO,,,01/07/2020 00:00:00,280860
9556,-8.766685,-63.884052,VÍTIMA NÃO FATAL,PORTO VELHO,,,01/07/2020 00:00:00,280860


In [535]:
with open('AcidentesdeTransitoFatal.json', 'r') as arq_acidentes:
    acidentes = json.load(arq_acidentes)

    # Mesma lógica para este DF
    for tipo_acidente, acidente in acidentes.items():
        for id_, informacoes in acidente.items():
            df_items = pd.json_normalize(informacoes)
            df = pd.concat((df, df_items), ignore_index=True) # Como o DF já existe, utilizo ele para a inserção.
df

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
0,-8.762072,-63.843155,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,02/01/2019 00:00:00,280860
1,-8.806092,-63.884237,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
2,-8.738549,-63.862959,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
3,-8.774956,-63.892546,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,25/01/2019 00:00:00,280860
4,-8.710393,-63.985594,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,27/01/2019 00:00:00,280860
...,...,...,...,...,...,...,...,...
9813,-9.347602,-64.644781,VÍTIMA FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,04/02/2020 00:00:00,280860
9814,-8.773548,-63.821836,VÍTIMA FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,04/05/2020 00:00:00,280860
9815,-9.750465,-66.618236,VÍTIMA FATAL,PORTO VELHO,CAMINHÃO,VEÍCULO ÚNICO,28/08/2019 00:00:00,280860
9816,-8.739714,-63.932140,VÍTIMA FATAL,PORTO VELHO,,,04/10/2020 00:00:00,280860


## Segundo passo: Limpeza dos dados
- Excluir dados sem LATLON
- Substituir valores vazios das colunas VEICULO_1 e VEICULO_2 com `NÃO INFORMADO`

#### Dados que estão sem geo ou com latitude ou longitude faltando e removendo-os

In [536]:
df[(df.LATITUDE == "SEM GEO") | (df.LONGITUDE == "SEM GEO")]

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
7,SEM GEO,SEM GEO,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,19/08/2020 00:00:00,280860
8,SEM GEO,SEM GEO,VÍTIMA NÃO FATAL,PORTO VELHO,AUTOMÓVEL,VEÍCULO ÚNICO,22/08/2020 00:00:00,280860
10,SEM GEO,SEM GEO,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,11/09/2020 00:00:00,280860
30,SEM GEO,SEM GEO,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,25/01/2020 00:00:00,280860
37,SEM GEO,SEM GEO,VÍTIMA NÃO FATAL,PORTO VELHO,AUTOMÓVEL,VEÍCULO ÚNICO,02/02/2020 00:00:00,280860
...,...,...,...,...,...,...,...,...
9792,SEM GEO,SEM GEO,VÍTIMA FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,19/05/2020 00:00:00,280860
9805,SEM GEO,SEM GEO,VÍTIMA FATAL,PORTO VELHO,CAMINHÃO,VEÍCULO ÚNICO,14/04/2019 00:00:00,280860
9807,SEM GEO,SEM GEO,VÍTIMA FATAL,PORTO VELHO,VEÍCULO ÚNICO,CAMINHÃO,30/05/2019 00:00:00,280860
9810,SEM GEO,SEM GEO,VÍTIMA FATAL,PORTO VELHO,VEÍCULO ÚNICO,CAMINHÃO,30/05/2019 00:00:00,280860


Removendo...

In [537]:
df.drop(df.loc[(df.LATITUDE == "SEM GEO") | (df.LONGITUDE == "SEM GEO")].index, inplace=True)
df

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
0,-8.762072,-63.843155,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,02/01/2019 00:00:00,280860
1,-8.806092,-63.884237,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
2,-8.738549,-63.862959,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,20/01/2019 00:00:00,280860
3,-8.774956,-63.892546,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,25/01/2019 00:00:00,280860
4,-8.710393,-63.985594,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,27/01/2019 00:00:00,280860
...,...,...,...,...,...,...,...,...
9813,-9.347602,-64.644781,VÍTIMA FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,04/02/2020 00:00:00,280860
9814,-8.773548,-63.821836,VÍTIMA FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,04/05/2020 00:00:00,280860
9815,-9.750465,-66.618236,VÍTIMA FATAL,PORTO VELHO,CAMINHÃO,VEÍCULO ÚNICO,28/08/2019 00:00:00,280860
9816,-8.739714,-63.932140,VÍTIMA FATAL,PORTO VELHO,,,04/10/2020 00:00:00,280860


#### Exemplo de tupla do DF que já está preenchida com `NÃO INFORMADO`

In [538]:
df[(df.VEICULO_1 == "NÃO INFORMADO") | (df.VEICULO_2 == 'NÃO INFORMADO')].head(1)

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
249,-8.763265,-63.876865,VÍTIMA NÃO FATAL,PORTO VELHO,NÃO INFORMADO,VEÍCULO ÚNICO,09/04/2020 00:00:00,280860


#### Substituir dados vazios com `NÃO INFORMADO`

In [539]:
df.loc[df.VEICULO_1 == '', 'VEICULO_1'] = 'NÃO INFORMADO' # Selecione as tuplas da coluna VEICULO_1 que tenham a condição verdadeira e substitua com 'NÃO INFOMADO'
df.loc[df.VEICULO_2 == '', 'VEICULO_2'] = 'NÃO INFORMADO'

### Terceiro Passo: Converter DATA_DO_FATO para datetime e Converter Pandas para GeoPandas
- Mudar tipo de dado da coluna DATA_DO_FATO para datetime
- Tratar os dados para gerar uma GeoDataFrame válido a partir do DataFrame

#### Convertendo coluna DATA_DO_FATO de str para datetime64

In [540]:
df.loc[:,'DATA_DO_FATO'] = pd.to_datetime(df['DATA_DO_FATO'])
df.head(5)

Unnamed: 0,LATITUDE,LONGITUDE,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA
0,-8.762072,-63.843155,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-02-01,280860
1,-8.806092,-63.884237,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-20,280860
2,-8.738549,-63.862959,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-20,280860
3,-8.774956,-63.892546,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-25,280860
4,-8.710393,-63.985594,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-27,280860


#### Tratando dados para gerar Geometria válida

##### 1. Procurar com dados com caracteres especiais

In [541]:
# Previnir que o LATLON tenha qualquer caracter especial OU 2 pontos OU 2 hífen
Regex_Sem_Carac_Espec = r'[\!\"\#\$%\&\'\(\)\*\+\,\/\:\;\<\=\>\?\@\[\]\^\_\`\{\|\}\~]+|[\.]{2,}|[\-]{2,}'

##### 2. Corrigir esses dados utilizando regex

In [542]:
# Se tiver caracteres ou duplicações de caract. ...
if df['LATITUDE'].str.contains(Regex_Sem_Carac_Espec).astype(bool).any():
    # Pegar linhas que estão com problemas
    dados_incorretos = df['LATITUDE'].loc[df['LATITUDE'].str.contains(Regex_Sem_Carac_Espec)]
    # Consertar erros
    dados_corretos = dados_incorretos.apply(lambda lat: sub(r'[^\-\d\.]|(\.)(?=\.)|(\-)(?=\-)','', lat))
    # Inserir dados corrigidos no DataFrame
    df.loc[dados_corretos.index, ['LATITUDE']] = dados_corretos.to_frame()['LATITUDE']

if df['LONGITUDE'].str.contains(Regex_Sem_Carac_Espec).astype(bool).any():
    dados_incorretos = df['LONGITUDE'].loc[df['LONGITUDE'].str.contains(Regex_Sem_Carac_Espec)]
    dados_corretos = dados_incorretos.apply(lambda lat: sub(r'[^\-\d\.]|(\.)(?=\.)|(\-)(?=\-)','', lat))
    df.loc[dados_corretos.index, ['LONGITUDE']] = dados_corretos.to_frame()['LONGITUDE']

##### 3. Converter dados para float

In [543]:
df.loc[:, 'LATITUDE'] = pd.to_numeric(df['LATITUDE'], downcast='float')
df.loc[:, 'LONGITUDE'] = pd.to_numeric(df['LONGITUDE'], downcast='float')

##### 4. Gerar GeoDataFrame utilizando o construtor do GeoPandas

In [545]:
# Gerar um GeoDataFrame a partir do DataFrame utilizando as colunas LATLON
gdf = gpd.GeoDataFrame(df, geometry=gpd.points_from_xy(df.LONGITUDE, df.LATITUDE), crs='EPSG:4674')
# Não é mais necessários as colunas...
gdf.drop(['LATITUDE', 'LONGITUDE'], axis=1, inplace=True)

gdf.head(20)

Unnamed: 0,CONSEQUENCIA,MUNICIPIO,VEICULO_1,VEICULO_2,DATA_DO_FATO,FROTA,geometry
0,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-02-01,280860,POINT (-63.84315 -8.76207)
1,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-20,280860,POINT (-63.88424 -8.80609)
2,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-20,280860,POINT (-63.86296 -8.73855)
3,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-25,280860,POINT (-63.89255 -8.77496)
4,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-27,280860,POINT (-63.98560 -8.71039)
5,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-29,280860,POINT (-63.84447 -8.76868)
6,VÍTIMA NÃO FATAL,PORTO VELHO,VEÍCULO ÚNICO,MOTO,2019-01-31,280860,POINT (-63.84809 -8.75951)
9,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,2020-08-09,280860,POINT (-63.83331 -8.79986)
11,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,2020-06-10,280860,POINT (-63.85142 -8.76483)
12,VÍTIMA NÃO FATAL,PORTO VELHO,MOTO,VEÍCULO ÚNICO,2020-11-11,280860,POINT (-63.82281 -8.77375)
