# **Desafio CIVITAS**

Candidato: Daniel D'Luccas

## **Descrição:**

Neste desafio, você deverá utilizar os dados de uma tabela BigQuery que contém leituras de radar do município do Rio de Janeiro. A tabela já contém dados com as leituras realizadas por cada radar.

O objetivo é fazer uma análise exploratória dos dados, identificar inconsistências, além de identificar placas de veículos que foram possivelmente clonadas, usando as informações disponíveis.

## **Análise exploratória dos dados**

Na minha análise os dados foram separados pelos seguintes tópicos:

*   Quantidade de registros
*   Verificação de registros nulos
*   Dados de início e fim dos registros
*   Localização dos radares
*   Hipóteses de inconsistência dos dados
*   Hipótese de placas clonadas




#### **Amostra dos 100 primeiros registros dos dados**

In [22]:
# consulta armazenada na variável exemplo com os 100 primeiros registos
%%bigquery exemplo
SELECT *
FROM `rj-cetrio.desafio.readings_2024_06`LIMIT 100

Query is running:   0%|          |

Downloading:   0%|          |

In [23]:
# execução da variável
exemplo

Unnamed: 0,datahora,datahora_captura,placa,empresa,tipoveiculo,velocidade,camera_numero,camera_latitude,camera_longitude
0,2024-06-09 10:55:23+00:00,2024-06-09 10:56:04+00:00,b'\xffn\xe7\xc3\x04\x9f\x9f\x1f\xec\x83~@\x98\...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',34,b'\x00i*rt\xb1Y',-22.883354,-43.237033
1,2024-06-11 13:34:02+00:00,2024-06-11 13:35:02+00:00,b'=\xcb\xb5\x82cxW\xb4M\xbbj\xf8\xf4\xdb\xde\x...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',36,b'\x00i*rt\xb1Y',-22.883354,-43.237033
2,2024-06-11 11:55:36+00:00,2024-06-11 11:56:03+00:00,b'-\xb1\x98B<75&\xd3\x00QJ\xf2\xa6.\xbb\xaf',b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',36,b'\x00i*rt\xb1Y',-22.883354,-43.237033
3,2024-06-10 12:54:28+00:00,2024-06-10 12:56:03+00:00,b'\x82Y\xf6n\xbc\xcb\x7f\xd9\x1e\xb9\xd9\xd86\...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',35,b'\x00i*rt\xb1Y',-22.883354,-43.237033
4,2024-06-11 16:23:51+00:00,2024-06-11 16:25:03+00:00,b'\x93\x9d\x99\xbcf\xe3f\x81|\xc2\xdev\x88cC\x...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',35,b'\x00i*rt\xb1Y',-22.883354,-43.237033
...,...,...,...,...,...,...,...,...,...
95,2024-06-09 15:58:41+00:00,2024-06-09 16:00:04+00:00,b'171\x06(\xda\xe3\xcfe[v~\xbcUFz\xc0',b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',33,b'\x00i*rt\xb1Y',-22.883354,-43.237033
96,2024-06-10 14:42:06+00:00,2024-06-10 14:43:05+00:00,b'd^\x85\xff\xe4\xac\x8e\x08\xfer\nI\t\xac\x12...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',38,b'\x00i*rt\xb1Y',-22.883354,-43.237033
97,2024-06-10 13:48:55+00:00,2024-06-10 13:50:05+00:00,b'\x94\x99AX\xdf\xfe\x11\x01h6\xcc?\xa4Zm\xbf\...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',33,b'\x00i*rt\xb1Y',-22.883354,-43.237033
98,2024-06-12 09:45:55+00:00,2024-06-12 09:50:04+00:00,b'\xc8\xfdh]b\xc0\x02\xed)\xd9]\xe6m\xfa\xb0\x...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',36,b'\x00i*rt\xb1Y',-22.883354,-43.237033


#### **Quantidade de registros na base de dados:**

In [30]:
%%bigquery total_registros
SELECT COUNT(*) AS total_registros
FROM `rj-cetrio.desafio.readings_2024_06`

Query is running:   0%|          |

Downloading:   0%|          |

In [31]:
total_registros

Unnamed: 0,total_registros
0,36358536


#### **Verificação de registros nulos**

In [24]:
# consulta que verifica a quantidade de registros nulos em cada coluna se houver
%%bigquery registros_nulos
SELECT
    COUNTIF(datahora IS NULL) AS datahora_nulos,
    COUNTIF(datahora_captura IS NULL) AS datahora_captura_nulos,
    COUNTIF(placa IS NULL) AS placa_nulos,
    COUNTIF(empresa IS NULL) AS empresa_nulos,
    COUNTIF(tipoveiculo IS NULL) AS tipoveiculo_nulos,
    COUNTIF(velocidade IS NULL) AS velocidade_nulos,
    COUNTIF(camera_numero IS NULL) AS camera_numero_nulos,
    COUNTIF(camera_latitude IS NULL) AS camera_latitude_nulos,
    COUNTIF(camera_longitude IS NULL) AS camera_longitude_nulos
FROM `rj-cetrio.desafio.readings_2024_06`

Query is running:   0%|          |

Downloading:   0%|          |

In [25]:
registros_nulos

Unnamed: 0,datahora_nulos,datahora_captura_nulos,placa_nulos,empresa_nulos,tipoveiculo_nulos,velocidade_nulos,camera_numero_nulos,camera_latitude_nulos,camera_longitude_nulos
0,0,1816325,0,0,0,0,0,0,0


#### **Dados de início e fim dos registros:**

In [32]:
%%bigquery registro_periodo
SELECT  MIN(datahora) AS data_mais_antiga,
        MAX(datahora) AS data_mais_recente,
        MIN(datahora_captura) AS datahora_captura_antiga,
        MAX(datahora_captura) AS datahora_captura_recente,
FROM `rj-cetrio.desafio.readings_2024_06`

Query is running:   0%|          |

Downloading:   0%|          |

In [33]:
registro_periodo

Unnamed: 0,data_mais_antiga,data_mais_recente,datahora_captura_antiga,datahora_captura_recente
0,2024-06-06 00:00:00+00:00,2024-06-13 14:31:56+00:00,2024-06-06 15:17:49+00:00,2024-06-13 14:25:34+00:00


Possível inconsistência entre o registro da captura do radar e recebimento dos dados, onde o horário da detecção do radar é mais recente do que o horário do recebimento do dado. Existe a hipótese da fonte de dados relógios para registro sejam diferentes ou o algum erro durante a captura dessa informação.

In [39]:
%%bigquery inconsistencia_captura
SELECT COUNT(*) AS inconsistencia_hora_captura
 --COUNT(*) AS total_registros_invalidos
FROM `rj-cetrio.desafio.readings_2024_06`
WHERE datahora_captura < datahora

Query is running:   0%|          |

Downloading:   0%|          |

In [40]:
inconsistencia_captura

Unnamed: 0,inconsistencia_hora_captura
0,495797


#### **Localização dos radares**

In [50]:
%%bigquery posicao_cameras
SELECT camera_latitude, camera_longitude,
FROM
    `rj-cetrio.desafio.readings_2024_06`
GROUP BY camera_latitude, camera_longitude

Query is running:   0%|          |

Downloading:   0%|          |

Dataframe com a posição de todas as câmeras do conjunto de dados

In [14]:
posicao_cameras

Unnamed: 0,camera_latitude,camera_longitude
0,-22.854000,-43.247600
1,-22.797167,-43.193340
2,-22.986620,-43.219976
3,-22.852100,-43.247500
4,-22.934917,-43.575333
...,...,...
611,-22.840829,-43.297560
612,-22.952987,-43.390919
613,-22.845188,-43.238480
614,-22.868333,-43.350833


In [21]:
import pandas as pd
import folium

# Criação do mapa
map_center = [posicao_cameras['camera_latitude'].mean(), posicao_cameras['camera_longitude'].mean()]
m = folium.Map(location=map_center, zoom_start=12)

# Posicionando as cameras no mapa
for idx, row in posicao_cameras.iterrows():
    folium.Marker(
        location=[row['camera_latitude'], row['camera_longitude']],
        icon=folium.Icon(color='blue', icon='info-sign')
    ).add_to(m)

# Armazenamento do mapa em HTML
m.save('mapa_radares.html')

# Plot do mapa
m


Foi possível verificar que há dados de latitude e longitude dos alguns radares fora do espaço geográfico da cidade do Rio de Janeiro.
Como por exemplo:


*   2 radares próximos da região de Petrópolis
*   2 radares ao sul do Rio de Janeiro no oceano Atlântico
*   1 radar localizado no meio do oceano Atlântico na coordenada (0.00;0.00)
*   1 radar localizado próximo da ilha de Madagascar no continente africano



#### **Hipótese de inconsistência de dados**

Como foi citado anteriormente, há pelo menos as inconsistência da hora registrada e recebida pela captura e também pela localização de 6 radares.

Outras hipóteses foram levantadas, tais como:

*  câmeras com o mesmo número e localizações diferentesna mesma empresa
*  velocidades fora do normal


In [53]:
%%bigquery camera_numero_igual_loc_diferentes
SELECT empresa, camera_numero,
    COUNT(DISTINCT camera_latitude || ',' || camera_longitude) AS loc_unicos
FROM  `rj-cetrio.desafio.readings_2024_06`
GROUP BY empresa, camera_numero
HAVING loc_unicos > 1

Query is running:   0%|          |

Downloading: |          |

Resultado:


```
camera_numero_igual_loc_diferentes = 'vazio'
```



In [54]:
camera_numero_igual_loc_diferentes

Unnamed: 0,empresa,camera_numero,loc_unicos


É possível verificar dados inconsistentes sobre as velocidades registradas:

In [64]:
%%bigquery registros_velocidades
SELECT
    MAX(velocidade) AS velocidade_maxima,
    MIN(velocidade) AS velocidade_minima,
    AVG(velocidade) AS velocidade_media
FROM  `rj-cetrio.desafio.readings_2024_06`


Query is running:   0%|          |

Downloading:   0%|          |

In [65]:
registros_velocidades

Unnamed: 0,velocidade_maxima,velocidade_minima,velocidade_media
0,255,0,37.107287


#### **Hipótese de placas clonadas**

Foi pensado em 2 hipóteses de carros clonados:
* Mesma placa e tipo de carro diferente
* Mesma placa e mesmo tipo, porém, em localizações controvérsas

**Mesma placa e tipo de veículo diferente**

In [60]:
%%bigquery clone_tipodiferente
SELECT placa,
      COUNT(DISTINCT tipoveiculo) AS qtd_tipo_veiculo,
FROM `rj-cetrio.desafio.readings_2024_06`
GROUP BY placa
HAVING qtd_tipo_veiculo > 1
ORDER BY qtd_tipo_veiculo DESC

Query is running:   0%|          |

Downloading:   0%|          |

In [61]:
clone_tipodiferente

Unnamed: 0,placa,qtd_tipo_veiculo
0,b'\xd5t\xfa+\xf6\xc9\t\xb8\x95\xe1\x94\x8f\x96...,4
1,"b'\t\'m\xac""\xcc\xe5\x01\x87\x1f\x90p\xc5\xdb\...",4
2,b'\x86\xac\x8av7\xb8Qh\xd9?`\xcf\x0ez\x86\x8d\...,4
3,"b']\x00\x89,\x8b\x82IV\xfbX\xdc\x94\xb1\xf4RR\...",4
4,b'\x81\x81Hv\xdf\xc96\xc7\x00\xa1\x93\xe6\x07\...,4
...,...,...
441647,b'EA\xe6G\xab\xcb:=M% E\xf2&\x89\x8c\xeb',2
441648,b'\xfb\x14\xd4\xa4\xbf\xd7r\xd2\n\x19\xbaz\x8c...,2
441649,b't \x82\x83\x93\x97\xee\x9a-\xd9_i\x1d\x98\xc...,2
441650,b'.G\x8a\xab\xe0\xb8\x8cQ\xb7\x137\xf8T\x9a\x0...,2


**Mesma placa e mesmo tipo de veículo em localizações distintas ao mesmo tempo ou controversas**

Essa consulta consiste em verificar a clonagem utilizando o próximo registro de uma determinada placa, a partir do local do radar e do horário.

Verificando as distâncias e o horário registrado é possível fazer uma análise da velocidade média e considerando uma velocidade plausível entre os pontos é possível determinar se aquela placa é uma potencial placa clonada.



In [66]:
%%bigquery clone_locaisdiferentes
WITH registros AS (
  SELECT
    placa,
    datahora,
    ST_GEOGPOINT(camera_longitude, camera_latitude) AS geografia,
    LAG(datahora) OVER (PARTITION BY placa ORDER BY datahora) AS prev_datahora,
    LAG(ST_GEOGPOINT(camera_longitude, camera_latitude)) OVER (PARTITION BY placa ORDER BY datahora) AS prev_geografia
  FROM `rj-cetrio.desafio.readings_2024_06`
),

distancias_tempos AS (
  SELECT
    placa,
    datahora,
    prev_datahora,
    ST_DISTANCE(geografia, prev_geografia) AS distancia_metros,
    TIMESTAMP_DIFF(datahora, prev_datahora, SECOND) AS diferenca_tempo_segundos
  FROM
    registros
  WHERE
    prev_datahora IS NOT NULL
)

SELECT
  placa,
  datahora,
  prev_datahora,
  distancia_metros,
  diferenca_tempo_segundos,
  CASE
    WHEN diferenca_tempo_segundos > 0 THEN (distancia_metros / diferenca_tempo_segundos) * 3.6
    ELSE NULL
  END AS velocidade_media_kmh
FROM
  distancias_tempos
WHERE
  diferenca_tempo_segundos > 0
  AND (distancia_metros / diferenca_tempo_segundos) * 3.6 > 200 -- Limite plausível de velocidade em km/h
ORDER BY
  placa, datahora

Query is running:   0%|          |

Downloading:   0%|          |

In [67]:
clone_locaisdiferentes

Unnamed: 0,placa,datahora,prev_datahora,distancia_metros,diferenca_tempo_segundos,velocidade_media_kmh
0,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-10 09:57:31+00:00,2024-06-10 09:49:24+00:00,5.331516e+06,487,39411.614979
1,b'\x00\x00D\xce\xa8\x89\xd9\x89g.\x17o~\xf9m\x...,2024-06-12 11:51:08+00:00,2024-06-12 11:44:38+00:00,4.813814e+04,390,444.352042
2,b'\x00\x00\x8c\x1f\x16\xd0\xafA\x8e\xc9\xd8\xc...,2024-06-12 19:00:12+00:00,2024-06-12 18:48:06+00:00,1.113497e+05,726,552.147357
3,b'\x00\x00\xd4#\x10\x1a\x94\xf8}\xd8Hp\xa0\x87...,2024-06-07 12:51:52+00:00,2024-06-07 12:51:48+00:00,7.265394e+02,4,653.885487
4,b'\x00\x01\xea]8\xdf}\xd31\xe5R\xcb\x17v<\xba\...,2024-06-08 22:57:09+00:00,2024-06-08 12:54:31+00:00,5.323537e+06,36158,530.027475
...,...,...,...,...,...,...
531212,b'\xff\xff^(\xf2\xb7\xab\xa3\xc5F\xed\x8c\xb2\...,2024-06-07 19:13:38+00:00,2024-06-07 09:37:34+00:00,5.323537e+06,34564,554.470936
531213,b'\xff\xff^(\xf2\xb7\xab\xa3\xc5F\xed\x8c\xb2\...,2024-06-10 09:48:14+00:00,2024-06-09 19:15:07+00:00,5.323537e+06,52387,365.829947
531214,b'\xff\xff^(\xf2\xb7\xab\xa3\xc5F\xed\x8c\xb2\...,2024-06-10 19:07:44+00:00,2024-06-10 09:48:14+00:00,5.323537e+06,33570,570.888693
531215,b'\xff\xff\xd4\xaa\x1b\xfd?v\xe1c\xe2U\xc9s\x1...,2024-06-08 15:04:59+00:00,2024-06-08 12:25:07+00:00,5.331513e+06,9592,2000.984902
