# Desafio CIVITAS - EMD

Utilizando os dados de uma tabela BigQuery que contém leituras de radar do município do Rio de Janeiro, o objetivo do desafio é:
*   fazer uma análise exploratória dos dados;
*   identificar inconsistências;
*   identificar placas de veículos que foram possivelmente clonadas.

## Análise Exploratória (EDA)

Na EDA temos como objetivo identificar as seguintes questões:
*   Compreender a estrutura dos dados
*   Quais colunas cada tabela possui?
*   Que tipos de dados estão presentes?
*   Descobrir a qualidade dos dados
*   Há valores ausentes?
*   Existem valores inconsistentes ou outliers?
*   Identificar padrões e tendências
*   Como os dados estão distribuídos?
*   Existem correlações entre variáveis?


### Explorando a estrutura dos dados

In [64]:
%%bigquery
SELECT *
FROM `rj-cetrio.desafio.readings_2024_06`
LIMIT 10;


Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,datahora,datahora_captura,placa,empresa,tipoveiculo,velocidade,camera_numero,camera_latitude,camera_longitude
0,2024-06-09 16:41:34+00:00,2024-06-09 16:42:02+00:00,b'\xb3\xc8\xaf\xce\x89h\xe0=niD\x01\xd0w)7B',b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',34,b'\x00i*rt\xb1Y',-22.883354,-43.237033
1,2024-06-09 21:26:17+00:00,2024-06-09 21:27:03+00:00,b'\x1f\x88W\xb9\xdfF\xf1Qu\xbd\x80\xb5\x987g;\...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',36,b'\x00i*rt\xb1Y',-22.883354,-43.237033
2,2024-06-10 09:04:07+00:00,2024-06-10 09:05:03+00:00,b'+j\x88Us\xbdZ\x1b\xdb\x9f\xa0r\xd50\x15\xea\...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',39,b'\x00i*rt\xb1Y',-22.883354,-43.237033
3,2024-06-06 10:15:35+00:00,2024-06-06 16:42:03+00:00,b'\xe7\xa0X^\x85GE\xba\xfcu\xc0\xe6\xfa\xef\xd...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',32,b'\x00i*rt\xb1Y',-22.883354,-43.237033
4,2024-06-09 19:28:44+00:00,2024-06-09 19:30:05+00:00,b'7\xa9jk\x9a\xe2\xf8\xf3\x7f7\xd8\x18\x9fYr*`',b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',44,b'\x00i*rt\xb1Y',-22.883354,-43.237033
5,2024-06-08 14:07:56+00:00,2024-06-08 14:09:03+00:00,b'\xb5\xd4J\xa5\xde&\xeb=\xacG\x82=\xfe\xd6\x8...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',29,b'\x00i*rt\xb1Y',-22.883354,-43.237033
6,2024-06-10 10:43:56+00:00,2024-06-10 10:45:04+00:00,b'2\x86T \x1as\x00\xff\xce\xb7\x02\xdc\xcd\x8d...,b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',30,b'\x00i*rt\xb1Y',-22.883354,-43.237033
7,2024-06-13 13:51:51+00:00,2024-06-13 13:53:04+00:00,"b'\xd7\x1cP\x8bxb\xce\x1a\x10\x11,FH=\xc1\xaaB'",b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',36,b'\x00i*rt\xb1Y',-22.883354,-43.237033
8,2024-06-10 16:30:09+00:00,2024-06-10 16:31:04+00:00,b'D\xa8^\xb2(\xc5\xac\xf2|~ \xc7t\x00x\x17\x0b',b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',33,b'\x00i*rt\xb1Y',-22.883354,-43.237033
9,2024-06-09 09:09:38+00:00,2024-06-09 09:10:04+00:00,"b""\x13$\x86\x1cR\x82\x00'\xe7\x823K\xcf\x87Z\x...",b'\x08\x91\x96{A?\xa4',b'\x03\x1c\xc0\x03~\x81m',35,b'\x00i*rt\xb1Y',-22.883354,-43.237033


### Estatística básica

Vamos calcular estatísticas básicas para colunas numéricas como velocidade e coordenadas geográficas:

In [65]:
%%bigquery
SELECT
  COUNT(*) AS total_registros,
  AVG(velocidade) AS media_velocidade,
  MAX(velocidade) AS velocidade_maxima,
  MIN(velocidade) AS velocidade_minima
FROM `rj-cetrio.desafio.readings_2024_06`;


Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,total_registros,media_velocidade,velocidade_maxima,velocidade_minima
0,36358536,37.107287,255,0


In [66]:
%%bigquery
-- Estatísticas básicas para a latitude e longitude das câmeras
SELECT
  COUNT(*) AS total_registros,
  AVG(camera_latitude) AS media_latitude,
  AVG(camera_longitude) AS media_longitude,
  MAX(camera_latitude) AS latitude_maxima,
  MIN(camera_latitude) AS latitude_minima,
  MAX(camera_longitude) AS longitude_maxima,
  MIN(camera_longitude) AS longitude_minima
FROM `rj-cetrio.desafio.readings_2024_06`;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,total_registros,media_latitude,media_longitude,latitude_maxima,latitude_minima,longitude_maxima,longitude_minima
0,36358536,-22.753348,-43.000633,0.0,-23.859722,43.334218,-43.690229


Vamos observar a distribuição dos tipos de veículos:

In [67]:
%%bigquery
SELECT
  tipoveiculo,
  COUNT(*) AS total_registros
FROM `rj-cetrio.desafio.readings_2024_06`
GROUP BY tipoveiculo
ORDER BY total_registros DESC;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,tipoveiculo,total_registros
0,b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',34386894
1,b'zcv\xf4|\xa9\x15',1157096
2,b'\x03\x1c\xc0\x03~\x81m',482850
3,b'\xb8\x86R\x11\x10\x99\xed',331696


Também, vamos calcular a velocidade média por tipo de veiculo:

In [68]:
%%bigquery
SELECT tipoveiculo,
       AVG(velocidade) AS velocidade_media,
       MIN(velocidade) AS velocidade_min,
       MAX(velocidade) AS velocidade_max
FROM `rj-cetrio.desafio.readings_2024_06`
GROUP BY tipoveiculo;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,tipoveiculo,velocidade_media,velocidade_min,velocidade_max
0,b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',37.270979,0,255
1,b'\xb8\x86R\x11\x10\x99\xed',35.863113,1,149
2,b'\x03\x1c\xc0\x03~\x81m',38.223645,1,160
3,b'zcv\xf4|\xa9\x15',32.133454,1,149


### Identificando inconsistências e outliers

Primeiro, vamos identificar valores nulos:

In [69]:
%%bigquery
SELECT COUNTIF(datahora IS NULL) AS datahora_nulos,
       COUNTIF(datahora_captura IS NULL) AS datahora_captura_nulos,
       COUNTIF(placa IS NULL) AS placa_nulos,
       COUNTIF(empresa IS NULL) AS empresa_nulos,
       COUNTIF(tipoveiculo IS NULL) AS tipoveiculo_nulos,
       COUNTIF(velocidade IS NULL) AS velocidade_nulos,
       COUNTIF(camera_numero IS NULL) AS camera_num_nulos,
       COUNTIF(camera_latitude IS NULL) AS camera_lat_nulos,
       COUNTIF(camera_longitude IS NULL) AS camera_lon_nulos
FROM `rj-cetrio.desafio.readings_2024_06`;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,datahora_nulos,datahora_captura_nulos,placa_nulos,empresa_nulos,tipoveiculo_nulos,velocidade_nulos,camera_num_nulos,camera_lat_nulos,camera_lon_nulos
0,0,1816325,0,0,0,0,0,0,0


Identificando outliers, como velocidades anormalmente altas ou baixas:

In [70]:
%%bigquery
SELECT
  *
FROM `rj-cetrio.desafio.readings_2024_06`
WHERE velocidade > 200 OR velocidade < 0;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,datahora,datahora_captura,placa,empresa,tipoveiculo,velocidade,camera_numero,camera_latitude,camera_longitude
0,2024-06-08 15:57:58+00:00,2024-06-08 15:59:01+00:00,b'hz\xd1a\xa0\xeeGK]tn\x1f\x83P\xdb\x9dF',b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',214,b'\x03\xdd\xc1\xef\x11\xad\xe0',-23.002778,-43.425000
1,2024-06-11 19:40:59+00:00,2024-06-11 19:42:02+00:00,b'xE\xeak\xaa7&\x8d{\x08}`3\xd6\xe2\x88[',b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',232,b'\x11\x00\x07o8\xbf\xcc',-22.999976,-43.354366
2,2024-06-12 20:12:54+00:00,2024-06-12 20:13:01+00:00,b']\xe31\xf7\x82\xda\xe06\xbd\xe8\x03\x1d9\x86...,b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',212,b'\x17\xfb\x8f1\xa1\x18D',-22.862674,-43.247899
3,2024-06-08 20:51:19+00:00,2024-06-08 20:52:01+00:00,b'\xaaC5\x18\x00\xa9\x96kL\xf8\x1d\xeb\x83\xbd...,b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',204,b'&3\xb1\x89\x18JF',-23.000278,-43.354722
4,2024-06-08 17:26:34+00:00,2024-06-08 17:27:01+00:00,b'\xb3\xef\x8b\x18\xaa=Ela\xba\x1a\x14\x17:hg\...,b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',219,b'&3\xb1\x89\x18JF',-23.000278,-43.354722
...,...,...,...,...,...,...,...,...,...
2052,2024-06-13 12:45:33+00:00,2024-06-13 12:46:01+00:00,b'u\xe9\xe6\x04\xc3_E\xa7\xf4\xd1eh\xe6\xe8\x9...,b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',210,b'\xc9\xec\xd6o\x84\xd94',-23.019444,-43.488333
2053,2024-06-10 19:28:26+00:00,2024-06-10 19:30:02+00:00,b'*.^\xe1\xa8Z\xcb\xbc_T\x98/\xa1\xa2\xc4\xf9+',b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',216,b'\xca:\xb5`t\x94\xbc',-23.001946,-43.364938
2054,2024-06-10 14:33:33+00:00,2024-06-10 14:34:01+00:00,"b""\xa0\xac\xcb\x11\xac\xaeV~'dO\xb0C.\xf2\x98\...",b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',216,b'\xf5~<%\xab\xafU',-23.000833,-43.418333
2055,2024-06-08 12:33:03+00:00,2024-06-08 12:34:01+00:00,b']\x0c\x80\xd3\xafu\xf0#\x1b\xa7U\x99Uk\xef\x...,b'\x1e%E\xaf\x9dH\xc6',b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',229,b'\xf6\xb6\xef\xf6\xc3\xc5x',0.000000,0.000000


Vamos identificar casos em que uma mesma placa de veículo foi detectada múltiplas vezes na mesma data e hora:

In [71]:
%%bigquery
SELECT placa, datahora, COUNT(*) AS contagem
FROM `rj-cetrio.desafio.readings_2024_06`
GROUP BY placa, datahora
HAVING contagem > 1
ORDER BY contagem DESC;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,placa,datahora,contagem
0,b'\x17\x95 \xccxe\xdb\x84K:;\x82\xb9\x9d\xcal>',2024-06-08 14:27:47+00:00,7
1,b'o\x8a\xcbv.a\x12\xa6\xe7\xb5\xba@\x93_\x17\x...,2024-06-07 15:44:50+00:00,6
2,b'\xdc\x0f\xc5\xe7/\x92[\x02Y\xae\xe9]\xc7mo>\...,2024-06-06 20:40:53+00:00,6
3,b'@\x00u\xb0\x8c5\xa0\xb5\x8aL\xb6\x9bdu?\xb73',2024-06-07 16:07:51+00:00,6
4,b'\x10\x84\xa53\x96\x84\x8f\x8c\xb6q\x93\x06?\...,2024-06-08 14:08:07+00:00,6
...,...,...,...
140107,b'\xb7\xdc\xdc\x1f\xa2\xf01Z\xa2\xd7\x8b\xf5[$...,2024-06-12 12:44:32+00:00,2
140108,"b'*d,]u\x9ev\xb9\xecs\xc7\x88\xd7\x9bu\r\xff'",2024-06-11 00:28:26+00:00,2
140109,b'\xec\xe1\xd7\x04\xbfr\x04\xb4\x06\x87zv+\xd6...,2024-06-09 10:34:21+00:00,2
140110,b'\xe1\x81\xe4^mYv\xbf\xe26\xe9\x16\x1b\x8au\x...,2024-06-06 12:19:12+00:00,2


Vamos visualizar a correlação entre as variáveis velocidade e tipo de veículo:

In [72]:
%%bigquery
SELECT
  tipoveiculo,
  AVG(velocidade) AS media_velocidade,
  MAX(velocidade) AS velocidade_maxima
FROM `rj-cetrio.desafio.readings_2024_06`
GROUP BY tipoveiculo
ORDER BY media_velocidade DESC;

Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,tipoveiculo,media_velocidade,velocidade_maxima
0,b'\x03\x1c\xc0\x03~\x81m',38.223645,160
1,b'\xe2\xe0\x02\x9f\xc0\xd3\xe5',37.270979,255
2,b'\xb8\x86R\x11\x10\x99\xed',35.863113,149
3,b'zcv\xf4|\xa9\x15',32.133454,149


#### Conclusão

*   Temos 36.358.536 entradas
*   A velocidade está no intervalo de 0 a 255, e a velocidade média é de aproximadement 37.11
*   A latitude está no intervalo de -23.859722 e 0.0, e longitude, entre -43.690229 e 43.334218
*   Temos 4 tipos de veículos
*   Temos 1.816.325 valores nulos na coluna `datahora_captura
*   Temos 2.057 de registros com velocidade muito alta (> 200) ou muito baixa (< 0)
*   Na tabela, temos 140.112 casos em que a mesma placa foi detectada no mesmo tempo
*   Também observamos uma correlação entre a velocidade máxima e o tipo de veículo

## Identificando placas clonadas

As placas clonadas podem ser identificadas através da detecção de um veículo com a mesma placa sendo capturado em diferentes locais em um intervalo de tempo pequeno que seria impossível para o deslocamento do veículo. A lógica é:


1.   Agrupar os dados por placa.
2.   Verificar se a mesma placa foi detectada em diferentes localizações (latitude e longitude) dentro de um intervalo de tempo muito curto.

Observação: Vou salvar o resultado da query em um dataframe para utilização posterior.



In [73]:
%%bigquery df_placas_clonadas
-- Criando uma CTE chamada placa_detections para capturar leituras de radar
-- para cada placa
WITH placa_detections AS (
  SELECT
    placa,
    datahora,
    camera_latitude,
    camera_longitude,
    -- Utilizando a função LAG para obter a datahora, camera_latitude e
    -- camera_longitude da leitura anterior para a mesma placa (ORDER BY datahora)
    -- Utilizando o PARTITION BY para dividir os dados em partições para cada
    -- valor único de placa. Isso significa que a função LAG() será aplicada
    -- separadamente para cada placa.
    LAG(datahora) OVER (PARTITION BY placa ORDER BY datahora) AS previous_datahora,
    LAG(camera_latitude) OVER (PARTITION BY placa ORDER BY datahora) AS previous_camera_latitude,
    LAG(camera_longitude) OVER (PARTITION BY placa ORDER BY datahora) AS previous_camera_longitude
  FROM `rj-cetrio.desafio.readings_2024_06`
),
-- Criando uma CTE chamada possible_clones, que calcula a diferença de tempo e a
-- distância entre leituras consecutivas para cada placa.
-- Selecionando as colunas necessárias da CTE com o SELECT.
possible_clones AS (
  SELECT
    placa,
    datahora,
    camera_latitude,
    camera_longitude,
    previous_datahora,
    previous_camera_latitude,
    previous_camera_longitude,
    -- Calculando a diferença de tempo em segundos (SECOND) entre datahora atual
    -- e previous_datahora, usando o TIMESTAMP_DIFF para determinar o
    -- intervalo de tempo entre leituras consecutivas para a mesma placa.
    TIMESTAMP_DIFF(datahora, previous_datahora, SECOND) AS time_diff_seconds,
    -- Calcula a distância em metros (distance_meters) entre as coordenadas
    -- geográficas (camera_longitude, camera_latitude) da leitura atual e da
    -- leitura anterior, para determinar a distância percorrida entre leituras
    -- consecutivas para a mesma placa.
    ST_DISTANCE(
      ST_GEOGPOINT(camera_longitude, camera_latitude),
      ST_GEOGPOINT(previous_camera_longitude, previous_camera_latitude)
    ) AS distance_meters
  FROM placa_detections
  -- Filtro para incluir apenas as linhas onde há uma leitura anterior válida
  -- (ou seja, onde LAG() conseguiu encontrar uma linha anterior para a
  -- mesma placa).
  WHERE previous_datahora IS NOT NULL
)
-- Seleciona os resultados finais da CTE possible_clones, filtrando apenas as
-- leituras onde o intervalo de tempo entre leituras consecutivas é inferior
-- a 600 segundos e a distância percorrida entre elas é superior a 1000 metros.
SELECT
  placa,
  datahora,
  previous_datahora,
  time_diff_seconds,
  distance_meters,
  camera_latitude,
  camera_longitude,
  previous_camera_latitude,
  previous_camera_longitude
FROM possible_clones
WHERE time_diff_seconds < 600 AND distance_meters > 1000
ORDER BY placa, datahora;

Query is running:   0%|          |

Downloading:   0%|          |

In [74]:
df_placas_clonadas

Unnamed: 0,placa,datahora,previous_datahora,time_diff_seconds,distance_meters,camera_latitude,camera_longitude,previous_camera_latitude,previous_camera_longitude
0,b'\x00\x00\x00%\xbfM\xdcV\x82\xd6\x84U\x931\xe...,2024-06-08 13:34:49+00:00,2024-06-08 13:32:39+00:00,130,2.105331e+03,-22.843854,-43.250147,-22.862674,-43.247899
1,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-07 09:53:23+00:00,2024-06-07 09:46:24+00:00,419,7.106358e+03,-22.841450,-43.371558,-22.817388,-43.307320
2,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-10 09:57:31+00:00,2024-06-10 09:49:24+00:00,487,5.331516e+06,-22.845796,-43.378691,0.000000,0.000000
3,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-11 19:22:35+00:00,2024-06-11 19:18:45+00:00,230,1.019908e+03,-22.978358,-43.225964,-22.972977,-43.217896
4,b'\x00\x00 \x86\xa9\x10\xe12W\x9a7\x8a<qz\xa9\...,2024-06-06 21:20:33+00:00,2024-06-06 21:15:31+00:00,302,3.339766e+03,-22.999838,-43.354361,-23.003871,-43.322027
...,...,...,...,...,...,...,...,...,...
5052214,b'\xff\xff\xec\xfe\x08\x88.+d\xc0\x84N\x9dS\xf...,2024-06-12 12:00:04+00:00,2024-06-12 11:58:27+00:00,97,1.019908e+03,-22.978358,-43.225964,-22.972977,-43.217896
5052215,b'\xff\xff\xec\xfe\x08\x88.+d\xc0\x84N\x9dS\xf...,2024-06-12 12:17:42+00:00,2024-06-12 12:13:11+00:00,271,2.952409e+03,-22.999857,-43.352793,-23.003024,-43.324154
5052216,b'\xff\xff\xec\xfe\x08\x88.+d\xc0\x84N\x9dS\xf...,2024-06-12 21:25:29+00:00,2024-06-12 21:20:37+00:00,292,1.487604e+03,-22.933803,-43.182939,-22.939444,-43.196111
5052217,b'\xff\xff\xf1^I3\x10\xbd0\xd5Q\x95\xca\xad\xc...,2024-06-12 10:09:40+00:00,2024-06-12 10:03:10+00:00,390,5.575358e+03,-23.002950,-43.433050,-22.965842,-43.396422


Aqui vou modificar a query original para incluir uma função de agregação que conta o número de ocorrências de cada placa clonada:

In [75]:
%%bigquery
-- Esta CTE (placas_clonadas) é adicionada após a CTE possible_clones.
-- Ela conta o número de ocorrências de cada placa que atende aos critérios
-- de placas clonadas (intervalo de tempo < 600 segundos e distância > 1000 metros).
-- GROUP BY placa agrupa os resultados por placa.
-- HAVING COUNT(*) > 1 filtra apenas as placas que têm mais de uma ocorrência,
-- ou seja, placas que são consideradas clonadas.
WITH placa_detections AS (
  SELECT
    placa,
    datahora,
    camera_latitude,
    camera_longitude,
    LAG(datahora) OVER (PARTITION BY placa ORDER BY datahora) AS previous_datahora,
    LAG(camera_latitude) OVER (PARTITION BY placa ORDER BY datahora) AS previous_camera_latitude,
    LAG(camera_longitude) OVER (PARTITION BY placa ORDER BY datahora) AS previous_camera_longitude
  FROM `rj-cetrio.desafio.readings_2024_06`
),
possible_clones AS (
  SELECT
    placa,
    datahora,
    camera_latitude,
    camera_longitude,
    previous_datahora,
    previous_camera_latitude,
    previous_camera_longitude,
    TIMESTAMP_DIFF(datahora, previous_datahora, SECOND) AS time_diff_seconds,
    ST_DISTANCE(
      ST_GEOGPOINT(camera_longitude, camera_latitude),
      ST_GEOGPOINT(previous_camera_longitude, previous_camera_latitude)
    ) AS distance_meters
  FROM placa_detections
  WHERE previous_datahora IS NOT NULL
),
placas_clonadas AS (
  SELECT
    placa,
    COUNT(*) AS qtd_ocorrencias
  FROM possible_clones
  WHERE time_diff_seconds < 600 AND distance_meters > 1000
  GROUP BY placa
  HAVING COUNT(*) > 1
)
SELECT
  COUNT(*) AS qtd_placas_clonadas
FROM placas_clonadas;


Query is running:   0%|          |

Downloading:   0%|          |

Unnamed: 0,qtd_placas_clonadas
0,750789


### Conclusão

*   Foram identificados 750.790 possíveis casos de placas clonadas com base na proximidade temporal e espacial das leituras de radar para cada placa de veículo.

## Extras

Utilizando a biblioteca Folium podemos criar mapas interativos que mostram a localização das detecções de placas clonadas em tempo real ou em análises históricas. Dado que temos muitos dados, vou pegar somente uma amostra:

In [76]:
import folium

In [77]:
df_placas_clonadas.head(5)

Unnamed: 0,placa,datahora,previous_datahora,time_diff_seconds,distance_meters,camera_latitude,camera_longitude,previous_camera_latitude,previous_camera_longitude
0,b'\x00\x00\x00%\xbfM\xdcV\x82\xd6\x84U\x931\xe...,2024-06-08 13:34:49+00:00,2024-06-08 13:32:39+00:00,130,2105.331,-22.843854,-43.250147,-22.862674,-43.247899
1,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-07 09:53:23+00:00,2024-06-07 09:46:24+00:00,419,7106.358,-22.84145,-43.371558,-22.817388,-43.30732
2,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-10 09:57:31+00:00,2024-06-10 09:49:24+00:00,487,5331516.0,-22.845796,-43.378691,0.0,0.0
3,b'\x00\x00\x18\x9d\x8e\xd1\x85\x80n6\x1d\x15 \...,2024-06-11 19:22:35+00:00,2024-06-11 19:18:45+00:00,230,1019.908,-22.978358,-43.225964,-22.972977,-43.217896
4,b'\x00\x00 \x86\xa9\x10\xe12W\x9a7\x8a<qz\xa9\...,2024-06-06 21:20:33+00:00,2024-06-06 21:15:31+00:00,302,3339.766,-22.999838,-43.354361,-23.003871,-43.322027


Criando um mapa centrado em uma localização inicial:

In [78]:
mapa = folium.Map(location=[-22.9035, -43.2096], zoom_start=13)

In [79]:
df_placas_clonadas_sample = df_placas_clonadas.sample(frac=0.00001)

Adicionando os marcadores para as detecções das placas clonadas:

In [80]:
for index, row in df_placas_clonadas_sample.iterrows():
    folium.Marker([row['camera_latitude'], row['camera_longitude']], popup=row['placa']).add_to(mapa)

Exibindo o mapa e salvando em html:

In [81]:
mapa.save('mapa_interativo.html')
mapa

## Possíveis melhorias

Utilizando os dados das vias, poderíamos aplicar o conceito de isócrona para melhorar a acurácia em identificar placas clonadas. A estratégia seria a seguinte:

1.   Primeiro, agrupar os dados por placa para poder analisar o comportamento de cada placa ao longo do tempo.
2.   Calcular a isócrona para cada grupo de placa, que represente a região geográfica onde seria possível estar em um tempo específico (por exemplo, dentro de um intervalo de alguns minutos) a partir de um ponto central.
  *   O ponto central será a primeira detecção da placa em questão, considerando sua latitude e longitude inicial.
  *   A isócrona poderá ser calculada usando a biblioteca do Python `Shapely` que calcula a área geográfica (polígono ou círculo) que pode ser alcançada a partir do ponto central dentro de um intervalo de tempo específico. Isso geralmente envolve cálculos baseados em velocidade média esperada, distância percorrida e tempo decorrido.
3.   Para cada detecção subsequente da mesma placa, verificar se a detecção está dentro da isócrona calculada para a detecção anterior. Isso ajudará a identificar se a placa foi detectada em locais que seriam incompatíveis com o tempo decorrido e a velocidade média esperada.

Outra idéia, seria utilizar modelos de  aprendizado de máquina, como modelos de clusterização para ajudar a detectar padrões anômalos de movimento, ou modelos preditivos, considerando não apenas a localização atual, mas também histórico de movimento e comportamento típico de veículos. Esses modelos podem ajudar a identificar desvios significativos de padrões normais.

Também poderia ser usado dados de Tráfego em tempo real para ajustar a velocidade média esperada em diferentes momentos do dia e em diferentes áreas da cidade.
