In [1]:
import pandas as pd
import os, glob
import numpy as np
import warnings
warnings.filterwarnings("ignore")

pd.set_option('display.max_columns', 100)

In [2]:
# Diretório onde estão os arquivos Excel
db_path = os.path.join(os.getcwd(), '..', '..', 'data','raw')                 
todos_arquivos = glob.glob(os.path.join(db_path, "*.xlsx"))    

# Inicializa uma lista vazia para armazenar os DataFrames individuais
dfs = []

# Itera sobre cada arquivo Excel encontrado
for arquivo in todos_arquivos:
    # Lê o arquivo excel e adiciona o DataFrame à lista
    df_temp = pd.read_excel(arquivo)
    dfs.append(df_temp)

# Concatena todos os DataFrames da lista em um único DataFrame
df = pd.concat(dfs, ignore_index=True)

# Exibe as primeiras linhas do DataFrame resultante
df.drop_duplicates(inplace=True)
cols_use = ['DATA_OCORRENCIA_BO', 'HORA_OCORRENCIA', 'ANO_BO', 'NUM_BO', 'FLAG_ATO_INFRACIONAL', 'CIDADE', 'BAIRRO', 'CEP', 'LOGRADOURO', 'NUMERO_LOGRADOURO',
            'LATITUDE', 'LONGITUDE', 'DESCR_OCORRENCIA_VEICULO', 'DESCR_TIPO_VEICULO', 'DESCR_MARCA_VEICULO', 'DESC_COR_VEICULO']
df = df[cols_use]
df.head()


Unnamed: 0,DATA_OCORRENCIA_BO,HORA_OCORRENCIA,ANO_BO,NUM_BO,FLAG_ATO_INFRACIONAL,CIDADE,BAIRRO,CEP,LOGRADOURO,NUMERO_LOGRADOURO,LATITUDE,LONGITUDE,DESCR_OCORRENCIA_VEICULO,DESCR_TIPO_VEICULO,DESCR_MARCA_VEICULO,DESC_COR_VEICULO
0,2022-11-24,17:40:00,2022,JS5624,N,S.PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho
1,2022-11-24,17:40:00,2022,JS5624,N,S.PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,KAWASAKI/VERSYS 650 TR,Verde
2,2022-11-24,17:40:00,2022,JS5624,N,S.PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho
3,2022-11-24,17:40:00,2022,JS5624,N,S.PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,KAWASAKI/VERSYS 650 TR,Verde
4,2022-11-24,17:40:00,2022,JS5624,N,S.PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho


## Tratamento de dados nulos

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 413118 entries, 0 to 413117
Data columns (total 16 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DATA_OCORRENCIA_BO        407400 non-null  datetime64[ns]
 1   HORA_OCORRENCIA           374725 non-null  object        
 2   ANO_BO                    413118 non-null  int64         
 3   NUM_BO                    413118 non-null  object        
 4   FLAG_ATO_INFRACIONAL      413118 non-null  object        
 5   CIDADE                    413118 non-null  object        
 6   BAIRRO                    405584 non-null  object        
 7   CEP                       343581 non-null  float64       
 8   LOGRADOURO                413118 non-null  object        
 9   NUMERO_LOGRADOURO         380020 non-null  float64       
 10  LATITUDE                  397948 non-null  float64       
 11  LONGITUDE                 397948 non-null  float64       
 12  DE

* Alterando types das colunas

In [5]:
df.columns.tolist()

['DATA_OCORRENCIA_BO',
 'HORA_OCORRENCIA',
 'ANO_BO',
 'NUM_BO',
 'FLAG_ATO_INFRACIONAL',
 'CIDADE',
 'BAIRRO',
 'CEP',
 'LOGRADOURO',
 'NUMERO_LOGRADOURO',
 'LATITUDE',
 'LONGITUDE',
 'DESCR_OCORRENCIA_VEICULO',
 'DESCR_TIPO_VEICULO',
 'DESCR_MARCA_VEICULO',
 'DESC_COR_VEICULO']

In [6]:
df.isnull().sum()

DATA_OCORRENCIA_BO           5718
HORA_OCORRENCIA             38393
ANO_BO                          0
NUM_BO                          0
FLAG_ATO_INFRACIONAL            0
CIDADE                          0
BAIRRO                       7534
CEP                         69537
LOGRADOURO                      0
NUMERO_LOGRADOURO           33098
LATITUDE                    15170
LONGITUDE                   15170
DESCR_OCORRENCIA_VEICULO        0
DESCR_TIPO_VEICULO              0
DESCR_MARCA_VEICULO             0
DESC_COR_VEICULO                0
dtype: int64

In [7]:
nan_cols = [i for i in df.columns if df[i].isnull().sum() >= 1]
for i in nan_cols:
    print(f"{i}:", "contém", np.round(df[i].isnull().mean() * 100, 2),
          '% dos dados nulos', 'e um total de',
          np.round(df[i].isnull().sum(), 4,), "linhas afetadas")

DATA_OCORRENCIA_BO: contém 1.38 % dos dados nulos e um total de 5718 linhas afetadas
HORA_OCORRENCIA: contém 9.29 % dos dados nulos e um total de 38393 linhas afetadas
BAIRRO: contém 1.82 % dos dados nulos e um total de 7534 linhas afetadas
CEP: contém 16.83 % dos dados nulos e um total de 69537 linhas afetadas
NUMERO_LOGRADOURO: contém 8.01 % dos dados nulos e um total de 33098 linhas afetadas
LATITUDE: contém 3.67 % dos dados nulos e um total de 15170 linhas afetadas
LONGITUDE: contém 3.67 % dos dados nulos e um total de 15170 linhas afetadas


* Decisão sobre dados nulos
    * Os dados nulos estão bem distribuidos, e como irei fazer analises distentas e variadas não vejo impacto em seguir com esses danos nulos. 
    * Apenas irei fazer algunas substituições nos dados nulos de algumas variaveis.

### Analisando variaveis

In [8]:
# Obter categorias únicas de cada coluna
unique_categories = {col: df[col].unique() for col in df.columns}

# Exibir as categorias únicas de cada coluna
for col, categories in unique_categories.items():
    print(f"Coluna: {col}")
    print(f"Categorias únicas: {categories}\n")

Coluna: DATA_OCORRENCIA_BO
Categorias únicas: <DatetimeArray>
['2022-11-24 00:00:00', '2023-01-03 00:00:00', '2023-01-05 00:00:00',
 '2023-01-06 00:00:00', '2023-01-07 00:00:00', '2023-01-10 00:00:00',
 '2023-01-13 00:00:00', '2023-01-18 00:00:00', '2023-01-19 00:00:00',
 '2023-01-20 00:00:00',
 ...
 '2021-06-01 00:00:00', '2013-04-28 00:00:00', '2018-10-21 00:00:00',
 '2018-11-05 00:00:00', '2014-05-04 00:00:00', '2014-07-18 00:00:00',
 '2022-09-18 00:00:00', '2014-11-15 00:00:00', '2024-06-06 00:00:00',
 '2024-06-11 00:00:00']
Length: 1465, dtype: datetime64[ns]

Coluna: HORA_OCORRENCIA
Categorias únicas: [datetime.time(17, 40) datetime.time(1, 0) datetime.time(21, 30, 9) ...
 datetime.time(8, 32, 15) datetime.time(6, 10, 4)
 datetime.time(16, 35, 48)]

Coluna: ANO_BO
Categorias únicas: [2022 2023 2021 2024]

Coluna: NUM_BO
Categorias únicas: ['JS5624' 'AC0542' 'AG0290' ... 'GK7821' 'GE3228' 'GQ5787']

Coluna: FLAG_ATO_INFRACIONAL
Categorias únicas: ['N' 'S']

Coluna: CIDADE
Categori

* Corrigindo nomes das cidade

In [9]:
# Verificar se há cidades que começam com 'S.'
cidades_abreviadas = [cidade for cidade in df['CIDADE'].unique() if cidade.startswith('S.')]

print("""Abreviações restantes não corrigidas:
      """, 
cidades_abreviadas)


Abreviações restantes não corrigidas:
       ['S.PAULO', 'S.BRANCA', 'S.JOSE DOS CAMPOS', 'S.SEBASTIAO', 'S.BENTO DO SAPUCAI', 'S.ANTONIO DE POSSE', 'S.ERNESTINA', 'S.LUCIA', 'S.JOSE DA BELA VISTA', 'S.ANTONIO DA ALEGRIA', 'S.SIMAO', 'S.JOAQUIM DA BARRA', 'S.CARLOS', 'S.RITA PASSA QUATRO', 'S.CRUZ DO RIO PARDO', 'S.FE DO SUL', 'S.JOSE DO RIO PRETO', 'S.VICENTE', 'S.MIGUEL ARCANJO', 'S.ROQUE', 'S.BARBARA D OESTE', 'S.CRUZ DAS PALMEIRAS', 'S.JOSE DO RIO PARDO', 'S.CRUZ DA CONCEICAO', 'S.PEDRO', 'S.GERTRUDES', 'S.ANTONIO DO JARDIM', 'S.JOAO DA BOA VISTA', 'S.SEBASTIAO DA GRAMA', 'S.ISABEL', 'S.BERNARDO DO CAMPO', 'S.CAETANO DO SUL', 'S.ANDRE', 'S.LOURENCO DA SERRA', 'S.LUIZ DO PARAITINGA', 'S.CRUZ DA ESPERANCA', 'S.ROSA DE VITERBO', 'S.MANUEL', 'S.ALBERTINA', 'S.FRANCISCO', 'S.JOAO DE IRACEMA', 'S.ADELIA', 'S.ANASTACIO', 'S.PEDRO DO TURVO', 'S.JOSE DO BARREIRO', 'S.ANTONIO DO PINHAL', 'S.ANTONIO DE ARACANGUA', 'S.MARIA DA SERRA', 'S.EXPEDITO', 'S.JOAO DUAS PONTES', 'S.JOAO DO PAU D ALHO']

In [10]:
cidade_corrigidas = {
    'S.PAULO': 'SÃO PAULO',
    'S.BRANCA': 'SÃO BRANCA',
    'S.JOSE DOS CAMPOS': 'SÃO JOSÉ DOS CAMPOS',
    'S.SEBASTIAO': 'SÃO SEBASTIÃO',
    'S.BENTO DO SAPUCAI': 'SÃO BENTO DO SAPUCAÍ',
    'S.ANTONIO DE POSSE': 'SANTO ANTÔNIO DE POSSE',
    'S.ERNESTINA': 'SANTA ERNESTINA',
    'S.LUCIA': 'SANTA LÚCIA',
    'S.JOSE DA BELA VISTA': 'SÃO JOSÉ DA BELA VISTA',
    'S.ANTONIO DA ALEGRIA': 'SANTO ANTÔNIO DA ALEGRIA',
    'S.SIMAO': 'SÃO SIMÃO',
    'S.JOAQUIM DA BARRA': 'SÃO JOAQUIM DA BARRA',
    'S.CARLOS': 'SÃO CARLOS',
    'S.RITA PASSA QUATRO': 'SANTA RITA DO PASSA QUATRO',
    'S.CRUZ DO RIO PARDO': 'SANTA CRUZ DO RIO PARDO',
    'S.FE DO SUL': 'SANTA FÉ DO SUL',
    'S.JOSE DO RIO PRETO': 'SÃO JOSÉ DO RIO PRETO',
    'S.VICENTE': 'SÃO VICENTE',
    'S.MIGUEL ARCANJO': 'SÃO MIGUEL ARCANJO',
    'S.ROQUE': 'SÃO ROQUE',
    'S.BARBARA D OESTE': 'SANTA BÁRBARA D\'OESTE',
    'S.CRUZ DAS PALMEIRAS': 'SANTA CRUZ DAS PALMEIRAS',
    'S.JOSE DO RIO PARDO': 'SÃO JOSÉ DO RIO PARDO',
    'S.CRUZ DA CONCEICAO': 'SANTA CRUZ DA CONCEIÇÃO',
    'S.PEDRO': 'SÃO PEDRO',
    'S.GERTRUDES': 'SANTA GERTRUDES',
    'S.ANTONIO DO JARDIM': 'SANTO ANTÔNIO DO JARDIM',
    'S.JOAO DA BOA VISTA': 'SÃO JOÃO DA BOA VISTA',
    'S.SEBASTIAO DA GRAMA': 'SÃO SEBASTIÃO DA GRAMA',
    'S.ISABEL': 'SANTA ISABEL',
    'S.BERNARDO DO CAMPO': 'SÃO BERNARDO DO CAMPO',
    'S.CAETANO DO SUL': 'SÃO CAETANO DO SUL',
    'S.ANDRE': 'SANTO ANDRÉ',
    'S.LOURENCO DA SERRA': 'SÃO LOURENÇO DA SERRA',
    'S.LUIZ DO PARAITINGA': 'SÃO LUÍS DO PARAITINGA',
    'S.CRUZ DA ESPERANCA': 'SANTA CRUZ DA ESPERANÇA',
    'S.ROSA DE VITERBO': 'SANTA ROSA DE VITERBO',
    'S.MANUEL': 'SÃO MANUEL',
    'S.ALBERTINA': 'SANTA ALBERTINA',
    'S.FRANCISCO': 'SÃO FRANCISCO',
    'S.JOAO DE IRACEMA': 'SÃO JOÃO DE IRACEMA',
    'S.ADELIA': 'SANTA ADÉLIA',
    'S.ANASTACIO': 'SANTO ANASTÁCIO',
    'S.PEDRO DO TURVO': 'SÃO PEDRO DO TURVO',
    'S.JOSE DO BARREIRO': 'SÃO JOSÉ DO BARREIRO',
    'S.ANTONIO DO PINHAL': 'SANTO ANTÔNIO DO PINHAL',
    'S.ANTONIO DE ARACANGUA': 'SANTO ANTÔNIO DO ARACANGUÁ',
    'S.MARIA DA SERRA': 'SANTA MARIA DA SERRA',
    'S.EXPEDITO': 'SANTO EXPEDITO',
    'S.JOAO DUAS PONTES': 'SÃO JOÃO DAS DUAS PONTES',
    'S.JOAO DO PAU D ALHO': 'SÃO JOÃO DO PAU D\'ALHO'
}

df['CIDADE'] = df['CIDADE'].replace(cidade_corrigidas)

In [11]:
df

Unnamed: 0,DATA_OCORRENCIA_BO,HORA_OCORRENCIA,ANO_BO,NUM_BO,FLAG_ATO_INFRACIONAL,CIDADE,BAIRRO,CEP,LOGRADOURO,NUMERO_LOGRADOURO,LATITUDE,LONGITUDE,DESCR_OCORRENCIA_VEICULO,DESCR_TIPO_VEICULO,DESCR_MARCA_VEICULO,DESC_COR_VEICULO
0,2022-11-24,17:40:00,2022,JS5624,N,SÃO PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho
1,2022-11-24,17:40:00,2022,JS5624,N,SÃO PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,KAWASAKI/VERSYS 650 TR,Verde
2,2022-11-24,17:40:00,2022,JS5624,N,SÃO PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho
3,2022-11-24,17:40:00,2022,JS5624,N,SÃO PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,KAWASAKI/VERSYS 650 TR,Verde
4,2022-11-24,17:40:00,2022,JS5624,N,SÃO PAULO,LIBERDADE,1502000.0,AVENIDA DA LIBERDADE,130.0,-23.557245,-46.636418,Localizado / Entregue,Motociclo,HONDA/CG 160 FAN,Vermelho
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
413113,2024-05-04,05:53:00,2024,GE3228,N,GUARULHOS,AEROPORTO,7190971.0,RODOVIA HÉLIO SMIDT - SP 019,815.0,-23.423160,-46.486105,Roubado,Motociclo,YAMAHA/XTZ250 LANDER,Preta
413114,2024-05-14,16:35:48,2024,GQ5787,N,SANTOS,PORTO SABOO,11095650.0,AVENIDA ENGENHEIRO AUGUSTO BARATA,1.0,-23.928273,-46.337792,Roubado,Caminhão trator,SCANIA/G 440 B6X4 CS,Branco
413115,2024-05-14,16:35:48,2024,GQ5787,N,SANTOS,PORTO SABOO,11095650.0,AVENIDA ENGENHEIRO AUGUSTO BARATA,1.0,-23.928273,-46.337792,Roubado,Caminhão trator,SCANIA/G 440 B6X4 CS,Branco
413116,2024-05-14,16:35:48,2024,GQ5787,N,SANTOS,PORTO SABOO,11095650.0,AVENIDA ENGENHEIRO AUGUSTO BARATA,1.0,-23.928273,-46.337792,Roubado,Semi-reboque,SR/NOMA SRAT3E SRCAT,Preta


### Salvando dados tratados

In [13]:
df['BAIRRO'] = df['BAIRRO'].astype(str)
data_save_path = os.path.abspath(os.path.join(os.getcwd(), '..', '..', 'data', 'processed','VeiculosSubtraidos.parquet'))
df.to_parquet(data_save_path, index=False)