<a href="https://colab.research.google.com/github/Barros313/Big-Data-1---Senac-TADS028/blob/main/BigData1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Criação do Banco de Dados

Importação de bibliotecas externas e criação de função para fazer o banco de dados em SQL a partir de banco de dados em CSV

In [19]:
import requests
import sqlite3
import pandas as pd

def create_infracoes_database():
  url = 'http://dados.recife.pe.gov.br/api/3/action/datastore_search?resource_id=c269789d-da47-4dde-8ce7-42fba10fe8e2&limit=470000'

  response = requests.get(url)
  data = response.json()

  if 'result' in data and 'records' in data['result']:
    infracoes = data['result']['records']
  else:
    print("Erro: não foi possível obter dados da API")
    return

  conn = sqlite3.connect('infracoes.db')
  c = conn.cursor()

  c.execute('''
    CREATE TABLE IF NOT EXISTS infracoes (
      id INTEGER PRIMARY KEY AUTOINCREMENT,
      datainfracao DATE,
      horainfracao TIMESTAMP,
      dataimplantacao DATETIME,
      agenteequipamento TEXT,
      infracao INT,
      descricaoinfracao TEXT,
      amparolegal TEXT,
      localcometimento TEXT
    )
  ''')

  for infracao in infracoes:
    c.execute('''
      INSERT INTO infracoes (
        datainfracao,
        horainfracao,
        dataimplantacao,
        agenteequipamento,
        infracao,
        descricaoinfracao,
        amparolegal,
        localcometimento)
      VALUES (?, ?, ?, ?, ?, ?, ?, ?);
    ''', (
        infracao.get("datainfracao", ""),
        infracao.get("horainfracao", ""),
        infracao.get("dataimplantacao", ""),
        infracao.get("agenteequipamento", ""),
        infracao.get("infracao", 0),
        infracao.get("descricaoinfracao", ""),
        infracao.get("amparolegal", ""),
        infracao.get("localcometimento", "")
        ))

  conn.commit()
  conn.close()

create_infracoes_database()



# Consulta geral

Consultando tabela única (infrações) do banco de dados

In [20]:
connection = sqlite3.connect('infracoes.db')

pd.read_sql("SELECT * FROM infracoes;", connection, index_col=["id"])

Unnamed: 0_level_0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,2023-01-01T00:00:00,00:01:00,2023-01-06T00:00:00,Código 8 - AUTOS NO TALÃO ELETRÔNICO,7234,Quando o veículo estiver em movimento deixar d...,"Art. 250, Inc. I, alínea a","RUA RIBEIRO DE BRITO, SOB O SEMAFORO N. 155"
2,2023-01-01T00:00:00,00:27:00,2023-01-06T00:00:00,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5835,Desobedecer às ordens emanadas da autoridade c...,Art. 195,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
3,2023-01-01T00:00:00,00:27:00,2023-01-06T00:00:00,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5215,Dirigir ameaçando os pedestres que estejam atr...,Art. 170,"RUA DOS NAVEGANTES, CRUZAMENTO COM A RUA PADRE..."
4,2023-01-01T00:00:00,00:52:00,2023-01-06T00:00:00,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
5,2023-01-01T00:00:00,00:52:00,2023-01-06T00:00:00,Código 8 - AUTOS NO TALÃO ELETRÔNICO,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII","AVENIDA ENGENHEIRO DOMINGOS FERREIRA, EM FRENT..."
...,...,...,...,...,...,...,...,...
919422,2023-11-30T00:00:00,21:48:51,2023-12-06T00:00:00,Código 5 - FOTO SENSOR,5746,Transitar em locais e horários não permitidos ...,"Art. 187, Inc. I","AV. CDE. DA BOA VISTA, SEMAFORO 486, Sentido:C..."
919423,2023-11-30T00:00:00,21:51:48,2023-12-06T00:00:00,Código 5 - FOTO SENSOR,5746,Transitar em locais e horários não permitidos ...,"Art. 187, Inc. I","AV. CDE. DA BOA VISTA, SEMAFORO 486, Sentido:C..."
919424,2023-11-30T00:00:00,21:59:00,2023-12-11T00:00:00,Código 7 - ZONA AZUL TALÃO ELETRÔNICO,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII","PRACA DO DERBY, LADO OPOSTO AO N. 149"
919425,2023-11-30T00:00:00,22:00:00,2023-12-11T00:00:00,Código 7 - ZONA AZUL TALÃO ELETRÔNICO,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII","PRACA DO DERBY, LADO OPOSTO AO N. 149"


# SQL Query

Função de select geral para utilizar no pandas

In [21]:
infra = pd.read_sql_query("SELECT * FROM infracoes;", connection)

# Características da Tabela

Comando para descrever os dados da tabela

|Output|Descrição|
|---|---|
|count|Quantidade de Registros|
|mean|Média|
|std|Desvio Padrão|
|min|Valor mínimo|
|max|Valor máximo|
|n%|Valor percentual em relação ao máximo|

In [22]:
infra.describe()

Unnamed: 0,id,infracao
count,919426.0,919426.0
mean,459713.5,6607.109107
std,265415.568637,913.656869
min,1.0,5010.0
25%,229857.25,5550.0
50%,459713.5,7234.0
75%,689569.75,7455.0
max,919426.0,7765.0


### Informações

Informa se valores há valores nulos, o tipo da célula e o nome das colunas


In [23]:
infra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 919426 entries, 0 to 919425
Data columns (total 9 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   id                 919426 non-null  int64 
 1   datainfracao       919426 non-null  object
 2   horainfracao       919426 non-null  object
 3   dataimplantacao    919426 non-null  object
 4   agenteequipamento  919426 non-null  object
 5   infracao           919426 non-null  int64 
 6   descricaoinfracao  919426 non-null  object
 7   amparolegal        919426 non-null  object
 8   localcometimento   919426 non-null  object
dtypes: int64(2), object(7)
memory usage: 63.1+ MB


###Período de análise

In [24]:
primeiro_registro = pd.to_datetime(infra['datainfracao']).dt.date.min()
print("Primeiro registro: ", primeiro_registro)

ultimo_registro = pd.to_datetime(infra['datainfracao']).dt.date.max()
print("Último registro: ", ultimo_registro)

Primeiro registro:  2023-01-01
Último registro:  2023-11-30


###Descrição de colunas

Data da Infração

In [30]:
print(infra["datainfracao"].describe())

count                  919426
unique                    334
top       2023-05-14T00:00:00
freq                     4382
Name: datainfracao, dtype: object


Hora da Infração

In [29]:
print(infra["horainfracao"].describe())

count       919426
unique       56225
top       15:00:00
freq          1606
Name: horainfracao, dtype: object


Data de Registro da Infração

In [31]:
print(infra["dataimplantacao"].describe())

count                  919426
unique                    156
top       2023-01-24T00:00:00
freq                    19504
Name: dataimplantacao, dtype: object


Forma de autuação

In [32]:
print(infra["agenteequipamento"].describe())

count                            919426
unique                                6
top       Código 3 - LOMBADA ELETRÔNICA
freq                             300860
Name: agenteequipamento, dtype: object


Código da Infração

In [33]:
print(infra["infracao"].describe())

count    919426.000000
mean       6607.109107
std         913.656869
min        5010.000000
25%        5550.000000
50%        7234.000000
75%        7455.000000
max        7765.000000
Name: infracao, dtype: float64


Descrição da Infração

In [34]:
print(infra["descricaoinfracao"].describe())

count                                                919426
unique                                                  255
top       Transitar em velocidade superior à máxima perm...
freq                                                 269284
Name: descricaoinfracao, dtype: object


Local da Infração

In [36]:
print(infra["localcometimento"].describe())

count                                              919426
unique                                              48237
top       CAIS SANTA RITA, PROX. AO N. 675 - SENT. CENTRO
freq                                                21916
Name: localcometimento, dtype: object


Amparo Legal

In [37]:
print(infra["amparolegal"].describe())

count               919426
unique                 189
top       Art. 218, Inc. I
freq                269284
Name: amparolegal, dtype: object


###Verificação de Valores

####Procurar por valores não numéricos e nulos

In [None]:
print(infra.isna().value_counts())


id     datainfracao  horainfracao  dataimplantacao  agenteequipamento  infracao  descricaoinfracao  amparolegal  localcometimento
False  False         False         False            False              False     False              False        False               459713
Name: count, dtype: int64


In [None]:
print(infra.isnull().value_counts())

id     datainfracao  horainfracao  dataimplantacao  agenteequipamento  infracao  descricaoinfracao  amparolegal  localcometimento
False  False         False         False            False              False     False              False        False               459713
Name: count, dtype: int64


####Verificando valores errados

Verificando valores de amparo legal

In [43]:
infra['amparolegal'].unique()

array(['Art. 250, Inc. I, alínea a', 'Art. 195', 'Art. 170',
       'Art. 181, Inc. XVIII', 'Art. 181, Inc. VIII', 'Art. 185, Inc. I',
       'Art. 208', 'Art. 252, §único', 'Art. 167', 'Art. 218, Inc. I',
       'Art. 187, Inc. I', 'Art. 218, Inc. II', 'Art. 183',
       'Art. 218, Inc. III', 'Art. 207', 'Art. 181, Inc. XVII',
       'Art. 181, Inc. IX', 'Art. 178', 'Art. 184, Inc. III',
       'Art. 252, Inc. IV', 'Art. 244, X', 'Art. 186, Inc. II',
       'Art. 182, Inc. VII', 'Art. 230, Inc. VI', 'Art. 201',
       'Art. 182, Inc. X', 'Art. 181, Inc. XIII', 'Art. 181, Inc. XI',
       'Art. 196', 'Art. 206, Inc. III', 'Art. 169', 'Art. 252, Inc. VI',
       'Art. 181, Inc. XIX', 'Art. 252, Inc. I', 'Art. 252, Inc. V',
       'Art. 181, Inc. I', 'ARt. 181, inc. XX', 'Art. 181, inc. XX',
       'Art. 193', 'Art. 197', 'Art. 230, Inc. V', 'Art. 162, Inc. V',
       'Art. 221', 'Art. 162, Inc. I', 'Art. 244, Inc. I',
       'Art. 250, Inc. III', 'Art. 186, Inc. I', 'Art. 230, Inc. XXII

Corrigindo valores


In [42]:
infra.loc[infra['amparolegal'].str.contains('SENTIDO'), 'amparolegal'] = "Valores Inválidos"