## INSTALAÇÕES E IMPORTAÇÕES

In [1]:
pip install -q pandera

Note: you may need to restart the kernel to use updated packages.


In [2]:
#importação bibliotecas
import pandas as pd
import chardet
import numpy as np
import datetime
import pandera as pa

## LENDO O ARQUIVO

In [3]:
#atribuindo o caminho do arquivo a uma variável
caminho_arquivo = 'C:\\Users\\thais\\Documents\\meusProjetosVersionados\\Primeiro-repositorio\\ETL_cenipa\\ocorrenciass.csv'

In [4]:
#descobrindo a codificação de texto
with open(caminho_arquivo, 'rb') as f:
    result = chardet.detect(f.read())

In [5]:
#configurando o máximo de colunas a serem exibidas
pd.set_option('display.max_columns', 100)

In [6]:
#lendo o arquivo e imprimindo
df = pd.read_csv(caminho_arquivo, sep=';', encoding=result['encoding'], parse_dates=['ocorrencia_dia'], dayfirst=True)

print(df)

      codigo_ocorrencia  codigo_ocorrencia1  codigo_ocorrencia2  \
0                 81027               81027               81027   
1                 81030               81030               81030   
2                 81023               81023               81023   
3                 81029               81029               81029   
4                 81025               81025               81025   
...                 ...                 ...                 ...   
6764              40324               40324               40324   
6765              39527               39527               39527   
6766              40211               40211               40211   
6767              40349               40349               40349   
6768              40351               40351               40351   

      codigo_ocorrencia3  codigo_ocorrencia4 ocorrencia_classificacao  \
0                  81027               81027          INCIDENTE GRAVE   
1                  81030               81030     

## ANÁLISE EXPLORATÓRIA DOS DADOS

In [7]:
#informações sobre as colunas e seus tipos de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6769 entries, 0 to 6768
Data columns (total 22 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   codigo_ocorrencia               6769 non-null   int64         
 1   codigo_ocorrencia1              6769 non-null   int64         
 2   codigo_ocorrencia2              6769 non-null   int64         
 3   codigo_ocorrencia3              6769 non-null   int64         
 4   codigo_ocorrencia4              6769 non-null   int64         
 5   ocorrencia_classificacao        6769 non-null   object        
 6   ocorrencia_latitude             5135 non-null   object        
 7   ocorrencia_longitude            5135 non-null   object        
 8   ocorrencia_cidade               6769 non-null   object        
 9   ocorrencia_uf                   6769 non-null   object        
 10  ocorrencia_pais                 6769 non-null   object        
 11  ocor

In [8]:
#shape do dataframe

df.shape

(6769, 22)

In [9]:
#lendo as primeiras 5 linhas
df.head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,81027,81027,81027,81027,81027,INCIDENTE GRAVE,,,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,SIM
1,81030,81030,81030,81030,81030,INCIDENTE,,,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,NÃO
2,81023,81023,81023,81023,81023,INCIDENTE GRAVE,,,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM
3,81029,81029,81029,81029,81029,INCIDENTE,,,BELO HORIZONTE,MG,BRASIL,SBBH,2022-10-06,00:44:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
4,81025,81025,81025,81025,81025,INCIDENTE,,,MANAUS,AM,BRASIL,SBEG,2022-10-05,20:56:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [10]:
#verificando se a coluna codigo_ocorrencia é única para ser considerada como identificador

df.codigo_ocorrencia.is_unique

True

## TRATAMENTO DOS DADOS

In [11]:
#criando backup do data frame

dfback = df.copy()

In [12]:
#listando os nomes das colunas

df.columns

Index(['codigo_ocorrencia', 'codigo_ocorrencia1', 'codigo_ocorrencia2',
       'codigo_ocorrencia3', 'codigo_ocorrencia4', 'ocorrencia_classificacao',
       'ocorrencia_latitude', 'ocorrencia_longitude', 'ocorrencia_cidade',
       'ocorrencia_uf', 'ocorrencia_pais', 'ocorrencia_aerodromo',
       'ocorrencia_dia', 'ocorrencia_hora', 'investigacao_aeronave_liberada',
       'investigacao_status', 'divulgacao_relatorio_numero',
       'divulgacao_relatorio_publicado', 'divulgacao_dia_publicacao',
       'total_recomendacoes', 'total_aeronaves_envolvidas',
       'ocorrencia_saida_pista'],
      dtype='object')

In [13]:
#drop colunas desnecessárias para a análise

df.drop(['codigo_ocorrencia2', 'codigo_ocorrencia3',
       'codigo_ocorrencia4', 'ocorrencia_latitude',
       'ocorrencia_longitude','investigacao_aeronave_liberada', 'investigacao_status', 'total_recomendacoes','divulgacao_relatorio_numero', 'divulgacao_relatorio_publicado', 'divulgacao_dia_publicacao'], axis=1, inplace=True)


In [14]:
#verificando limpeza colunas

df.columns

Index(['codigo_ocorrencia', 'codigo_ocorrencia1', 'ocorrencia_classificacao',
       'ocorrencia_cidade', 'ocorrencia_uf', 'ocorrencia_pais',
       'ocorrencia_aerodromo', 'ocorrencia_dia', 'ocorrencia_hora',
       'total_aeronaves_envolvidas', 'ocorrencia_saida_pista'],
      dtype='object')

In [15]:
#renomeando colunas

df.rename(columns={"codigo_ocorrencia1": "codigo_ocorrencia", "ocorrencia_classificacao":"classificacao","ocorrencia_cidade":"cidade","ocorrencia_uf":"uf","ocorrencia_pais":"pais","ocorrencia_aerodromo":"aerodromo","ocorrencia_dia":"data","ocorrencia_hora":"horario","total_aeronaves_envolvidas":"n_aeronaves","ocorrencia_saida_pista":"saida_pista"}, inplace=True)

In [16]:
#verificando as colunas existentes e seus tipos de dados

df.dtypes

codigo_ocorrencia             int64
codigo_ocorrencia             int64
classificacao                object
cidade                       object
uf                           object
pais                         object
aerodromo                    object
data                 datetime64[ns]
horario                      object
n_aeronaves                   int64
saida_pista                  object
dtype: object

Verificando os valores únicos dentro de cada coluna para localizar possíveis inconsistências

In [17]:
#verificando os valores únicos dentro das colunas

pd.unique(df['classificacao']) #verifica quais são os valores únicos
sorted(pd.unique(df['classificacao'])) #aqui imprime na tela os valores únicos acima classificados em forma de lista

['ACIDENTE', 'INCIDENTE', 'INCIDENTE GRAVE']

In [18]:
#verificando os valores únicos - UF

sorted(pd.unique(df['uf']))

['***',
 'AC',
 'AL',
 'AM',
 'AP',
 'BA',
 'CE',
 'DF',
 'ES',
 'GO',
 'MA',
 'MG',
 'MS',
 'MT',
 'PA',
 'PB',
 'PE',
 'PI',
 'PR',
 'RJ',
 'RN',
 'RO',
 'RR',
 'RS',
 'SC',
 'SE',
 'SP',
 'TO']

In [19]:
#verificando os valores únicos - AERODROMO

sorted(pd.unique(df['aerodromo']))

['***',
 '**NI',
 '5JTI',
 '9PAA',
 '9PBS',
 '9PFC',
 '9PFX',
 '9PHD',
 '9PSD',
 'APUA',
 'SBAE',
 'SBAN',
 'SBAQ',
 'SBAR',
 'SBAT',
 'SBAU',
 'SBAX',
 'SBBE',
 'SBBH',
 'SBBI',
 'SBBP',
 'SBBQ',
 'SBBR',
 'SBBU',
 'SBBV',
 'SBBW',
 'SBBZ',
 'SBCA',
 'SBCB',
 'SBCF',
 'SBCG',
 'SBCH',
 'SBCJ',
 'SBCP',
 'SBCR',
 'SBCT',
 'SBCX',
 'SBCY',
 'SBCZ',
 'SBDN',
 'SBEG',
 'SBEK',
 'SBFE',
 'SBFI',
 'SBFL',
 'SBFN',
 'SBFS',
 'SBFZ',
 'SBGL',
 'SBGO',
 'SBGP',
 'SBGR',
 'SBGV',
 'SBGW',
 'SBHT',
 'SBIH',
 'SBIL',
 'SBIP',
 'SBIT',
 'SBIZ',
 'SBJA',
 'SBJC',
 'SBJD',
 'SBJF',
 'SBJH',
 'SBJI',
 'SBJP',
 'SBJR',
 'SBJU',
 'SBJV',
 'SBKG',
 'SBKP',
 'SBLE',
 'SBLJ',
 'SBLO',
 'SBMA',
 'SBMD',
 'SBME',
 'SBMG',
 'SBMK',
 'SBML',
 'SBMO',
 'SBMQ',
 'SBMS',
 'SBMT',
 'SBMY',
 'SBNF',
 'SBNM',
 'SBNT',
 'SBNV',
 'SBPA',
 'SBPB',
 'SBPC',
 'SBPF',
 'SBPG',
 'SBPJ',
 'SBPK',
 'SBPL',
 'SBPN',
 'SBPO',
 'SBPP',
 'SBPR',
 'SBPS',
 'SBPV',
 'SBQV',
 'SBRB',
 'SBRD',
 'SBRF',
 'SBRJ',
 'SBRP',
 'SBSC',
 '

Possíveis inconsistências:

Coluna UF -> "***"
Coluna AERODROMO -> '***', '**NI'

In [20]:
#removendo inconsistencias 

'''
As insconsistências serão substituídas por valores nulos, pois é mais indicado trabalhar com valores nulos do que com valores inconsistentes
'''

df.replace(['***', '**NI'], np.NaN, inplace=True)

In [21]:
#verificando os tipos de dados da coluna

df.dtypes

codigo_ocorrencia             int64
codigo_ocorrencia             int64
classificacao                object
cidade                       object
uf                           object
pais                         object
aerodromo                    object
data                 datetime64[ns]
horario                      object
n_aeronaves                   int64
saida_pista                  object
dtype: object

* Será criado uma nova coluna para a junção de DATA + HORARIO

In [22]:
#Convertendo a coluna data para str

df['data'] = df['data'].astype(str)

In [23]:
#criando a nova coluna com a junção das informações e convertendo para o formato datetime 

df['periodo'] = pd.to_datetime(df['data'] + ' ' + df['horario'])

In [24]:
#confirmando a alteração

df.head(1)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia.1,classificacao,cidade,uf,pais,aerodromo,data,horario,n_aeronaves,saida_pista,periodo
0,81027,81027,INCIDENTE GRAVE,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,1,SIM,2022-10-09 16:30:00


In [25]:
#verificando a quantidade de valores nulos

df.isna().sum()

codigo_ocorrencia       0
codigo_ocorrencia       0
classificacao           0
cidade                  0
uf                      4
pais                    0
aerodromo            2618
data                    0
horario                 2
n_aeronaves             0
saida_pista             0
periodo                 2
dtype: int64

Os valores nulos são em decorrência as substituições das inconsistências.

## SCHEMA DE VALIDAÇÃO DOS DADOS

In [26]:
df.dtypes

codigo_ocorrencia             int64
codigo_ocorrencia             int64
classificacao                object
cidade                       object
uf                           object
pais                         object
aerodromo                    object
data                         object
horario                      object
n_aeronaves                   int64
saida_pista                  object
periodo              datetime64[ns]
dtype: object

In [27]:
#criando schema de validação com a biblioteca pandera

schema = pa.DataFrameSchema(
    columns={
        'codigo_ocorrencia':pa.Column(pa.Int),
        'classificacao' :pa.Column(pa.String),
        'cidade' :pa.Column(pa.String),
        'uf' :pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        'pais' :pa.Column(pa.String),
        'aerodromo' :pa.Column(pa.String, pa.Check.str_length(4,4), nullable=True),
        'data' :pa.Column(pa.String),
        'horario':pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$'), nullable=True),
        'n_aeronaves' :pa.Column(pa.Int),
        'saida_pista' :pa.Column(pa.String, pa.Check.str_length(3,3)),
        'periodo' :pa.Column(pa.DateTime, nullable=True)
    }
    
)

In [28]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia.1,classificacao,cidade,uf,pais,aerodromo,data,horario,n_aeronaves,saida_pista,periodo
0,81027,81027,INCIDENTE GRAVE,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,1,SIM,2022-10-09 16:30:00
1,81030,81030,INCIDENTE,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,1,NÃO,2022-10-09 16:20:00
2,81023,81023,INCIDENTE GRAVE,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,1,SIM,2022-10-06 15:30:00
3,81029,81029,INCIDENTE,BELO HORIZONTE,MG,BRASIL,SBBH,2022-10-06,00:44:00,1,NÃO,2022-10-06 00:44:00
4,81025,81025,INCIDENTE,MANAUS,AM,BRASIL,SBEG,2022-10-05,20:56:00,1,NÃO,2022-10-05 20:56:00
...,...,...,...,...,...,...,...,...,...,...,...,...
6764,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,1,NÃO,2010-01-05 19:25:00
6765,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,1,NÃO,2010-01-04 17:30:00
6766,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,1,NÃO,2010-01-03 12:00:00
6767,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,1,NÃO,2010-01-03 11:05:00


## FILTROS

In [29]:
#criando filtros para imprimir quais são os valores nulos da coluna uf

uf_nulo = df.uf.isna()

df.loc[uf_nulo]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia.1,classificacao,cidade,uf,pais,aerodromo,data,horario,n_aeronaves,saida_pista,periodo
283,80665,80665,ACIDENTE,NÃO IDENTIFICADA,,BRASIL,,2022-04-22,20:00:00,1,NÃO,2022-04-22 20:00:00
320,80631,80631,INCIDENTE,NÃO IDENTIFICADA,,BRASIL,,2022-04-04,11:15:00,1,NÃO,2022-04-04 11:15:00
912,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,BRASIL,,2021-02-26,11:00:00,1,NÃO,2021-02-26 11:00:00
4541,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,BRASIL,,2013-09-02,02:54:00,1,NÃO,2013-09-02 02:54:00


In [30]:
#criando filtro para SP 

sp = df.uf == 'SP'
pista = df.saida_pista == 'SIM'


df_sp = df.loc[sp & pista]

df_sp.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia.1,classificacao,cidade,uf,pais,aerodromo,data,horario,n_aeronaves,saida_pista,periodo
0,81027,81027,INCIDENTE GRAVE,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,1,SIM,2022-10-09 16:30:00
2,81023,81023,INCIDENTE GRAVE,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,1,SIM,2022-10-06 15:30:00
53,80951,80951,INCIDENTE GRAVE,ASSIS,SP,BRASIL,SNAX,2022-08-31,18:45:00,1,SIM,2022-08-31 18:45:00
185,80797,80797,ACIDENTE,FERNANDÓPOLIS,SP,BRASIL,SDFD,2022-06-17,13:10:00,1,SIM,2022-06-17 13:10:00
186,80800,80800,ACIDENTE,RIBEIRÃO BONITO,SP,BRASIL,SJEH,2022-06-17,17:11:00,1,SIM,2022-06-17 17:11:00


## ANÁLISE DOS DADOS

In [31]:
#groupby para verificar a quantidade de registros por classificação de ocorrência

df.groupby(['classificacao']).size().sort_values(ascending=False)

classificacao
INCIDENTE          3795
ACIDENTE           2090
INCIDENTE GRAVE     884
dtype: int64

In [32]:
#Verificando quais são os estados com maior quantidade de ocorrências 

df_uf = df.groupby(['uf']).size().sort_values(ascending=False)

df_uf.head(5)

uf
SP    1625
MG     638
RJ     578
PR     548
RS     395
dtype: int64

In [36]:
#Listando quais são os estados com maior ocorrência de incidente grave 

df.groupby(['uf', 'classificacao']).size().loc[:, 'INCIDENTE GRAVE'].sort_values(ascending=False)

uf
SP    163
GO     86
MG     86
PR     71
RS     58
MT     55
RJ     55
PA     46
BA     41
MS     32
AM     28
SC     20
MA     17
CE     15
DF     15
PE     14
TO     13
ES     13
AC     12
RO      9
RR      9
PI      8
AL      6
PB      5
RN      4
SE      2
AP      1
dtype: int64

In [39]:
#identificando os padrões de ocorrências do estado de São Paulo

df.groupby(['classificacao', 'uf']).size().loc[:, 'SP'].sort_values(ascending=False)

classificacao
INCIDENTE          1027
ACIDENTE            435
INCIDENTE GRAVE     163
dtype: int64

In [46]:
#identificando quais são os 10 aerodromos que há maior número de ocorrências

df_aerodromo = df.groupby(['aerodromo']).size().sort_values(ascending=False)

df_aerodromo.head(10)

aerodromo
SBGR    173
SBMT    150
SBKP    128
SBBH    124
SBGL    107
SBBR    104
SBLO    102
SBPA     84
SBEG     82
SBSP     82
dtype: int64

In [47]:
#criando o filtro com o aerodromo específico
aerodromo = df.aerodromo == 'SBGR'

#criando um df somente com os dados do aerodromo do filtro acima 
df_aero_especific = df.loc[aerodromo]

#identificando qual é o padrão de ocorrência do aerodromo analisado
df_aero_especific.groupby(['classificacao']).size().sort_values(ascending=False)

classificacao
INCIDENTE          164
INCIDENTE GRAVE      5
ACIDENTE             4
dtype: int64

In [44]:
#criando um filtro para o estado de SP
sp = df.uf == 'SP'

#criando um dataframe só para o estado de SP com o filtro acima 
df_SP = df.loc[sp]

df_SP.groupby(['aerodromo', 'classificacao']).size().sort_values(ascending=False)


aerodromo  classificacao
SBGR       INCIDENTE        163
SBKP       INCIDENTE        125
SBMT       INCIDENTE        122
SBSP       INCIDENTE         74
SBJD       INCIDENTE         59
                           ... 
SDET       INCIDENTE          1
SDEH       ACIDENTE           1
SDEE       ACIDENTE           1
SDED       INCIDENTE          1
SWYV       ACIDENTE           1
Length: 176, dtype: int64