# **PROJETO: ANÁLISE DE ACIDENTES AÉREOS DO CENIPA**
### Autora: Carla Edila Silveira
### Base: Opendata AIG Brazil - acidentes aéreos do CENIPA

### ETAPA DE EXTRAÇÃO DE DADOS

In [1]:
import pandas as pd #importa bilbioteca Pandas

#apelido mais usual eh "pd"

In [9]:
#pip install pandera ##instala a biblioteca Pandera
#apos instalacao Jupyter informa que deve ser reiniciado o Kernel (pelo botao atualizar)
#apos reiniciar kernel, transformar em texto a linha do pip para não repetir esses passos 

In [3]:
import pandera as pa #importa biblioteca para montar esquema de validacao do dataframe

In [16]:
df = pd.read_csv("ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True)
#nome do arq.csv(sem caminho)por estar na pasta do projeto
#metodo read_csv retorna um objeto de dados - dataframe susbtituído por "df" como usual na comunidade
#parse_dates indica quais colunas serao convertidas em data, informadas em uma lista []
#dayfirst fixa que o dia vem primeiro que o mês, pois estavam invertidos na extração inicial 

df.head(10) #imprime primeiras 10 linhas do dataframe 

#arq csv = arq separado por virgula; separador de colunas (ponto e virgula) passado por parametro acima 
#1a. visualizacao imprimiu 5 linhas iniciais e finais do arquivo
#pode usar "tail" para conferir as 10 ultimas linhas
#em campos vazios (sem dado informado), pode vir "NaT" pra data, "NaN" pra texto, a tratar na limpeza

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [33]:
df.dtypes #exibe os tipos de dados do dataframe

#na 1a. extração observa-se que coluna de datas consta o tipo objeto
#apos conversao, visualiza-se a coluna reconhecida como datetime
#conversao do parse pode falhar se houver data fora do padrao de data/calendario.
#por ex, uma data inadequada como "03/50/2020" impede a conversao, col permanece como obj.

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [34]:
df.ocorrencia_dia #extracao somente da coluna de datas

0      2010-01-03
1      2010-01-03
2      2010-01-03
3      2010-01-04
4      2010-01-05
          ...    
5747   2020-12-29
5748   2020-12-30
5749   2020-12-30
5750   2020-12-31
5751   2020-12-31
Name: ocorrencia_dia, Length: 5752, dtype: datetime64[ns]

In [35]:
df.ocorrencia_dia.dt.month #extração de mês da data

#1a. extração falha porque coluna data foi carregada como: "ocorrencia_dia object"
#AttributeError: Can only use .dt accessor with datetimelike values
#coluna de datas requer outra conversão para facilitar extrações de dia, mês, ano
#apos conversao, 2a. extracao exibe os meses das datas

0        1
1        1
2        1
3        1
4        1
        ..
5747    12
5748    12
5749    12
5750    12
5751    12
Name: ocorrencia_dia, Length: 5752, dtype: int64

###### Obs.: Dataframe está carregado na memória do servidor com primeiras conversoes necessarias.

### ETAPA DE VALIDAÇÃO DOS DADOS

In [31]:
#bloco do esquema completo de validacao dos dados
#parametros das colunas devem ser compativeis com tipo de dados pra rodar a validacao
schema = pa.DataFrameSchema(  
    columns = {        
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int), 
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String,pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo":pa.Column(pa.String),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),
                                    nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)                                               
    }
)

In [32]:
schema.validate(df) #executa a validacao

#1a validacao: visualizacao confirma que dataframe foi validado pela col codigo_ocorrencia que tem nros int.
#2a. validacao: falha por erro na coluna de hora, como segue:
#SchemaError: non-nullable series 'ocorrencia_hora' contains null values:
#4100    NaN
#Name: ocorrencia_hora, dtype: object
#3a. validacao: dataframe foi validado mediante o esquema proposto
#4a. validacao: inserida função Check de restrição com expressao regular para formatar hora em 24hs
#5a. validacao: inserida fç Check com restrição de tamanho min/max da UF que será com 2 letras
#6a. validacao: inserida col "codigo" no schema pra verificar se há essa col no df; saída do erro abaixo
#SchemaError: column 'codigo' not in dataframe; incluiu-se parametro required(False), habitual eh True
#7a. validacao: concluída etapa de validacao do dataframe. 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
