# Análise Exploratória

A análise exploratória envolve toda a análise desde a aquisição dos dados. Há diversas técnicas para se fazer uma análise, cada *dataset* demandará uma técnica (ou conjunto delas) diferente.

Uma coisa é fato, a análise exploratória é de grande importância para entender os dados. Ela é imprescindível para melhorar a eficiência das demais etapas.

Os dados utilizados nesse *notebook* são sobre ocorrências com a aviação civil no Brasil.

In [1]:
#Importar bibliotecas
import pandas as pd

In [2]:
#importar arquivo csv
df = pd.read_csv('https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/ocorrencias_aviacao.csv', index_col='codigo_ocorrencia')

#Ver as primeiras entradas
df.head()

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_tipo_icao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,...,ocorrencia_horario,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_extracao
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-9.9085,-63.0333,ARIQUEMES,RO,BRASIL,SJOG,...,11:00:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,CTOL,-11.2644,-61.2589,CACOAL,RO,BRASIL,SSKW,...,19:19:00,SIM,ATIVA,IG-084/CENIPA/2016,NÃO,,0,1,NÃO,2018-08-28
201805021421302,INCIDENTE,AERÓDROMO,AERÓDROMO,ADRM,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,...,22:40:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,CONTATO ANORMAL COM A PISTA,ARC,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,...,12:32:00,,FINALIZADA,IG-209/CENIPA/2013,SIM,2014-04-07,0,1,NÃO,2018-08-28
201103187273112,INCIDENTE,OUTROS,OUTROS,OTHR,-13.195,-60.8184,CEREJEIRAS,RO,BRASIL,****,...,13:30:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28


## Resumo do *DataFrame*

Utilizando o método `info()` irá obter uma resumo geral de todas as variáveis (colunas) presentes no dataset. É possível a quantidade de entradas, quantos valores são não nuloes, o tipo de cada variável e a memória que é utilizada para carregar o DataFrame.

In [3]:
#Resumo do df
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5208 entries, 201305055424986 to 201309012098180
Data columns (total 21 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ocorrencia_classificacao        5208 non-null   object 
 1   ocorrencia_tipo                 5208 non-null   object 
 2   ocorrencia_tipo_categoria       5208 non-null   object 
 3   ocorrencia_tipo_icao            5208 non-null   object 
 4   ocorrencia_latitude             5208 non-null   float64
 5   ocorrencia_longitude            5208 non-null   float64
 6   ocorrencia_cidade               5208 non-null   object 
 7   ocorrencia_uf                   5208 non-null   object 
 8   ocorrencia_pais                 5208 non-null   object 
 9   ocorrencia_aerodromo            5208 non-null   object 
 10  ocorrencia_dia                  5208 non-null   object 
 11  ocorrencia_horario              5208 non-null   object 
 12  investiga

## Identificar o tipo de cada coluna

Além do método `info()` pode ser utilizado o `dtypes()`que fornece apenas o tipo de cada coluna do dataset.

In [4]:
#Identificar os tipos de variáveis
df.dtypes

ocorrencia_classificacao           object
ocorrencia_tipo                    object
ocorrencia_tipo_categoria          object
ocorrencia_tipo_icao               object
ocorrencia_latitude               float64
ocorrencia_longitude              float64
ocorrencia_cidade                  object
ocorrencia_uf                      object
ocorrencia_pais                    object
ocorrencia_aerodromo               object
ocorrencia_dia                     object
ocorrencia_horario                 object
investigacao_aeronave_liberada     object
investigacao_status                object
divulgacao_relatorio_numero        object
divulgacao_relatorio_publicado     object
divulgacao_dia_publicacao          object
total_recomendacoes                 int64
total_aeronaves_envolvidas          int64
ocorrencia_saida_pista             object
ocorrencia_dia_extracao            object
dtype: object

## Valores Únicos

O método `unique()` permite que veja quais sao os valores únicos de cada coluna.

In [5]:
df.ocorrencia_classificacao.unique()

array(['ACIDENTE', 'INCIDENTE GRAVE', 'INCIDENTE'], dtype=object)

In [6]:
df.ocorrencia_tipo.unique()

array(['FALHA DO MOTOR EM VOO',
       'COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO', 'AERÓDROMO',
       'POUSO SEM TREM', 'OUTROS', 'PERDA DE CONTROLE NO SOLO',
       'POUSO LONGO', 'TRÁFEGO AÉREO', 'PERDA DE CONTROLE EM VOO',
       'COM TREM DE POUSO', 'INDETERMINADO', 'ESTOURO DE PNEU',
       'VOO CONTROLADO CONTRA O TERRENO', 'EXCURSÃO DE PISTA',
       'POUSO BRUSCO', 'CAUSADO POR FENÔMENO METEOROLÓGICO EM VOO',
       'INCURSÃO EM PISTA', 'VAZAMENTO DE OUTROS FLUIDOS', 'COM ROTOR',
       'FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE ',
       'PERDA DE COMPONENTE EM VOO', 'SOPRO DE REATOR',
       'COM PARA-BRISAS / JANELA / PORTA', 'COM LANÇAMENTO DE CARGA',
       'POUSO ANTES DA PISTA', 'F.O.D.', 'PROBLEMAS FISIOLÓGICOS',
       'DESCOMPRESSÃO NÃO INTENCIONAL / EXPLOSIVA',
       'COLISÃO DE VEÍCULO COM AERONAVE', 'FOGO NO SOLO', 'FOGO EM VOO',
       'CAUSADO POR FENÔMENO METEOROLÓGICO NO SOLO', 'COM PESSOAL EM VOO',
       'COLISÃO DE AERONAVES EM VOO', 'FUM

O método utilizado anteriomente retorna uma lista com valores únicos, é útil mas não é sempre que se deseja apenas essa informação, muitas vezes se deseja saber qual a frequência de cada um desses valores. Para saber essa frequência é utilizado o método `value_counts()`.

In [7]:
df.ocorrencia_tipo.value_counts()

FALHA DO MOTOR EM VOO                                  682
ESTOURO DE PNEU                                        604
FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE     574
PERDA DE CONTROLE NO SOLO                              492
OUTROS                                                 350
                                                      ... 
CORTANTE DE VENTO / TEMPESTADE                           1
RELACIONADO COM SECURITY                                 1
CAUSADO POR RICOCHETE                                    1
PERDA DA CONSCIÊNCIA                                     1
MANOBRA ABRUPTA                                          1
Name: ocorrencia_tipo, Length: 63, dtype: int64

Uma interpretação mais rápida e prática é a de transformar os valores gerados em porcentagem, dessa forma saberá quão a relevância de cada coluna em relação ao todo. Para fazer essa transformação basta fazer a contagem de cada ocorrência (vide célula anterior) e dividir pela quantidade total de dados.

In [8]:
df.ocorrencia_tipo.value_counts() / df.shape[0]

FALHA DO MOTOR EM VOO                                  0.130952
ESTOURO DE PNEU                                        0.115975
FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE     0.110215
PERDA DE CONTROLE NO SOLO                              0.094470
OUTROS                                                 0.067204
                                                         ...   
CORTANTE DE VENTO / TEMPESTADE                         0.000192
RELACIONADO COM SECURITY                               0.000192
CAUSADO POR RICOCHETE                                  0.000192
PERDA DA CONSCIÊNCIA                                   0.000192
MANOBRA ABRUPTA                                        0.000192
Name: ocorrencia_tipo, Length: 63, dtype: float64

## Filtrando Valores

Há diversas formas de filtrar dados em um *DataFrame*, cada um com suas caracteristicas específicas. 

Método ***loc***

`loc[<linha>, <coluna>]` --> forma de funcionamento do método. 

Utiliza-se esse método em duas situações:

1 - Selecionar linhas por *labels/index*;

2 - Selecionar linhas baseado em um *array* booleano. 

In [9]:
#SITUAÇÃO 1
#Selecionar a ocorrencia 201805021421302
df.loc[201805021421302, ['ocorrencia_latitude', 'ocorrencia_longitude']]

ocorrencia_latitude    -11.4956
ocorrencia_longitude   -61.4508
Name: 201805021421302, dtype: object

In [10]:
#SITUAÇÃo 2
#Ver apenas as 5 primeiras entradas de uma situação
df[df['ocorrencia_tipo'] == 'FALHA DO MOTOR EM VOO'].head()

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_tipo_icao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,...,ocorrencia_horario,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_extracao
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-9.9085,-63.0333,ARIQUEMES,RO,BRASIL,SJOG,...,11:00:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201211159478138,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-16.7588,-49.4405,ABADIA DE GOIÁS,GO,BRASIL,****,...,12:40:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
200811167138358,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,2.81,-61.3831,ALTO ALEGRE,RR,BRASIL,****,...,12:25:00,,FINALIZADA,A-566/CENIPA/2015,SIM,2016-03-18,3,1,NÃO,2018-08-28
201111224132085,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,0.7394,-62.0214,ALTO ALEGRE,RR,BRASIL,****,...,16:40:00,,FINALIZADA,A-038/CENIPA/2013,SIM,2013-08-22,2,1,NÃO,2018-08-28
201509183338691,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-23.0061,-44.3025,ANGRA DOS REIS,RJ,BRASIL,****,...,13:30:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28


***iloc***

Para utilizar o `iloc` basta selecionar as linhas e colunas usando números. 

`iloc[<numero_da_linha>, <numero_da_coluna>]`

É possível selecionar um *range* de interesse.

In [11]:
#Selecionando as 3 primeiras entradas e as 4 primeiras colunas
df.iloc[0:3, 0:3]

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR
201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO
201805021421302,INCIDENTE,AERÓDROMO,AERÓDROMO
