<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Análise Exploratória

É dificil delimitar o que é analise exploratória, pois ela envolve toda a etapa a partir da aquisição do banco de dados e importação deste.

<center><img src="https://images.unsplash.com/photo-1504868584819-f8e8b4b6d7e3?ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&ixlib=rb-1.2.1&auto=format&fit=crop&w=1055&q=80" height="400px"></center>


As técnicas são inúmeras e dependentes de cada problema e *dataset*. O objetivo desta aula é mostrar algumas técnicas comuns a todos os projetos de *Data Science* que você irá se deparar.

Para começar, vou importar um *dataset* contendo as ocorrências com a aviação civil no Brasil.

In [None]:
# importar os pacotes necessários
import pandas as pd

# importar o arquivo csv
df = pd.read_csv("https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/ocorrencias_aviacao.csv",
                index_col='codigo_ocorrencia')

# ver as primeiras entradas
df.head()

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_tipo_icao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,...,ocorrencia_horario,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_extracao
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-9.9085,-63.0333,ARIQUEMES,RO,BRASIL,SJOG,...,11:00:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,CTOL,-11.2644,-61.2589,CACOAL,RO,BRASIL,SSKW,...,19:19:00,SIM,ATIVA,IG-084/CENIPA/2016,NÃO,,0,1,NÃO,2018-08-28
201805021421302,INCIDENTE,AERÓDROMO,AERÓDROMO,ADRM,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,...,22:40:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,CONTATO ANORMAL COM A PISTA,ARC,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,...,12:32:00,,FINALIZADA,IG-209/CENIPA/2013,SIM,2014-04-07,0,1,NÃO,2018-08-28
201103187273112,INCIDENTE,OUTROS,OUTROS,OTHR,-13.195,-60.8184,CEREJEIRAS,RO,BRASIL,****,...,13:30:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28


## Resumo do DataFrame

Executando o método `info()` em uma variável, você obtém um resumo geral sobre todas as variáveis (colunas) do seu conjunto de dados.

Você consegue ver a quantidade de entradas, valores não-nulos e o tipo de cada variável. Também é informado a quantidade de memória que está sendo usado para carregar o *DataFrame* na máquina.

In [None]:
# ver o resumo do df
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5208 entries, 201305055424986 to 201309012098180
Data columns (total 21 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ocorrencia_classificacao        5208 non-null   object 
 1   ocorrencia_tipo                 5208 non-null   object 
 2   ocorrencia_tipo_categoria       5208 non-null   object 
 3   ocorrencia_tipo_icao            5208 non-null   object 
 4   ocorrencia_latitude             5208 non-null   float64
 5   ocorrencia_longitude            5208 non-null   float64
 6   ocorrencia_cidade               5208 non-null   object 
 7   ocorrencia_uf                   5208 non-null   object 
 8   ocorrencia_pais                 5208 non-null   object 
 9   ocorrencia_aerodromo            5208 non-null   object 
 10  ocorrencia_dia                  5208 non-null   object 
 11  ocorrencia_horario              5208 non-null   object 
 12  investiga

## Identificar o tipo de cada coluna

Apesar de ser possível identificar os tipos de cada coluna usando `info()`, você pode extrair apenas essa informação com o atributo `dtypes`.

Tipos das variáveis é uma informação importante para você colocar no seu Dicionário de Variáveis de um projeto, pois garante uma boa prática de documentação do projeto.

In [None]:
# identificar os tipos de variáveis
df.dtypes

ocorrencia_classificacao           object
ocorrencia_tipo                    object
ocorrencia_tipo_categoria          object
ocorrencia_tipo_icao               object
ocorrencia_latitude               float64
ocorrencia_longitude              float64
ocorrencia_cidade                  object
ocorrencia_uf                      object
ocorrencia_pais                    object
ocorrencia_aerodromo               object
ocorrencia_dia                     object
ocorrencia_horario                 object
investigacao_aeronave_liberada     object
investigacao_status                object
divulgacao_relatorio_numero        object
divulgacao_relatorio_publicado     object
divulgacao_dia_publicacao          object
total_recomendacoes                 int64
total_aeronaves_envolvidas          int64
ocorrencia_saida_pista             object
ocorrencia_dia_extracao            object
dtype: object

## Valores únicos

Para ver quais são todos os valroes únicos de uma coluna, é conveniente usar o método `unique()`.


In [None]:
df.ocorrencia_tipo.unique()

array(['FALHA DO MOTOR EM VOO',
       'COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO', 'AERÓDROMO',
       'POUSO SEM TREM', 'OUTROS', 'PERDA DE CONTROLE NO SOLO',
       'POUSO LONGO', 'TRÁFEGO AÉREO', 'PERDA DE CONTROLE EM VOO',
       'COM TREM DE POUSO', 'INDETERMINADO', 'ESTOURO DE PNEU',
       'VOO CONTROLADO CONTRA O TERRENO', 'EXCURSÃO DE PISTA',
       'POUSO BRUSCO', 'CAUSADO POR FENÔMENO METEOROLÓGICO EM VOO',
       'INCURSÃO EM PISTA', 'VAZAMENTO DE OUTROS FLUIDOS', 'COM ROTOR',
       'FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE ',
       'PERDA DE COMPONENTE EM VOO', 'SOPRO DE REATOR',
       'COM PARA-BRISAS / JANELA / PORTA', 'COM LANÇAMENTO DE CARGA',
       'POUSO ANTES DA PISTA', 'F.O.D.', 'PROBLEMAS FISIOLÓGICOS',
       'DESCOMPRESSÃO NÃO INTENCIONAL / EXPLOSIVA',
       'COLISÃO DE VEÍCULO COM AERONAVE', 'FOGO NO SOLO', 'FOGO EM VOO',
       'CAUSADO POR FENÔMENO METEOROLÓGICO NO SOLO', 'COM PESSOAL EM VOO',
       'COLISÃO DE AERONAVES EM VOO', 'FUM

Enquanto o método acima retorna a lista de valores únicos, muitas vezes queremos saber a frequência com que elas ocorrem.

No exemplo da coluna `ocorrencia_tipo`, para saber a quantidade de cada tipo de ocorrência, podemos usar `value_counts()`.

In [None]:
df.ocorrencia_tipo.value_counts()

FALHA DO MOTOR EM VOO                                  682
ESTOURO DE PNEU                                        604
FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE     574
PERDA DE CONTROLE NO SOLO                              492
OUTROS                                                 350
                                                      ... 
CAUSADO POR RICOCHETE                                    1
RELACIONADO COM SECURITY                                 1
PERDA DA CONSCIÊNCIA                                     1
ALARME FALSO DE FOGO OU DE SUPERAQUECIMENTO              1
MANOBRA ABRUPTA                                          1
Name: ocorrencia_tipo, Length: 63, dtype: int64

Para transformar a célula acima em porcentagem, é só dividir os valores pela quantidade total de linhas do nosso conunto de dados.

Como vimos lá atrás, a quantidade de linhas é obtida por `df.shape[0]`.

In [None]:
df.ocorrencia_tipo.value_counts() / df.shape[0]

FALHA DO MOTOR EM VOO                                  0.130952
ESTOURO DE PNEU                                        0.115975
FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE     0.110215
PERDA DE CONTROLE NO SOLO                              0.094470
OUTROS                                                 0.067204
                                                         ...   
CAUSADO POR RICOCHETE                                  0.000192
RELACIONADO COM SECURITY                               0.000192
PERDA DA CONSCIÊNCIA                                   0.000192
ALARME FALSO DE FOGO OU DE SUPERAQUECIMENTO            0.000192
MANOBRA ABRUPTA                                        0.000192
Name: ocorrencia_tipo, Length: 63, dtype: float64

## Filtrando valores

Existem alguns métodos principais para resgatar e filtrar valores em um *DataFrame*, cada um com suas características distintas.

No lugar de tentar explicá-los, algo que é muito confuso para quem nunca utilizou nenhum deles, vou dar um exemplo da utilização de cada um deles.

### loc

Para usar esta opção, você deve entender que o mesmo funciona da seguinte maneira:

`loc[<linhas>, <colunas>]`

Este método pode ser usado em duas situações:

* Selecionar linhas por *labels*/*index*
* Selecionar linhas baseado em um *array* booleano

Vou dar um exemplo da primeira situação em que podemos usar `loc`. Suponha que eu precise extrair a latitude e longitude do local onde aconteceu a ocorrência de número `200808073991179`:

In [None]:
df.loc[200808073991179, ['ocorrencia_latitude', 'ocorrencia_longitude']]

ocorrencia_latitude     -9.1194
ocorrencia_longitude   -68.5978
Name: 200808073991179, dtype: object

Vou dar um exemplo da segunda situação em que podemos usar loc. Suponha que eu queria saber todos os voos onde eu tive ocorrência do tipo "FALHA DO MOTOR EM VOO":

In [None]:
# ver apenas as 5 primeiras entradas da situação
df.loc[df["ocorrencia_tipo"] == "FALHA DO MOTOR EM VOO"].head()

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_tipo_icao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,...,ocorrencia_horario,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_extracao
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-9.9085,-63.0333,ARIQUEMES,RO,BRASIL,SJOG,...,11:00:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
201211159478138,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-16.7588,-49.4405,ABADIA DE GOIÁS,GO,BRASIL,****,...,12:40:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28
200811167138358,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,2.81,-61.3831,ALTO ALEGRE,RR,BRASIL,****,...,12:25:00,,FINALIZADA,A-566/CENIPA/2015,SIM,2016-03-18,3,1,NÃO,2018-08-28
201111224132085,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,0.7394,-62.0214,ALTO ALEGRE,RR,BRASIL,****,...,16:40:00,,FINALIZADA,A-038/CENIPA/2013,SIM,2013-08-22,2,1,NÃO,2018-08-28
201509183338691,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP,-23.0061,-44.3025,ANGRA DOS REIS,RJ,BRASIL,****,...,13:30:00,,FINALIZADA,***,NÃO,,0,1,NÃO,2018-08-28


### iloc

O uso do `iloc` é mais simples, pois a gente passa seleciona linhas e colunas usando números, na mesma ordem em que aparecem no *DataFrame*:

`loc[<numero_da_linha>, <numero_da_coluna>]`

Eu consigo selecionar um *range* de interesse. Por exemplo, para selecionar as 3 primeiras entradas e as 4 primeiras colunas, eu faria da seguinte maneira:

In [None]:
df.iloc[:3,:4]

Unnamed: 0_level_0,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_tipo_icao
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,SCF-PP
201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,CTOL
201805021421302,INCIDENTE,AERÓDROMO,AERÓDROMO,ADRM
