## **Importação de dados com Pandas**

In [1]:
# Bibliotacas utilizadas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sn

In [2]:
pd.set_option('display.max_columns', 100) #ajustar o total de exibição de colunas
# pd.set_option('display.max_rows')       #ajustar o total de exibição de linhas

## Extração das bases de dados

A base de dados a seguir, vai trabalhar com dados de 10 anos de incidentes aéreos no Brasil divulgados pela CENIPA, disponível [aqui](https://dados.gov.br/dataset/ocorrencias-aeronauticas-da-aviacao-civil-brasileira).

In [3]:
# Carregar e ler o arquivo
df = pd.read_csv("https://storage.googleapis.com/aulas-dados-python/ocorrencia.csv", sep=";" , encoding='ISO-8859-1', parse_dates = ['ocorrencia_dia'], dayfirst=True)

In [4]:
# Exibição do df
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,81027,81027,81027,81027,81027,INCIDENTE GRAVE,,,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,SIM
1,81030,81030,81030,81030,81030,INCIDENTE,,,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,NÃO
2,81023,81023,81023,81023,81023,INCIDENTE GRAVE,,,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM
3,81029,81029,81029,81029,81029,INCIDENTE,,,BELO HORIZONTE,MG,BRASIL,SBBH,2022-10-06,00:44:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
4,81025,81025,81025,81025,81025,INCIDENTE,,,MANAUS,AM,BRASIL,SBEG,2022-10-05,20:56:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6764,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6765,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,***,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
6766,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,***,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6767,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


## Pré Análise de dados

Esse é considerado um arquivo pequeno, um arquivo grande tem em média de 2milhões de linhas.

O primeiro passo antes de fazer alguma alteração é analisar a extrutura do meu dataframe, verificar o que está em excesso, o que precisa de correção, o que precisa ser acrescentado e quais as alterações que são pertinentes à minha equipe.

1. Os dados das colunas: codigo_ocorrencia, codigo_ocorrencia1, codigo_ocorrencia2, codigo_ocorrencia3 e codigo_ocorrencia4, possuem os mesmos dados, pois são provinientes de dados extraídos de um banco SQL com entidade de relacionamento.

2. Vamos precisar fazer a correção do tipo de dados da coluna **ocorrencia_dia** para formato de data.(O ideal é que façamos no início ao carregar o dataframe), reiniciaremos o df com as correções devidas. Os parâmetros: parse_dates = ['ocorrencia_dia'], dayfirst=True, indicam a coluna para trocar o tipo e que o padrão não é o americano(mês na frente) e sim o formato dd-mm-yyyy.

3. Para a análise, latitude e longitude não têm inportancia, por isso também vamos descartá-las.

4. Não quero saber se existem investigação sobre o incidente. Vou dropar: **investigacao_aeronave_liberada,	investigacao_status,	divulgacao_relatorio_numero,	divulgacao_relatorio_publicado,	divulgacao_dia_publicacao,	total_recomendacoes**.

In [5]:
# Exibe as primeiras x linhas
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,81027,81027,81027,81027,81027,INCIDENTE GRAVE,,,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,SIM
1,81030,81030,81030,81030,81030,INCIDENTE,,,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,NÃO
2,81023,81023,81023,81023,81023,INCIDENTE GRAVE,,,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM
3,81029,81029,81029,81029,81029,INCIDENTE,,,BELO HORIZONTE,MG,BRASIL,SBBH,2022-10-06,00:44:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
4,81025,81025,81025,81025,81025,INCIDENTE,,,MANAUS,AM,BRASIL,SBEG,2022-10-05,20:56:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [6]:
# Exibe as x ultimas linhas
df.tail(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
6764,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6765,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,***,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
6766,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,***,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6767,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6768,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [7]:
# exibe o tipo de dados das colunas
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
codigo_ocorrencia2                         int64
codigo_ocorrencia3                         int64
codigo_ocorrencia4                         int64
ocorrencia_classificacao                  object
ocorrencia_latitude                       object
ocorrencia_longitude                      object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_pais                           object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
investigacao_aeronave_liberada            object
investigacao_status                       object
divulgacao_relatorio_numero               object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao                 object
total_recomendacoes                        int64
total_aeronaves_envo

In [8]:
#verifica se a coluna só possui valores unicos 
df.codigo_ocorrencia.is_unique

True

In [9]:
# Verifica no df a quantidade de linhas nulas(com valor faltante)
df.isnull().sum()

codigo_ocorrencia                    0
codigo_ocorrencia1                   0
codigo_ocorrencia2                   0
codigo_ocorrencia3                   0
codigo_ocorrencia4                   0
ocorrencia_classificacao             0
ocorrencia_latitude               1634
ocorrencia_longitude              1634
ocorrencia_cidade                    0
ocorrencia_uf                        0
ocorrencia_pais                      0
ocorrencia_aerodromo                 0
ocorrencia_dia                       0
ocorrencia_hora                      2
investigacao_aeronave_liberada     238
investigacao_status                341
divulgacao_relatorio_numero        782
divulgacao_relatorio_publicado       0
divulgacao_dia_publicacao         4988
total_recomendacoes                  0
total_aeronaves_envolvidas           0
ocorrencia_saida_pista               0
dtype: int64

In [10]:
# valores únicos na coluna ocorrencia_uf
df['ocorrencia_uf'].unique()

array(['SP', 'ES', 'MG', 'AM', 'RS', 'PR', 'MT', 'MS', 'GO', 'RR', 'SC',
       'PI', 'PA', 'RJ', 'BA', 'CE', 'MA', 'PE', 'TO', 'AP', 'DF', 'RO',
       'PB', 'RN', 'AL', 'AC', '***', 'SE'], dtype=object)

## Tratamento de dados

Realizando os primeiros tratamentos dos dados. Para isso é uma boa prática antes de realizar os tratamentos dos dados você realizar uma cópia do mesmo, para o caso de fazer alguma alteração e quisermos voltar à versão anterior.

### Drop de colunas indesejadas

In [11]:
# Backup de DataFrame original
df_backup = df.copy()

In [12]:
# Dropagem das colunas com dados duplcados
# axis = 0-rows 1-columns
# inplace = True ele salva as alterações no df
df.drop(['codigo_ocorrencia1',	'codigo_ocorrencia2',	'codigo_ocorrencia3',	'codigo_ocorrencia4'], axis=1, inplace=True)

In [13]:
#Verificando se a alteração foi realizada.
df.head(3)

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,81027,INCIDENTE GRAVE,,,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,SIM
1,81030,INCIDENTE,,,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,NÃO
2,81023,INCIDENTE GRAVE,,,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM


In [14]:
# Dropando colunas que não serõ utilizadas

df.drop([
    'ocorrencia_latitude',
    'ocorrencia_longitude', 
    'investigacao_aeronave_liberada', 
    'investigacao_status', 
    'divulgacao_relatorio_numero', 
    'divulgacao_relatorio_publicado',
    'divulgacao_dia_publicacao'], axis=1,inplace=True)

In [15]:
df.head(3)

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,81027,INCIDENTE GRAVE,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,0,1,SIM
1,81030,INCIDENTE,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,0,1,NÃO
2,81023,INCIDENTE GRAVE,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,0,1,SIM


### Renomeando colunas

In [16]:
# Renomeando colunas

df.rename(columns={'codigo_ocorrencia':'ocorrencia',
                   'ocorrencia_classificacao':'classificacao',
                   'ocorrencia_cidade':'cidade',
                   'ocorrencia_uf':'uf',
                   'ocorrencia_pais':'pais',
                   'ocorrencia_aerodromo':'aerodromo',
                   'ocorrencia_dia':'dia',
                   'ocorrencia_hora':'horario',
                   'total_recomendacoes':'recomendacoes',
                   'total_aeronaves_envolvidas':'n_aeronaves',
                   'ocorrencia_saida_pista':'saida_pista'
},inplace=True)

In [17]:
df.dtypes

ocorrencia                int64
classificacao            object
cidade                   object
uf                       object
pais                     object
aerodromo                object
dia              datetime64[ns]
horario                  object
recomendacoes             int64
n_aeronaves               int64
saida_pista              object
dtype: object

In [18]:
# visualizando o resultado
df.head(3)

Unnamed: 0,ocorrencia,classificacao,cidade,uf,pais,aerodromo,dia,horario,recomendacoes,n_aeronaves,saida_pista
0,81027,INCIDENTE GRAVE,SÃO PAULO,SP,BRASIL,SBSP,2022-10-09,16:30:00,0,1,SIM
1,81030,INCIDENTE,VITÓRIA,ES,BRASIL,SBVT,2022-10-09,16:20:00,0,1,NÃO
2,81023,INCIDENTE GRAVE,AMERICANA,SP,BRASIL,SDAI,2022-10-06,15:30:00,0,1,SIM


### Localização de inconcistências

- inconsistencias encontradas: ***, **NI 


In [19]:
# for i in df:
#   if (sorted(df[i].unique()))[0] == '***':
#     print(i)

In [20]:
# (sorted(df['uf'].unique()))[0]

In [21]:
# Dados nulos antes do tratamento
df.isnull().sum()

ocorrencia       0
classificacao    0
cidade           0
uf               0
pais             0
aerodromo        0
dia              0
horario          2
recomendacoes    0
n_aeronaves      0
saida_pista      0
dtype: int64

In [22]:
# Tratamento de inconsistências
df.replace(['***','**NI'],pd.NA,inplace=True)

In [23]:
# Após o tratamento
df.isnull().sum()

ocorrencia          0
classificacao       0
cidade              0
uf                  4
pais                0
aerodromo        2618
dia                 0
horario             2
recomendacoes       0
n_aeronaves         0
saida_pista         0
dtype: int64

### Consultando dados com loc e iloc

In [24]:
# Consultar dados
df['cidade'].loc[0:9]

# ou
df.loc[0:10, 'cidade']

# ou 
df['cidade'] 
df.loc[:, 'cidade']

0                SÃO PAULO
1                  VITÓRIA
2                AMERICANA
3           BELO HORIZONTE
4                   MANAUS
               ...        
6764               PELOTAS
6765    LUCAS DO RIO VERDE
6766        RIO DE JANEIRO
6767                 BELÉM
6768        RIO DE JANEIRO
Name: cidade, Length: 6769, dtype: object

In [25]:
serie = df.groupby([df['cidade'], df['uf'] == 'SP']).sum().reset_index()


In [26]:
df.count()

ocorrencia       6769
classificacao    6769
cidade           6769
uf               6765
pais             6769
aerodromo        4151
dia              6769
horario          6767
recomendacoes    6769
n_aeronaves      6769
saida_pista      6769
dtype: int64

Alesp = 10 anos de dados, despesas parlamentar
base1:despesas
ano, matricula dep, valor gasto, cnpj, tipo prod, nome forn.

base2:cadastro
ano, matricula e nome