# ETL com Python

#### Nesse projeto foi construido um ETL utilizando Python, onde utilizamos dados de acidentes aeronáuticos fornecidos pelo Centro de Investigação e Prevenção de Acidentes Aeronáuticos ([CENIPA](https://dados.gov.br/dados/conjuntos-dados/ocorrencias-aeronauticas-da-aviacao-civil-brasileira)), orgão da Força Aérea Brasileira. 

# 1. Extração dos dados

In [1]:
import numpy as np
import pandas as pd
import pandera as pa
from datetime import date

In [2]:
# Carregando a base de dados

df = pd.read_csv('accidents.csv')

In [3]:
df

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,aeronave_matricula,...,fator_79,fator_80,fator_81,fator_82,fator_83,fator_84,fator_85,fator_86,fator_87,dia_extracao
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,2013-05-05,11:00:00,ARIQUEMES,RO,BRASIL,SJOG,PUAUN,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
1,201805021421302,INCIDENTE,AERÓDROMO,2018-03-09,22:40:00,CACOAL,RO,BRASIL,SSKW,PRAXL,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,BRASIL,SSKW,PTRDP,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,BRASIL,SSKW,PTYEL,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
4,201103187273112,INCIDENTE,OUTROS,2011-03-18,13:30:00,CEREJEIRAS,RO,BRASIL,****,PTUQW,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5111,200811264169752,INCIDENTE,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,2008-11-26,16:40:00,NÃO IDENTIFICADA,SP,BRASIL,****,PRPSD,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
5112,200811224318981,INCIDENTE,TRÁFEGO AÉREO,2008-11-22,11:55:00,NÃO IDENTIFICADA,SP,BRASIL,****,PTMVE,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
5113,200810318709738,INCIDENTE,POUSO SEM TREM,2008-10-31,18:00:00,NÃO IDENTIFICADA,GO,BRASIL,****,PTLHE,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06
5114,201309012098180,ACIDENTE,CAUSADO POR FENÔMENO METEOROLÓGICO EM VOO,2013-09-02,02:54:00,ÁGUAS INTERNACIONAIS,***,BRASIL,****,PTMVL,...,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO,2018-05-06


In [4]:
# Listando o nome das colunas
# list(df.columns)

In [4]:
# Pegando somente as colunas de interesse

dados = df[['codigo_ocorrencia', 'ocorrencia_classificacao','ocorrencia_tipo', 'ocorrencia_dia', 'ocorrencia_horario', 
             'ocorrencia_cidade', 'ocorrencia_uf', 'ocorrencia_aerodromo', 'aeronave_equipamento','aeronave_tipo_motor', 
              'aeronave_quantidade_motores', 'aeronave_pais_registro', 'aeronave_segmento_aviacao',
              'aeronave_fase_voo', 'aeronave_tipo_operacao', 'quantidade_fatalidades', 'quantidade_fatores_contribuintes',]]

dados.head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,2013-05-05,11:00:00,ARIQUEMES,RO,SJOG,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CIRCUITO DE TRÁFEGO,VOO EXPERIMENTAL,,0
1,201805021421302,INCIDENTE,AERÓDROMO,2018-03-09,22:40:00,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
4,201103187273112,INCIDENTE,OUTROS,2011-03-18,13:30:00,CEREJEIRAS,RO,****,AVIÃO,PISTÃO,1.0,BRASIL,ESPECIALIZADA,TÁXI,OPERAÇÃO ESPECIALIZADA,,0


In [5]:
dados.shape

(5116, 17)

In [6]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5116 entries, 0 to 5115
Data columns (total 17 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   codigo_ocorrencia                 5116 non-null   int64  
 1   ocorrencia_classificacao          5116 non-null   object 
 2   ocorrencia_tipo                   5116 non-null   object 
 3   ocorrencia_dia                    5116 non-null   object 
 4   ocorrencia_horario                5116 non-null   object 
 5   ocorrencia_cidade                 5116 non-null   object 
 6   ocorrencia_uf                     5116 non-null   object 
 7   ocorrencia_aerodromo              5116 non-null   object 
 8   aeronave_equipamento              5116 non-null   object 
 9   aeronave_tipo_motor               5116 non-null   object 
 10  aeronave_quantidade_motores       5087 non-null   float64
 11  aeronave_pais_registro            5116 non-null   object 
 12  aerona

In [7]:
dados = dados.replace(['***','####','****','###!','NULL'], np.nan)
dados['ocorrencia_dia'] = pd.to_datetime(dados['ocorrencia_dia'])

In [8]:
dados.head(10)

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,2013-05-05,11:00:00,ARIQUEMES,RO,SJOG,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CIRCUITO DE TRÁFEGO,VOO EXPERIMENTAL,,0
1,201805021421302,INCIDENTE,AERÓDROMO,2018-03-09,22:40:00,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
4,201103187273112,INCIDENTE,OUTROS,2011-03-18,13:30:00,CEREJEIRAS,RO,,AVIÃO,PISTÃO,1.0,BRASIL,ESPECIALIZADA,TÁXI,OPERAÇÃO ESPECIALIZADA,,0
5,200808073991179,ACIDENTE,PERDA DE CONTROLE NO SOLO,2008-08-07,15:10:00,CEREJEIRAS,RO,,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,CORRIDA APÓS POUSO,TÁXI AÉREO,,4
6,201604251335501,INCIDENTE GRAVE,TRÁFEGO AÉREO,2016-02-24,05:48:00,AMAJARI,RR,,AVIÃO,JATO,2.0,BRASIL,,CRUZEIRO,VOO REGULAR,,0
7,201108118145873,ACIDENTE,POUSO LONGO,2011-08-11,17:00:00,AMAJARI,RR,,AVIÃO,PISTÃO,1.0,BRASIL,TÁXI AÉREO,CORRIDA APÓS POUSO,TÁXI AÉREO,,4
8,201604062021424,ACIDENTE,PERDA DE CONTROLE NO SOLO,2016-04-05,16:05:00,AMAJARI,RR,SWAQ,AVIÃO,PISTÃO,1.0,BRASIL,TÁXI AÉREO,CORRIDA APÓS POUSO,TÁXI AÉREO,,8
9,201604251335501,INCIDENTE GRAVE,TRÁFEGO AÉREO,2016-02-24,05:48:00,AMAJARI,RR,,AVIÃO,JATO,2.0,BRASIL,,CRUZEIRO,VOO REGULAR,,0


In [9]:
dados.dtypes

codigo_ocorrencia                            int64
ocorrencia_classificacao                    object
ocorrencia_tipo                             object
ocorrencia_dia                      datetime64[ns]
ocorrencia_horario                          object
ocorrencia_cidade                           object
ocorrencia_uf                               object
ocorrencia_aerodromo                        object
aeronave_equipamento                        object
aeronave_tipo_motor                         object
aeronave_quantidade_motores                float64
aeronave_pais_registro                      object
aeronave_segmento_aviacao                   object
aeronave_fase_voo                           object
aeronave_tipo_operacao                      object
quantidade_fatalidades                     float64
quantidade_fatores_contribuintes             int64
dtype: object

#### Criando o schema com a biblioteca pandera para fazer a validade dos dados

In [10]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_tipo' : pa.Column(pa.String),
        'ocorrencia_dia': pa.Column(pa.DateTime),
        'ocorrencia_horario': pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]?|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$') , nullable=True),
        'ocorrencia_cidade': pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        'ocorrencia_aerodromo' : pa.Column(pa.String, nullable=True),
        'aeronave_equipamento' : pa.Column(pa.String, nullable=True),
        'aeronave_tipo_motor' : pa.Column(pa.String, nullable=True),
        'aeronave_quantidade_motores' : pa.Column(pa.Float, nullable=True),
        'aeronave_pais_registro' : pa.Column(pa.String, nullable=True),
        'aeronave_segmento_aviacao' : pa.Column(pa.String, nullable=True),
        'aeronave_fase_voo' : pa.Column(pa.String, nullable=True),
        'aeronave_tipo_operacao' : pa.Column(pa.String, nullable=True),
        'quantidade_fatalidades' : pa.Column(pa.Float, nullable=True),
        'quantidade_fatores_contribuintes': pa.Column(pa.Int),
    }
)

In [11]:
schema.validate(dados)

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,2013-05-05,11:00:00,ARIQUEMES,RO,SJOG,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CIRCUITO DE TRÁFEGO,VOO EXPERIMENTAL,,0
1,201805021421302,INCIDENTE,AERÓDROMO,2018-03-09,22:40:00,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
4,201103187273112,INCIDENTE,OUTROS,2011-03-18,13:30:00,CEREJEIRAS,RO,,AVIÃO,PISTÃO,1.0,BRASIL,ESPECIALIZADA,TÁXI,OPERAÇÃO ESPECIALIZADA,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5111,200811264169752,INCIDENTE,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,2008-11-26,16:40:00,NÃO IDENTIFICADA,SP,,AVIÃO,TURBOÉLICE,2.0,BRASIL,REGULAR,CRUZEIRO,VOO REGULAR,,0
5112,200811224318981,INCIDENTE,TRÁFEGO AÉREO,2008-11-22,11:55:00,NÃO IDENTIFICADA,SP,,AVIÃO,JATO,2.0,BRASIL,REGULAR,DESCIDA,VOO REGULAR,,0
5113,200810318709738,INCIDENTE,POUSO SEM TREM,2008-10-31,18:00:00,NÃO IDENTIFICADA,GO,,AVIÃO,PISTÃO,2.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0
5114,201309012098180,ACIDENTE,CAUSADO POR FENÔMENO METEOROLÓGICO EM VOO,2013-09-02,02:54:00,ÁGUAS INTERNACIONAIS,,,AVIÃO,JATO,2.0,BRASIL,REGULAR,CRUZEIRO,VOO REGULAR,,0


# 2. Limpeza/Transformação dos dados

In [12]:
# Dados duplicados

dados.duplicated().sum()

8

In [13]:
# Excluindo os dados duplicados

dados.drop_duplicates(inplace=True)

In [14]:
dados.isnull().sum()

codigo_ocorrencia                      0
ocorrencia_classificacao               0
ocorrencia_tipo                        0
ocorrencia_dia                         0
ocorrencia_horario                     0
ocorrencia_cidade                      0
ocorrencia_uf                          3
ocorrencia_aerodromo                2077
aeronave_equipamento                  15
aeronave_tipo_motor                   51
aeronave_quantidade_motores           29
aeronave_pais_registro                 0
aeronave_segmento_aviacao             81
aeronave_fase_voo                      0
aeronave_tipo_operacao                63
quantidade_fatalidades              4724
quantidade_fatores_contribuintes       0
dtype: int64

In [15]:
# Conta os dados cuja valores são não nulos

dados.count()

codigo_ocorrencia                   5108
ocorrencia_classificacao            5108
ocorrencia_tipo                     5108
ocorrencia_dia                      5108
ocorrencia_horario                  5108
ocorrencia_cidade                   5108
ocorrencia_uf                       5105
ocorrencia_aerodromo                3031
aeronave_equipamento                5093
aeronave_tipo_motor                 5057
aeronave_quantidade_motores         5079
aeronave_pais_registro              5108
aeronave_segmento_aviacao           5027
aeronave_fase_voo                   5108
aeronave_tipo_operacao              5045
quantidade_fatalidades               384
quantidade_fatores_contribuintes    5108
dtype: int64

## Analíse visual dos dados

In [16]:
dados.head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,2013-05-05,11:00:00,ARIQUEMES,RO,SJOG,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CIRCUITO DE TRÁFEGO,VOO EXPERIMENTAL,,0
1,201805021421302,INCIDENTE,AERÓDROMO,2018-03-09,22:40:00,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
4,201103187273112,INCIDENTE,OUTROS,2011-03-18,13:30:00,CEREJEIRAS,RO,,AVIÃO,PISTÃO,1.0,BRASIL,ESPECIALIZADA,TÁXI,OPERAÇÃO ESPECIALIZADA,,0


#### Ocorrências cuja classificação é INCIDENTE GRAVE

In [30]:
filtro = dados['ocorrencia_classificacao'] == 'INCIDENTE GRAVE'

dados.loc[filtro].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
6,201604251335501,INCIDENTE GRAVE,TRÁFEGO AÉREO,2016-02-24,05:48:00,AMAJARI,RR,,AVIÃO,JATO,2.0,BRASIL,,CRUZEIRO,VOO REGULAR,,0
24,201604271828141,INCIDENTE GRAVE,POUSO SEM TREM,2016-04-21,16:45:00,ANGRA DOS REIS,RJ,SDAG,AVIÃO,JATO,2.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0
28,201102203023021,INCIDENTE GRAVE,COM ROTOR,2011-02-20,21:20:00,ANGRA DOS REIS,RJ,,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,PARTICULAR,PAIRADO,VOO PRIVADO,,0


#### Ocorrências com mais de 10 fatores contribuintes

In [18]:
filtro = dados['quantidade_fatores_contribuintes'] > 10

dados.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_uf', 'quantidade_fatores_contribuintes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,quantidade_fatores_contribuintes
273,MACAPÁ,AP,13
297,ARACAJU,SE,15
313,ALMIRANTE TAMANDARÉ,PR,13
370,ALMEIRIM,PA,13
530,COARI,AM,15
...,...,...,...
4756,SÃO PAULO,SP,13
4812,SÃO PAULO,SP,14
4897,SÃO PAULO,SP,12
4953,SOROCABA,SP,14


#### Ocorrências cuja classificação é INCIDENTE GRAVE e o no estado é SP

In [29]:
filtro1 = dados['ocorrencia_classificacao'] == 'INCIDENTE GRAVE'
filtro2 = dados['ocorrencia_uf'] == 'SP'

dados.loc[filtro1 & filtro2].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
657,201106046509244,INCIDENTE GRAVE,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,2011-06-04,14:00:00,AMERICANA,SP,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,3
1046,201109062723462,INCIDENTE GRAVE,COM HÉLICE,2011-09-06,23:30:00,ARAÇATUBA,SP,SBAU,AVIÃO,PISTÃO,2.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0
1108,201402133863851,INCIDENTE GRAVE,FALHA DO MOTOR EM VOO,2014-02-13,17:45:00,ARARAQUARA,SP,SBAQ,AVIÃO,PISTÃO,1.0,BRASIL,INSTRUÇÃO,CIRCUITO DE TRÁFEGO,VOO DE INSTRUÇÃO,,0
1124,201206196694523,INCIDENTE GRAVE,COM TREM DE POUSO,2012-06-19,13:40:00,ARARAS,SP,SDAA,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,DECOLAGEM,VOO PRIVADO,,0
1126,201603291237098,INCIDENTE GRAVE,FALHA DO MOTOR EM VOO,2016-03-25,12:50:00,ARARAS,SP,SDAA,AVIÃO,PISTÃO,1.0,BRASIL,INSTRUÇÃO,DECOLAGEM,VOO DE INSTRUÇÃO,,1


#### Ocorrências cuja classificação é INCIDENTE GRAVE ou no estado é SP

In [28]:
filtro1 = dados['ocorrencia_classificacao'] == 'INCIDENTE GRAVE'
filtro2 = dados['ocorrencia_uf'] == 'SP'

dados.loc[filtro1 | filtro2].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,2013-11-25,12:32:00,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2016-05-13,19:19:00,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0
6,201604251335501,INCIDENTE GRAVE,TRÁFEGO AÉREO,2016-02-24,05:48:00,AMAJARI,RR,,AVIÃO,JATO,2.0,BRASIL,,CRUZEIRO,VOO REGULAR,,0
24,201604271828141,INCIDENTE GRAVE,POUSO SEM TREM,2016-04-21,16:45:00,ANGRA DOS REIS,RJ,SDAG,AVIÃO,JATO,2.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0
28,201102203023021,INCIDENTE GRAVE,COM ROTOR,2011-02-20,21:20:00,ANGRA DOS REIS,RJ,,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,PARTICULAR,PAIRADO,VOO PRIVADO,,0


#### Ocorrências cuja classificação é INCIDENTE GRAVE ou INCIDENTE e o estado é SP

In [27]:
filtro1 = dados['ocorrencia_classificacao'].isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = dados['ocorrencia_uf'] == 'SP'

dados.loc[filtro1 & filtro2].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
55,200905218704582,INCIDENTE,FALHA DO MOTOR EM VOO,2009-05-21,10:33:00,ADAMANTINA,SP,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CRUZEIRO,VOO PRIVADO,,0
654,201010179552033,INCIDENTE,CORTE INVOLUNTÁRIO DO MOTOR,2010-10-17,15:05:00,AMERICANA,SP,,AVIÃO,PISTÃO,1.0,BRASIL,INSTRUÇÃO,MANOBRA,VOO DE INSTRUÇÃO,,0
656,201302288828626,INCIDENTE,COLISÃO COM AERONAVE NO SOLO,2013-02-28,17:10:00,AMERICANA,SP,SDAI,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,TÁXI,VOO PRIVADO,,0
657,201106046509244,INCIDENTE GRAVE,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,2011-06-04,14:00:00,AMERICANA,SP,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,3
659,201302288828626,INCIDENTE,COLISÃO COM AERONAVE NO SOLO,2013-02-28,17:10:00,AMERICANA,SP,SDAI,AVIÃO,PISTÃO,2.0,BRASIL,AGRÍCOLA,OUTRA FASE,OPERAÇÃO AGRÍCOLA,,0


####  Ocorrencias do ano de 2015

In [26]:
filtro = dados['ocorrencia_dia'].dt.year == 2015

dados.loc[filtro].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
26,201509183338691,ACIDENTE,FALHA DO MOTOR EM VOO,2015-09-18,13:30:00,ANGRA DOS REIS,RJ,,,,0.0,BRASIL,EXPERIMENTAL,CRUZEIRO,VOO PRIVADO,,0
37,201501292823312,ACIDENTE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2015-01-29,20:30:00,BOA VISTA,RR,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,NAVEGAÇÃO A BAIXA ALTURA,VOO PRIVADO,,0
48,201508159929510,ACIDENTE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,2015-08-15,14:00:00,BOA VISTA,RR,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,NAVEGAÇÃO A BAIXA ALTURA,VOO PRIVADO,,3
51,201505081529330,ACIDENTE,FALHA DO MOTOR EM VOO,2015-05-08,11:27:00,AFONSO CLÁUDIO,ES,,AVIÃO,PISTÃO,1.0,BRASIL,EXPERIMENTAL,SUBIDA,VOO PRIVADO,,0
71,201504084922109,INCIDENTE GRAVE,POUSO ANTES DA PISTA,2015-04-08,16:04:00,BRASÍLIA,DF,SBBR,AVIÃO,JATO,2.0,BRASIL,REGULAR,POUSO,VOO REGULAR,,0


#### Ocorrencias do ano de 2015 e mês 12

In [25]:
filtro = (dados['ocorrencia_dia'].dt.year == 2015) & (dados['ocorrencia_dia'].dt.month == 12)

dados.loc[filtro].head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_dia,ocorrencia_horario,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes
271,201512089621390,ACIDENTE,FALHA DO MOTOR EM VOO,2015-12-08,12:30:00,AGUAÍ,SP,,AVIÃO,PISTÃO,1.0,BRASIL,AGRÍCOLA,DECOLAGEM,OPERAÇÃO AGRÍCOLA,,0
474,201512034067525,INCIDENTE,VAZAMENTO DE OUTROS FLUIDOS,2015-12-03,10:50:00,CAMPOS DOS GOYTACAZES,RJ,SBFS,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,TÁXI AÉREO,CIRCUITO DE TRÁFEGO,TÁXI AÉREO,,0
658,201512062996168,ACIDENTE,PERDA DE CONTROLE NO SOLO,2015-12-06,15:00:00,AMERICANA,SP,SDAI,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,0
706,201512134979065,ACIDENTE,PERDA DE CONTROLE NO SOLO,2015-12-13,20:30:00,BENTO GONÇALVES,RS,SSBG,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0
712,201512155909654,INCIDENTE GRAVE,PERDA DE CONTROLE NO SOLO,2015-12-15,13:00:00,ARAGUAÍNA,TO,SWGN,AVIÃO,PISTÃO,2.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,0


### Transformando as colunas ocorrencia_dia e ocorrencia_horario em apenas uma coluna

In [31]:
dados['ocorrencia_dia_horario'] = pd.to_datetime(dados['ocorrencia_dia'].astype(str) + ' ' + dados['ocorrencia_horario'])

Uma vez que juntamos a coluna de dados da  data com a do horário em uma mesma coluna, essas duas não são mais úteis, com isso, podemos excluí-las.

In [32]:
dados.drop(['ocorrencia_dia', 'ocorrencia_horario'], axis=1, inplace=True)

In [33]:
dados.head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes,ocorrencia_dia_horario
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,ARIQUEMES,RO,SJOG,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CIRCUITO DE TRÁFEGO,VOO EXPERIMENTAL,,0,2013-05-05 11:00:00
1,201805021421302,INCIDENTE,AERÓDROMO,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0,2018-03-09 22:40:00
2,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,CACOAL,RO,SSKW,AVIÃO,PISTÃO,2.0,BRASIL,TÁXI AÉREO,POUSO,TÁXI AÉREO,,2,2013-11-25 12:32:00
3,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,CACOAL,RO,SSKW,HELICÓPTERO,TURBOEIXO,1.0,BRASIL,ADMINISTRAÇÃO INDIRETA,APROXIMAÇÃO FINAL,OPERAÇÃO ESPECIALIZADA,,0,2016-05-13 19:19:00
4,201103187273112,INCIDENTE,OUTROS,CEREJEIRAS,RO,,AVIÃO,PISTÃO,1.0,BRASIL,ESPECIALIZADA,TÁXI,OPERAÇÃO ESPECIALIZADA,,0,2011-03-18 13:30:00


#### Ocorrencias do ano de 2015, mês 12 e dias entre 3 e 8

In [35]:

filtro_ano = dados['ocorrencia_dia_horario'].dt.year == 2015
filtro_mes = dados['ocorrencia_dia_horario'].dt.month == 12
filtro_dia = (dados['ocorrencia_dia_horario'].dt.day >= 3) & (dados['ocorrencia_dia_horario'].dt.day <= 8)

dados.loc[filtro_ano & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes,ocorrencia_dia_horario
271,201512089621390,ACIDENTE,FALHA DO MOTOR EM VOO,AGUAÍ,SP,,AVIÃO,PISTÃO,1.0,BRASIL,AGRÍCOLA,DECOLAGEM,OPERAÇÃO AGRÍCOLA,,0,2015-12-08 12:30:00
474,201512034067525,INCIDENTE,VAZAMENTO DE OUTROS FLUIDOS,CAMPOS DOS GOYTACAZES,RJ,SBFS,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,TÁXI AÉREO,CIRCUITO DE TRÁFEGO,TÁXI AÉREO,,0,2015-12-03 10:50:00
658,201512062996168,ACIDENTE,PERDA DE CONTROLE NO SOLO,AMERICANA,SP,SDAI,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,0,2015-12-06 15:00:00
1780,201512089871133,INCIDENTE,ESTOURO DE PNEU,CAXIAS DO SUL,RS,SBCX,AVIÃO,PISTÃO,2.0,BRASIL,INSTRUÇÃO,ARREMETIDA NO SOLO,VOO DE INSTRUÇÃO,,0,2015-12-08 13:00:00
2067,201512038997237,INCIDENTE,PERDA DE CONTROLE NO SOLO,BELO HORIZONTE,MG,SBBH,AVIÃO,PISTÃO,1.0,BRASIL,INSTRUÇÃO,TÁXI,VOO DE INSTRUÇÃO,,0,2015-12-03 16:47:00
2923,201512089746857,INCIDENTE,FALHA DO MOTOR EM VOO,CAMPINAS,SP,SBKP,AVIÃO,JATO,2.0,BRASIL,PARTICULAR,CRUZEIRO,VOO PRIVADO,,0,2015-12-08 16:19:00
3945,201512066903607,ACIDENTE,VOO CONTROLADO CONTRA O TERRENO,TRINDADE,GO,,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,DESCIDA,VOO PRIVADO,3.0,0,2015-12-06 14:00:00
4035,201512089416747,ACIDENTE,FALHA DO MOTOR EM VOO,JALES,SP,SDJL,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CRUZEIRO,VOO PRIVADO,,0,2015-12-08 10:20:00


## Agrupamento dos dados

### Analisando as ocorrências de um período específico

In [36]:
# Ocorrências do ano 2015 e mês 03

filtro1 = dados['ocorrencia_dia_horario'].dt.year == 2018
filtro2 = dados['ocorrencia_dia_horario'].dt.month == 3

dados_201803 = dados.loc[filtro1 & filtro2]

In [39]:
dados_201803.head()

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes,ocorrencia_dia_horario
1,201805021421302,INCIDENTE,AERÓDROMO,CACOAL,RO,SSKW,AVIÃO,JATO,2.0,BRASIL,REGULAR,TÁXI,VOO REGULAR,,0,2018-03-09 22:40:00
210,201803091904444,ACIDENTE,COLISÃO COM OBSTÁCULOS NO SOLO,AGUDO,RS,,AVIÃO,PISTÃO,1.0,BRASIL,AGRÍCOLA,MANOBRA,OPERAÇÃO AGRÍCOLA,,0,2018-03-06 21:30:00
253,201803281316034,INCIDENTE,ESTOURO DE PNEU,PORTO VELHO,RO,SBPV,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,CORRIDA APÓS POUSO,VOO PRIVADO,,0,2018-03-27 19:54:00
485,201804031740555,INCIDENTE,PROBLEMAS FISIOLÓGICOS,CAMPOS DOS GOYTACAZES,RJ,SBCP,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,TÁXI AÉREO,CRUZEIRO,TÁXI AÉREO,,0,2018-03-30 14:00:00
495,201804171653537,ACIDENTE,POUSO BRUSCO,AQUIDAUANA,MS,SSGX,AVIÃO,PISTÃO,1.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,0,2018-03-28 11:45:00


In [40]:
dados_201803.count()

codigo_ocorrencia                   46
ocorrencia_classificacao            46
ocorrencia_tipo                     46
ocorrencia_cidade                   46
ocorrencia_uf                       46
ocorrencia_aerodromo                25
aeronave_equipamento                44
aeronave_tipo_motor                 44
aeronave_quantidade_motores         44
aeronave_pais_registro              46
aeronave_segmento_aviacao           46
aeronave_fase_voo                   46
aeronave_tipo_operacao              45
quantidade_fatalidades               2
quantidade_fatores_contribuintes    46
ocorrencia_dia_horario              46
dtype: int64

46 ocorrências em 03/2018

In [41]:
# contando pelo agrupamento de uma coluna

dados_201803.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           18
INCIDENTE          15
INCIDENTE GRAVE    13
Name: codigo_ocorrencia, dtype: int64

In [42]:
# Mostra a quantidade de ocorrência por tipo nesse período ordenado de forma descrescente

dados_201803.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
ACIDENTE           18
INCIDENTE          15
INCIDENTE GRAVE    13
dtype: int64

### Analisando a região sudeste em 2015

In [43]:
filtro1 = dados['ocorrencia_dia_horario'].dt.year == 2015
filtro2 = dados['ocorrencia_uf'].isin(['SP', 'MG', 'ES', 'RJ'])

dados_sudeste2015 = dados.loc[filtro1 & filtro2]

In [44]:
dados_sudeste2015

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,aeronave_equipamento,aeronave_tipo_motor,aeronave_quantidade_motores,aeronave_pais_registro,aeronave_segmento_aviacao,aeronave_fase_voo,aeronave_tipo_operacao,quantidade_fatalidades,quantidade_fatores_contribuintes,ocorrencia_dia_horario
26,201509183338691,ACIDENTE,FALHA DO MOTOR EM VOO,ANGRA DOS REIS,RJ,,,,0.0,BRASIL,EXPERIMENTAL,CRUZEIRO,VOO PRIVADO,,0,2015-09-18 13:30:00
51,201505081529330,ACIDENTE,FALHA DO MOTOR EM VOO,AFONSO CLÁUDIO,ES,,AVIÃO,PISTÃO,1.0,BRASIL,EXPERIMENTAL,SUBIDA,VOO PRIVADO,,0,2015-05-08 11:27:00
271,201512089621390,ACIDENTE,FALHA DO MOTOR EM VOO,AGUAÍ,SP,,AVIÃO,PISTÃO,1.0,BRASIL,AGRÍCOLA,DECOLAGEM,OPERAÇÃO AGRÍCOLA,,0,2015-12-08 12:30:00
412,201509143112100,INCIDENTE,PERDA DE COMPONENTE EM VOO,CABO FRIO,RJ,SBCB,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,TÁXI AÉREO,CIRCUITO DE TRÁFEGO,TÁXI AÉREO,,0,2015-09-14 13:00:00
413,201504201550687,INCIDENTE,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,CABO FRIO,RJ,SBCB,HELICÓPTERO,TURBOEIXO,2.0,BRASIL,TÁXI AÉREO,SUBIDA,TÁXI AÉREO,,0,2015-04-20 10:20:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5079,201507109708616,INCIDENTE,COM TREM DE POUSO,UBERLÂNDIA,MG,SBUL,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,POUSO,VOO PRIVADO,,0,2015-07-10 13:49:00
5085,201507077498699,INCIDENTE,ESTOURO DE PNEU,UBERLÂNDIA,MG,SBUL,AVIÃO,TURBOÉLICE,2.0,BRASIL,REGULAR,POUSO,VOO REGULAR,,0,2015-07-07 22:50:00
5090,201505023407050,ACIDENTE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,VARGEM BONITA,MG,,ULTRALEVE,PISTÃO,1.0,BRASIL,EXPERIMENTAL,CRUZEIRO,VOO PRIVADO,1.0,0,2015-05-02 10:43:00
5096,201505293589133,ACIDENTE,POUSO LONGO,VIÇOSA,MG,SNVC,AVIÃO,PISTÃO,2.0,BRASIL,PARTICULAR,POUSO,VOO PRIVADO,,2,2015-05-29 19:10:00


In [45]:
dados_sudeste2015.count()

codigo_ocorrencia                   192
ocorrencia_classificacao            192
ocorrencia_tipo                     192
ocorrencia_cidade                   192
ocorrencia_uf                       192
ocorrencia_aerodromo                143
aeronave_equipamento                190
aeronave_tipo_motor                 187
aeronave_quantidade_motores         190
aeronave_pais_registro              192
aeronave_segmento_aviacao           192
aeronave_fase_voo                   192
aeronave_tipo_operacao              192
quantidade_fatalidades               16
quantidade_fatores_contribuintes    192
ocorrencia_dia_horario              192
dtype: int64

192 ocorrências em 2015

In [46]:
# Quantidade de ocorrência por tipo de acidente em 2015

dados_sudeste2015.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          114
ACIDENTE            59
INCIDENTE GRAVE     19
dtype: int64

In [47]:
# Acidentes por tipo de ocorrência por estado para cada tipo de ocorrência em 2015

dados_sudeste2015.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             ACIDENTE                     1
               INCIDENTE                    2
               INCIDENTE GRAVE              1
MG             ACIDENTE                    18
               INCIDENTE                   30
               INCIDENTE GRAVE              2
RJ             ACIDENTE                     6
               INCIDENTE                   14
               INCIDENTE GRAVE              7
SP             ACIDENTE                    34
               INCIDENTE                   68
               INCIDENTE GRAVE              9
dtype: int64

In [48]:
# Cidade com mais ocorrências na região sudeste em 2015

dados_sudeste2015.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO          21
BELO HORIZONTE     18
RIO DE JANEIRO     17
JUNDIAÍ            14
GUARULHOS          10
                   ..
LAVÍNIA             1
AGUAÍ               1
MARIÁPOLIS          1
MARÍLIA             1
ÁLVARES MACHADO     1
Length: 81, dtype: int64

### Agrupando os dados por estado e região

In [51]:
dados['ocorrencia_uf'].isnull().sum()

3

In [61]:
dados['ocorrencia_uf'].unique()

array(['RO', 'RR', 'RS', 'GO', 'AM', 'RJ', 'ES', 'AL', 'SP', 'DF', 'AC',
       'MT', 'PI', 'MS', 'MA', 'AP', 'PA', 'SE', 'TO', 'PR', 'BA', 'CE',
       'MG', 'RN', 'PB', 'SC', 'PE', nan], dtype=object)

In [62]:
reg_norte = ['AM', 'RR', 'AP', 'PA', 'TO', 'RO', 'AC']
reg_nordeste = ['MA', 'PI', 'CE', 'RN', 'PE', 'PB', 'SE', 'AL', 'BA']
reg_centro = ['MT', 'MS', 'GO', 'DF']
reg_sudeste = ['SP', 'RJ', 'ES', 'MG']
reg_sul = ['PR', 'RS', 'SC']

In [63]:
filtro_norte = dados['ocorrencia_uf'].isin(reg_norte)
filtro_nordeste = dados['ocorrencia_uf'].isin(reg_nordeste)
filtro_centro = dados['ocorrencia_uf'].isin(reg_centro)
filtro_sudeste = dados['ocorrencia_uf'].isin(reg_sudeste)
filtro_sul = dados['ocorrencia_uf'].isin(reg_sul)

In [64]:
dados_norte = dados.loc[filtro_norte]
dados_nordeste = dados.loc[filtro_nordeste]
dados_centro = dados.loc[filtro_centro]
dados_sudeste = dados.loc[filtro_sudeste]
dados_sul = dados.loc[filtro_sul]

# 3. Carregamento dos dados

O dados foram tratados/limpados e posteriomente agrupados em região de ocorrência e carregados em arquivos csv.

In [65]:
# Diretório que os arquivos tratados serão armazenado em formato csv

import os  
os.makedirs('dados_extraidos_csv', exist_ok=True)  

In [66]:
dados_norte.to_csv('dados_extraidos_csv/acidentes_norte.csv', index=False, na_rep="NaN")
dados_nordeste.to_csv('dados_extraidos_csv/acidentes_nordeste.csv', index=False, na_rep="NaN")  
dados_centro.to_csv('dados_extraidos_csv/acidentes_centro.csv', index=False, na_rep="NaN")  
dados_sudeste.to_csv('dados_extraidos_csv/acidentes_sudeste.csv', index=False, na_rep="NaN")  
dados_sul.to_csv('dados_extraidos_csv/acidentes_sul.csv', index=False, na_rep="NaN")  