# Transformação em um projeto de ETL usando Python

## Limpeza na leitura dos dados

In [22]:
import pandas as pd
import pandera as pa
import datetime as dt

In [3]:
# Limpeza já feita na função de leitura do csv
valores_ausentes = ['**', '###!', '####', '***', '****', '*****', 'NULL', None]
df = pd.read_csv("ocorrencia.csv", sep = ';', parse_dates = ["ocorrencia_dia"], dayfirst = True, na_values = valores_ausentes)

In [4]:
# Fazendo as validações
schema = pa.DataFrameSchema(
    columns = {
        'codigo' : pa.Column(pa.Int, required = False),
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String, pa.Check.str_length(2,3), nullable = True), # Considerar águas internacionais
        'ocorrencia_aerodromo' : pa.Column(pa.String, nullable = True),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String, pa.Check.str_matches(r"^(?:(?:([01]?\d|2[0-3]):)?([0-5]?\d):)?([0-5]?\d)$"), nullable = True),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu certo!!!


In [5]:
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
codigo_ocorrencia2                         int64
codigo_ocorrencia3                         int64
codigo_ocorrencia4                         int64
ocorrencia_classificacao                  object
ocorrencia_latitude                       object
ocorrencia_longitude                      object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_pais                           object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
investigacao_aeronave_liberada            object
investigacao_status                       object
divulgacao_relatorio_numero               object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao                 object
total_recomendacoes                        int64
total_aeronaves_envo

In [6]:
# O loc baseia sua pesquisa nos nomes das colunas e condições
df.loc[df["ocorrencia_uf"] == "SP"]
# df.loc[:, ["codigo_ocorrencia", "ocorrencia_cidade"]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,2010-01-10,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,2010-01-15,15:00:00,,,,NÃO,,0,1,NÃO
18,39828,39828,39828,39828,39828,INCIDENTE,,,SANTOS,SP,...,2010-01-15,17:45:00,,,,NÃO,,0,1,NÃO
26,39847,39847,39847,39847,39847,INCIDENTE,,,SOROCABA,SP,...,2010-01-20,13:10:00,,,,NÃO,,0,1,NÃO
27,39768,39768,39768,39768,39768,INCIDENTE,,,CAMPINAS,SP,...,2010-01-21,20:45:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6084,80234,80234,80234,80234,80234,INCIDENTE,-23.626111,-46.656389,SÃO PAULO,SP,...,2021-07-26,13:20:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6085,80208,80208,80208,80208,80208,INCIDENTE,-23.506667,-46.633889,SÃO PAULO,SP,...,2021-07-27,19:45:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6104,80238,80238,80238,80238,80238,INCIDENTE GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,...,2021-08-11,19:09:00,SIM,ATIVA,,NÃO,,0,1,NÃO
6108,80244,80244,80244,80244,80244,INCIDENTE,-22.978841,-46.537076°,BRAGANÇA PAULISTA,SP,...,2021-08-15,15:20:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [7]:
# O iloc baseia sua pesquisa nos valores numéricos dos índices, lembrando sempre que índice é exclusivo
df.iloc[10:21]
# print(df.iloc[-1])

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
10,39789,39789,39789,39789,39789,INCIDENTE,,,SÃO PEDRO DO SUL,RS,...,2010-01-10,21:30:00,,,,NÃO,,0,1,NÃO
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,2010-01-10,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO
12,40414,40414,40414,40414,40414,INCIDENTE,,,BRASÍLIA,DF,...,2010-01-10,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
13,39507,39507,39507,39507,39507,ACIDENTE,-15.5588888889,-54.3047222222,PRIMAVERA DO LESTE,MT,...,2010-01-11,17:00:00,SIM,FINALIZADA,A-016/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
14,40107,40107,40107,40107,40107,ACIDENTE,-1.4169444444,-51.6338888889,GURUPÁ,PA,...,2010-01-12,14:30:00,SIM,FINALIZADA,A-505/CENIPA/2016,SIM,2016-03-18,0,1,NÃO
15,39315,39315,39315,39315,39315,ACIDENTE,-6.615,-64.1116666667,CANUTAMA,AM,...,2010-01-15,21:22:00,SIM,FINALIZADA,A-519/CENIPA/2016,SIM,2017-02-08,0,1,NÃO
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,2010-01-15,15:00:00,,,,NÃO,,0,1,NÃO
17,39810,39810,39810,39810,39810,INCIDENTE,,,SALVADOR,BA,...,2010-01-15,18:23:00,,,,NÃO,,0,1,NÃO
18,39828,39828,39828,39828,39828,INCIDENTE,,,SANTOS,SP,...,2010-01-15,17:45:00,,,,NÃO,,0,1,NÃO
19,44575,44575,44575,44575,44575,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-17,12:27:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [8]:
# Pegando a informação de colunas
df[['ocorrencia_uf', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_uf,ocorrencia_cidade
0,RJ,RIO DE JANEIRO
1,PA,BELÉM
2,RJ,RIO DE JANEIRO
3,MT,LUCAS DO RIO VERDE
4,RS,PELOTAS
...,...,...
6109,PE,RECIFE
6110,RO,PORTO VELHO
6111,PA,BELÉM
6112,MT,DOM AQUINO


## Identificando nulls e nas

In [9]:
# Identificando NA
df.isna().sum()

codigo_ocorrencia                    0
codigo_ocorrencia1                   0
codigo_ocorrencia2                   0
codigo_ocorrencia3                   0
codigo_ocorrencia4                   0
ocorrencia_classificacao             0
ocorrencia_latitude               2290
ocorrencia_longitude              2292
ocorrencia_cidade                    0
ocorrencia_uf                        2
ocorrencia_pais                      0
ocorrencia_aerodromo              2456
ocorrencia_dia                       0
ocorrencia_hora                      1
investigacao_aeronave_liberada    2399
investigacao_status                341
divulgacao_relatorio_numero       3920
divulgacao_relatorio_publicado       0
divulgacao_dia_publicacao         4537
total_recomendacoes                  0
total_aeronaves_envolvidas           0
ocorrencia_saida_pista               0
dtype: int64

In [10]:
# Identificando null 
df.isnull().sum()

codigo_ocorrencia                    0
codigo_ocorrencia1                   0
codigo_ocorrencia2                   0
codigo_ocorrencia3                   0
codigo_ocorrencia4                   0
ocorrencia_classificacao             0
ocorrencia_latitude               2290
ocorrencia_longitude              2292
ocorrencia_cidade                    0
ocorrencia_uf                        2
ocorrencia_pais                      0
ocorrencia_aerodromo              2456
ocorrencia_dia                       0
ocorrencia_hora                      1
investigacao_aeronave_liberada    2399
investigacao_status                341
divulgacao_relatorio_numero       3920
divulgacao_relatorio_publicado       0
divulgacao_dia_publicacao         4537
total_recomendacoes                  0
total_aeronaves_envolvidas           0
ocorrencia_saida_pista               0
dtype: int64

In [16]:
# Localizando linhas com valor nulo em duas colunas através do código de ocorrência
filtro1 = df.ocorrencia_uf.isnull()
filtro2 = df.ocorrencia_hora.isnull()
df.loc[filtro1 | filtro2, ['codigo_ocorrencia']]

Unnamed: 0,codigo_ocorrencia
2227,49474
4102,78823
5855,79956


In [17]:
# Localizando linhas onde a classificação da ocorrência é grave
filtro = df.ocorrencia_classificacao == "INCIDENTE GRAVE"
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
9,39711,39711,39711,39711,39711,INCIDENTE GRAVE,,,PARÁ DE MINAS,MG,...,2010-01-10,20:00:00,,,,NÃO,,0,1,NÃO
29,39709,39709,39709,39709,39709,INCIDENTE GRAVE,-25.4033333333,-49.2336111111,CURITIBA,PR,...,2010-01-23,16:36:00,,FINALIZADA,IG-029/CENIPA/2011,SIM,2011-07-21,2,1,SIM
35,39487,39487,39487,39487,39487,INCIDENTE GRAVE,-10.290000,-48.357778,PALMAS,TO,...,2010-01-26,16:50:00,SIM,FINALIZADA,IG-575/CENIPA/2014,SIM,2014-10-13,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6090,80221,80221,80221,80221,80221,INCIDENTE GRAVE,-13.90611,-38.94000,MARAÚ,BA,...,2021-07-31,13:15:00,SIM,ATIVA,A DEFINIR,NÃO,,0,1,SIM
6095,80228,80228,80228,80228,80228,INCIDENTE GRAVE,-30.050100,-51.445900,ELDORADO DO SUL,RS,...,2021-08-05,15:55:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6097,80231,80231,80231,80231,80231,INCIDENTE GRAVE,-29.19555555555,-51.18972222222,CAXIAS DO SUL,RS,...,2021-08-06,16:59:00,SIM,ATIVA,,NÃO,,0,1,NÃO
6098,80248,80248,80248,80248,80248,INCIDENTE GRAVE,-52.48805,-18.83916,CHAPADÃO DO SUL,MS,...,2021-08-06,20:00:00,SIM,FINALIZADA,,NÃO,,0,1,SIM


In [18]:
# Localizando linhas onde temos incidentes em SP ou RJ
filtro = df.ocorrencia_uf.isin(['SP', 'RJ'])
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,2010-01-10,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,2010-01-15,15:00:00,,,,NÃO,,0,1,NÃO
18,39828,39828,39828,39828,39828,INCIDENTE,,,SANTOS,SP,...,2010-01-15,17:45:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6085,80208,80208,80208,80208,80208,INCIDENTE,-23.506667,-46.633889,SÃO PAULO,SP,...,2021-07-27,19:45:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6096,80229,80229,80229,80229,80229,INCIDENTE,-23.060833,-43.788611,ITAGUAÍ,RJ,...,2021-08-05,15:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6104,80238,80238,80238,80238,80238,INCIDENTE GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,...,2021-08-11,19:09:00,SIM,ATIVA,,NÃO,,0,1,NÃO
6108,80244,80244,80244,80244,80244,INCIDENTE,-22.978841,-46.537076°,BRAGANÇA PAULISTA,SP,...,2021-08-15,15:20:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [50]:
# Localizando os incidentes que ocorreram no mês de janeiro de 2010
filtro =  df.ocorrencia_dia.isin(pd.date_range(start='2010-01-01', end='2010-01-31'))
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5,39807,39807,39807,39807,39807,INCIDENTE,,,SALVADOR,BA,...,2010-01-06,17:53:00,,,,NÃO,,0,1,NÃO
6,40215,40215,40215,40215,40215,INCIDENTE,,,COARI,AM,...,2010-01-07,18:40:00,SIM,FINALIZADA,,NÃO,,0,1,SIM
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
9,39711,39711,39711,39711,39711,INCIDENTE GRAVE,,,PARÁ DE MINAS,MG,...,2010-01-10,20:00:00,,,,NÃO,,0,1,NÃO


In [56]:
# Localizando incidentes que ocorreram no mês de janeiro de 2010, mas de forma diferente
filtro1 = df.ocorrencia_dia.dt.month == 1
filtro2 = df.ocorrencia_dia.dt.year == 2010
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5,39807,39807,39807,39807,39807,INCIDENTE,,,SALVADOR,BA,...,2010-01-06,17:53:00,,,,NÃO,,0,1,NÃO
6,40215,40215,40215,40215,40215,INCIDENTE,,,COARI,AM,...,2010-01-07,18:40:00,SIM,FINALIZADA,,NÃO,,0,1,SIM
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
9,39711,39711,39711,39711,39711,INCIDENTE GRAVE,,,PARÁ DE MINAS,MG,...,2010-01-10,20:00:00,,,,NÃO,,0,1,NÃO


In [51]:
# Localizar ocorrencias em cidades que começam com o caracter A
filtro = df.ocorrencia_cidade.str[0] == "A"
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
109,40087,40087,40087,40087,40087,ACIDENTE,-16.3625,-48.9280555556,ANÁPOLIS,GO,...,2010-03-26,10:45:00,SIM,FINALIZADA,A-082/CENIPA/2011,SIM,2011-09-23,4,1,NÃO
121,40269,40269,40269,40269,40269,INCIDENTE GRAVE,-16.36250,-48.91139,ANÁPOLIS,GO,...,2010-04-07,19:30:00,SIM,FINALIZADA,IG-533/CENIPA/2018,SIM,2019-03-11,1,1,SIM
128,40227,40227,40227,40227,40227,INCIDENTE,,,AREALVA,SP,...,2010-04-12,14:03:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
222,45940,45940,45940,45940,45940,ACIDENTE,2.72278,-62.95028,ALTO ALEGRE,RR,...,2010-06-09,15:00:00,SIM,FINALIZADA,A-598/CENIPA/2018,SIM,2019-06-28,0,1,NÃO
228,41488,41488,41488,41488,41488,ACIDENTE,,,AQUIRAZ,CE,...,2010-06-13,12:50:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6038,80154,80154,80154,80154,80154,ACIDENTE,-1.775,-48.28333,ACARÁ,PA,...,2021-07-02,15:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6050,80173,80173,80173,80173,80173,INCIDENTE,-14.934250,-51.050000,ARUANÃ,GO,...,2021-07-08,13:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6080,80199,80199,80199,80199,80199,INCIDENTE,-23.128333,-46.574722,ATIBAIA,SP,...,2021-07-25,11:50:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6086,80212,80212,80212,80212,80212,INCIDENTE,2.15,-50.89472,AMAPÁ,AP,...,2021-07-28,18:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [54]:
# Localizar ocorrencias em cidades que não possuem o caracter A
filtro = ~(df.ocorrencia_cidade.str.contains("A"))
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
10,39789,39789,39789,39789,39789,INCIDENTE,,,SÃO PEDRO DO SUL,RS,...,2010-01-10,21:30:00,,,,NÃO,,0,1,NÃO
14,40107,40107,40107,40107,40107,ACIDENTE,-1.4169444444,-51.6338888889,GURUPÁ,PA,...,2010-01-12,14:30:00,SIM,FINALIZADA,A-505/CENIPA/2016,SIM,2016-03-18,0,1,NÃO
20,40310,40310,40310,40310,40310,INCIDENTE,,,CRUZEIRO DO SUL,AC,...,2010-01-18,19:32:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
36,39850,39850,39850,39850,39850,INCIDENTE,,,BELÉM,PA,...,2010-01-26,14:30:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6105,80239,80239,80239,80239,80239,INCIDENTE,-19.85194444,-43.86722222,BELO HORIZONTE,MG,...,2021-08-11,19:58:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6107,80243,80243,80243,80243,80243,INCIDENTE,-19.85194,-43.95055,BELO HORIZONTE,MG,...,2021-08-15,17:14:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [60]:
# Criando nova coluna que junta as informações de hora e data
df['ocorrencia_dia_hora'] = df.ocorrencia_dia.astype(str) + " " + df.ocorrencia_hora
df.ocorrencia_dia_hora = pd.to_datetime(df.ocorrencia_dia_hora)
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 12:00:00
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 11:05:00
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 03:00:00
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO,2010-01-04 17:30:00
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-05 19:25:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,15:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2021-08-15 15:05:00
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,02:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2021-08-16 02:30:00
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,15:45:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2021-08-17 15:45:00
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,16:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2021-08-18 16:00:00


In [64]:
# Criando um tabela somente com incidentes em 2020
df2020 = df.loc[df.ocorrencia_dia.dt.year == 2020]
df2020.reset_index(inplace=True)
df2020

Unnamed: 0,index,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
0,5243,79043,79043,79043,79043,79043,ACIDENTE,-22.859722,-46.037500,CAMANDUCAIA,...,21:00:00,,FINALIZADA,A-001/CENIPA/2020,SIM,2021-02-12,1,1,NÃO,2020-01-01 21:00:00
1,5244,79044,79044,79044,79044,79044,INCIDENTE GRAVE,-12.908611,-38.322500,SALVADOR,...,16:35:00,SIM,FINALIZADA,,NÃO,,0,1,SIM,2020-01-03 16:35:00
2,5245,79049,79049,79049,79049,79049,ACIDENTE,-22.137500,-47.256111,LEME,...,21:15:00,SIM,ATIVA,A-002/CENIPA/2020,NÃO,,0,1,NÃO,2020-01-03 21:15:00
3,5246,79132,79132,79132,79132,79132,INCIDENTE,-18.72083333333,-39.8330555,SÃO MATEUS,...,14:10:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-01-03 14:10:00
4,5247,79182,79182,79182,79182,79182,INCIDENTE,-16.631411,-49.222000,GOIÂNIA,...,11:10:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-01-03 11:10:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
505,5748,79804,79804,79804,79804,79804,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,...,19:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-29 19:00:00
506,5749,79757,79757,79757,79757,79757,INCIDENTE GRAVE,-10.804722,-49.756389,LAGOA DA CONFUSÃO,...,18:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-30 18:30:00
507,5750,79802,79802,79802,79802,79802,INCIDENTE,-22.81,-43.25055555555,RIO DE JANEIRO,...,00:54:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-30 00:54:00
508,5751,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,...,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-31 09:00:00


In [65]:
# Verificando valores nulos no novo df
df2020.count()

index                             510
codigo_ocorrencia                 510
codigo_ocorrencia1                510
codigo_ocorrencia2                510
codigo_ocorrencia3                510
codigo_ocorrencia4                510
ocorrencia_classificacao          510
ocorrencia_latitude               508
ocorrencia_longitude              508
ocorrencia_cidade                 510
ocorrencia_uf                     510
ocorrencia_pais                   510
ocorrencia_aerodromo              283
ocorrencia_dia                    510
ocorrencia_hora                   510
investigacao_aeronave_liberada    491
investigacao_status               508
divulgacao_relatorio_numero       146
divulgacao_relatorio_publicado    510
divulgacao_dia_publicacao          43
total_recomendacoes               510
total_aeronaves_envolvidas        510
ocorrencia_saida_pista            510
ocorrencia_dia_hora               510
dtype: int64

In [70]:
# Agrupando os dados pelas categorias da coluna UF fazendo a contagem sobre os valores de codigo_ocorrencia
df2020.groupby(['ocorrencia_uf']).codigo_ocorrencia.count().sort_values(ascending = False)

ocorrencia_uf
SP    131
MG     48
PR     44
MT     37
RJ     36
PA     25
GO     24
SC     23
RS     18
AM     17
MS     16
BA     12
CE     10
MA      8
RO      8
TO      7
PE      7
ES      7
DF      7
RR      6
AL      5
AP      4
AC      4
PI      3
RN      2
PB      1
Name: codigo_ocorrencia, dtype: int64

In [71]:
# Agrupando os dados pelas categorias da coluna UF fazendo a contagem sobre os valores de ocorrencia_aerodromo
# Veja que os valores são diferentes dos obtidos acima
df2020.groupby(['ocorrencia_uf']).ocorrencia_aerodromo.count().sort_values(ascending = False)

ocorrencia_uf
SP    81
MG    33
PR    29
RJ    21
AM    15
SC    12
MT    10
PA    10
RS     9
CE     6
BA     6
GO     6
DF     5
MS     5
PE     5
RR     4
RO     4
TO     4
AL     4
ES     3
AP     3
RN     2
MA     2
AC     2
PI     1
PB     1
Name: ocorrencia_aerodromo, dtype: int64

In [73]:
# Agrupando pela classificação da ocorrência e UF em um dataframe exclusivo da região sudeste em 2020
dfsud2020 = df2020.loc[df2020.ocorrencia_uf.isin(['RJ', 'SP', 'ES', 'MG'])]
dfsud2020

Unnamed: 0,index,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
0,5243,79043,79043,79043,79043,79043,ACIDENTE,-22.859722,-46.037500,CAMANDUCAIA,...,21:00:00,,FINALIZADA,A-001/CENIPA/2020,SIM,2021-02-12,1,1,NÃO,2020-01-01 21:00:00
2,5245,79049,79049,79049,79049,79049,ACIDENTE,-22.137500,-47.256111,LEME,...,21:15:00,SIM,ATIVA,A-002/CENIPA/2020,NÃO,,0,1,NÃO,2020-01-03 21:15:00
3,5246,79132,79132,79132,79132,79132,INCIDENTE,-18.72083333333,-39.8330555,SÃO MATEUS,...,14:10:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-01-03 14:10:00
6,5249,79052,79052,79052,79052,79052,INCIDENTE,-23.006944,-47.13444,CAMPINAS,...,17:15:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-01-05 17:15:00
7,5250,79054,79054,79054,79054,79054,INCIDENTE,-23.006944,-47.134444,CAMPINAS,...,13:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-01-08 13:30:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
500,5743,79800,79800,79800,79800,79800,INCIDENTE,-23.506667,-46.633889,SÃO PAULO,...,10:15:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-28 10:15:00
501,5744,79824,79824,79824,79824,79824,ACIDENTE,-19.2125,-46.2405555555,RIO PARANAÍBA,...,17:00:00,SIM,ATIVA,A-159/CENIPA/2020,NÃO,,0,1,NÃO,2020-12-28 17:00:00
505,5748,79804,79804,79804,79804,79804,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,...,19:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-29 19:00:00
507,5750,79802,79802,79802,79802,79802,INCIDENTE,-22.81,-43.25055555555,RIO DE JANEIRO,...,00:54:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2020-12-30 00:54:00


In [76]:
# Agrupando tipos das ocorrências por estado e classificação da ocorrência
dfsud2020.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).codigo_ocorrencia.count()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  ES                3
                          MG               14
                          RJ                4
                          SP               30
INCIDENTE                 ES                4
                          MG               27
                          RJ               29
                          SP               86
INCIDENTE GRAVE           MG                7
                          RJ                3
                          SP               15
Name: codigo_ocorrencia, dtype: int64

In [77]:
# Mostrando quantas recomendações cada estado teve ao todo
dfsud2020.groupby(['ocorrencia_uf']).total_recomendacoes.sum().sort_values()

ocorrencia_uf
RJ     0
ES     1
MG     5
SP    14
Name: total_recomendacoes, dtype: int64

In [81]:
# Mostrando a quantidade de incidentes pelo mês e estado
dfsud2020.groupby([dfsud2020.ocorrencia_dia.dt.month]).codigo_ocorrencia.count()

ocorrencia_dia
1     26
2     20
3     27
4     21
5      9
6     18
7     16
8     20
9     17
10    14
11    15
12    19
Name: codigo_ocorrencia, dtype: int64