# Etapa 1 - Extração do Dados

In [1]:
import pandas as pd

In [14]:
dataframe = pd.read_csv("ocorrencia_2010_2020_v2.csv")
dataframe

Unnamed: 0,codigo_ocorrencia;codigo_ocorrencia2;ocorrencia_classificacao;ocorrencia_cidade;ocorrencia_uf;ocorrencia_aerodromo;ocorrencia_dia;ocorrencia_hora;total_recomendacoes
0,40211;40211;INCIDENTE;RIO DE JANEIRO;RJ;****;0...
1,40349;40349;INCIDENTE;BELÉM;PA;SBBE;03/01/2010...
2,40351;40351;INCIDENTE;RIO DE JANEIRO;RJ;SBRJ;0...
3,39527;39527;ACIDENTE;LUCAS DO RIO VERDE;MT;***...
4,40324;40324;INCIDENTE;PELOTAS;RS;SBPK;05/01/20...
...,...
5748,79757;79757;INCIDENTE GRAVE;LAGOA DA CONFUSÃO;...
5749,79802;79802;INCIDENTE;RIO DE JANEIRO;RJ;SBGL;3...
5750,79756;79756;INCIDENTE GRAVE;VICENTINA;MS;****;...
5751,79844;79844;INCIDENTE;RIO DE JANEIRO;RJ;SBJR;3...


In [15]:
#separando o arquivo por ";"

df = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";")
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,03/01/2010,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,03/01/2010,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,03/01/2010,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,04/01/2010,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,05/01/2010,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,30/12/2020,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,30/12/2020,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,31/12/2020,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,31/12/2020,13:24:00,0


In [16]:
#verificando tipos de dados do dataset

df.dtypes

codigo_ocorrencia            int64
codigo_ocorrencia2           int64
ocorrencia_classificacao    object
ocorrencia_cidade           object
ocorrencia_uf               object
ocorrencia_aerodromo        object
ocorrencia_dia              object
ocorrencia_hora             object
total_recomendacoes          int64
dtype: object

In [17]:
#manipulando coluna ocorrencia_dia
df.ocorrencia_dia.dt.month

AttributeError: Can only use .dt accessor with datetimelike values

A coluna ocorrencia_dia foi carregada como tipo objeto como vimos acima, precisamos transformá-la no typo especial de data para realizar sua manipúlação.

In [18]:
#classsificando coluna 'ocorrencia_dia' como tipo datetame

df2 = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";", parse_dates=['ocorrencia_dia'])

In [19]:
df2.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [20]:
df2.ocorrencia_dia.dt.month

0        3
1        3
2        3
3        4
4        5
        ..
5748    12
5749    12
5750    12
5751    12
5752     1
Name: ocorrencia_dia, Length: 5753, dtype: int64

-----------------------------

# Etapa 2 - Validação dos Dados

In [21]:
df2.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-03-01,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-03-01,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-03-01,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-04-01,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-05-01,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-06-01,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-07-01,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-09-01,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-10-01,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-10-01,20:00:00,0


### Validação da ordem de data e mês no dataset:

In [22]:
df3 = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True)
df3.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


### Validando os tipos de dados do dataframe.


Criaremos uma ocorrência que irá validar se a coluna ocorrencia_dia é do tipo data, caso não seja o processo 
será parado com uma exceção'''

- A biblioteca Pandera permite realizar a validação dos dados, retornando um erro caso os dados não estejam de acordo com o que precisamos.

In [23]:
import pandera as pa

In [24]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.DateTime)
        
    }
)
schema.validate(df3)

SchemaError: expected series 'codigo_ocorrencia' to have type 'datetime64[ns]', got 'int64'

**Observe acima que ao criar schemas ele possibilita o retorno de mensagems caso algum dado esteja divergente ao nosso esquema proposto.**

**O erro acima retorna que existe em agum dado inválido na coluna ocorrência_dia do Dataframe.**

A vantagem de usar os SCHEMAS da biblioteca Pandera é exatamente bloquear os erros e tratá-los a cada passo do processo de validação dos Dados.

In [25]:
#Validaremos a seguir apenas uma coluna codigo_ocorrencia para o tipo Int

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int)
        
    }
)

In [26]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


In [27]:
# Após verificar o sucesso na validação, podemos validar todas as colunas do nosso DataFrame

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [28]:
schema.validate(df3)

SchemaError: non-nullable series 'ocorrencia_hora' contains null values: {4100: nan}

Observe que agora possímos outro erro na coluna **ocorrencia_hora** onde ela contém valores nulos.

In [29]:
#corrigindo erro coluna ocorrencia_hora

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [30]:
#Verificado que os dados estão Validados

schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


** OBS: É impostante salientar que a validação realizada nos passos anteriores agora permite valores nulos nas colunas "ocorrencia_dia" e "ocorrencia_hora"**

### Validando Formato de horas em 24 horas

In [31]:
#criando uma expressão regular para tratar a coluna ocorrencia_hora

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [32]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


### Validando Tamanho de caracteres em uma coluna

Algumas colunas podem requerer limitado número de valores, por exempo, a coluna **ocorrencia_uf** onde é a abreviação de um Estado.

In [33]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)
schema.validate(df3)

SchemaError: column 'codigo' not in dataframe
   codigo_ocorrencia  codigo_ocorrencia2 ocorrencia_classificacao  \
0              40211               40211                INCIDENTE   
1              40349               40349                INCIDENTE   
2              40351               40351                INCIDENTE   
3              39527               39527                 ACIDENTE   
4              40324               40324                INCIDENTE   

    ocorrencia_cidade ocorrencia_uf ocorrencia_aerodromo ocorrencia_dia  \
0      RIO DE JANEIRO            RJ                 ****     2010-01-03   
1               BELÉM            PA                 SBBE     2010-01-03   
2      RIO DE JANEIRO            RJ                 SBRJ     2010-01-03   
3  LUCAS DO RIO VERDE            MT                 ****     2010-01-04   
4             PELOTAS            RS                 SBPK     2010-01-05   

  ocorrencia_hora  total_recomendacoes  
0        12:00:00                    0  
1        11:05:00                    0  
2        03:00:00                    0  
3        17:30:00                    0  
4        19:25:00                    0  

** Para tratar esse erro utilizamor o parâmetro Require: **

In [34]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


### Require False

Um caso bastante comum é trabalharmos com o Dataframe onde podem aparecer e sumir algumas colunas conforme a necessidade.

se observamor no codigo abaixo, iremos inserir uma coluna que não existe e será apresentado um erro:

In [35]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

** Como observado existe o caso onde existe uma coluna com dados considerados sujos, três asteríscos.**

Podemos tratá-lo a seguir na Etapa 3 realizando o processo de Limpeza de Dados.

In [36]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


===========================================================================================================

<center>***Alguns métodos de manipulação de DataFrame:***</center>

In [37]:
df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [38]:
df3.loc[1, 'ocorrencia_cidade']

'BELÉM'

In [39]:
df3.loc[3]

codigo_ocorrencia                         39527
codigo_ocorrencia2                        39527
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade            LUCAS DO RIO VERDE
ocorrencia_uf                                MT
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-04 00:00:00
ocorrencia_hora                        17:30:00
total_recomendacoes                           0
Name: 3, dtype: object

In [40]:
df3.loc[1:3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0


In [41]:
df3.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,****,2010-01-10,21:30:00,0
40,39158,39158,INCIDENTE,BELÉM,PA,****,2010-01-28,16:00:00,0


In [42]:
df3.loc[:,'ocorrencia_cidade']

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
5748     LAGOA DA CONFUSÃO
5749        RIO DE JANEIRO
5750             VICENTINA
5751        RIO DE JANEIRO
5752        RIO DE JANEIRO
Name: ocorrencia_cidade, Length: 5753, dtype: object

In [43]:
#verificando se uma tabela é unica no DataFrame

df3.codigo_ocorrencia.is_unique

False

In [44]:
#Definindo coluna 'codigo_ocorrencia' como índice da tabela (não altera o DataFrame real, apenas no momento)

df3.set_index('codigo_ocorrencia')

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...
79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0
79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


Caso quisesse alterar definitivamente o índice:

**df3.set_index('codigo_ocorrencia' inplace=True)**

Caso quisesse resetar após alterar:

**df3.reset_index(drop=True, inplace=True)**


In [45]:
df3.loc[0, 'ocorrencia_aerodromo'] = ''

In [46]:
df3.head(1)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0


In [47]:
df3.loc[1] = 20

In [49]:
df3.head(2)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,0
1,20,20,20,20,20,20.0,20,20,20


In [51]:
df3.loc[:,'total_recomendacoes'] = 10

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


In [52]:
#criando uma coluna de backup

df3['ocorrencia_uf_bkp'] = df.ocorrencia_uf

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10,RJ
1,20,20,20,20,20,20,20,20,10,PA
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10,RJ
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10,MT
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10,RS
...,...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10,TO
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10,RJ
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10,MS
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10,RJ


In [53]:
#Excluíndo coluna  de backup

df3.drop(['ocorrencia_uf_bkp'], axis=1, inplace=True)

##### Alterando valores de uma coluna conforme uma classificação

Para exemplo vamos alterar para GRAVE, na coluna 'ocorrencia_classificacao', todos as linhas que forem de SP na coluna 'ocorrencia_uf'.

In [54]:
df3.loc[df3.ocorrencia_uf == 'SP', ['ocorrencia_classificacao']] = 'GRAVE'

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


In [55]:
df3.loc[df3.ocorrencia_uf == 'SP']

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
11,40069,40069,GRAVE,SÃO PAULO,SP,SBMT,2010-01-10 00:00:00,14:50:00,10
16,39809,39809,GRAVE,SÃO PAULO,SP,****,2010-01-15 00:00:00,15:00:00,10
18,39828,39828,GRAVE,SANTOS,SP,****,2010-01-15 00:00:00,17:45:00,10
26,39847,39847,GRAVE,SOROCABA,SP,****,2010-01-20 00:00:00,13:10:00,10
27,39768,39768,GRAVE,CAMPINAS,SP,****,2010-01-21 00:00:00,20:45:00,10
...,...,...,...,...,...,...,...,...,...
5704,79739,79739,GRAVE,SÃO PAULO,SP,SBSP,2020-12-03 00:00:00,14:42:00,10
5705,79705,79705,GRAVE,SOROCABA,SP,SDCO,2020-12-04 00:00:00,15:30:00,10
5715,79718,79718,GRAVE,SÃO PAULO,SP,SBMT,2020-12-11 00:00:00,13:50:00,10
5742,79800,79800,GRAVE,SÃO PAULO,SP,SBMT,2020-12-28 00:00:00,10:15:00,10


===========================================================================================================

# Etapa 3 - Limpeza dos Dados

Mesmo após a validação, ainda existem dados que não estão prontos para serem Transformados.

Dados como #, ?, ! * devem ser retirados para que o nosso DataFrame pois não são úteis do ponto de vista lógico.

- Após verificar a planilha cvs, identificamos que os arquivos a serem limpos são:

**ocorrencia_uf:** (**)


**ocorrencia_aerodromo:** (##! - #### - **** - *****)


**ocorrencia_hora:** (NULL)

In [56]:
df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10


In [58]:
#Limpando todas as linhas de ocorrencia_aerodromo que contém ****
## pa.NA = manipula valores not avaliable em uma celula

df3.loc[df3.ocorrencia_aerodromo == '****', ['ocorrencia_aerodromo']] = pd.NA

In [59]:
df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10


In [74]:
#Fazendo a alterações no Dataset como um todo

df3.replace(['**','***','****','*****','###!','####','NULL'], pd.NA, inplace=True)

### Limpeza em Tempo de Execução


- Poderíamos ter armazenando os valores de exceção, dentro de uma váriavel:


valores_ausentes = ['**','***','****','*****','###!','####','NULL']

df3 = pd.read_csv("ocorrencia_2010_2020.csv", sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df3.head(10)

In [61]:
df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


#### O Pandas oferece dois recursos específico para verificar qual a quantidade de dados NOT AVALIABLE do DataFrame.

E mediante esses dados, podemos manipular (alterar) valores desses dados

In [62]:
df3.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2348
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [63]:
#ou

df3.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2348
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

#### Podemos incluir valores em dados não informados:

In [64]:
#inserindo valor 0 em dados NA em tempo de visualização

df3.fillna(0)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,0,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,0,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


In [65]:
df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10


In [66]:
#inserindo valor 0 em TODOS os dados NA definitivamente 

df3.fillna(0, inplace=True)

df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10


In [67]:
#zerou a soma dos valores 

df3.isna().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

**Observe acima que não existem mais valores nulos acima!**

In [68]:
# alterando de valor 0 para 10 os valores alterados

df3.replace([10], pd.NA, inplace=True)

In [69]:
df3.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  0
ocorrencia_aerodromo           0
ocorrencia_dia                 0
ocorrencia_hora                0
total_recomendacoes         5753
dtype: int64

In [70]:
df3.fillna(value={'total_recomendacoes':10}, inplace=True)

In [71]:
df3.isnull().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

### Excluíndo valores duplicados

observe que as duas ultimas linhas do DataFrame estão duplicadas. Iremos excluídas

In [72]:
df3


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,0,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,0,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


In [73]:
df3.drop_duplicates(inplace=True)

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,0,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,0,2020-12-31 00:00:00,09:00:00,10
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31 00:00:00,13:24:00,10


# Etapa 4 - Transformação dos Dados

Fazendo a manipulação para gerar novas informações que poderão ser utilizadas por outros algoritmos ou ferramentas.

In [97]:
valores_ausentes = ['**','****','*****','###!','####','NULL']

df3 = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes) 

df3.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0


In [98]:
schema.validate(df3)

SchemaError: non-nullable series 'ocorrencia_aerodromo' contains null values: {0: nan, 3: nan, 5: nan, 7: nan, 9: nan, 10: nan, 13: nan, 15: nan, 16: nan, 17: nan}

In [103]:
#Corrigindo o erro:

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [105]:
#Varificando validação

schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


In [108]:
df3.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [110]:
#Pesquisando informações de uma linha de nosso Dataframe

df3.loc[1]

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [112]:
#Pesquisando informações de um índice de nosso Dataframe

df3.iloc[1]

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [114]:
#Pesquisando informações do ultimo índice de nosso Dataframe

df3.iloc[-1]

codigo_ocorrencia                         79844
codigo_ocorrencia2                        79844
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       SBJR
ocorrencia_dia              2021-01-01 00:00:00
ocorrencia_hora                        13:24:00
total_recomendacoes                           0
Name: 5752, dtype: object

In [115]:
#Pesquisando informações de uma coluna do Dataframe

df3.loc[:, 'ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5748    TO
5749    RJ
5750    MS
5751    RJ
5752    RJ
Name: ocorrencia_uf, Length: 5753, dtype: object

In [116]:
#ou

df3['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5748    TO
5749    RJ
5750    MS
5751    RJ
5752    RJ
Name: ocorrencia_uf, Length: 5753, dtype: object

In [124]:
#pesquisando valores nulos no DF

df3.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

### Criando Filtros

In [121]:
#criando um filtro de valores nulos na coluna ocorrencia_uf

filtro = df3.ocorrencia_uf.isnull()
df3.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0


In [122]:
#criando um filtro de valores nulos na coluna ocorrencia_aerodromo

filtro = df3.ocorrencia_aerodromo.isnull()
df3.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
5741,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0


In [123]:
#criando um filtro de valores nulos na coluna ocorrencia_hora

filtro = df3.ocorrencia_hora.isnull()
df3.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
4100,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-07-09,,0


### Calculando valores Nulos dentro do DF

Pelo count, podemos inicialmente realizar a conta do total de valores nulos dentro do DF:

In [125]:
df3.count()

codigo_ocorrencia           5753
codigo_ocorrencia2          5753
ocorrencia_classificacao    5753
ocorrencia_cidade           5753
ocorrencia_uf               5752
ocorrencia_aerodromo        3404
ocorrencia_dia              5753
ocorrencia_hora             5752
total_recomendacoes         5753
dtype: int64

O valor total de ocorrencias é de 5753.

Observer que  na coluna ocorrencia_uf temos o valor 5752 e na coluna ocorrencia_aerodromo 3404.

**Isso acontece pq o count não conta valores nulos no Data Frame**

In [126]:
#Ocorrências com mais de 10 recomendações

filtro_recomendacoes = df3.total_recomendacoes >10

In [127]:
df.loc[filtro_recomendacoes]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,17/02/2010,20:07:00,11
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,12/08/2010,12:26:00,19
530,43471,43471,ACIDENTE,SÃO PAULO,SP,****,14/12/2010,20:15:00,11
727,44377,44377,ACIDENTE,ITÁPOLIS,SP,SDIO,09/04/2011,14:50:00,11
872,44796,44796,ACIDENTE,RECIFE,PE,SBRF,13/07/2011,09:54:00,23
884,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,SBCT,15/07/2011,17:05:00,11
1062,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,15/11/2011,02:15:00,20
1972,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,13/04/2013,18:00:00,11
2795,52265,52265,ACIDENTE,SANTOS,SP,****,13/08/2014,13:03:00,13
3930,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,****,21/02/2017,11:47:00,12


In [132]:
#Cidades das ocorrências com mais de 10 recomendações

filtro_recomendacoes_cidades = df3.total_recomendacoes > 10
df3.loc [filtro_recomendacoes_cidades, 'ocorrencia_cidade']

63                 SÃO PAULO
326           RIO DE JANEIRO
530                SÃO PAULO
727                 ITÁPOLIS
872                   RECIFE
884     SÃO JOSÉ DOS PINHAIS
1062              UBERLÂNDIA
1972                BRASÍLIA
2795                  SANTOS
3930                 VITÓRIA
Name: ocorrencia_cidade, dtype: object

In [134]:
#Verificando lista de cidades e total de comendações:

filtro_recomendacoes_cidades = df3.total_recomendacoes > 10
df3.loc [filtro_recomendacoes_cidades, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2795,SANTOS,13
3930,VITÓRIA,12


In [135]:
#Filtrando ocorrencias do tipo incidente grave

filtro_incidentes_graves = df3.ocorrencia_classificacao =='INCIDENTE GRAVE'
df3.loc [filtro_incidentes_graves, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
7,CANUTAMA,3
8,CASCAVEL,2
9,PARÁ DE MINAS,0
29,CURITIBA,2
35,PALMAS,0
...,...,...
5741,NOVA MARINGÁ,0
5744,GOIATUBA,0
5746,MANOEL URBANO,0
5748,LAGOA DA CONFUSÃO,0


In [136]:
#COMBINANDO DOIS FILTROS - Incidentes Graves e SP

filtro1 = df3.ocorrencia_classificacao =='INCIDENTE GRAVE'
filtro2 = df3.ocorrencia_uf == 'SP'
df3.loc [filtro1 & filtro2]



Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
136,40270,40270,INCIDENTE GRAVE,PIRASSUNUNGA,SP,SDPY,2010-04-15,20:15:00,0
171,40620,40620,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2010-05-06,15:50:00,0
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2
297,42289,42289,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-07-29,20:06:00,0
314,42323,42323,INCIDENTE GRAVE,SÃO JOSÉ DO RIO PRETO,SP,SBSR,2010-08-05,12:01:00,0
...,...,...,...,...,...,...,...,...,...
5591,79540,79540,INCIDENTE GRAVE,SÃO PAULO,SP,,2020-09-12,13:10:00,0
5610,79566,79566,INCIDENTE GRAVE,REGENTE FEIJÓ,SP,SDYJ,2020-09-27,19:33:00,0
5704,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5705,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0


In [137]:
#COMBINANDO DOIS FILTROS - Incidentes Graves ou SP

filtro1 = df3.ocorrencia_classificacao =='INCIDENTE GRAVE'
filtro2 = df3.ocorrencia_uf == 'SP'
df3.loc [filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
...,...,...,...,...,...,...,...,...,...
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0
5746,79769,79769,INCIDENTE GRAVE,MANOEL URBANO,AC,SIMB,2020-12-29,18:30:00,0
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0


In [144]:
#Ocorrências cuja (classificação == INCIDENTE GRAVE OU INCIDENTE) E estado == SP

filtro1 = df3.ocorrencia_classificacao == 'INCIDENTE GRAVE' | df3.ocorrencia_classificacao == 'INCIDENTE'
filtro2 = df3.ocorrencia_uf == 'SP'
df3.loc [filtro1 & filtro2]

TypeError: Cannot perform 'ror_' with a dtyped [object] array and scalar of type [bool]

Note q o erro acima se dá por falta de colocar as comparações do OU dentro de parenteses:

In [145]:
filtro1 = (df3.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df3.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df3.ocorrencia_uf == 'SP'
df3.loc [filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
5704,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5705,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0
5715,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5742,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [146]:
#fazendo a mesma coisa anterior utilizando a função is in

filtro1 = df3.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df3.ocorrencia_uf == 'SP'
df3.loc [filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
5704,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5705,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0
5715,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5742,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [149]:
#Filtro cidades com inicio letra C

filtro_c = df3.ocorrencia_cidade.str[0] == 'C'
df3.loc[filtro_c]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
20,40310,40310,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2010-01-18,19:32:00,0
...,...,...,...,...,...,...,...,...,...
5661,79649,79649,INCIDENTE,CAMPINAS,SP,SBKP,2020-11-04,22:39:00,0
5663,79652,79652,INCIDENTE,CONFINS,MG,SBCF,2020-11-06,14:20:00,0
5680,79683,79683,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2020-11-16,22:00:00,0
5696,79692,79692,ACIDENTE,CATANDUVA,SP,SDCD,2020-11-28,12:50:00,0


In [153]:
#Filtro cidades com fim letra a

filtro_a = df3.ocorrencia_cidade.str[-1] == 'A'
df3.loc[filtro_a]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
25,39772,39772,INCIDENTE,UBERLÂNDIA,MG,,2010-01-20,18:58:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
...,...,...,...,...,...,...,...,...,...
5738,79787,79787,INCIDENTE,FORTALEZA,CE,SBFZ,2020-12-23,18:30:00,0
5739,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5743,79824,79824,ACIDENTE,RIO PARANAÍBA,MG,SNRP,2020-12-28,17:00:00,0
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0


In [155]:
#Filtro cidades com fim letras ma

filtro_ma = df3.ocorrencia_cidade.str[-2:] == 'MA'
df3.loc[filtro_ma]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
408,43062,43062,ACIDENTE,NOVO GAMA,GO,,2010-09-25,16:30:00,1
688,44198,44198,ACIDENTE,BURITAMA,SP,,2011-03-19,11:18:00,0
1035,51785,51785,INCIDENTE,BURITAMA,SP,SIBX,2011-10-25,19:15:00,0
1377,45939,45939,ACIDENTE,UMUARAMA,PR,,2012-05-30,19:00:00,0
1401,46180,46180,ACIDENTE,AURIFLAMA,SP,,2012-06-16,19:30:00,0
2099,49113,49113,INCIDENTE GRAVE,NOVA LIMA,MG,,2013-06-15,12:00:00,4
2102,48799,48799,ACIDENTE,CANUTAMA,AM,,2013-06-18,21:30:00,0
2655,51347,51347,INCIDENTE,DIADEMA,SP,,2014-05-04,16:00:00,0


In [156]:
#Filtro cidades q contém  letras ma

filtro_ma = df3.ocorrencia_cidade.str.contains('MA')
df3.loc[filtro_ma]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0
78,39916,39916,INCIDENTE GRAVE,MANAUS,AM,SBEG,2010-03-07,19:35:00,2
...,...,...,...,...,...,...,...,...,...
5732,79745,79745,INCIDENTE,MARABÁ,PA,SBMA,2020-12-21,08:47:00,0
5739,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5741,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0


In [157]:
#Filtro cidades q contém  letras ma ou al

filtro_maal = df3.ocorrencia_cidade.str.contains('MA | AL')
df3.loc[filtro_maal]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
110,40089,40089,ACIDENTE,VILA BELA DA SANTÍSSIMA TRINDADE,MT,,2010-03-28,15:10:00,0
130,40258,40258,INCIDENTE,MONTE ALEGRE,PA,,2010-04-12,18:10:00,0
131,40327,40327,INCIDENTE,PORTO ALEGRE,RS,,2010-04-12,13:13:00,0
133,40248,40248,INCIDENTE,PORTO ALEGRE,RS,SBPA,2010-04-13,18:47:00,0
156,40572,40572,ACIDENTE,PORTO ALEGRE,RS,SBPA,2010-04-28,14:10:00,0
...,...,...,...,...,...,...,...,...,...
5652,79645,79645,ACIDENTE,ALTO ALEGRE,RR,,2020-10-28,12:25:00,0
5659,79647,79647,INCIDENTE,PORTO ALEGRE,RS,SBPA,2020-11-01,18:20:00,0
5679,79678,79678,ACIDENTE,VILA BELA DA SANTÍSSIMA TRINDADE,MT,,2020-11-16,14:15:00,0
5682,79684,79684,INCIDENTE,PORTO ALEGRE,RS,SBPA,2020-11-17,20:18:00,0


In [168]:
#Filtros em Datas - ano 2015

filtro_data = df3.ocorrencia_dia.dt.year == 2015
df3.loc[filtro_data]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2996,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
2997,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
2998,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
2999,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
3000,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
3462,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
3463,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
3464,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
3465,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [169]:
#Filtros em Datas - ano 2016 mês 12

filtro_data = df3.ocorrencia_dia.dt.year == 2016
filtro_mes = df3.ocorrencia_dia.dt.month == 12
df3.loc[filtro_data & filtro_mes]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3832,66081,66081,INCIDENTE,SÃO PAULO,SP,SBMT,2016-12-01,14:45:00,0
3833,66073,66073,INCIDENTE,FORTALEZA,CE,SBFZ,2016-12-02,19:30:00,0
3834,66083,66083,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2016-12-02,20:46:00,0
3835,66076,66076,INCIDENTE GRAVE,CARUARU,PE,,2016-12-03,10:25:00,1
3836,66066,66066,ACIDENTE,SANTA VITÓRIA DO PALMAR,RS,,2016-12-04,12:00:00,0
3837,66075,66075,INCIDENTE,PATO BRANCO,PR,SSPB,2016-12-04,18:23:00,0
3838,66078,66078,ACIDENTE,SÃO LOURENÇO DA SERRA,SP,,2016-12-04,18:30:00,2
3839,66430,66430,INCIDENTE,SÃO PAULO,SP,SBSP,2016-12-04,11:54:00,0
3840,66084,66084,ACIDENTE,CRUZ MACHADO,PR,,2016-12-05,14:15:00,0
3841,66086,66086,ACIDENTE,MANAUS,AM,,2016-12-07,11:50:00,2


In [170]:
#Filtros em Datas - ano 2020 mês 5 dia 10

filtro_data = df3.ocorrencia_dia.dt.year == 2015
filtro_mes = df3.ocorrencia_dia.dt.month == 12
filtro_dia = df3.ocorrencia_dia.dt.day == 8
df3.loc[filtro_data & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3436,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3437,53629,53629,ACIDENTE,JALES,SP,SDJL,2015-12-08,10:20:00,0
3438,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
3439,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [172]:
#Filtros em Datas - ano 2020 mês 5 dia 3 ao dia 10

filtro_data = df3.ocorrencia_dia.dt.year == 2015
filtro_mes = df3.ocorrencia_dia.dt.month == 12
filtro_dia = (df3.ocorrencia_dia.dt.day >= 3) & (df3.ocorrencia_dia.dt.day <= 10)
df3.loc[filtro_data & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3432,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
3433,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
3434,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
3435,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
3436,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3437,53629,53629,ACIDENTE,JALES,SP,SDJL,2015-12-08,10:20:00,0
3438,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
3439,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [174]:
#Transformando duas colunas em uma data e hora

df3 = ['ocorrencia_dia_hora'] = df3.ocorrencia_dia + ' ' + df3.ocorrencia_hora

SyntaxError: cannot assign to literal (<ipython-input-174-95935eb6fc03>, line 3)

O erro acima acontece pq não é possível unir algo do tipo data (dia) com algo do tipo strink (hora).

Precisamos transformar o tipo data em string:

In [179]:
df3.ocorrencia_dia.astype(str) + ' ' + df3.ocorrencia_hora

0       2010-01-03 12:00:00
1       2010-01-03 11:05:00
2       2010-01-03 03:00:00
3       2010-01-04 17:30:00
4       2010-01-05 19:25:00
               ...         
5748    2020-12-30 18:30:00
5749    2020-12-30 00:54:00
5750    2020-12-31 09:00:00
5751    2020-12-31 13:24:00
5752    2021-01-01 13:24:00
Length: 5753, dtype: object

### Agrupamento de valores

In [195]:
filtro1 = df3.ocorrencia_dia.dt.year == 2015
filtro2 = df3.ocorrencia_dia.dt.month == 12

df201503 = df3.loc[filtro1 & filtro2]

df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3428,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,02:48:00,0
3429,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0
3430,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0
3431,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0
3432,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
3433,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
3434,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
3435,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
3436,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3437,53629,53629,ACIDENTE,JALES,SP,SDJL,2015-12-08,10:20:00,0


In [196]:
df201503.count()

codigo_ocorrencia           39
codigo_ocorrencia2          39
ocorrencia_classificacao    39
ocorrencia_cidade           39
ocorrencia_uf               39
ocorrencia_aerodromo        31
ocorrencia_dia              39
ocorrencia_hora             39
total_recomendacoes         39
dtype: int64

In [198]:
#Agrupando codigo de ococrrencia

df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           14
INCIDENTE          23
INCIDENTE GRAVE     2
Name: codigo_ocorrencia, dtype: int64

In [200]:
#ou

df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           14
INCIDENTE          23
INCIDENTE GRAVE     2
dtype: int64

In [201]:
#ordenando valores ordem crescente

df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     2
ACIDENTE           14
INCIDENTE          23
dtype: int64

In [202]:
#ordenando valores ordem decrescente

df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          23
ACIDENTE           14
INCIDENTE GRAVE     2
dtype: int64

In [205]:
#Agrupando dados da região sudeste ano 2010

filtro_ano = df3.ocorrencia_dia.dt.year == 2010
filtro_regiao = df3.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df3.loc[filtro_ano & filtro_regiao]

dfsudeste2010

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
...,...,...,...,...,...,...,...,...,...
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0


In [206]:
#contando

dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [207]:
#contando classificação por estado

dfsudeste2010.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  MG                7
                          RJ                9
                          SP               24
INCIDENTE                 ES                5
                          MG               39
                          RJ               52
                          SP               74
INCIDENTE GRAVE           MG                5
                          RJ                4
                          SP                9
dtype: int64

In [208]:
#contando classificação por cidade


dfsudeste2010.groupby(['ocorrencia_cidade']).size()

ocorrencia_cidade
AMERICANA                 1
ARARAQUARA                2
ARAÇATUBA                 1
AREALVA                   2
ARRAIAL DO CABO           1
BAURU                     2
BEBEDOURO                 1
BELO HORIZONTE           17
BOCAINA                   1
BOITUVA                   1
BOM JESUS DO AMPARO       1
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         1
BROTAS                    1
CAJOBI                    1
CAMANDUCAIA               1
CAMPINAS                 13
CAMPOS DOS GOYTACAZES     2
CASIMIRO DE ABREU         1
CONFINS                   7
COROMANDEL                1
COSMÓPOLIS                1
DIAMANTINA                1
DIVINÓPOLIS               2
GUARULHOS                18
IPATINGA                  2
IPERÓ                     1
ITANHAÉM                  2
ITÁPOLIS                  1
JUIZ DE FORA              4
JUNDIAÍ                   2
LINHARES                  1
MACAÉ                    12
MANGARATIBA               1
MARÍLIA                   3
MO

In [213]:
#Classificando ordem decrescente

dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [214]:
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False).head()

ocorrencia_cidade
RIO DE JANEIRO    47
SÃO PAULO         33
GUARULHOS         18
BELO HORIZONTE    17
CAMPINAS          13
dtype: int64

In [215]:
#Verificar informações de cidade com maior ocorrencias:

filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
19,44575,44575,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-01-17,12:27:00,0
23,40311,40311,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-19,13:20:00,0
24,41577,41577,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-19,12:16:00,0
30,39849,39849,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-01-23,03:30:00,0
39,40617,40617,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-01-27,20:06:00,0
49,39295,39295,ACIDENTE,RIO DE JANEIRO,RJ,,2010-02-06,21:09:00,0
71,39987,39987,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2010-02-24,19:37:00,0
101,40210,40210,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2010-03-20,20:02:00,0


In [216]:
#Verificando total de recomendações que o RJ teve

filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()

25

In [224]:
#Verificando total de recomendações da Região Sudeste

dfsudeste2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()


ocorrencia_cidade
AMERICANA                 0
ARARAQUARA                0
ARAÇATUBA                 0
AREALVA                   0
ARRAIAL DO CABO           0
BAURU                     0
BEBEDOURO                 0
BELO HORIZONTE            2
BOCAINA                   0
BOITUVA                   1
BOM JESUS DO AMPARO       0
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
BROTAS                    0
CAJOBI                    0
CAMANDUCAIA               9
CAMPINAS                  0
CAMPOS DOS GOYTACAZES     0
CASIMIRO DE ABREU         0
CONFINS                   0
COROMANDEL                0
COSMÓPOLIS                0
DIAMANTINA                0
DIVINÓPOLIS               0
GUARULHOS                 0
IPATINGA                  0
IPERÓ                     3
ITANHAÉM                  1
ITÁPOLIS                  0
JUIZ DE FORA              0
JUNDIAÍ                   7
LINHARES                  0
MACAÉ                     0
MANGARATIBA               0
MARÍLIA                   0
MO

In [227]:
#Verificando total da Região Sudeste q tiveram de recomendações

filtro_a = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro_a].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

ocorrencia_cidade
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
IPERÓ                     3
NOVO HORIZONTE            3
TIMÓTEO                   3
JUNDIAÍ                   7
RESENDE                   8
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RIO DE JANEIRO           25
SÃO PAULO                41
Name: total_recomendacoes, dtype: int64

In [220]:
dfsudeste2010.groupby(['ocorrencia_aerodromo']).total_recomendacoes.sum()


ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
Name: total_recomendacoes, dtype: int64

In [223]:
#importante lembrar de conferir os valores nulos, nesse caso tempo 45 aerodromos que não foram classificados e eles tiveram 45 recomendações

dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()


ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
NaN     45
Name: total_recomendacoes, dtype: int64

# Carregamento de Dados

Não Trataremos essa questão pelo fato de exister varias formas e ferramentas diferentes nesse contexto, onde cada uma requer um método e um código a ser seguido.

In [228]:
dfsudeste2010.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0
551,43975,43975,INCIDENTE,ARRAIAL DO CABO,RJ,,2010-12-30,14:28:00,0
