# Etapa 1 - Extração do Dados

In [60]:
import pandas as pd

In [61]:
dataframe = pd.read_csv("ocorrencia_2010_2020_v2.csv")
dataframe

Unnamed: 0,codigo_ocorrencia;codigo_ocorrencia2;ocorrencia_classificacao;ocorrencia_cidade;ocorrencia_uf;ocorrencia_aerodromo;ocorrencia_dia;ocorrencia_hora;total_recomendacoes
0,40211;40211;INCIDENTE;RIO DE JANEIRO;RJ;****;0...
1,40349;40349;INCIDENTE;BELÉM;PA;SBBE;03/01/2010...
2,40351;40351;INCIDENTE;RIO DE JANEIRO;RJ;SBRJ;0...
3,39527;39527;ACIDENTE;LUCAS DO RIO VERDE;MT;***...
4,40324;40324;INCIDENTE;PELOTAS;RS;SBPK;05/01/20...
...,...
5747,79804;79804;INCIDENTE;CAMPINAS;SP;SBKP;29/12/2...
5748,79757;79757;INCIDENTE GRAVE;LAGOA DA CONFUSÃO;...
5749,79802;79802;INCIDENTE;RIO DE JANEIRO;RJ;SBGL;3...
5750,79756;79756;INCIDENTE GRAVE;VICENTINA;MS;****;...


In [11]:
#separando o arquivo por ";"

df = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";")
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,03/01/2010,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,03/01/2010,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,03/01/2010,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,04/01/2010,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,05/01/2010,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,29/12/2020,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,30/12/2020,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,30/12/2020,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,31/12/2020,09:00:00,0


In [12]:
#verificando tipos de dados do dataset

df.dtypes

codigo_ocorrencia            int64
codigo_ocorrencia2           int64
ocorrencia_classificacao    object
ocorrencia_cidade           object
ocorrencia_uf               object
ocorrencia_aerodromo        object
ocorrencia_dia              object
ocorrencia_hora             object
total_recomendacoes          int64
dtype: object

In [13]:
#manipulando coluna ocorrencia_dia
df.ocorrencia_dia.dt.month

AttributeError: Can only use .dt accessor with datetimelike values

A coluna ocorrencia_dia foi carregada como tipo objeto como vimos acima, precisamos transformá-la no typo especial de data para realizar sua manipúlação.

In [14]:
#classsificando coluna 'ocorrencia_dia' como tipo datetame

df2 = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";", parse_dates=['ocorrencia_dia'])

In [15]:
df2.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [16]:
df2.ocorrencia_dia.dt.month

0        3
1        3
2        3
3        4
4        5
        ..
5747    12
5748    12
5749    12
5750    12
5751    12
Name: ocorrencia_dia, Length: 5752, dtype: int64

-----------------------------

# Etapa 2 - Validação dos Dados

In [17]:
df2.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-03-01,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-03-01,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-03-01,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-04-01,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-05-01,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-06-01,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-07-01,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-09-01,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-10-01,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-10-01,20:00:00,0


### Validação da ordem de data e mês no dataset:

In [45]:
df3 = pd.read_csv("ocorrencia_2010_2020_v2.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True)
df3.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


### Validando os tipos de dados do dataframe.


Criaremos uma ocorrência que irá validar se a coluna ocorrencia_dia é do tipo data, caso não seja o processo 
será parado com uma exceção'''

- A biblioteca Pandera permite realizar a validação dos dados, retornando um erro caso os dados não estejam de acordo com o que precisamos.

In [46]:
import pandera as pa

In [47]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.DateTime)
        
    }
)
schema.validate(df3)

SchemaError: expected series 'codigo_ocorrencia' to have type 'datetime64[ns]', got 'int64'

**Observe acima que ao criar schemas ele possibilita o retorno de mensagems caso algum dado esteja divergente ao nosso esquema proposto.**

**O erro acima retorna que existe em agum dado inválido na coluna ocorrência_dia do Dataframe.**

A vantagem de usar os SCHEMAS da biblioteca Pandera é exatamente bloquear os erros e tratá-los a cada passo do processo de validação dos Dados.

In [48]:
#Validaremos a seguir apenas uma coluna codigo_ocorrencia para o tipo Int

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int)
        
    }
)

In [49]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


In [50]:
# Após verificar o sucesso na validação, podemos validar todas as colunas do nosso DataFrame

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [51]:
schema.validate(df3)

SchemaError: non-nullable series 'ocorrencia_hora' contains null values: {4100: nan}

Observe que agora possímos outro erro na coluna **ocorrencia_hora** onde ela contém valores nulos.

In [52]:
#corrigindo erro coluna ocorrencia_hora

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [53]:
#Verificado que os dados estão Validados

schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


** OBS: É impostante salientar que a validação realizada nos passos anteriores agora permite valores nulos nas colunas "ocorrencia_dia" e "ocorrencia_hora"**

### Validando Formato de horas em 24 horas

In [54]:
#criando uma expressão regular para tratar a coluna ocorrencia_hora

schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

In [55]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


### Validando Tamanho de caracteres em uma coluna

Algumas colunas podem requerer limitado número de valores, por exempo, a coluna **ocorrencia_uf** onde é a abreviação de um Estado.

In [56]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)
schema.validate(df3)

SchemaError: column 'codigo' not in dataframe
   codigo_ocorrencia  codigo_ocorrencia2 ocorrencia_classificacao  \
0              40211               40211                INCIDENTE   
1              40349               40349                INCIDENTE   
2              40351               40351                INCIDENTE   
3              39527               39527                 ACIDENTE   
4              40324               40324                INCIDENTE   

    ocorrencia_cidade ocorrencia_uf ocorrencia_aerodromo ocorrencia_dia  \
0      RIO DE JANEIRO            RJ                 ****     2010-01-03   
1               BELÉM            PA                 SBBE     2010-01-03   
2      RIO DE JANEIRO            RJ                 SBRJ     2010-01-03   
3  LUCAS DO RIO VERDE            MT                 ****     2010-01-04   
4             PELOTAS            RS                 SBPK     2010-01-05   

  ocorrencia_hora  total_recomendacoes  
0        12:00:00                    0  
1        11:05:00                    0  
2        03:00:00                    0  
3        17:30:00                    0  
4        19:25:00                    0  

** Para tratar esse erro utilizamor o parâmetro Require: **

In [57]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


### Require False

Um caso bastante comum é trabalharmos com o Dataframe onde podem aparecer e sumir algumas colunas conforme a necessidade.

se observamor no codigo abaixo, iremos inserir uma coluna que não existe e será apresentado um erro:

In [58]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2)),
        "ocorrencia_aerodromo": pa.Column(pa.String),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int),
    }
)

** Como observado existe o caso onde existe uma coluna com dados considerados sujos, três asteríscos.**

Podemos tratá-lo a seguir na Etapa 3 realizando o processo de Limpeza de Dados.

In [59]:
schema.validate(df3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


===========================================================================================================

<center>***Alguns métodos de manipulação de DataFrame:***</center>

In [63]:
df3.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [65]:
df3.loc[1, 'ocorrencia_cidade']

'BELÉM'

In [66]:
df3.loc[3]

codigo_ocorrencia                         39527
codigo_ocorrencia2                        39527
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade            LUCAS DO RIO VERDE
ocorrencia_uf                                MT
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-04 00:00:00
ocorrencia_hora                        17:30:00
total_recomendacoes                           0
Name: 3, dtype: object

In [68]:
df3.loc[1:3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0


In [70]:
df3.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,****,2010-01-10,21:30:00,0
40,39158,39158,INCIDENTE,BELÉM,PA,****,2010-01-28,16:00:00,0


In [72]:
df3.loc[:,'ocorrencia_cidade']

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
5747              CAMPINAS
5748     LAGOA DA CONFUSÃO
5749        RIO DE JANEIRO
5750             VICENTINA
5751        RIO DE JANEIRO
Name: ocorrencia_cidade, Length: 5752, dtype: object

In [78]:
#verificando se uma tabela é unica no DataFrame

df3.codigo_ocorrencia.is_unique

True

In [76]:
#Definindo coluna 'codigo_ocorrencia' como índice da tabela (não altera o DataFrame real, apenas no momento)

df3.set_index('codigo_ocorrencia')

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...
79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


Caso quisesse alterar definitivamente o índice:

**df3.set_index('codigo_ocorrencia' inplace=True)**

Caso quisesse resetar após alterar:

**df3.reset_index(drop=True, inplace=True)**


In [79]:
df3.loc[0, 'ocorrencia_aerodromo'] = ''

In [81]:
df3.head(1)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0


In [82]:
df3.loc[1] = 20

In [83]:
df3.head(2)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,0
1,20,20,20,20,20,20.0,20,20,20


In [84]:
df3.loc[:,'total_recomendacoes'] = 10

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,20,10
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29 00:00:00,19:00:00,10
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10


In [87]:
#criando uma coluna de backup

df3['ocorrencia_uf_bkp'] = df.ocorrencia_uf

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10,RJ
1,20,20,20,20,20,20,20,20,10,PA
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10,RJ
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10,MT
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10,RS
...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29 00:00:00,19:00:00,10,SP
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10,TO
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10,RJ
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10,MS


##### Alterando valores de uma coluna conforme uma classificação

Para exemplo vamos alterar para GRAVE, na coluna 'ocorrencia_classificacao', todos as linhas que forem de SP na coluna 'ocorrencia_uf'.

In [90]:
df3.loc[df3.ocorrencia_uf == 'SP', ['ocorrencia_classificacao']] = 'GRAVE'

df3

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10,RJ
1,20,20,20,20,20,20,20,20,10,PA
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10,RJ
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10,MT
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10,RS
...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,GRAVE,CAMPINAS,SP,SBKP,2020-12-29 00:00:00,19:00:00,10,SP
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30 00:00:00,18:30:00,10,TO
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30 00:00:00,00:54:00,10,RJ
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31 00:00:00,09:00:00,10,MS


In [91]:
df3.loc[df3.ocorrencia_uf == 'SP']

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
11,40069,40069,GRAVE,SÃO PAULO,SP,SBMT,2010-01-10 00:00:00,14:50:00,10,SP
16,39809,39809,GRAVE,SÃO PAULO,SP,****,2010-01-15 00:00:00,15:00:00,10,SP
18,39828,39828,GRAVE,SANTOS,SP,****,2010-01-15 00:00:00,17:45:00,10,SP
26,39847,39847,GRAVE,SOROCABA,SP,****,2010-01-20 00:00:00,13:10:00,10,SP
27,39768,39768,GRAVE,CAMPINAS,SP,****,2010-01-21 00:00:00,20:45:00,10,SP
...,...,...,...,...,...,...,...,...,...,...
5704,79739,79739,GRAVE,SÃO PAULO,SP,SBSP,2020-12-03 00:00:00,14:42:00,10,SP
5705,79705,79705,GRAVE,SOROCABA,SP,SDCO,2020-12-04 00:00:00,15:30:00,10,SP
5715,79718,79718,GRAVE,SÃO PAULO,SP,SBMT,2020-12-11 00:00:00,13:50:00,10,SP
5742,79800,79800,GRAVE,SÃO PAULO,SP,SBMT,2020-12-28 00:00:00,10:15:00,10,SP


===========================================================================================================

# Etapa 3 - Limpeza dos Dados

Mesmo após a validação, ainda existem dados que não estão prontos para serem Transformados.

Dados como #, ?, ! * devem ser retirados para que o nosso DataFrame pois não são úteis do ponto de vista lógico