# Processo de Extração dos dados

In [9]:
import pandas as pd

In [7]:
# carregador o dado para um data frame e referenciar o caracter delimitador(separador = sep) dos dados
dataframe = pd.read_csv('ocorrencia_filtrados.csv', sep=';')
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,03/01/2010,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,03/01/2010,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,03/01/2010,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,04/01/2010,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,05/01/2010,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,15/08/2021,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,16/08/2021,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,17/08/2021,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,****,18/08/2021,16:00:00,0


In [9]:
# Visualizar os tipos de dados que estão sendo carregados
dataframe.dtypes

codigo_ocorrencia            int64
codigo_ocorrencia2           int64
ocorrencia_classificacao    object
ocorrencia_cidade           object
ocorrencia_uf               object
ocorrencia_aerodromo        object
ocorrencia_dia              object
ocorrencia_hora             object
total_recomendacoes          int64
dtype: object

In [10]:
# Algumas colunas foram carregadas como objetivo. Exemplo da coluna ocorrencia_dia que é tipo data. 
dataframe.ocorrencia_dia

0       03/01/2010
1       03/01/2010
2       03/01/2010
3       04/01/2010
4       05/01/2010
           ...    
6109    15/08/2021
6110    16/08/2021
6111    17/08/2021
6112    18/08/2021
6113    18/08/2021
Name: ocorrencia_dia, Length: 6114, dtype: object

In [20]:
# ERROR
# Dados de tipo data carregadas como objetos não podemos acessar métodos específicos para se trabalhar com as datas. 
# Por isso é preciso converter.
dataframe.ocorrencia_dia.dt.month

0       3
1       3
2       3
3       4
4       5
       ..
6109    8
6110    8
6111    8
6112    8
6113    8
Name: ocorrencia_dia, Length: 6114, dtype: int64

In [13]:
# No método parse_dates é passado as colunas que serão utilizados como tipo date.
# Ele só reconhecerá se todos os dados forma do tipo date.
dataframe = pd.read_csv('ocorrencia_filtrados.csv', sep=';', parse_dates=['ocorrencia_dia'])
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-03-01,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-03-01,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-03-01,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-04-01,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-05-01,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [14]:
dataframe.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [15]:
dataframe.ocorrencia_dia.dt.month

0       3
1       3
2       3
3       4
4       5
       ..
6109    8
6110    8
6111    8
6112    8
6113    8
Name: ocorrencia_dia, Length: 6114, dtype: int64

In [33]:
# No método dayfirst é passado que a data é em formato d/m/yyyy e não yyyy/m/d
dataframe = pd.read_csv('ocorrencia_filtrados.csv', sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True)
dataframe.head(10) #Imprimir apenas as primeias 10 linhas
# dataframe.tail(10) #Imprimir apenas as últimas 10 linhas
#Dados NaN são dados de texto não informados, NaT são dados de date não informados. Campo vazio.

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [24]:
dataframe.dtypes
# datetime64[ns] não é um formato de tipo de data correto, pois as datas não são validadas.
#Ex: Ter uma data que ultrapassa os limites dos dias ou meses como 03/50/2021 

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [11]:
import pandera as pa
# Caso a biblioteca pandera não esteja disponível, basta instalar utilizando o pip

In [26]:
#pip install pandera 
# Depois de instalar a bilioteca é preciso restartar o Kernel

Collecting pandera
  Downloading pandera-0.8.0-py3-none-any.whl (186 kB)
Collecting pandas-stubs
  Downloading pandas_stubs-1.2.0.37-py3-none-any.whl (161 kB)
Collecting typing-inspect>=0.6.0
  Downloading typing_inspect-0.7.1-py3-none-any.whl (8.4 kB)
Collecting pyarrow
  Downloading pyarrow-6.0.0-cp38-cp38-win_amd64.whl (15.5 MB)
Installing collected packages: typing-inspect, pyarrow, pandas-stubs, pandera
Successfully installed pandas-stubs-1.2.0.37 pandera-0.8.0 pyarrow-6.0.0 typing-inspect-0.7.1
Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandera as pa

In [23]:
# Montar o schema para validar dados de um dataframe
schema = pa.DataFrameSchema(
    columns={
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String),
        'ocorrencia_aerodromo':pa.Column(pa.String),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String), #ERROR pois há campos vazios
        'total_recomendacoes':pa.Column(pa.Int)
    }
)

In [None]:
# Montar o schema para validar dados de um dataframe
schema = pa.DataFrameSchema(
    columns={
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String),
        'ocorrencia_aerodromo':pa.Column(pa.String),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, nullable=True), #nullable permite dados nulos
        'total_recomendacoes':pa.Column(pa.Int)
    }
)

In [24]:
#Validar Schema
schema.validate(dataframe)
# A vantagem é que se alguma informação estiver errada, ele retornará um erro. Garantindo a integridade dos dados.

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [26]:
# Montar o schema para validar dados de um dataframe
schema = pa.DataFrameSchema(
    columns={
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String),
        'ocorrencia_aerodromo':pa.Column(pa.String),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True), # Expressão para validar as horas H:M:S
        'total_recomendacoes':pa.Column(pa.Int)
    }
)

In [27]:
schema.validate(dataframe)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [34]:
# Tratamento de tamanho do dado de estado com tamanho min e max de 2 caracteres
schema = pa.DataFrameSchema(
    columns={
        #'codigo':pa.Column(pa.Int, required=False), #Caso tenha alguma coluna que não é obrigatória ser carregada, pode setar como não requerida
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String, pa.Check.str_length(2,2)),
        'ocorrencia_aerodromo':pa.Column(pa.String),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True), # Expressão para validar as horas H:M:S
        'total_recomendacoes':pa.Column(pa.Int)
    }
)

In [35]:
schema.validate(dataframe)

SchemaError: <Schema Column(name=ocorrencia_uf, type=DataType(str))> failed element-wise validator 0:
<Check str_length: str_length(2, 2)>
failure cases:
   index failure_case
0   2227          ***
1   5855          ***

# Processo de Limpeza dos dados

##### Sempre perguntar para a pessoa que tem domínio do negócio, quais são os dados que podem ser classificados como não informados.