<h1>Extração e validação de dados</h1>

In [1]:
import pandas as pd
import pandera as pa


Use o parâmetro **date_parser** para indicar a função a ser usada como parser, bem como indicar o formato da data (por meio do parâmetro **format** da funcao **to_datetime**) no arquivo .csv usado.

In [2]:
df = pd.read_csv("ocorrencia.csv", sep = ';', date_parser = lambda arg : pd.to_datetime(arg, format="%d/%m/%Y"), parse_dates=['ocorrencia_dia'])
df.tail(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,*****,2021-12-29,18:50:00,0
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0
5162,80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0


Os **schemas** são usados para validação de dataframes. Quando o código abaixo é executado, por exemplo, o dataframe é exibido se o nome da coluna e o tipo dos dados é correto, caso contrário um erro é exibido.

In [3]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2, 2)),
        "ocorrencia_aerodromo":pa.Column(pa.String),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

Por padrão as colunas são **required=*True*** indicando que devem aparecer obrigatoriamente no dataframe. Quando houver a possibilidade da coluna não aparecer no dataframe deve-se usar **required=*False*** como ocorre acima com a coluna "código".

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


A instrução abaixo é usada na exibição do tipo de dados por coluna

In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

<h1>Limpeza de dados</h1>

In [6]:
df = pd.read_csv("ocorrencia.csv", sep = ';', date_parser = lambda arg : pd.to_datetime(arg, format="%d/%m/%Y"), parse_dates=['ocorrencia_dia'])
df.head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0


In [7]:
df.loc[1, 'ocorrencia_cidade']

'GUARULHOS'

O dataframe pode ser interpretado como matriz e os dados podem ser obtidos fazendo uso de labels. Acima, obtemos o dado na linha 1 e coluna 'ocorrencia_cidade'.

Podemos obter os dados de uma ou mais linhas da seguinte forma:

In [8]:
df.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,****,2012-01-09,13:30:00,0
40,45415,45415,ACIDENTE,RIO DE JANEIRO,RJ,****,2012-01-30,13:55:00,0


Podemos obter os dados de uma ou mais colunas da seguinte forma:

In [9]:
df.loc[:, ['ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
0,PORTO ALEGRE,RS
1,GUARULHOS,SP
2,VIAMÃO,RS
3,SÃO SEBASTIÃO,SP
4,SÃO SEPÉ,RS
...,...,...
5162,JATAÍ,GO
5163,MARACAÍ,SP
5164,NOVO HAMBURGO,RS
5165,CURITIBA,PR


Uma forma mais simplificada de obter uma ou mais colunas como no caso anterior segue abaixo:

In [10]:
df[['ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
0,PORTO ALEGRE,RS
1,GUARULHOS,SP
2,VIAMÃO,RS
3,SÃO SEBASTIÃO,SP
4,SÃO SEPÉ,RS
...,...,...
5162,JATAÍ,GO
5163,MARACAÍ,SP
5164,NOVO HAMBURGO,RS
5165,CURITIBA,PR


**Sugestão do professor:** Se todos os valores em uma coluna possuir um valor único por linha essa coluna pode ser usada para indexação das linhas no dataframe.

Por exemplo, o código abaixo verifica se a coluna codigo_ocorrencia do dataframe é único.

In [11]:
df.codigo_ocorrencia.is_unique

True

Se a coluna possuir valores únicos por linha ela pode ser usada para indexação das linhas no dataframe por meio do comando abaixo:

In [12]:
df.set_index('codigo_ocorrencia')

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...
80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0
80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,09:30:00,0
80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


Observe que a coluna 'codigo_ocorrencia' aparece em negrito, indicando que seus valores são índice das linhas. Contudo, o código acima não atualiza os índices do dataframe. Para atualizá-lo use o código abaixo:

In [13]:
df.set_index('codigo_ocorrencia', inplace=True)

In [14]:
df.head(5)

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0


Uma vez alterado, o índice pode ser resetado para o utilizado anteriormente por meio do comando abaixo:

In [15]:
df.reset_index(drop=True, inplace=True)

In [16]:
df.head(5)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
3,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
4,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0


Valores podem ser alterados em uma coluna. Por exemplo, o código a seguir altera a coluna ocorrencia_classificacao para grave quando o valor da coluna ocorrencia_uf for SP

In [17]:
df.loc[df.ocorrencia_uf == 'SP', ['ocorrencia_classificacao']] = 'GRAVE'

In [18]:
df

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,GRAVE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
3,45401,GRAVE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
4,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...
5162,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0
5163,80452,GRAVE,MARACAÍ,SP,*****,2021-12-31,09:30:00,0
5164,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [19]:
df.loc[df.ocorrencia_uf=='SP']

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,45331,GRAVE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
3,45401,GRAVE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
5,52243,GRAVE,UBATUBA,SP,****,2012-01-06,14:30:00,0
6,50713,GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
13,45408,GRAVE,ELDORADO,SP,****,2012-01-11,13:45:00,1
...,...,...,...,...,...,...,...,...
5148,80441,GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-12-20,18:15:00,0
5157,80453,GRAVE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5158,80454,GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5161,80456,GRAVE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0


Após as alterações podemos atualizar nosso dataframe com os dados do arquivo original com:

In [20]:
df = pd.read_csv("ocorrencia.csv", sep = ';', date_parser = lambda arg : pd.to_datetime(arg, format="%d/%m/%Y"), parse_dates=['ocorrencia_dia'])
df.tail(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,*****,2021-12-29,18:50:00,0
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0
5162,80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0


Para a limpeza de dados buscaremos nas colunas informadas pelos seguintes valores:

Para a coluna ocorrencia_uf:
<ul>
    <li>'**'</li>
</ul>
Para a coluna ocorrencia_aerodromo
<ul>
    <li>'###!'</li>
    <li>'####'</li>
    <li>'****'</li>
    <li>'*****'</li>
</ul>
Para a coluna ocorrencia_hora
<ul>
    <li>'NULL'</li>
</ul>

In [21]:
df.head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0


Abaixo substituiremos todos os valores da coluna informada como não disponível por NA (*not available*).

In [22]:
df.loc[df.ocorrencia_aerodromo=='****', ['ocorrencia_aerodromo']] = pd.NA

In [23]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0


Outra forma de substituir os valores indicados como não disponíveis é por meio da função ***replace()*** que busca por ocorrências de valores informados em uma lista e substitui por ***pd.NA***. O parâmetro ***inplace=True*** permite a alteração de valores no próprio dataframe ao invés de apenas exibi-lo com valores alterados.

In [24]:
df.replace(['**','###!','####','****','*****','NULL'], pd.NA, inplace=True)

Tratando os dados indisponíveis como ***pd.NA*** permite o uso de funções úteis disponibilziadas pelo Pandas. O comando abaixo exibe o número de ocorrencias de valores indisponíveis por coluna em um dataframe:

In [25]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1905
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

A função ***isnull()*** pode também ser usada com o mesmo propósito.

In [26]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1905
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

A função ***df.fillna()*** pode ser usada para substituir todos os valores indisponíveis por um valor informado. Para alterar o dataframe, o parâemtro deve ser usado: ***inplace=True***.

In [27]:
df.fillna('Indisponível')

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,Indisponível,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,Indisponível,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,Indisponível,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,Indisponível,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,Indisponível,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [28]:
df.fillna('Indisponível').isnull().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

Os valores indisponíveis por coluna podem ser substituídos usando um comando similar ao informado abaixo. Nesse exemplo, valores indisponíveis na coluna 'total_recomendacoes' são substituídos pelo valor 10. A alteração pode ser efetivamente feita no dataframe ao fazer uso do parâmetro **inplace=True**.

In [29]:
df.fillna(value={'ocorrencia_aerodromo':10})

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,10,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,10,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,10,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,10,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,10,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


**Sugestão do professor:** Antes de uma alteração em uma coluna inteira, uma coluna de backup pode ser criada por meio do comando abaixo:

In [30]:
df['total_recomendacoes_bkp'] = df.total_recomendacoes

In [31]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,total_recomendacoes_bkp
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0,0
...,...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0,0


Colunas ou linhas podem ser removidas do dataframe por meio da função ***drop()***. Uma lista de linhas/colunas deve ser informada e o parâmetro ***axis=0*** indica que linhas serão removidas e o parâmetro ***axis=1*** indica que colunas serão removidas. Para a alteração efetiva do dataframe o parametro ***inplace=True*** deve ser usado. 

In [32]:
df.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)

In [33]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


Linhas contendo valores indisponíveis podem ser removidas do dataframe por meio da função ***df.dropna()***. O dataframe pode ser efetivamente alterado ao se fazer uso do parâmetro ***inplace=True***

In [34]:
df.dropna().isna().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

As linhas a serem removidas podem ser filtradas ao se fazer uso do parâmetro ***subset*** conforme exemplo abaixo:

In [35]:
df.dropna(subset=['ocorrencia_uf'])

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


Nesse caso, se houver uma ocorrência de dado indisponível na coluna informada, a linha na qual o dado se encontra será removida.

Linhas duplicadas do dataframe podem ser removidas com o comando abaixo. Para alterar o dataframe ***inplace=True*** deve ser usado como parâmetro.  

In [36]:
df.drop_duplicates()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


<h1>Transformação de dados</h1>

Durante a etapa de extração de dados, uma lista de valores considerados como não disponíveis pode ser fornecido como parâmetro. Dessa forma cada ocorrência desses valores será substituída por NA (*Not available*). Segue código abaixo:

In [37]:
valores_ausentes = ['**','###!','####','****','*****','NULL']
df = pd.read_csv("ocorrencia.csv", sep = ';', date_parser = lambda arg : pd.to_datetime(arg, format="%d/%m/%Y"), parse_dates=['ocorrencia_dia'], na_values=valores_ausentes)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-01-08,19:12:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0


**Obs:** Assim como NA (*Not available*), NaN (*Not a Numeric*) é considerado um "*missing data*"

Diferente do observado em casos anteriores, uma limpeza dos *missing values* é feita na etapa de extração, portanto o schema para validação deve considerar as colunas que podem conter missing values. Para isso deve-se usar ***nullable=True*** conforme exemplificado abaixo:

In [38]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2, 2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [39]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


**Nota:** Valores das linhas podem ser obtidos fazendo-se referência ao label com o uso de ***loc[]***. Outra forma de obter valores das linhas é por meio de índices (análogo ao feito com listas). Para isso usa-se a property ***iloc[]***. O código abaixo exemplifica como se pode obter a última linha do dataframe:

In [40]:
df.iloc[-1]

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_aerodromo                       SBPL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                           0
Name: 5166, dtype: object

O uso de slicing também é possível. Mas o resultado difere entre ***loc[]*** e ***iloc[]*** como pode ser observado abaixo: 

In [41]:
df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0


In [42]:
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0


A função ***isna()*** também funciona em *missing values* como NaN. Segue exemplo abaixo:

In [43]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1905
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

O código abaixo verifica todos os elementos de uma coluna e se for ***True***, temos um *missing value*

In [44]:
df.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
5162    False
5163    False
5164    False
5165    False
5166    False
Name: ocorrencia_uf, Length: 5167, dtype: bool

Outro exemplo, o comando abaixo retorna linhas que contenham *missing values* na coluna informada.

In [47]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0
4728,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


Número de valores informados por coluna pode ser obtido por chamada a função ***count()***

In [105]:
df.count()

codigo_ocorrencia           5167
codigo_ocorrencia2          5167
ocorrencia_classificacao    5167
ocorrencia_cidade           5167
ocorrencia_uf               5165
ocorrencia_aerodromo        3262
ocorrencia_dia              5167
ocorrencia_hora             5166
total_recomendacoes         5167
ocorrencia_dia_hora         5166
dtype: int64

<h3> Filtros </h3>

Uso de filtros é usado para restringir resultados de uma consulta no dataframe, obtendo assim um conjunto de dados e novas informações. Por exemplo, abaixo temos ocorrencias em que total_recomendacoes é maior que 10.

In [106]:
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11
1669,SANTOS,13
2804,VITÓRIA,12


Abaixo como exemplo, temos as ocorrências cuja classificação é de INCIDENTE GRAVE

In [107]:
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]


Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0
12,MARABÁ,0
18,CAMOCIM,0
19,MUANÁ,0
24,RONDONÓPOLIS,0
...,...,...
5139,NOVA BANDEIRANTES,0
5146,FORMOSO DO ARAGUAIA,0
5158,ARAÇATUBA,0
5159,SANTA RITA,0


<h5>Combinando mais de um filtro</h5>

Operadores lógicos podem ser usados para vários filtros. Abaixo seguem vários exemplos aplicando operadores lógicos como and (&) e or (|).

In [108]:
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0,2012-01-07 18:15:00
78,45598,45598,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-20,14:10:00,0,2012-02-20 14:10:00
86,45653,45653,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2012-02-24,20:04:00,0,2012-02-24 20:04:00
91,45599,45599,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-27,19:15:00,0,2012-02-27 19:15:00
140,45651,45651,INCIDENTE GRAVE,ITU,SP,,2012-03-24,20:45:00,1,2012-03-24 20:45:00
...,...,...,...,...,...,...,...,...,...,...
4954,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-07-25,12:25:00,0,2021-07-25 12:25:00
4980,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0,2021-08-11 19:09:00
5003,80265,80265,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2021-08-31,16:50:00,0,2021-08-31 16:50:00
5098,80382,80382,INCIDENTE GRAVE,PIRACICABA,SP,SDPW,2021-11-16,20:50:00,0,2021-11-16 20:50:00


In [109]:
#ocorrencias cuja classificacao == INCIDENTE GRAVE ou estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3,2012-01-06 13:44:00
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0,2012-01-06 17:00:00
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0,2012-01-06 14:30:00
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0,2012-01-07 18:15:00
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0,2012-01-11 11:21:00
...,...,...,...,...,...,...,...,...,...,...
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0,2021-12-29 21:35:00
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0,2021-12-29 18:50:00
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0,2021-12-30 13:15:00
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0,2021-12-31 09:30:00


In [110]:
#ocorrencias cuja (classificacao == INCIDENTE GRAVE ou classificacao == INCIDENTE) e estado == SP
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0,2012-01-06 14:30:00
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0,2012-01-07 18:15:00
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0,2012-01-21 11:15:00
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0,2012-01-25 23:00:00
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,09:30:00,0,2012-01-25 09:30:00
...,...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0,2021-12-09 20:30:00
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0,2021-12-15 12:30:00
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0,2021-12-29 09:00:00
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0,2021-12-29 21:35:00


O filtro com operador or ( | ) pode ser substituído pelo uso da função ***isin()***. Essa função recebe como parâmetro uma lista dos valores a considerar para a coluna informada. Segue exemplo abaixo:

In [111]:
#ocorrencias cuja (classificacao == INCIDENTE GRAVE ou classificacao == INCIDENTE) e estado == SP
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0,2012-01-06 14:30:00
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0,2012-01-07 18:15:00
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0,2012-01-21 11:15:00
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0,2012-01-25 23:00:00
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,09:30:00,0,2012-01-25 09:30:00
...,...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0,2021-12-09 20:30:00
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0,2021-12-15 12:30:00
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0,2021-12-29 09:00:00
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0,2021-12-29 21:35:00


<h5>Avaliando parte do conteúdo </h5>

In [112]:
#ocorrencias cuja cidade começam com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0,2012-01-07 18:15:00
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0,2012-01-08 16:00:00
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0,2012-01-14 10:00:00
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0,2012-01-17 18:25:00
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0,2012-01-20 21:00:00
...,...,...,...,...,...,...,...,...,...,...
5142,80434,80434,ACIDENTE,CARACOL,MS,,2021-12-14,21:35:00,0,2021-12-14 21:35:00
5144,80447,80447,INCIDENTE,CONFINS,MG,SBCF,2021-12-15,17:10:00,0,2021-12-15 17:10:00
5150,80445,80445,ACIDENTE,CHUPINGUAIA,RO,,2021-12-20,12:05:00,0,2021-12-20 12:05:00
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0,2021-12-29 09:00:00


In [113]:
#ocorrencias cuja cidade termina com a letra A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0,2012-01-06 14:30:00
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0,2012-01-08 22:13:00
17,52246,52246,INCIDENTE,BRASÍLIA,DF,SBBR,2012-01-16,16:47:00,0,2012-01-16 16:47:00
21,45392,45392,ACIDENTE,BRASÍLIA,DF,,2012-01-19,21:30:00,2,2012-01-19 21:30:00
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0,2012-01-20 21:00:00
...,...,...,...,...,...,...,...,...,...,...
5152,80465,80465,INCIDENTE,VITÓRIA,ES,SBVT,2021-12-21,22:25:00,0,2021-12-21 22:25:00
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0,2021-12-29 21:35:00
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0,2021-12-29 18:50:00
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0,2021-12-31 15:12:00


In [114]:
#ocorrencias cuja cidade termina com a substring NA
filtro = df.ocorrencia_cidade.str[-2:] == 'NA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
51,45587,45587,ACIDENTE,CORRENTINA,BA,,2012-02-05,20:27:00,0,2012-02-05 20:27:00
52,52056,52056,INCIDENTE,LONDRINA,PR,SBLO,2012-02-05,17:34:00,0,2012-02-05 17:34:00
54,45572,45572,ACIDENTE,PALESTINA,SP,,2012-02-06,19:30:00,0,2012-02-06 19:30:00
113,45612,45612,INCIDENTE,LONDRINA,PR,SBLO,2012-03-10,16:35:00,0,2012-03-10 16:35:00
172,45750,45750,ACIDENTE,ITIRAPINA,SP,,2012-04-13,15:45:00,0,2012-04-13 15:45:00
...,...,...,...,...,...,...,...,...,...,...
5040,80311,80311,ACIDENTE,VILHENA,RO,,2021-09-29,15:10:00,0,2021-09-29 15:10:00
5045,80323,80323,INCIDENTE,TERESINA,PI,SBTE,2021-10-08,16:20:00,0,2021-10-08 16:20:00
5068,80348,80348,ACIDENTE,VILHENA,RO,,2021-10-24,18:40:00,0,2021-10-24 18:40:00
5100,80394,80394,INCIDENTE,TERESINA,PI,SBTE,2021-11-17,14:40:00,0,2021-11-17 14:40:00


In [115]:
#ocorrencias cuja cidade contém MA
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0,2012-01-11 11:21:00
16,45693,45693,INCIDENTE,MACAÉ,RJ,,2012-01-14,10:30:00,0,2012-01-14 10:30:00
45,45682,45682,INCIDENTE,MACAÉ,RJ,,2012-02-01,13:50:00,0,2012-02-01 13:50:00
59,45580,45580,INCIDENTE GRAVE,MACAÉ,RJ,,2012-02-07,14:50:00,4,2012-02-07 14:50:00
79,45715,45715,INCIDENTE,MANAUS,AM,SWFN,2012-02-20,09:10:00,0,2012-02-20 09:10:00
...,...,...,...,...,...,...,...,...,...,...
5138,80428,80428,ACIDENTE,SANTA VITÓRIA DO PALMAR,RS,,2021-12-11,19:40:00,0,2021-12-11 19:40:00
5153,80461,80461,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-24,03:30:00,0,2021-12-24 03:30:00
5156,80463,80463,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-28,16:11:00,0,2021-12-28 16:11:00
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0,2021-12-30 14:41:00


In [116]:
#ocorrencias cuja cidade contém MA ou AL
filtro = df.ocorrencia_cidade.str.contains('MA|AL')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0,2012-01-05 20:27:00
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0,2012-01-08 16:00:00
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0,2012-01-09 13:36:00
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0,2012-01-11 11:21:00
16,45693,45693,INCIDENTE,MACAÉ,RJ,,2012-01-14,10:30:00,0,2012-01-14 10:30:00
...,...,...,...,...,...,...,...,...,...,...
5153,80461,80461,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-24,03:30:00,0,2021-12-24 03:30:00
5154,80468,80468,INCIDENTE,SALVADOR,BA,SBSV,2021-12-26,16:56:00,0,2021-12-26 16:56:00
5156,80463,80463,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-28,16:11:00,0,2021-12-28 16:11:00
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0,2021-12-30 14:41:00


In [117]:
#ocorrencias do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1870,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3,2015-01-01 11:40:00
1871,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0,2015-01-02 14:50:00
1872,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0,2015-01-02 16:28:00
1873,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0,2015-01-02 20:34:00
1874,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6,2015-01-04 22:04:00
...,...,...,...,...,...,...,...,...,...,...
2336,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0,2015-12-24 14:00:00
2337,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0,2015-12-25 19:00:00
2338,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0,2015-12-26 16:00:00
2339,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2,2015-12-28 19:00:00


In [118]:
#ocorrencias do ano de 2015 no mês de Dezembro
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2302,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,02:48:00,0,2015-12-01 02:48:00
2303,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0,2015-12-01 16:05:00
2304,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0,2015-12-02 17:45:00
2305,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0,2015-12-02 17:42:00
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0,2015-12-03 10:50:00
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00


In [119]:
#ocorrencias do ano de 2015 no mês de Dezembro e dia 08
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.day == 8
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0,2015-12-08 16:19:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [120]:
#ocorrencias do ano de 2015 no mês de Dezembro entre os dias 3 e 8
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = (df.ocorrencia_dia.dt.day >= 3) & (df.ocorrencia_dia.dt.day <= 8)
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0,2015-12-03 10:50:00
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0,2015-12-08 16:19:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


**Sugestão do professor:** Podem ser criadas novas colunas a fim de facilitar a extração de dados na obtenção de novas informações. Segue exemplo abaixo no qual se deseja operar sobre o horário das ocorrências.

In [121]:
#cria nova coluna ao cocatenar informações de duas colunas como string e depois converter o resultado como datetime
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [122]:
filtro_1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro_2 = df.ocorrencia_dia_hora <= '2015-12-08 23:00:00'
df.loc[filtro_1 & filtro_2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0,2015-12-08 16:19:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


<h5> Agrupamento de dados </h5>

O agrupamento de dados pode ser usado para obter novos conjunto de dados.

In [128]:
#Ocorrencias do ano de 2015 e mês de Março
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2] #Novo dataframe
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1960,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
1961,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
1962,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
1963,53112,53112,ACIDENTE,MOGI GUAÇU,SP,,2015-03-06,21:00:00,1,2015-03-06 21:00:00
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
1965,53167,53167,INCIDENTE,MARABÁ,PA,SBMA,2015-03-10,17:33:00,0,2015-03-10 17:33:00
1966,53596,53596,INCIDENTE,ITAPEMA,SC,,2015-03-10,21:35:00,0,2015-03-10 21:35:00
1967,53149,53149,ACIDENTE,TABATINGA,AM,SBTT,2015-03-11,23:25:00,0,2015-03-11 23:25:00
1968,53148,53148,ACIDENTE,ARARAS,SP,SDEH,2015-03-12,12:40:00,0,2015-03-12 12:40:00
1969,53153,53153,INCIDENTE,PORTO ALEGRE,RS,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [135]:
#Conta o número de valores disponíveis por coluna.
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

No exemplo abaixo obtemos o número de ocorrências para cada classificação que ocorreu em Março de 2015

In [136]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_classificacao.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: ocorrencia_classificacao, dtype: int64

No exemplo abaixo, observamos que em Março de 2015 ocorreram 5 acidentes em aeródromos, ocorreram 14 incidentes em aeródromos e ocorreram 2 incidentes graves em aeródromos. Logo se pode concluir que 21 ocorrências foram em aeródromos e, pelo resultado obtido anteriormente, 16 ocorrências não foram em aeródromos (diferença em *missing values*). O comando abaixo agrupa pela coluna ocorrencia_classificacao e conta apenas valores disponíveis para a coluna ocorrencia_aerodromo, logo não é adequado para contar por classificação de ocorrência.

In [139]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

A função ***size()*** conta o número de linhas por agrupamento e é uma alternativa à função ***count()***.

In [141]:
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [143]:
#Ordena os resultados
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [147]:
#Ocorrencias na região Sudeste em 2015
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_uf.isin(['SP','MG','RJ','ES'])
dfsudeste2015 = df.loc[filtro1 & filtro2]
dfsudeste2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1873,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0,2015-01-02 20:34:00
1875,53075,53075,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-01-05,10:19:00,0,2015-01-05 10:19:00
1876,53076,53076,INCIDENTE,BRAGANÇA PAULISTA,SP,,2015-01-06,11:30:00,0,2015-01-06 11:30:00
1879,53072,53072,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-08,21:13:00,0,2015-01-08 21:13:00
1880,52994,52994,INCIDENTE,SÃO PAULO,SP,SBMT,2015-01-09,23:25:00,0,2015-01-09 23:25:00
...,...,...,...,...,...,...,...,...,...,...
2332,60602,60602,INCIDENTE,RIBEIRÃO PRETO,SP,SBRP,2015-12-22,06:27:00,0,2015-12-22 06:27:00
2333,60615,60615,INCIDENTE,SÃO PAULO,SP,SBMT,2015-12-22,13:07:00,0,2015-12-22 13:07:00
2335,60641,60641,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-23,15:53:00,0,2015-12-23 15:53:00
2336,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0,2015-12-24 14:00:00


In [150]:
#Exibe o número de ocorrências por classificação que ocorreram em 2015 na regiao Sudeste
dfsudeste2015.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            60
INCIDENTE          128
INCIDENTE GRAVE     19
dtype: int64

In [151]:
dfsudeste2015.count()

codigo_ocorrencia           207
codigo_ocorrencia2          207
ocorrencia_classificacao    207
ocorrencia_cidade           207
ocorrencia_uf               207
ocorrencia_aerodromo        152
ocorrencia_dia              207
ocorrencia_hora             207
total_recomendacoes         207
ocorrencia_dia_hora         207
dtype: int64

In [152]:
#Exibe o numero de ocorrências por classificação em cada estado
dfsudeste2015.groupby(['ocorrencia_classificacao','ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  ES                1
                          MG               18
                          RJ                6
                          SP               35
INCIDENTE                 ES                2
                          MG               31
                          RJ               17
                          SP               78
INCIDENTE GRAVE           ES                1
                          MG                2
                          RJ                7
                          SP                9
dtype: int64

In [154]:
#Exibe cada estado e suas ocorrencias por classificacao
dfsudeste2015.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             ACIDENTE                     1
               INCIDENTE                    2
               INCIDENTE GRAVE              1
MG             ACIDENTE                    18
               INCIDENTE                   31
               INCIDENTE GRAVE              2
RJ             ACIDENTE                     6
               INCIDENTE                   17
               INCIDENTE GRAVE              7
SP             ACIDENTE                    35
               INCIDENTE                   78
               INCIDENTE GRAVE              9
dtype: int64

In [157]:
#Exibe o número de ocorrencias por cidade do Sudeste no ano de 2015
dfsudeste2015.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO          25
RIO DE JANEIRO     19
BELO HORIZONTE     18
JUNDIAÍ            14
GUARULHOS          10
                   ..
ITARIRI             1
ITAPIRA             1
ITABERÁ             1
IBATÉ               1
ÁLVARES MACHADO     1
Length: 86, dtype: int64

In [163]:
filtro1 = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2015.total_recomendacoes > 0
dfsudeste2015.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
2326,60620,60620,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2015-12-15,16:50:00,4,2015-12-15 16:50:00


In [167]:
#Imprime total de recomendacoes do Rio de Janeiro em 2015
filtro = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2015.loc[filtro].total_recomendacoes.sum()

6

In [170]:
#CD - Número de recomendaçoes por cidade
dfsudeste2015.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO     6
CARAPICUÍBA        5
BELO HORIZONTE     4
PIRACICABA         2
OURO PRETO         2
                  ..
IBATÉ              0
GUARULHOS          0
GUARDA-MOR         0
GUARAPARI          0
ÁLVARES MACHADO    0
Name: total_recomendacoes, Length: 86, dtype: int64

Para levar em consideração valores insdisponíveis em agrupamentos, o parâmetro ***dropna=False*** deve ser usado. Segue exemplo abaixo:

In [173]:
#CD - Número de recomendaçoes por aeródromo. Observe que valor indisponível é considerado 
dfsudeste2015.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_aerodromo
NaN     16
SBJR     4
SBPR     4
SDPW     2
SBRJ     2
SBME     2
SNVC     1
SDIO     1
SDET     1
SBBP     1
SDAI     1
SBGW     1
SBJD     0
SIBH     0
SDJL     0
SDJO     0
SDMH     0
SBCB     0
SDRK     0
SDTF     0
SDVE     0
SDVH     0
SIVU     0
SBCF     0
SJLY     0
SNBR     0
SNDV     0
SNHB     0
SNKF     0
SNPA     0
SBBU     0
SSOL     0
SDJC     0
SBFS     0
SBKP     0
SDEM     0
SBML     0
SBMT     0
SBPC     0
SBGV     0
SBGR     0
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBST     0
SBUL     0
SBUR     0
SBVT     0
SBGL     0
SDAM     0
SDCO     0
SDEH     0
SBBH     0
Name: total_recomendacoes, dtype: int64

In [178]:
#Exibe o número total de recomendacoes, desde que sejam maiores que zero, por cidade.
filtro = df.total_recomendacoes > 0
dfsudeste2015.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO       6
CARAPICUÍBA          5
BELO HORIZONTE       4
MACAÉ                2
PIRACICABA           2
OURO PRETO           2
ITARIRI              2
AGUAÍ                1
TIETÊ                1
MOGI GUAÇU           1
MIRACATU             1
ITÁPOLIS             1
JUNDIAÍ              1
AMERICANA            1
ITAPIRA              1
GUARATINGUETÁ        1
CATANDUVA            1
CABECEIRA GRANDE     1
BRAGANÇA PAULISTA    1
VIÇOSA               1
Name: total_recomendacoes, dtype: int64

In [179]:
#Exibe o número total de recomendacoes, desde que sejam maiores que zero, por cidade e mês
filtro = df.total_recomendacoes > 0
dfsudeste2015.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2015.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade  ocorrencia_dia
AGUAÍ              12                1
AMERICANA          12                1
BELO HORIZONTE     8                 4
BRAGANÇA PAULISTA  11                1
CABECEIRA GRANDE   5                 1
CARAPICUÍBA        4                 5
CATANDUVA          4                 1
GUARATINGUETÁ      6                 1
ITAPIRA            2                 1
ITARIRI            8                 2
ITÁPOLIS           12                1
JUNDIAÍ            11                1
MACAÉ              6                 2
MIRACATU           11                1
MOGI GUAÇU         3                 1
OURO PRETO         6                 2
PIRACICABA         6                 2
RIO DE JANEIRO     3                 2
                   12                4
TIETÊ              5                 1
VIÇOSA             5                 1
Name: total_recomendacoes, dtype: int64

In [181]:
#localizamos as linhas com os filtros correspondentes para uma verificacao do resultado acima
filtro1 = df.total_recomendacoes > 0
filtro2 = df.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2015.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
2326,60620,60620,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2015-12-15,16:50:00,4,2015-12-15 16:50:00
