In [1]:
import pandas as pd
import pandera as pa

In [2]:
valores_ausentes = ['***', 'NULL']
df = pd.read_excel("ocorrencia.xlsx", parse_dates=["ocorrencia_dia"], na_values=valores_ausentes)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,BRASIL,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,BRASIL,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,BRASIL,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,BRASIL,2012-01-06,16:30:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,BRASIL,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,BRASIL,2012-01-07,18:15:00,0
7,45334,45334,INCIDENTE,BELÉM,PA,BRASIL,2012-01-08,19:12:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,BRASIL,2012-01-08,16:00:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,BRASIL,2012-01-08,22:13:00,0


In [3]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String,pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_pais":pa.Column(pa.String),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String,nullable=True),
        "total_recomendacoes":pa.Column(pa.Int),
        "ocorrencia_dia_hora":pa.Column(pa.String, nullable=True, required=False),
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,BRASIL,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,BRASIL,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,BRASIL,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,BRASIL,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,BRASIL,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,BRASIL,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,BRASIL,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,BRASIL,2021-12-31,15:12:00,0


In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_pais                     object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [6]:
df.iloc[-1] #Pesquisa por índice, portanto aceita valores negativos, como se estivesses tratando lista em python

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_pais                          BRASIL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                           0
Name: 5166, dtype: object

In [7]:
df.loc[df.ocorrencia_uf.isnull()] #Mostra as celular que tem valor nulo na coluna especificada

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,BRASIL,2013-09-02,02:54:00,0
4728,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,BRASIL,2021-02-26,11:00:00,0


In [8]:
df.count() #Faz contagem dos valores informados, sem contar os valores não informados

codigo_ocorrencia           5167
codigo_ocorrencia2          5167
ocorrencia_classificacao    5167
ocorrencia_cidade           5167
ocorrencia_uf               5165
ocorrencia_pais             5167
ocorrencia_dia              5167
ocorrencia_hora             5166
total_recomendacoes         5167
dtype: int64

In [9]:
#ocorrencias com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,BRASIL,2013-04-13,18:00:00,11
1669,52265,52265,ACIDENTE,SANTOS,SP,BRASIL,2014-08-13,13:03:00,13
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,BRASIL,2017-02-21,11:47:00,12


In [10]:
#cidades que possuem ocorrencias com mais de 10 recomendações e quantas ocorrencias
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11
1669,SANTOS,13
2804,VITÓRIA,12


In [11]:
#Usando mais de 1 filtro no exemplo foi utilizado o &, tamém o "ou" indicado por|
filtro1 = df.total_recomendacoes > 10
filtro2 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,BRASIL,2013-04-13,18:00:00,11
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,BRASIL,2017-02-21,11:47:00,12


In [12]:
#o 'isin' é uma outra forma mais fácil para utilizar o "ou"
filtro1 = df.total_recomendacoes > 10
filtro2 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE','INCIDENTE'])
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,BRASIL,2013-04-13,18:00:00,11
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,BRASIL,2017-02-21,11:47:00,12


In [13]:
#Filtro por parte do valor de uma celula, no caso na coluna cidade, todas cujo o primeiro caracter é "C"
filtro = df.ocorrencia_cidade.str[0] =='C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,BRASIL,2012-01-07,18:15:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,BRASIL,2012-01-08,16:00:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,BRASIL,2012-01-14,10:00:00,0
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,BRASIL,2012-01-17,18:25:00,0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,BRASIL,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5142,80434,80434,ACIDENTE,CARACOL,MS,BRASIL,2021-12-14,21:35:00,0
5144,80447,80447,INCIDENTE,CONFINS,MG,BRASIL,2021-12-15,17:10:00,0
5150,80445,80445,ACIDENTE,CHUPINGUAIA,RO,BRASIL,2021-12-20,12:05:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,BRASIL,2021-12-29,09:00:00,0


In [14]:
#Filtro por parte do valor de uma celula, no caso na coluna cidade, todas cujo o último caracter é "A"
filtro = df.ocorrencia_cidade.str[-1] =='A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,BRASIL,2012-01-06,14:30:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,BRASIL,2012-01-08,22:13:00,0
17,52246,52246,INCIDENTE,BRASÍLIA,DF,BRASIL,2012-01-16,16:47:00,0
21,45392,45392,ACIDENTE,BRASÍLIA,DF,BRASIL,2012-01-19,21:30:00,2
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,BRASIL,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5152,80465,80465,INCIDENTE,VITÓRIA,ES,BRASIL,2021-12-21,22:25:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,BRASIL,2021-12-29,21:35:00,0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,BRASIL,2021-12-29,18:50:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,BRASIL,2021-12-31,15:12:00,0


In [15]:
#Filtro por parte do valor de uma celula, no caso na coluna cidade, todas cujo os últimos caracteres são "NA"
filtro = df.ocorrencia_cidade.str[-2:] =='NA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
51,45587,45587,ACIDENTE,CORRENTINA,BA,BRASIL,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,BRASIL,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,BRASIL,2012-02-06,19:30:00,0
113,45612,45612,INCIDENTE,LONDRINA,PR,BRASIL,2012-03-10,16:35:00,0
172,45750,45750,ACIDENTE,ITIRAPINA,SP,BRASIL,2012-04-13,15:45:00,0
...,...,...,...,...,...,...,...,...,...
5040,80311,80311,ACIDENTE,VILHENA,RO,BRASIL,2021-09-29,15:10:00,0
5045,80323,80323,INCIDENTE,TERESINA,PI,BRASIL,2021-10-08,16:20:00,0
5068,80348,80348,ACIDENTE,VILHENA,RO,BRASIL,2021-10-24,18:40:00,0
5100,80394,80394,INCIDENTE,TERESINA,PI,BRASIL,2021-11-17,14:40:00,0


In [16]:
#Filtro por parte do valor de uma celula, no caso na coluna cidade, todas cujo os nomes contém os caracteres "NA" em qualquer parte do coonteúdo
filtro = df.ocorrencia_cidade.str.contains('NA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,BRASIL,2012-01-07,18:15:00,0
51,45587,45587,ACIDENTE,CORRENTINA,BA,BRASIL,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,BRASIL,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,BRASIL,2012-02-06,19:30:00,0
68,45466,45466,ACIDENTE,CAMPINAS,SP,BRASIL,2012-02-12,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5129,80433,80433,INCIDENTE,CAMPINAS,SP,BRASIL,2021-12-07,22:00:00,0
5137,80426,80426,ACIDENTE,ANAURILÂNDIA,MS,BRASIL,2021-12-11,20:00:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,BRASIL,2021-12-29,09:00:00,0
5160,80451,80451,INCIDENTE,MANAUS,AM,BRASIL,2021-12-30,14:41:00,0


In [17]:
#Filtro por parte do valor de uma celula, no caso na coluna cidade, todas cujo os nomes contém os caracteres "NA" ou "AL" em qualquer parte do coonteúdo
filtro = df.ocorrencia_cidade.str.contains('NA|AL')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2012-01-05,20:27:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,BRASIL,2012-01-07,18:15:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,BRASIL,2012-01-08,16:00:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2012-01-09,13:36:00,0
51,45587,45587,ACIDENTE,CORRENTINA,BA,BRASIL,2012-02-05,20:27:00,0
...,...,...,...,...,...,...,...,...,...
5145,80443,80443,INCIDENTE,SALVADOR,BA,BRASIL,2021-12-18,14:30:00,0
5154,80468,80468,INCIDENTE,SALVADOR,BA,BRASIL,2021-12-26,16:56:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,BRASIL,2021-12-29,09:00:00,0
5160,80451,80451,INCIDENTE,MANAUS,AM,BRASIL,2021-12-30,14:41:00,0


In [18]:
#Filtro por datas, ocorrencias no ano de 2015 e mês 12 e dia 8
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)  & (df.ocorrencia_dia.dt.day == 8)
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2310,53628,53628,ACIDENTE,AGUAÍ,SP,BRASIL,2015-12-08,14:30:00,1
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,BRASIL,2015-12-08,10:20:00,0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,BRASIL,2015-12-08,16:19:00,0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,BRASIL,2015-12-08,13:00:00,0


In [19]:
#Filtro por datas, ocorrencias no ano de 2015 e mês 12 e do dia 3 ao 8
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)  & (df.ocorrencia_dia.dt.day > 2) & (df.ocorrencia_dia.dt.day < 9)
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,BRASIL,2015-12-03,10:50:00,0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,BRASIL,2015-12-03,16:47:00,0
2308,53625,53625,ACIDENTE,TRINDADE,GO,BRASIL,2015-12-06,13:10:00,3
2309,53626,53626,ACIDENTE,AMERICANA,SP,BRASIL,2015-12-06,15:00:00,1
2310,53628,53628,ACIDENTE,AGUAÍ,SP,BRASIL,2015-12-08,14:30:00,1
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,BRASIL,2015-12-08,10:20:00,0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,BRASIL,2015-12-08,16:19:00,0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,BRASIL,2015-12-08,13:00:00,0


In [20]:
#tratando primeiro os valores nulos da coluna hora, para não far erro
df.fillna(value={'ocorrencia_hora':'00:00:00'}, inplace=True)

In [21]:
#Criando uma nova coluna com as informações das colunas data e hora.
#O 'astype(str)' transforma em string a data, pois em isso dá erro de tentar concatenar
#Porém como queremos um campo de data e a contacenação é uma string
#Usamos 'pd.to_datetime' para converter a concatenação em data hora
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora.astype(str))

In [22]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2012-01-05,20:27:00,0,2012-01-05 20:27:00
1,45331,45331,ACIDENTE,GUARULHOS,SP,BRASIL,2012-01-06,13:44:00,3,2012-01-06 13:44:00
2,45333,45333,ACIDENTE,VIAMÃO,RS,BRASIL,2012-01-06,13:00:00,0,2012-01-06 13:00:00
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,BRASIL,2012-01-06,17:00:00,0,2012-01-06 17:00:00
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,BRASIL,2012-01-06,16:30:00,0,2012-01-06 16:30:00
...,...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,BRASIL,2021-12-30,20:30:00,0,2021-12-30 20:30:00
5163,80452,80452,ACIDENTE,MARACAÍ,SP,BRASIL,2021-12-31,09:30:00,0,2021-12-31 09:30:00
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,BRASIL,2021-12-31,11:59:00,0,2021-12-31 11:59:00
5165,80460,80460,INCIDENTE,CURITIBA,PR,BRASIL,2021-12-31,15:12:00,0,2021-12-31 15:12:00


In [23]:
#Filtro por datas, ocorrencias no ano de 2015 e mês 12 e do dia 3 ao 8
filtro = (df.ocorrencia_dia_hora.dt.year == 2015) & (df.ocorrencia_dia_hora.dt.month == 12)  & (df.ocorrencia_dia_hora.dt.day > 2) & (df.ocorrencia_dia_hora.dt.day < 9)
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,BRASIL,2015-12-03,10:50:00,0,2015-12-03 10:50:00
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,BRASIL,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,BRASIL,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,BRASIL,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2310,53628,53628,ACIDENTE,AGUAÍ,SP,BRASIL,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,BRASIL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2312,53631,53631,INCIDENTE,CAMPINAS,SP,BRASIL,2015-12-08,16:19:00,0,2015-12-08 16:19:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,BRASIL,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [24]:
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,BRASIL,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,BRASIL,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,BRASIL,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,BRASIL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,BRASIL,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [25]:
#Criação de um novo dataframe com base em filtros
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1960,53183,53183,ACIDENTE,AMAPORÃ,PR,BRASIL,2015-03-02,23:00:00,0,2015-03-02 23:00:00
1961,53120,53120,ACIDENTE,CHAVES,PA,BRASIL,2015-03-04,13:30:00,0,2015-03-04 13:30:00
1962,53109,53109,ACIDENTE,CAMPO GRANDE,MS,BRASIL,2015-03-05,13:50:00,0,2015-03-05 13:50:00
1963,53112,53112,ACIDENTE,MOGI GUAÇU,SP,BRASIL,2015-03-06,21:00:00,1,2015-03-06 21:00:00
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,BRASIL,2015-03-10,11:30:00,2,2015-03-10 11:30:00
1965,53167,53167,INCIDENTE,MARABÁ,PA,BRASIL,2015-03-10,17:33:00,0,2015-03-10 17:33:00
1966,53596,53596,INCIDENTE,ITAPEMA,SC,BRASIL,2015-03-10,21:35:00,0,2015-03-10 21:35:00
1967,53149,53149,ACIDENTE,TABATINGA,AM,BRASIL,2015-03-11,23:25:00,0,2015-03-11 23:25:00
1968,53148,53148,ACIDENTE,ARARAS,SP,BRASIL,2015-03-12,12:40:00,0,2015-03-12 12:40:00
1969,53153,53153,INCIDENTE,PORTO ALEGRE,RS,BRASIL,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [26]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_pais             37
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [27]:
#Agrupamento e contagem
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [28]:
#Conta o número de linhas agrupadas
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [29]:
#Ordenação dos resultados e ordem crescente
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [30]:
#Ordenação dos resultados e ordem decrescente
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [35]:
#Ocorrencias de 2012 da região Sudeste
filtro_ano = df.ocorrencia_dia.dt.year == 2012
filtro_estados = df.ocorrencia_uf.isin(['ES', 'MG', 'RJ', 'SP'])
dfsudeste2012 = df.loc[filtro_ano & filtro_estados]
dfsudeste2012

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1,45331,45331,ACIDENTE,GUARULHOS,SP,BRASIL,2012-01-06,13:44:00,3,2012-01-06 13:44:00
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,BRASIL,2012-01-06,17:00:00,0,2012-01-06 17:00:00
5,52243,52243,INCIDENTE,UBATUBA,SP,BRASIL,2012-01-06,14:30:00,0,2012-01-06 14:30:00
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,BRASIL,2012-01-07,18:15:00,0,2012-01-07 18:15:00
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,BRASIL,2012-01-08,16:00:00,0,2012-01-08 16:00:00
...,...,...,...,...,...,...,...,...,...,...
640,46793,46793,INCIDENTE,SÃO PAULO,SP,BRASIL,2012-12-28,16:30:00,0,2012-12-28 16:30:00
641,46780,46780,ACIDENTE,SANTA FÉ DO SUL,SP,BRASIL,2012-12-29,21:00:00,0,2012-12-29 21:00:00
642,46814,46814,INCIDENTE,BELO HORIZONTE,MG,BRASIL,2012-12-29,15:10:00,0,2012-12-29 15:10:00
643,46839,46839,ACIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-12-29,19:00:00,0,2012-12-29 19:00:00


In [34]:
dfsudeste2012.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            85
INCIDENTE          188
INCIDENTE GRAVE     31
dtype: int64

In [37]:
dfsudeste2012.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             ACIDENTE                     1
               INCIDENTE                   11
MG             ACIDENTE                    21
               INCIDENTE                   37
               INCIDENTE GRAVE              9
RJ             ACIDENTE                    14
               INCIDENTE                   53
               INCIDENTE GRAVE              5
SP             ACIDENTE                    49
               INCIDENTE                   87
               INCIDENTE GRAVE             17
dtype: int64

In [40]:
filtro = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2012.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
29,45393,45393,ACIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-01-22,20:25:00,0,2012-01-22 20:25:00
30,45397,45397,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,BRASIL,2012-01-22,19:05:00,2,2012-01-22 19:05:00
40,45415,45415,ACIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-01-30,13:55:00,0,2012-01-30 13:55:00
49,45703,45703,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-02-03,02:04:00,0,2012-02-03 02:04:00
60,45588,45588,ACIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-02-07,20:56:00,4,2012-02-07 20:56:00
69,45470,45470,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-02-12,02:20:00,0,2012-02-12 02:20:00
74,45689,45689,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-02-17,23:00:00,0,2012-02-17 23:00:00
89,45709,45709,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-02-26,15:42:00,0,2012-02-26 15:42:00
103,45604,45604,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-03-06,11:31:00,0,2012-03-06 11:31:00
120,45611,45611,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,2012-03-12,01:42:00,0,2012-03-12 01:42:00


In [44]:
dfsudeste2012.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False).head(15)

ocorrencia_cidade
RIO DE JANEIRO       11
SÃO PAULO             8
BOITUVA               7
MACAÉ                 4
BRAGANÇA PAULISTA     4
GUARULHOS             4
CATANDUVA             3
GUARUJÁ               3
BELO HORIZONTE        3
JUQUIÁ                3
PARÁ DE MINAS         2
BEBEDOURO             2
JUNDIAÍ               2
ITÁPOLIS              2
LENÇÓIS PAULISTA      2
Name: total_recomendacoes, dtype: int64

In [47]:
filtro = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           11
SÃO PAULO                 8
BOITUVA                   7
MACAÉ                     4
BRAGANÇA PAULISTA         4
GUARULHOS                 4
GUARUJÁ                   3
JUQUIÁ                    3
CATANDUVA                 3
BELO HORIZONTE            3
SANTA BÁRBARA D'OESTE     2
LENÇÓIS PAULISTA          2
ESPINOSA                  2
CAMPO FLORIDO             2
BEBEDOURO                 2
PARÁ DE MINAS             2
ITÁPOLIS                  2
JUNDIAÍ                   2
ITANHAÉM                  2
ANGRA DOS REIS            1
JUIZ DE FORA              1
ITU                       1
ELDORADO                  1
DRACENA                   1
CAMPINAS                  1
TARUMIRIM                 1
Name: total_recomendacoes, dtype: int64

In [52]:
filtro = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2012.ocorrencia_dia.dt.month]).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade      ocorrencia_dia
BOITUVA                7                 7
MACAÉ                  2                 4
BRAGANÇA PAULISTA      4                 4
RIO DE JANEIRO         2                 4
                       8                 3
GUARULHOS              1                 3
JUQUIÁ                 10                3
GUARUJÁ                4                 3
CATANDUVA              10                3
BELO HORIZONTE         8                 3
SÃO PAULO              11                2
                       7                 2
ESPINOSA               7                 2
RIO DE JANEIRO         1                 2
SANTA BÁRBARA D'OESTE  8                 2
ITANHAÉM               4                 2
CAMPO FLORIDO          2                 2
ITÁPOLIS               12                2
BEBEDOURO              7                 2
JUNDIAÍ                4                 2
SÃO PAULO              12                2
LENÇÓIS PAULISTA       5                 2
PARÁ DE MINAS   