In [1]:
import pandas as pd 
import pandera as pa

In [2]:
valores_ausentes = ['**', '###!', '####', '****', '*****', 'NULL']
df = pd.read_csv(
                "ocorrencia_2010_2020.csv", 
                sep=";", 
                parse_dates=["ocorrencia_dia"], 
                dayfirst=True, 
                na_values = valores_ausentes
)


df.head(10)   




Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,3:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0


In [3]:

schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False), #por padrão as colunas são setadas como True, mas podemos definir se ela é obrigatória ou não. No caso essa coluna não existe na nossa base
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True), #tamanha máximo e minimo de caracteres
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }

)



In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,3:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5735,79769,79769,INCIDENTE GRAVE,MANOEL URBANO,AC,SIMB,2020-12-29,18:30:00,0
5736,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5737,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5738,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,0:54:00,0


In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [6]:
df.loc[1] #procura o valor 1 no label(rotulo) da tabela, nos dados

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [7]:
df.iloc[-1] #procura no index, da mesma forma que a lista no python e por isso podemos usar -1 (de trás para frente)

codigo_ocorrencia                         79756
codigo_ocorrencia2                        79756
ocorrencia_classificacao        INCIDENTE GRAVE
ocorrencia_cidade                     VICENTINA
ocorrencia_uf                                MS
ocorrencia_aerodromo                        NaN
ocorrencia_dia              2020-12-31 00:00:00
ocorrencia_hora                         9:00:00
total_recomendacoes                           0
Name: 5739, dtype: object

In [8]:
df.iloc[10:15] #diferente do fatiamento do loc, o iloc que trabalha como python retorna os valores de 10 a 14, excluindo a ultima posiçãodf.loc[df.total_recomendacoes == 10]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,3:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [9]:
df.ocorrencia_uf.isnull() #mostra false quando não tem null e true quando tem dados, da coluna ocorrencia_uf

0       False
1       False
2       False
3       False
4       False
        ...  
5735    False
5736    False
5737    False
5738    False
5739    False
Name: ocorrencia_uf, Length: 5740, dtype: bool

In [10]:
filtro = df.ocorrencia_uf.isnull() #localiza os null da coluna ocorrencia_uf e seta true. Os demais ficam false
df.loc[filtro] #localiza conforme filtro

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,2:54:00,0


In [11]:
df.count() #conta celulas preenchidas (NaN não são contdas)

codigo_ocorrencia           5740
codigo_ocorrencia2          5740
ocorrencia_classificacao    5740
ocorrencia_cidade           5740
ocorrencia_uf               5739
ocorrencia_aerodromo        3397
ocorrencia_dia              5740
ocorrencia_hora             5739
total_recomendacoes         5740
dtype: int64

In [12]:
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11
727,44377,44377,ACIDENTE,ITÁPOLIS,SP,SDIO,2011-04-09,14:50:00,11
872,44796,44796,ACIDENTE,RECIFE,PE,SBRF,2011-07-13,9:54:00,23
884,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,SBCT,2011-07-15,17:05:00,11
1062,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,2011-11-15,2:15:00,20
1972,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
2795,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
3928,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [13]:
#cidades com mais de 10 recomendações, retorna somente colunas cidades e recomendacoes
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2795,SANTOS,13
3928,VITÓRIA,12


In [14]:
#seleciona as colunas cidade e recomendações que têm a classificação incidente grave
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
7,CANUTAMA,3
8,CASCAVEL,2
9,PARÁ DE MINAS,0
29,CURITIBA,2
35,PALMAS,0
...,...,...
5730,NOVA MARINGÁ,0
5733,GOIATUBA,0
5735,MANOEL URBANO,0
5737,LAGOA DA CONFUSÃO,0


In [15]:
#retorna a classificação incidente grave E que são da uf SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
136,40270,40270,INCIDENTE GRAVE,PIRASSUNUNGA,SP,SDPY,2010-04-15,20:15:00,0
171,40620,40620,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2010-05-06,15:50:00,0
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2
297,42289,42289,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-07-29,20:06:00,0
314,42323,42323,INCIDENTE GRAVE,SÃO JOSÉ DO RIO PRETO,SP,SBSR,2010-08-05,12:01:00,0
...,...,...,...,...,...,...,...,...,...
5583,79540,79540,INCIDENTE GRAVE,SÃO PAULO,SP,,2020-09-12,13:10:00,0
5602,79566,79566,INCIDENTE GRAVE,REGENTE FEIJÓ,SP,SDYJ,2020-09-27,19:33:00,0
5694,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5695,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0


In [16]:
#retorna a classificação incidente grave OU que são da uf SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
...,...,...,...,...,...,...,...,...,...
5733,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0
5735,79769,79769,INCIDENTE GRAVE,MANOEL URBANO,AC,SIMB,2020-12-29,18:30:00,0
5736,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5737,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0


In [17]:
#retorna a (classificação 'incidente grave' OU 'Incidente') E que são da uf SP
filtro1 = ((df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE'))
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
5694,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5695,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0
5705,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5731,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [18]:
#retorna a (classificação 'incidente grave' OU 'Incidente') E que são da uf SP. Funciona mesmo jeito que colocando |
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
5694,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5695,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0
5705,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5731,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [19]:
#filtrar as cidades que começam com a letra F
filtro = df.ocorrencia_cidade.str[0] == 'F'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
21,39320,39320,ACIDENTE,FAROL,PR,,2010-01-19,18:30:00,4
38,39627,39627,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2010-01-27,16:15:00,0
114,40288,40288,INCIDENTE,FORTALEZA,CE,SBFZ,2010-04-01,13:16:00,0
117,40251,40251,INCIDENTE,FLORIANÓPOLIS,SC,,2010-04-04,17:00:00,0
142,40247,40247,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2010-04-17,23:30:00,0
...,...,...,...,...,...,...,...,...,...
5609,79589,79589,INCIDENTE GRAVE,FORTALEZA,CE,SBFZ,2020-09-30,17:26:00,0
5625,79728,79728,INCIDENTE,FLORIANÓPOLIS,SC,,2020-10-14,13:59:00,0
5630,79619,79619,ACIDENTE,FEIJÓ,AC,,2020-10-16,20:00:00,0
5667,79680,79680,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2020-11-15,1:40:00,0


In [20]:
#filtrar as cidades que terminam com a letra A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,3:00:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
25,39772,39772,INCIDENTE,UBERLÂNDIA,MG,,2010-01-20,18:58:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
...,...,...,...,...,...,...,...,...,...
5727,79787,79787,INCIDENTE,FORTALEZA,CE,SBFZ,2020-12-23,18:30:00,0
5728,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5732,79824,79824,ACIDENTE,RIO PARANAÍBA,MG,SNRP,2020-12-28,17:00:00,0
5733,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0


In [21]:
#filtrar as cidades que terminam com caractere 'MA'
filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
408,43062,43062,ACIDENTE,NOVO GAMA,GO,,2010-09-25,16:30:00,1
688,44198,44198,ACIDENTE,BURITAMA,SP,,2011-03-19,11:18:00,0
1035,51785,51785,INCIDENTE,BURITAMA,SP,SIBX,2011-10-25,19:15:00,0
1377,45939,45939,ACIDENTE,UMUARAMA,PR,,2012-05-30,19:00:00,0
1401,46180,46180,ACIDENTE,AURIFLAMA,SP,,2012-06-16,19:30:00,0
2099,49113,49113,INCIDENTE GRAVE,NOVA LIMA,MG,,2013-06-15,12:00:00,4
2102,48799,48799,ACIDENTE,CANUTAMA,AM,,2013-06-18,21:30:00,0
2655,51347,51347,INCIDENTE,DIADEMA,SP,,2014-05-04,16:00:00,0


In [22]:
#filtrar as cidades contem 'FOR'
filtro = df.ocorrencia_cidade.str.contains('FOR')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
68,40318,40318,INCIDENTE,JUIZ DE FORA,MG,,2010-02-22,13:47:00,0
114,40288,40288,INCIDENTE,FORTALEZA,CE,SBFZ,2010-04-01,13:16:00,0
187,41574,41574,INCIDENTE,JUIZ DE FORA,MG,,2010-05-14,23:57:00,0
207,41272,41272,INCIDENTE,FORTALEZA,CE,SBFZ,2010-05-29,19:38:00,0
213,41482,41482,ACIDENTE,TRÊS FORQUILHAS,RS,,2010-06-03,16:15:00,0
...,...,...,...,...,...,...,...,...,...
5462,79503,79503,INCIDENTE,FORTALEZA,CE,SBFZ,2020-06-05,14:20:00,0
5597,79555,79555,ACIDENTE,FORMOSA,GO,SWFR,2020-09-20,18:44:00,0
5609,79589,79589,INCIDENTE GRAVE,FORTALEZA,CE,SBFZ,2020-09-30,17:26:00,0
5724,79766,79766,INCIDENTE GRAVE,JUIZ DE FORA,MG,SBJF,2020-12-21,16:20:00,0


In [23]:
#filtrar as cidades contem 'FOR' ou 'MA'
filtro = df.ocorrencia_cidade.str.contains('FOR|MA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0
68,40318,40318,INCIDENTE,JUIZ DE FORA,MG,,2010-02-22,13:47:00,0
...,...,...,...,...,...,...,...,...,...
5727,79787,79787,INCIDENTE,FORTALEZA,CE,SBFZ,2020-12-23,18:30:00,0
5728,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5730,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5734,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0


In [24]:
#filtrar ocorrencias do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2994,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
2995,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
2996,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
2997,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
2998,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
3460,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
3461,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
3462,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
3463,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [25]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [26]:
#filtrar ocorrencias do ano de 2015 e mês 2
ano = df.ocorrencia_dia.dt.year == 2015
mes = df.ocorrencia_dia.dt.month == 12
df.loc[ano & mes]

#poderia ser filtro = ((df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.day == 8))

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3426,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,2:48:00,0
3427,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0
3428,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0
3429,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0
3430,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
3431,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
3432,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
3433,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
3434,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3435,53629,53629,ACIDENTE,JALES,SP,SDJL,2015-12-08,10:20:00,0


In [27]:
#filtrar ocorrencias entre os dias 3 e 8
filtro = ((df.ocorrencia_dia.dt.day >= 3) & (df.ocorrencia_dia.dt.day <= 8))
df.loc[filtro]


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,3:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5698,79713,79713,ACIDENTE,SANTA VITÓRIA DO PALMAR,RS,,2020-12-06,13:30:00,0
5699,79711,79711,INCIDENTE,PORTO VELHO,RO,SBPV,2020-12-08,4:23:00,0
5700,79714,79714,INCIDENTE,RIO DE JANEIRO,RJ,9PAA,2020-12-08,14:50:00,0
5701,79717,79717,ACIDENTE,NÃO IDENTIFICADA,MT,,2020-12-08,17:00:00,0


In [40]:
#criando nova coluna com data e hora juntos
#como o dia está no formado date e o hora em str, precisamos converter dia para str e depois concatenar
#no final, quando tudo estiver concatenado em str, vamos converter para o formado date com o comando to_datetime
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,3:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00


In [43]:
#como no comando anterior, criamos uma nova comluna juntando data e hora, agora podemos fazer um filtro mais preciso com menos linhas 
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3431,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
3432,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
3433,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
3435,53629,53629,ACIDENTE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
3437,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [53]:
#ocorrencia do ano de 2015 e mes 03 criando um novo dataframe
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [54]:
#agrupando por codigo de ocorrencia e contar a quantidade de valor nas celulas. quando não tem ele conta zero
#o professor tentou explicar quando quando usamos o cont, precisamos escolher uma coluna que tenha dados, caso contrario, vai te passar a quantidade de linhas errada.
df201503.groupby(['codigo_ocorrencia']).count()

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
53109,1,1,1,1,1,1,1,1,1
53112,1,1,1,1,0,1,1,1,1
53120,1,1,1,1,1,1,1,1,1
53148,1,1,1,1,1,1,1,1,1
53149,1,1,1,1,1,1,1,1,1
53151,1,1,1,1,1,1,1,1,1
53152,1,1,1,1,1,1,1,1,1
53153,1,1,1,1,1,1,1,1,1
53154,1,1,1,1,1,1,1,1,1
53164,1,1,1,1,0,1,1,1,1


In [55]:
#conta a 'ocorrencia de classificação' com base na coluna 'codigo ocorrencia', pois se escolher uma coluna que tem valor nulo para usar como base, o python vai ignorar toda linha da ocorrencia de classificacao
#em resumo, você precisa usar uma coluna base(ex. codigo_ocorrencia) que seja chave primária, pois não contem valores nulos
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [56]:
#visando não cair em erros de contagem, conforme demonstrado no code acima, podemos usar outra abordagem que não depende de uma coluna base
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [60]:
#agrupando em ordem crescente 
#df201503.groupby(['ocorrencia_classificacao']).size().sort_values() #crescente
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False) #decrescente

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [66]:
#criando um novo dataframe com os dados da regiao suldeste
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df.loc[filtro1 & filtro2] 
dfsudeste2010

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00,0,2010-01-03 12:00:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,3:00:00,0,2010-01-03 03:00:00
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0,2010-01-10 20:00:00
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8,2010-01-10 14:50:00
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0,2010-01-15 15:00:00
...,...,...,...,...,...,...,...,...,...,...
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0,2010-12-23 11:00:00
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0,2010-12-26 22:10:00
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0,2010-12-29 12:00:00
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0,2010-12-30 18:10:00


In [68]:
#saber quandos 'incidentes grave' teve essa regiao
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [69]:
#contar quantas ocorencias temos ao total para comparar com a quantidade de ocorrencias temos grave
dfsudeste2010.count()

codigo_ocorrencia           228
codigo_ocorrencia2          228
ocorrencia_classificacao    228
ocorrencia_cidade           228
ocorrencia_uf               228
ocorrencia_aerodromo        127
ocorrencia_dia              228
ocorrencia_hora             228
total_recomendacoes         228
ocorrencia_dia_hora         228
dtype: int64

In [70]:
#saber a quantidade de incidente dividido pela classificação e de pois pelo estado. quantiade de li

dfsudeste2010.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  MG                7
                          RJ                9
                          SP               24
INCIDENTE                 ES                5
                          MG               39
                          RJ               52
                          SP               74
INCIDENTE GRAVE           MG                5
                          RJ                4
                          SP                9
dtype: int64

In [84]:
# filtro = df.ocorrencia_uf == 'CE'
# dfceara = df.loc[filtro]
# dfceara

filtro = df.ocorrencia_uf.str.contains('CE')
dfceara = df.loc[filtro]
dfceara

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,CE,,2010-01-03,12:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,CE,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,CE,SBRJ,2010-01-03,3:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,CE,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,CE,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00
...,...,...,...,...,...,...,...,...,...,...
5735,79769,79769,INCIDENTE GRAVE,MANOEL URBANO,CE,SIMB,2020-12-29,18:30:00,0,2020-12-29 18:30:00
5736,79804,79804,INCIDENTE,CAMPINAS,CE,SBKP,2020-12-29,19:00:00,0,2020-12-29 19:00:00
5737,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,CE,,2020-12-30,18:30:00,0,2020-12-30 18:30:00
5738,79802,79802,INCIDENTE,RIO DE JANEIRO,CE,SBGL,2020-12-30,0:54:00,0,2020-12-30 00:54:00


In [85]:
#no dfceara, que tem somente dados do ceara(dfceara), retornamos o total de vezes que 'ocorrencias por dia' se repete de na ordem decrescente
dfceara.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO      319
SÃO PAULO           275
BELO HORIZONTE      188
GUARULHOS           153
CAMPINAS            150
                   ... 
NOVA MUTUM            1
NOVA ODESSA           1
NOVA PONTE            1
NOVA PORTEIRINHA      1
JUNQUEIRÓPOLIS        1
Length: 1096, dtype: int64

In [86]:
#total de recomendacoes para a cidade do rio de janeiro
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()

25

In [89]:
#mostra o total de ocorrencia_recomendacoes dividido por ocorrencia_aerodromo
# dfsudeste2010.groupby(['ocorrencia_aerodromo']).size() nesse caso, o total é por quantidade de linhas que se repete
dfsudeste2010.groupby(['ocorrencia_aerodromo']).total_recomendacoes.sum()

ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
Name: total_recomendacoes, dtype: int64

In [91]:
#adiciona uma nova linha com o total de aeroodromo não informado (dropna=False)
dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()

ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
NaN     45
Name: total_recomendacoes, dtype: int64

In [93]:
#retorna o total de recomendações, maior que zero dividido por cidade
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade'], dropna=False).total_recomendacoes.sum()

ocorrencia_cidade
BELO HORIZONTE            2
BOITUVA                   1
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
IPERÓ                     3
ITANHAÉM                  1
JUNDIAÍ                   7
NOVO HORIZONTE            3
RESENDE                   8
RIO DE JANEIRO           25
SÃO BERNARDO DO CAMPO     2
SÃO PAULO                41
TIMÓTEO                   3
Name: total_recomendacoes, dtype: int64

In [95]:
#retorna o total de recomendacores, dividido pode cidade e depois por mês (dfsudeste2010.ocorrencia_dia.dt.month)
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              