# DIO: Fundamentos de ETL com Python - Intermediário - 5 horas

Aprenda sobre o processo de Extract Transform and Load (ETL) e como transformar seus dados e deixá-los prontos para seus projetos.

- **Disponível em:** <a href="https://web.digitalinnovation.one/course/fundamentos-de-etl-com-python/learning/ddec4a4a-3912-49b3-b368-36518802b9eb?back=/track/banco-carrefour-data-engineer" target=_blank>DigitalInnovationOne</a> | <a href="https://drive.google.com/drive/folders/1ldrsSLnFUG0Cf2JLYsI1IHn5gU5MxrJw" target="_blank">Slides</a> | <a href="https://github.com/ftiosso/dio-curso-etl" target="_blank">GitHUB</a>
- **Professor:** Fernando Tiosso

In [1]:
import pandas as pd

## 1. Extração dos dados

In [2]:
df = pd.read_csv("ocorrencia.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,****,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,****,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
5,39807,39807,39807,INCIDENTE,SALVADOR,BA,BRASIL,****,2010-01-06,17:53:00,0
6,40215,40215,40215,INCIDENTE,COARI,AM,BRASIL,SBUY,2010-01-07,18:40:00,0
7,39707,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,BRASIL,****,2010-01-09,12:30:00,3
8,39156,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,BRASIL,SBCA,2010-01-10,23:15:00,2
9,39711,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,BRASIL,****,2010-01-10,20:00:00,0


In [3]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia1                   int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_pais                     object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [4]:
df.ocorrencia_dia

0      2010-01-03
1      2010-01-03
2      2010-01-03
3      2010-01-04
4      2010-01-05
          ...    
6109   2021-08-15
6110   2021-08-16
6111   2021-08-17
6112   2021-08-18
6113   2021-08-18
Name: ocorrencia_dia, Length: 6114, dtype: datetime64[ns]

In [5]:
df.ocorrencia_dia.dt.year

0       2010
1       2010
2       2010
3       2010
4       2010
        ... 
6109    2021
6110    2021
6111    2021
6112    2021
6113    2021
Name: ocorrencia_dia, Length: 6114, dtype: int64

## 2. Validação dos dados

In [6]:
#pip install pandera
import pandera as pa

In [7]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia1":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String,pa.Check.str_length(2,2)),
        "ocorrencia_pais":pa.Column(pa.String),
        "ocorrencia_aerodromo":pa.Column(pa.String),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [8]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,****,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,****,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,****,2021-08-18,16:00:00,0


## 3. Limpeza de dados

In [9]:
df.loc[1,'ocorrencia_cidade'] #resgatar a informaçaõ de um coluna

'BELÉM'

In [10]:
df.loc[3] #resgatar todas as informações da linha 3

codigo_ocorrencia                         39527
codigo_ocorrencia1                        39527
codigo_ocorrencia2                        39527
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade            LUCAS DO RIO VERDE
ocorrencia_uf                                MT
ocorrencia_pais                          BRASIL
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-04 00:00:00
ocorrencia_hora                        17:30:00
total_recomendacoes                           0
Name: 3, dtype: object

In [11]:
df.loc[[10,40]] #resgatar as linhas 10 e 40

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,BRASIL,****,2010-01-10,21:30:00,0
40,39158,39158,39158,INCIDENTE,BELÉM,PA,BRASIL,****,2010-01-28,16:00:00,0


In [12]:
df.loc[:,'ocorrencia_cidade'] #resgatar todos os dados de uma coluna 

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
6109                RECIFE
6110           PORTO VELHO
6111                 BELÉM
6112            DOM AQUINO
6113              CAMPINAS
Name: ocorrencia_cidade, Length: 6114, dtype: object

In [13]:
df.codigo_ocorrencia.is_unique #verifica se a coluna possui valores únicos

True

In [14]:
#df.set_index('codigo_ocorrencia', inplace=True) #como a coluna ocorrencia é unica podemos definir com indíce do dataframe

In [15]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,****,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,****,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0


In [16]:
#df.reset_index(drop=True,inplace=True) #reseta o index

In [17]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,****,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,****,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0


In [18]:
df.loc[0,'ocorrencia_aerodromo'] = '' #altera os dados de uma linha

In [19]:
df.head(1)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0


In [20]:
df.loc[df.ocorrencia_uf == 'SP']

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
11,40069,40069,40069,ACIDENTE,SÃO PAULO,SP,BRASIL,SBMT,2010-01-10,14:50:00,8
16,39809,39809,39809,INCIDENTE,SÃO PAULO,SP,BRASIL,****,2010-01-15,15:00:00,0
18,39828,39828,39828,INCIDENTE,SANTOS,SP,BRASIL,****,2010-01-15,17:45:00,0
26,39847,39847,39847,INCIDENTE,SOROCABA,SP,BRASIL,****,2010-01-20,13:10:00,0
27,39768,39768,39768,INCIDENTE,CAMPINAS,SP,BRASIL,****,2010-01-21,20:45:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6084,80234,80234,80234,INCIDENTE,SÃO PAULO,SP,BRASIL,SBSP,2021-07-26,13:20:00,0
6085,80208,80208,80208,INCIDENTE,SÃO PAULO,SP,BRASIL,SBMT,2021-07-27,19:45:00,0
6104,80238,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,BRASIL,SDVG,2021-08-11,19:09:00,0
6108,80244,80244,80244,INCIDENTE,BRAGANÇA PAULISTA,SP,BRASIL,SBBP,2021-08-15,15:20:00,0


In [21]:
df.loc[df.ocorrencia_uf == 'SP', ['ocorrencia_classificacao']] = 'GRAVE' #alterar todos os dados da coluna ocorrencia classificação em que o estado é sp

In [22]:
df.loc[df.ocorrencia_uf == 'SP', ['ocorrencia_classificacao','ocorrencia_uf']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_uf
11,GRAVE,SP
16,GRAVE,SP
18,GRAVE,SP
26,GRAVE,SP
27,GRAVE,SP
...,...,...
6084,GRAVE,SP
6085,GRAVE,SP
6104,GRAVE,SP
6108,GRAVE,SP


### Limpeza das colunas

ocorrencia_uf
**

ocorrencia_aerodromo
###!
####
****
*****

ocorrencia_hora
NULL

In [23]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,****,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0


In [24]:
#limpadndo a coluna ocoorencia aerodromo com a função LOC
#df.loc[df.ocorrencia_aerodromo == '**' , ['ocorrencia_aerodromo']] = pd.NA

In [25]:
#limpadndo todo o dataframe com a função REPLACE
df.replace(['','NULL','**','***','###!','####','****','*****','...'], pd.NA, inplace=True)

In [26]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


In [30]:
#verficar qtuntidade de NA'S no dataframe
df.isna().sum()
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia1             0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_pais                0
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [31]:
#substituir os valores NA por um valor qualquer
df.fillna(0)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,0,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,0,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,0,2021-08-18,16:00:00,0


In [33]:
#alterar os dados NA de apenas uma coluna
df.fillna(value={'total_recomendacoes':10})

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


In [36]:
#criar uma coluna de backup
df['total_recomendacoes_bkp'] = df.total_recomendacoes
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,total_recomendacoes_bkp
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0,0


In [39]:
#excluir uma coluna do dataframe
df.drop(['total_recomendacoes_bkp'], axis = 1, inplace = True)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0


In [41]:
#excluir todas as linha com NA do dataframe
df.dropna()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
6,40215,40215,40215,INCIDENTE,COARI,AM,BRASIL,SBUY,2010-01-07,18:40:00,0
8,39156,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,BRASIL,SBCA,2010-01-10,23:15:00,2
...,...,...,...,...,...,...,...,...,...,...,...
6108,80244,80244,80244,GRAVE,BRAGANÇA PAULISTA,SP,BRASIL,SBBP,2021-08-15,15:20:00,0
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0


In [46]:
#excluir linhas de uma coluna especifica com NA
df.dropna(subset=['ocorrencia_uf'])

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


In [47]:
#remover linhas duplicadas do dataframe
df.drop_duplicates()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


## 4. Transformação dos dados

In [3]:
# BIBLIOTECAS UTILIZADAS
import pandas as pd
import pandera as pa

### Etapa de extração dos dados

In [4]:
# ETAPA DE EXTRAÇÃO DOS DADOS
valores_ausentes = ['','###','###!','####','**','****','*****','NULL']
df2 = pd.read_csv("ocorrencia.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df2.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0


### Etapa de validação dos dados

In [8]:
# ETAPA DE VALIDAÇÃO DOS DADOS
schema = pa.DataFrameSchema(
    columns = {
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia1":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String,pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_pais":pa.Column(pa.String),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)
schema.validate(df2)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


In [10]:
#verficar o tipo de dados do dataframe
df2.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia1                   int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_pais                     object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

### Transformação dos dados

#### Localizar dados
loc x iloc:
- **iloc:** busca por indice;
- **loc:** busca por label;

In [22]:
#busca de dados por linha
df2.iloc[-1]

codigo_ocorrencia                         80259
codigo_ocorrencia1                        80259
codigo_ocorrencia2                        80259
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                      CAMPINAS
ocorrencia_uf                                SP
ocorrencia_pais                          BRASIL
ocorrencia_aerodromo                       SBKP
ocorrencia_dia              2021-08-18 00:00:00
ocorrencia_hora                        12:45:00
total_recomendacoes                           0
Name: 6113, dtype: object

In [26]:
#busca de dados por linha
df2.loc[-1]

KeyError: -1

In [30]:
#busca de dados por coluna
df2.loc[:,'ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6109    PE
6110    RO
6111    PA
6112    MT
6113    SP
Name: ocorrencia_uf, Length: 6114, dtype: object

In [32]:
df2['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6109    PE
6110    RO
6111    PA
6112    MT
6113    SP
Name: ocorrencia_uf, Length: 6114, dtype: object

In [51]:
#mostrar os dados que a colua uf é sp
df2.loc[df2.ocorrencia_uf == 'SP', ['ocorrencia_classificacao','ocorrencia_uf']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_uf
11,ACIDENTE,SP
16,INCIDENTE,SP
18,INCIDENTE,SP
26,INCIDENTE,SP
27,INCIDENTE,SP
...,...,...
6084,INCIDENTE,SP
6085,INCIDENTE,SP
6104,INCIDENTE GRAVE,SP
6108,INCIDENTE,SP


#### Manipulação de dados nulos

In [34]:
#Manipulação de dados nulos
df2.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia1             0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_pais                0
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [35]:
df2.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia1             0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_pais                0
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [38]:
# Filtrar dados não informados por coluna
df2.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
6109    False
6110    False
6111    False
6112    False
6113    False
Name: ocorrencia_uf, Length: 6114, dtype: bool

In [49]:
#mostrar os dados que possuem a coluna uf vazias
filtro = df2.ocorrencia_uf.isnull()
df2.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,BRASIL,,2013-09-02,02:54:00,0
5855,79956,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,BRASIL,,2021-02-26,11:00:00,0


In [52]:
#mostrar os dados que possuem a coluna aerodromo vazias
filtro2 = df2.ocorrencia_aerodromo.isnull()
df2.loc[filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
5,39807,39807,39807,INCIDENTE,SALVADOR,BA,BRASIL,,2010-01-06,17:53:00,0
7,39707,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,BRASIL,,2010-01-09,12:30:00,3
9,39711,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,BRASIL,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6092,80236,80236,80236,ACIDENTE,POCONÉ,MT,BRASIL,,2021-08-01,22:00:00,0
6093,80227,80227,80227,ACIDENTE,UMUARAMA,PR,BRASIL,,2021-08-02,14:30:00,0
6096,80229,80229,80229,INCIDENTE,ITAGUAÍ,RJ,BRASIL,,2021-08-05,15:30:00,0
6099,80233,80233,80233,ACIDENTE,POCONÉ,MT,BRASIL,,2021-08-08,12:30:00,0


In [119]:
#mostrar os dados que possuem a coluna hora vazias
filtro3 = df2.ocorrencia_hora.isnull()
df2.loc[filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
4102,78823,78823,78823,INCIDENTE,CORUMBÁ,MS,BRASIL,,2017-07-09,,0,NaT


#### Manipulação de dados não nulos

In [120]:
#mostrar a quantidade de dados não nulos
df2.count()

codigo_ocorrencia           6114
codigo_ocorrencia1          6114
codigo_ocorrencia2          6114
ocorrencia_classificacao    6114
ocorrencia_cidade           6114
ocorrencia_uf               6112
ocorrencia_pais             6114
ocorrencia_aerodromo        3658
ocorrencia_dia              6114
ocorrencia_hora             6113
total_recomendacoes         6114
ocorrencia_dia_hora         6113
dtype: int64

##### Busca de palavras com filtro

In [55]:
#ocorrencias com mais de 10 recomendações
filtro4 = df2.total_recomendacoes > 10
df2.loc[filtro4]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,39992,ACIDENTE,SÃO PAULO,SP,BRASIL,SBMT,2010-02-17,20:07:00,11
326,42250,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-08-12,12:26:00,19
530,43471,43471,43471,ACIDENTE,SÃO PAULO,SP,BRASIL,,2010-12-14,20:15:00,11
727,44377,44377,44377,ACIDENTE,ITÁPOLIS,SP,BRASIL,SDIO,2011-04-09,14:50:00,11
872,44796,44796,44796,ACIDENTE,RECIFE,PE,BRASIL,SBRF,2011-07-13,09:54:00,23
884,44888,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,BRASIL,SBCT,2011-07-15,17:05:00,11
1062,45554,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,BRASIL,SBUL,2011-11-15,02:15:00,20
1972,47938,47938,47938,INCIDENTE,BRASÍLIA,DF,BRASIL,SBBR,2013-04-13,18:00:00,11
2797,52265,52265,52265,ACIDENTE,SANTOS,SP,BRASIL,,2014-08-13,13:03:00,13
3932,66432,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,BRASIL,,2017-02-21,11:47:00,12


##### Busca de palavras com filtro e colunas especificas

In [60]:
#ocorrencias com mais de 10 recomendações com colunas especificas
filtro5 = df2.total_recomendacoes > 10
df2.loc[filtro5,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
63,SÃO PAULO,SP,ACIDENTE,11
326,RIO DE JANEIRO,RJ,ACIDENTE,19
530,SÃO PAULO,SP,ACIDENTE,11
727,ITÁPOLIS,SP,ACIDENTE,11
872,RECIFE,PE,ACIDENTE,23
884,SÃO JOSÉ DOS PINHAIS,PR,INCIDENTE GRAVE,11
1062,UBERLÂNDIA,MG,INCIDENTE GRAVE,20
1972,BRASÍLIA,DF,INCIDENTE,11
2797,SANTOS,SP,ACIDENTE,13
3932,VITÓRIA,ES,INCIDENTE GRAVE,12


In [63]:
#ocorrencias com classificaçaõ de ACIDENTE com colunas especificas
filtro6 = df2.ocorrencia_classificacao == "ACIDENTE"
df2.loc[filtro6,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
3,LUCAS DO RIO VERDE,MT,ACIDENTE,0
11,SÃO PAULO,SP,ACIDENTE,8
13,PRIMAVERA DO LESTE,MT,ACIDENTE,2
14,GURUPÁ,PA,ACIDENTE,0
15,CANUTAMA,AM,ACIDENTE,0
...,...,...,...,...
6092,POCONÉ,MT,ACIDENTE,0
6093,UMUARAMA,PR,ACIDENTE,0
6099,POCONÉ,MT,ACIDENTE,0
6101,ITAPORÃ,MS,ACIDENTE,0


##### Busca de palavras com filtros e colunas especificas

In [64]:
#ocorrencias com classificaçaõ de ACIDENTE e estado SP com colunas especificas
filtro7 = df2.ocorrencia_classificacao == "ACIDENTE"
filtro8 = df2.ocorrencia_uf == "SP"
df2.loc[filtro7 & filtro8,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
11,SÃO PAULO,SP,ACIDENTE,8
34,SÃO BERNARDO DO CAMPO,SP,ACIDENTE,2
37,IPERÓ,SP,ACIDENTE,3
58,SÃO PAULO,SP,ACIDENTE,3
61,SERRA NEGRA,SP,ACIDENTE,0
...,...,...,...,...
5987,NOVO HORIZONTE,SP,ACIDENTE,0
6041,CAMPINAS,SP,ACIDENTE,0
6054,BRAGANÇA PAULISTA,SP,ACIDENTE,0
6063,BEBEDOURO,SP,ACIDENTE,0


In [67]:
#ocorrencias com classificaçaõ de ACIDENTE ou INCIDENTE GRAVE e estado SP com colunas especificas
filtro7 = (df2.ocorrencia_classificacao == "ACIDENTE") | (df2.ocorrencia_classificacao == "INCIDENTE GRAVE")
filtro8 = df2.ocorrencia_uf == "SP"
df2.loc[filtro7 & filtro8,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
11,SÃO PAULO,SP,ACIDENTE,8
34,SÃO BERNARDO DO CAMPO,SP,ACIDENTE,2
37,IPERÓ,SP,ACIDENTE,3
58,SÃO PAULO,SP,ACIDENTE,3
61,SERRA NEGRA,SP,ACIDENTE,0
...,...,...,...,...
6054,BRAGANÇA PAULISTA,SP,ACIDENTE,0
6063,BEBEDOURO,SP,ACIDENTE,0
6078,TUPI PAULISTA,SP,ACIDENTE,0
6081,BRAGANÇA PAULISTA,SP,INCIDENTE GRAVE,0


##### Busca de palavras com filtros e colunas especificas COM O MÉTODO ISIN

In [70]:
#ocorrencias com classificaçaõ de ACIDENTE ou INCIDENTE GRAVE e estado SP com colunas especificas UTILIZANDO ISIN
filtro7 = df2.ocorrencia_classificacao.isin(['ACIDENTE','INCIDENTE GRAVE'])
filtro8 = df2.ocorrencia_uf == "SP"
df2.loc[filtro7 & filtro8,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
11,SÃO PAULO,SP,ACIDENTE,8
34,SÃO BERNARDO DO CAMPO,SP,ACIDENTE,2
37,IPERÓ,SP,ACIDENTE,3
58,SÃO PAULO,SP,ACIDENTE,3
61,SERRA NEGRA,SP,ACIDENTE,0
...,...,...,...,...
6054,BRAGANÇA PAULISTA,SP,ACIDENTE,0
6063,BEBEDOURO,SP,ACIDENTE,0
6078,TUPI PAULISTA,SP,ACIDENTE,0
6081,BRAGANÇA PAULISTA,SP,INCIDENTE GRAVE,0


In [74]:
#ocorrencias com classificaçaõ de ACIDENTE ou INCIDENTE GRAVE e estado SP com colunas especificas UTILIZANDO ISIN
df2.loc[
    df2.ocorrencia_classificacao.isin(['ACIDENTE','INCIDENTE GRAVE'])
    &
    df2.ocorrencia_uf.isin(['SP'])]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
11,40069,40069,40069,ACIDENTE,SÃO PAULO,SP,BRASIL,SBMT,2010-01-10,14:50:00,8
34,39322,39322,39322,ACIDENTE,SÃO BERNARDO DO CAMPO,SP,BRASIL,,2010-01-26,13:50:00,2
37,39319,39319,39319,ACIDENTE,IPERÓ,SP,BRASIL,,2010-01-27,11:25:00,3
58,39275,39275,39275,ACIDENTE,SÃO PAULO,SP,BRASIL,,2010-02-10,09:03:00,3
61,41377,41377,41377,ACIDENTE,SERRA NEGRA,SP,BRASIL,,2010-02-14,17:30:00,0
...,...,...,...,...,...,...,...,...,...,...,...
6054,80168,80168,80168,ACIDENTE,BRAGANÇA PAULISTA,SP,BRASIL,SBBP,2021-07-09,11:03:00,0
6063,80176,80176,80176,ACIDENTE,BEBEDOURO,SP,BRASIL,SDBB,2021-07-12,19:10:00,0
6078,80203,80203,80203,ACIDENTE,TUPI PAULISTA,SP,BRASIL,,2021-07-24,20:10:00,0
6081,80200,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,BRASIL,SDVH,2021-07-25,12:25:00,0


##### Busca de palavras com filtro e colunas especificas COM O MÉTODO STR

In [75]:
#ocorrencias que as cidades comecem com "C"
filtro9 = df2.ocorrencia_cidade.str[0] == 'C'
df2.loc[filtro9,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
6,COARI,AM,INCIDENTE,0
7,CANUTAMA,AM,INCIDENTE GRAVE,3
8,CASCAVEL,PR,INCIDENTE GRAVE,2
15,CANUTAMA,AM,ACIDENTE,0
20,CRUZEIRO DO SUL,AC,INCIDENTE,0
...,...,...,...,...
6094,CURITIBA,PR,INCIDENTE,0
6097,CAXIAS DO SUL,RS,INCIDENTE GRAVE,0
6098,CHAPADÃO DO SUL,MS,INCIDENTE GRAVE,0
6100,CORUMBÁ,MS,INCIDENTE,0


In [76]:
#ocorrencias que as cidades terminam com "A"
filtro9 = df2.ocorrencia_cidade.str[-1] == 'A'
df2.loc[filtro9,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
7,CANUTAMA,AM,INCIDENTE GRAVE,3
12,BRASÍLIA,DF,INCIDENTE,0
15,CANUTAMA,AM,ACIDENTE,0
25,UBERLÂNDIA,MG,INCIDENTE,0
26,SOROCABA,SP,INCIDENTE,0
...,...,...,...,...
6093,UMUARAMA,PR,ACIDENTE,0
6094,CURITIBA,PR,INCIDENTE,0
6102,GOIÂNIA,GO,INCIDENTE,0
6104,VOTUPORANGA,SP,INCIDENTE GRAVE,0


In [78]:
#ocorrencias que as cidades terminam com "MA"
filtro10 = df2.ocorrencia_cidade.str[-2:] == 'MA'
df2.loc[filtro10,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
7,CANUTAMA,AM,INCIDENTE GRAVE,3
15,CANUTAMA,AM,ACIDENTE,0
408,NOVO GAMA,GO,ACIDENTE,1
688,BURITAMA,SP,ACIDENTE,0
1035,BURITAMA,SP,INCIDENTE,0
1377,UMUARAMA,PR,ACIDENTE,0
1401,AURIFLAMA,SP,ACIDENTE,0
2099,NOVA LIMA,MG,INCIDENTE GRAVE,4
2102,CANUTAMA,AM,ACIDENTE,0
2646,IVINHEMA,MS,INCIDENTE,0


##### Busca de palavras com filtro e colunas especificas COM O MÉTODO CONTAINS

In [79]:
#ocorrencias que as cidades contém "MA" com método CONTAINS
filtro10 = df2.ocorrencia_cidade.str.contains('MA')
df2.loc[filtro10,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
7,CANUTAMA,AM,INCIDENTE GRAVE,3
13,PRIMAVERA DO LESTE,MT,ACIDENTE,2
15,CANUTAMA,AM,ACIDENTE,0
35,PALMAS,TO,INCIDENTE GRAVE,0
78,MANAUS,AM,INCIDENTE GRAVE,2
...,...,...,...,...
6075,MANAUS,AM,INCIDENTE,0
6086,AMAPÁ,AP,INCIDENTE,0
6090,MARAÚ,BA,INCIDENTE GRAVE,0
6093,UMUARAMA,PR,ACIDENTE,0


##### Busca de palavras com filtro e colunas especificas COM O MÉTODO CONTAINS COM DOIS PARÂMETROS

In [81]:
#ocorrencias que as cidades contém "MA" com método CONTAINS com dois parâmetros
filtro11 = df2.ocorrencia_cidade.str.contains('MA|AL')
df2.loc[filtro11,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes
5,SALVADOR,BA,INCIDENTE,0
7,CANUTAMA,AM,INCIDENTE GRAVE,3
13,PRIMAVERA DO LESTE,MT,ACIDENTE,2
15,CANUTAMA,AM,ACIDENTE,0
17,SALVADOR,BA,INCIDENTE,0
...,...,...,...,...
6075,MANAUS,AM,INCIDENTE,0
6086,AMAPÁ,AP,INCIDENTE,0
6090,MARAÚ,BA,INCIDENTE GRAVE,0
6093,UMUARAMA,PR,ACIDENTE,0


##### Busca de datas com filtro e colunas especificas COM MÉTODO DT

In [87]:
#ocorrencias do ano de 2015
filtro12 = df2.ocorrencia_dia.dt.year == 2015
df2.loc[filtro12,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes','ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes,ocorrencia_dia
2998,SALVADOR,BA,INCIDENTE GRAVE,3,2015-01-01
2999,IVINHEMA,MS,ACIDENTE,0,2015-01-02
3000,TEFÉ,AM,INCIDENTE,0,2015-01-02
3001,BELO HORIZONTE,MG,INCIDENTE,0,2015-01-02
3002,TOLEDO,PR,ACIDENTE,6,2015-01-04
...,...,...,...,...,...
3464,ITABERÁ,SP,INCIDENTE GRAVE,0,2015-12-24
3465,GUARULHOS,SP,INCIDENTE,0,2015-12-25
3466,SÃO FRANCISCO DO SUL,SC,INCIDENTE,0,2015-12-26
3467,MAÇAMBARÁ,RS,ACIDENTE,2,2015-12-28


In [88]:
#ocorrencias do ano de 2015 e m~es 12
filtro13 = df2.ocorrencia_dia.dt.year == 2015
filtro14 = df2.ocorrencia_dia.dt.month == 12
df2.loc[filtro13 & filtro14,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes','ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes,ocorrencia_dia
3430,GUARULHOS,SP,INCIDENTE,0,2015-12-01
3431,PALMAS,TO,INCIDENTE,0,2015-12-01
3432,PALMAS,TO,INCIDENTE,0,2015-12-02
3433,JUNDIAÍ,SP,INCIDENTE,0,2015-12-02
3434,CAMPOS DOS GOYTACAZES,RJ,INCIDENTE,0,2015-12-03
3435,BELO HORIZONTE,MG,INCIDENTE,0,2015-12-03
3436,TRINDADE,GO,ACIDENTE,3,2015-12-06
3437,AMERICANA,SP,ACIDENTE,1,2015-12-06
3438,AGUAÍ,SP,ACIDENTE,1,2015-12-08
3439,JALES,SP,INCIDENTE GRAVE,0,2015-12-08


In [91]:
#ocorrencias do ano de 2015 e m~es 12 entre os dias 1 e 3
filtro_ano = df2.ocorrencia_dia.dt.year == 2015
filtro_mes = df2.ocorrencia_dia.dt.month == 12
filtro_dia = (df2.ocorrencia_dia.dt.day > 2) & (df2.ocorrencia_dia.dt.day <= 8)
df2.loc[filtro_ano & filtro_mes & filtro_dia,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes','ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes,ocorrencia_dia
3434,CAMPOS DOS GOYTACAZES,RJ,INCIDENTE,0,2015-12-03
3435,BELO HORIZONTE,MG,INCIDENTE,0,2015-12-03
3436,TRINDADE,GO,ACIDENTE,3,2015-12-06
3437,AMERICANA,SP,ACIDENTE,1,2015-12-06
3438,AGUAÍ,SP,ACIDENTE,1,2015-12-08
3439,JALES,SP,INCIDENTE GRAVE,0,2015-12-08
3440,CAMPINAS,SP,INCIDENTE,0,2015-12-08
3441,CAXIAS DO SUL,RS,INCIDENTE,0,2015-12-08


##### Criar uma coluna de data e hora COM O MÉTODO TO_DATETIME

In [106]:
#temos que converter ocorrencia_dia para str para juntar com ocorrencia_hora e depois convertemos para data_hora com o método to_datetime
df2['ocorrencia_dia_hora'] = pd.to_datetime(df2.ocorrencia_dia.astype(str) + ' ' + df2.ocorrencia_hora)
df2

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
3,39527,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00
...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0,2021-08-15 15:05:00
6110,80247,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0,2021-08-16 02:30:00
6111,80251,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0,2021-08-17 15:45:00
6112,80257,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0,2021-08-18 16:00:00


In [97]:
df2.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia1                   int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_pais                     object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
ocorrencia_dia_hora         datetime64[ns]
dtype: object

In [109]:
#ocorrências com filtro de data_hora
filtro15 = df2['ocorrencia_dia_hora'] > '2015-12-03 11:00:00'
filtro16 = df2['ocorrencia_dia_hora'] <= '2015-12-08 14:30:00'
df2.loc[filtro15 & filtro16,['ocorrencia_cidade','ocorrencia_uf','ocorrencia_classificacao','total_recomendacoes','ocorrencia_dia','ocorrencia_hora','ocorrencia_dia_hora']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,ocorrencia_classificacao,total_recomendacoes,ocorrencia_dia,ocorrencia_hora,ocorrencia_dia_hora
3435,BELO HORIZONTE,MG,INCIDENTE,0,2015-12-03,16:47:00,2015-12-03 16:47:00
3436,TRINDADE,GO,ACIDENTE,3,2015-12-06,13:10:00,2015-12-06 13:10:00
3437,AMERICANA,SP,ACIDENTE,1,2015-12-06,15:00:00,2015-12-06 15:00:00
3438,AGUAÍ,SP,ACIDENTE,1,2015-12-08,14:30:00,2015-12-08 14:30:00
3439,JALES,SP,INCIDENTE GRAVE,0,2015-12-08,10:20:00,2015-12-08 10:20:00
3441,CAXIAS DO SUL,RS,INCIDENTE,0,2015-12-08,13:00:00,2015-12-08 13:00:00


##### Agrupamento de dados COM MÉTODO GROUPBY

In [121]:
#ocorrências com filtro de data_hora
filtro17 = df2.ocorrencia_dia_hora.dt.year == 2015
filtro18 = df2.ocorrencia_dia_hora.dt.month == 3
df201503 = df2.loc[filtro17 & filtro18]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3088,53183,53183,53183,ACIDENTE,AMAPORÃ,PR,BRASIL,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
3089,53120,53120,53120,ACIDENTE,CHAVES,PA,BRASIL,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
3090,53109,53109,53109,ACIDENTE,CAMPO GRANDE,MS,BRASIL,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
3091,53112,53112,53112,ACIDENTE,MOGI GUAÇU,SP,BRASIL,,2015-03-06,21:00:00,0,2015-03-06 21:00:00
3092,53152,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
3093,53167,53167,53167,INCIDENTE,MARABÁ,PA,BRASIL,SBMA,2015-03-10,17:33:00,0,2015-03-10 17:33:00
3094,53596,53596,53596,INCIDENTE,ITAPEMA,SC,BRASIL,,2015-03-10,21:35:00,0,2015-03-10 21:35:00
3095,53149,53149,53149,ACIDENTE,TABATINGA,AM,BRASIL,SBTT,2015-03-11,23:25:00,0,2015-03-11 23:25:00
3096,53148,53148,53148,ACIDENTE,ARARAS,SP,BRASIL,SDEH,2015-03-12,12:40:00,0,2015-03-12 12:40:00
3097,53153,53153,53153,INCIDENTE,PORTO ALEGRE,RS,BRASIL,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [118]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia1          37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_pais             37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [126]:
#quantitdade de ocorrência por classificação
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [128]:
#quantitdade de aerodromo por classificaçao tomar cuidado para contar com colunas com valores nulos
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [130]:
#quantitdade de ocorrencia por classificaçao COM O MÉTODO SIZE para não ocorrer erros
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [134]:
#quantitdade de ocorrencia por classificaçao ordenado por valor COM MÉTODO SORT_VALUES
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

##### Agrupamento de dados COM MÉTODO GROUPBY

In [135]:
#ocorrencias no ano de 2010 na região sudeste
filtro19 = df2.ocorrencia_dia_hora.dt.year == 2010
filtro20 = df2.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df2.loc[filtro19 & filtro20]
dfsudeste2010

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
2,40351,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
9,39711,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,BRASIL,,2010-01-10,20:00:00,0,2010-01-10 20:00:00
11,40069,40069,40069,ACIDENTE,SÃO PAULO,SP,BRASIL,SBMT,2010-01-10,14:50:00,8,2010-01-10 14:50:00
16,39809,39809,39809,INCIDENTE,SÃO PAULO,SP,BRASIL,,2010-01-15,15:00:00,0,2010-01-15 15:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...
541,43722,43722,43722,ACIDENTE,CAJOBI,SP,BRASIL,,2010-12-23,11:00:00,0,2010-12-23 11:00:00
544,43548,43548,43548,INCIDENTE,SÃO PAULO,SP,BRASIL,SBSP,2010-12-26,22:10:00,0,2010-12-26 22:10:00
548,43724,43724,43724,ACIDENTE,COSMÓPOLIS,SP,BRASIL,,2010-12-29,12:00:00,0,2010-12-29 12:00:00
550,43730,43730,43730,INCIDENTE,VITÓRIA,ES,BRASIL,,2010-12-30,18:10:00,0,2010-12-30 18:10:00


In [136]:
#quantidade de ocorrência por classificação
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [138]:
#quantidade de ocorrência por classificação e estado
dfsudeste2010.groupby(['ocorrencia_classificacao','ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  MG                7
                          RJ                9
                          SP               24
INCIDENTE                 ES                5
                          MG               39
                          RJ               52
                          SP               74
INCIDENTE GRAVE           MG                5
                          RJ                4
                          SP                9
dtype: int64

In [141]:
#quantidade de ocorrência por cidade
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
VITÓRIA                   4
JUIZ DE FORA              4
SÃO JOSÉ DO RIO PRETO     3
SÃO JOSÉ DOS CAMPOS       3
MARÍLIA                   3
ARARAQUARA                2
MONTES CLAROS             2
CAMPOS DOS GOYTACAZES     2
DIVINÓPOLIS               2
IPATINGA                  2
ITANHAÉM                  2
JUNDIAÍ                   2
POÇOS DE CALDAS           2
RIBEIRÃO PRETO            2
SOROCABA                  2
UBERABA                   2
BAURU                     2
AREALVA                   2
BOITUVA                   1
BOCAINA                   1
BOM JESUS DO AMPARO       1
BOM JESUS DO GALHO        1
BEBEDOURO                 1
BRAGANÇA PAULISTA         1
BROTAS                    1
CAJOBI                    1
ARRAIAL DO CABO           1
CA

In [144]:
#total de recomendações em 2010 no rio de janeiro
filtro20 = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro20].total_recomendacoes.sum()

25

In [149]:
#total de recomendações em 2010 por cidade
#ATENÇÃO FALTA INFORMAÇÃO DOS NA
dfsudeste2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RESENDE                   8
JUNDIAÍ                   7
NOVO HORIZONTE            3
IPERÓ                     3
TIMÓTEO                   3
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
COSMÓPOLIS                0
CONFINS                   0
DIAMANTINA                0
CASIMIRO DE ABREU         0
CAMPOS DOS GOYTACAZES     0
CAMPINAS                  0
COROMANDEL                0
VITÓRIA                   0
CAJOBI                    0
BROTAS                    0
GUARULHOS                 0
BOM JESUS DO AMPARO       0
BOCAINA                   0
BEBEDOURO                 0
BAURU                     0
ARRAIAL DO CABO           0
AREALVA                   0
ARAÇATUBA                 0
ARARAQUARA                0
DIVINÓPOLIS               0
JUIZ DE FORA              0
IP

In [152]:
#total de recomendações em 2010 por cidade com não informados
dfsudeste2010.groupby(['ocorrencia_aerodromo'],dropna=False).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_aerodromo
NaN     45
SBMT    27
SBRJ    19
SBBP     9
SBJD     7
SBGL     3
SBJR     3
SDOI     1
SBPR     1
SBAQ     0
SBKP     0
SBMK     0
SBME     0
SBIP     0
SBBH     0
SBML     0
SBCF     0
SBBU     0
SBGR     0
SBPC     0
SNXT     0
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SBAE     0
Name: total_recomendacoes, dtype: int64

In [154]:
#total de recomendações em 2010 por cidade NÃO MOSTRANDO A CIDADES SEM RECOMENDAÕES
#ATENÇÃO FALTA INFORMAÇÃO DOS NA
filtro21 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro21].groupby(['ocorrencia_cidade'], dropna=False).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
CAMANDUCAIA               9
BRAGANÇA PAULISTA         9
RESENDE                   8
JUNDIAÍ                   7
TIMÓTEO                   3
NOVO HORIZONTE            3
IPERÓ                     3
SÃO BERNARDO DO CAMPO     2
BELO HORIZONTE            2
ITANHAÉM                  1
BOM JESUS DO GALHO        1
BOITUVA                   1
Name: total_recomendacoes, dtype: int64

In [157]:
#total de recomendações em 2010 por cidade e mês NÃO MOSTRANDO A CIDADES SEM RECOMENDAÕES
#ATENÇÃO FALTA INFORMAÇÃO DOS NA
filtro21 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro21].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month], dropna=False).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              

## 5. Considerações Finais

Links importantes:
- Leitura de arquivos csv (read_csv)
- Validação Pandera
- Limpeza Valores Ausentes
- Transformação Variações de filtros (tempo de execução)