In [1]:
import pandas as pd

In [2]:
caminho_dados = 'ocorrencia_2010_2020.csv'
df = pd.read_csv(caminho_dados, sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


### Manipulando o dataframe

In [3]:
#o df é semelhante a uma matriz, com a propriedade loc podemos percorrer a matriz
df.loc[1, 'ocorrencia_cidade']

'BELÉM'

In [4]:
#acessando tudo da linha 3
df.loc[3]

#apesar de parecer com indices de um array, nao sao exatamente indices
#nao podemos acessar a ulyima linha com -1, como nos arrays
#esses identificadores no df sao os labels/rotulos
#df.loc[-1]

#acessando tudo da linha 1 ate 3
df.loc[1:3]

#para acesssar duas linhas mas que nao sao consecutivas usamos uma lista para enviar as linhas desejadas
#dessa forma a coluna nao é informada e sao retornadas todas as colunas das duas linhas
df.loc[[2, 6]]

#para acessar todas as linhas usamos o : e com uma virgulas separamos das colunas que queremos
df.loc[:, 'ocorrencia_cidade']

df.loc[:, ['ocorrencia_cidade', 'ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
0,RIO DE JANEIRO,RJ
1,BELÉM,PA
2,RIO DE JANEIRO,RJ
3,LUCAS DO RIO VERDE,MT
4,PELOTAS,RS
...,...,...
5747,CAMPINAS,SP
5748,LAGOA DA CONFUSÃO,TO
5749,RIO DE JANEIRO,RJ
5750,VICENTINA,MS


In [5]:
#é interessante ter uma coluna que sirva como index para identificar cada linha
#entao vamos verificar se alguma coluna tem valores unicos
df.codigo_ocorrencia.is_unique

True

In [6]:
#como essa coluna tem valores unicos vamos transformar em index para o df
df.set_index('codigo_ocorrencia', inplace=True) #parametro inplace modifica o df original

df.head()

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [7]:
df.loc[40324]

codigo_ocorrencia2                        40324
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                       PELOTAS
ocorrencia_uf                                RS
ocorrencia_aerodromo                       SBPK
ocorrencia_dia              2010-01-05 00:00:00
ocorrencia_hora                        19:25:00
total_recomendacoes                           0
Name: 40324, dtype: object

In [8]:
#voltando com o index original
df.reset_index(drop=True, inplace=True)
df.head()

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [9]:
#inserindo vazio em uma das casas com ****
df.loc[0,'ocorrencia_aerodromo'] = ''
df.head(1)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0


In [10]:
# df.loc[1] = 20
##muda todas as colunas pra 20 na linha 1

# df.loc[:,'total_recomendacoes'] = 10
##na coluna total_recomendacoes muda para 10 em todas as linhas, ou seja, a coluna toda

#backup da coluna caso os valores sejam totalmente alterados como acima
df['ocorrencia_uf_bkp'] = df.ocorrencia_uf

In [11]:
# é possivel criar filtros dentro de loc
#aqui sempre que tiver SP na coluna ocorrencia_uf
#na mesma linha mas na coluna ocorrencia_classificacao alteramos o valor para GRAVE
df.loc[df.ocorrencia_uf == 'RJ', ['ocorrencia_classificacao']] = 'GRAVE'
df

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,GRAVE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,RJ
1,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,PA
2,40351,GRAVE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,RJ
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0,MT
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,RS
...,...,...,...,...,...,...,...,...,...
5747,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0,SP
5748,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0,TO
5749,79802,GRAVE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0,RJ
5750,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0,MS


In [12]:
#filtro que busca todas as linhas em que na coluna ocorrencia_uf o valor é RJ
df.loc[df.ocorrencia_uf == 'RJ']

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,GRAVE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,RJ
2,40351,GRAVE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,RJ
19,44575,GRAVE,RIO DE JANEIRO,RJ,SBGL,2010-01-17,12:27:00,0,RJ
23,40311,GRAVE,RIO DE JANEIRO,RJ,****,2010-01-19,13:20:00,0,RJ
24,41577,GRAVE,RIO DE JANEIRO,RJ,****,2010-01-19,12:16:00,0,RJ
...,...,...,...,...,...,...,...,...,...
5706,79707,GRAVE,RIO DE JANEIRO,RJ,SBRJ,2020-12-05,12:25:00,0,RJ
5710,79714,GRAVE,RIO DE JANEIRO,RJ,9PAA,2020-12-08,14:50:00,0,RJ
5716,79724,GRAVE,ANGRA DOS REIS,RJ,****,2020-12-11,21:15:00,0,RJ
5749,79802,GRAVE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0,RJ


In [13]:
#lendo o arquivo novamente pois modificamos muito o dataframe
#lembrando que altermaos o df e nao o arquivo csv
df = pd.read_csv(caminho_dados, sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


### Limpeza dos dados

Tipos de dados que estao no df e vamos limpar:

ocorrencia_uf: ** 

ocorrencia_aerodromo: ###! #### **** ***** 

ocorrencia_hora: NULL

In [14]:
#df.loc[df.ocorrencia_aerodromo == '****', ['ocorrencia_aerodromo']] = pd.NA

##metodo replace faz o que o de cima esta fazendo mas para todos os valores da lista informada
##NA é not available, o pandas permite inserir isso no df
df.replace(['**','###!','####','****','*****','NULL'], pd.NA, inplace=True)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [15]:
##ambos os comandos imprimem o df com apenas booleanos, true e false onde respectivamente o valor é NA
#df.isna()
#df.isnull()

##somar todos os valores que sao NA em cada coluna
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [16]:
## filtra as casas com NA e nela coloca o valor indicado, 10 nesse caso
## e com inplace altera o df e nao fica somente para visualizaçao
#df.fillna(10, inplace=True)

##quando o comando que busca NA for usado de novo nao vai aparecer nenhum
#df.isna().sum()

In [17]:
# #vai substituir onde tem 10 por NA novamente
# #mas como talvez ja tinha valores 10 eles tambem serao alterados 
# df.replace([10], pd.NA, inplace=True)

# #alterando os valores que foram mudados sem querer
# df.fillna(value={'total_recomendacoes':10}, inplace=True)
# df.isnull().sum()


In [18]:
#criando e deletando colunas

df['total_recomendacoes_bkp'] = df.total_recomendacoes

#por padrao o eixo é 0, entao se nao colocarmos o parametro e com valor 1
#a coluna nao sera apagada pois o comando vai procurar a linha para apagar
#entao inserindo o axis ele procura por colunas
df.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)

In [19]:
#deleta todas linhas com NA, na visualizaçao
df.dropna()

#deleta linhas somente da coluna enviada no subconjunto subset
df.dropna(subset=['ocorrencia_uf'])

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0


In [20]:
#deleta linhas duplicadas e altera o df com inplace
df.drop_duplicates(inplace=True)