## Fundamentos de ETL com Python

- Extração
    - os dados são exraindos de diferentes fontes de dados
- Transformação
    - Onde são transformados e limpos
- Load
    - Carregar os dados no data warehouse

Limpeza dos Dados

In [3]:
import pandas as pd


In [6]:
# abrindo csv usando o separador ";"
df = pd.read_csv("./ocorrencia.csv", sep=";", parse_dates=["ocorrencia_dia"], dayfirst=True)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [7]:
# pegando a linha 1 da coluna ocorrencia_cidade
df.loc[1,"ocorrencia_cidade"]

'BELÉM'

In [9]:
# pegando todos os dados da linha 3
df.loc[3]

codigo_ocorrencia                         39527
codigo_ocorrencia2                        39527
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade            LUCAS DO RIO VERDE
ocorrencia_uf                                MT
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-04 00:00:00
ocorrencia_hora                        17:30:00
total_recomendacoes                           0
Name: 3, dtype: object

In [10]:
# pegando  os dados da linha 1 ate a 3
df.loc[1:3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0


In [11]:
# pegando os dados da linha 10 e da linha 40
df.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,****,2010-01-10,21:30:00,0
40,39158,39158,INCIDENTE,BELÉM,PA,****,2010-01-28,16:00:00,0


In [12]:
# pegando todos os dados da coluna ocorrencia_cidade
df.loc[:,"ocorrencia_cidade"]

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
6109                RECIFE
6110           PORTO VELHO
6111                 BELÉM
6112            DOM AQUINO
6113              CAMPINAS
Name: ocorrencia_cidade, Length: 6114, dtype: object

In [14]:
# verificando se os codigos são valores unicos
df.codigo_ocorrencia.is_unique

True

In [17]:
# setando o codigo_ocorrencia como o index do dataframe
# o implace=True indica que a atualizacao vai ser feita direta no dataframe local
# df.set_index("codigo_ocorrencia", implace=True)

# outra forma de fazer
df = df.set_index("codigo_ocorrencia")
df

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...
80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [19]:
# agra podemos fazer as busca usando o codigo como index
df.loc[40211]

codigo_ocorrencia2                        40211
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        12:00:00
total_recomendacoes                           0
Name: 40211, dtype: object

In [20]:
# para volta ao index original, usamos o reset_index(drop=True)
df = df.reset_index(drop=True)


In [21]:
df.head(5)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


Alterando os dados

In [23]:
# o valor da linha 0 da coluna ocorrencia_aerodromo é "****", vamos altera ele para vazio
df.loc[0,"ocorrencia_aerodromo"]

'****'

In [25]:
# alterando o valor da linha 0 da coluna ocorrencia_aerodromo
df.loc[0,"ocorrencia_aerodromo"] = ""
#verificando o resultado
df.loc[0,"ocorrencia_aerodromo"]

''

In [26]:
# fazendo um filtro na coluna correncia_uf e onde so igual a SP, vai altera a linha
# da coluna ocorrencia_classificacao
df.loc[df.ocorrencia_uf == "SP",["ocorrencia_classificacao"]] = "GRAVE"

Agora vamos fazer a limpeza

In [28]:
# carregando df de novo
# abrindo csv usando o separador ";"
df = pd.read_csv("./ocorrencia.csv", sep=";", parse_dates=["ocorrencia_dia"], dayfirst=True)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [29]:
# alterando os valores **** da coluna ocorrencia_aerdromo para NA, nao informados
df.loc[df.ocorrencia_aerodromo=="****",["ocorrencia_aerodromo"]] = pd.NA 

In [31]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [33]:
# usando o replace para altera os valores por NA
df = df.replace(["**","*****","###!","####","NULL"], pd.NA)

  mask = arr == x
  mask |= arr == x


In [38]:
# verificando os dados NA e fazendo a soma por coluna
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  0
ocorrencia_aerodromo        2272
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [39]:
# verificando os dados NA e fazendo a soma por coluna, a função isnull tambem
# pode ser usando 
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  0
ocorrencia_aerodromo        2272
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [None]:
# usando a funcão fillna(), para adiciona um valor onde os dados forem NA
# exemplo
df = df.fillna(0)

# tambem é possivel altera valor NA especifico de uma coluna
# exemplo
# df = df.fillna(value={"total_recomendacoes": 10})

In [None]:
# apagando todas as linhas que tem o valor NA
df = df.dropna()
# apagando por coluna especifica
df = df.dropna(subset=['ocorrencia_uf'])

In [None]:
# excluindo valores duplicados
df = df.drop_duplicates()