# **Tratamento dos dados de Projetos de Monitoramento de Praia (PMPs) entre os anos de 2020-2024**

## **Descrição**
### **Objetivo**:

Esse notebook realiza as etapas de limpeza e tratamento dos dados para análises posteriores realizadas em Power BI, garantindo melhor desempenho das consultas e visualizações utilizadas no dashboard  

### **Dados**:

Os arquivos em csv foram obtidos do Sistema de Informação de Monitoramento da Biota Aquática ([SIMBA](https://simba.petrobras.com.br/simba/web/)), utilizando os filtros de data inicial para 01/01/2020 e data final para 31/12/2024. Uma vez obtidos, os mesmos foram hospedados em Google Drive em compartilhamento público (links disponíveis em [util.py](https://github.com/tainahguerras/PMP-Petrobras-Analise/blob/main/utils.py))

### **Etapas**:
1. Importação das Bibliotecas

2. Importação dos Dados

3. Checagem dos Dados

4. Tranformação dos Dados

5. Download dos Datasets Tratados


## **Importação de Bibliotecas**

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

import utils as ut # importa listas e funções definidas em utils.py

## **Importação dos Dados**

Durante a importação, definimos o tipo correto para coluna "Data/Hora", considerando o formato DD/MM/AAAA

In [2]:
datasets = {}
nomes = ['BC_ES', 'BS_RJ', 'BS_SC_PR', 'BS_SP', 'RN_CE', 'SE_AL']

urls_convertidas = [ut.conversor_url(url) for url in ut.urls] # convertendo urls de compartilhamento do sheets para formato aceito por .read_csv()

# Criando datasets e armazenando em dicionário
for i in range(len(nomes)): 
    datasets[nomes[i]] = pd.read_csv(urls_convertidas[i],parse_dates=['Data/Hora'],dayfirst=True,low_memory=False)[ut.colunas_selecionadas]

## **Checagem dos Dados**

In [3]:
datasets['SE_AL'].head() # Exemplo de dataset criado

Unnamed: 0,Código,Identificador do indivíduo,Instituição executora,Estado,Cidade,Praia,Trecho,Estratégia do trecho,Maré inicial,Vento inicial,Tipo do monitoramento,Data/Hora,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Subordem,Espécies - Família,Espécies - Gênero,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição
0,325581,136459,Biota,Alagoas,Piaçabuçu,zz desativado 1 Praia Pontal do Peba,zz desativado 1 APA (Peba),Diário,Vazante,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 11:44:00,-1.038.249,-363.215.983,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto
1,325580,136240,Biota,Alagoas,Piaçabuçu,zz desativado 1 Praia Pontal do Peba,zz desativado 1 APA (Peba),Diário,Vazante,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 11:24:00,-103.717.217,-363.134.683,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto
2,325489,131188,TAMAR,Sergipe,Aracaju,zz desativado 1 Praia Aracaju,zz desativado 1 Aracaju,Diário,Enchente,4 - Brisa fraca – 20 até 29 km/h,Regular,2024-10-22 09:39:00,-110.581.917,-3.709.627,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto
3,325456,136554,TAMAR,Bahia,Jandaíra,zz desativado 1 Praia Mangue Seco,zz desativado 1 Mangue Seco,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 07:15:00,-114.830.733,-373.694.517,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto
4,325410,137100,TAMAR,Sergipe,"Brejo Grande,Pacatuba,Pirambu",zz desativado 1 Praia Ponta dos Mangues,zz desativado 1 Anuência_Norte,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 06:25:00,-105.369,-36.494,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto


**Checando tipagem dos dados**

In [4]:
datasets['SE_AL'].dtypes

Código                                 int64
Identificador do indivíduo             int64
Instituição executora                 object
Estado                                object
Cidade                                object
Praia                                 object
Trecho                                object
Estratégia do trecho                  object
Maré inicial                          object
Vento inicial                         object
Tipo do monitoramento                 object
Data/Hora                     datetime64[ns]
Ponto - Lat                           object
Ponto - Long                          object
Espécies - Classe                     object
Espécies - Ordem                      object
Espécies - Subordem                   object
Espécies - Família                    object
Espécies - Gênero                     object
Espécies - Espécie                    object
Espécie ameaçada                      object
Caracterização do ambiente            object
Condição  

**Checando filtragem das datas**

Vamos conferir a filtragem utilizada para download dos datasets através do SIMBA, em que se definiu a data mínima como 01/01/2020 e a data máxima como 31/12/2024

In [5]:
for nome, df in datasets.items():
    print(f"Dataset: {nome}")
    print(f"  Data mínima: {df['Data/Hora'].min()}")
    print(f'  Data máxima: {df['Data/Hora'].max()}')
    print('-' * 27)

Dataset: BC_ES
  Data mínima: 2020-01-01 07:16:00
  Data máxima: 2024-11-03 11:36:00
---------------------------
Dataset: BS_RJ
  Data mínima: 2020-01-01 06:49:00
  Data máxima: 2024-11-01 08:09:00
---------------------------
Dataset: BS_SC_PR
  Data mínima: 2020-01-01 08:15:00
  Data máxima: 2024-11-02 08:28:00
---------------------------
Dataset: BS_SP
  Data mínima: 2020-01-01 05:27:00
  Data máxima: 2024-11-03 08:14:00
---------------------------
Dataset: RN_CE
  Data mínima: 2020-01-02 07:21:00
  Data máxima: 2024-07-31 09:06:00
---------------------------
Dataset: SE_AL
  Data mínima: 2020-01-01 12:46:00
  Data máxima: 2024-10-22 11:44:00
---------------------------


**Checando tamanhos dos datasets**

In [6]:
for nome, df in datasets.items():
    print(f'{nome}: {df.shape}')

BC_ES: (24246, 23)
BS_RJ: (10565, 23)
BS_SC_PR: (51776, 23)
BS_SP: (23576, 23)
RN_CE: (3488, 23)
SE_AL: (9246, 23)


**Checando registros duplicados**

In [7]:
for nome, df in datasets.items():
    print(f'{nome}: {df.duplicated().sum()} registros duplicados')

BC_ES: 0 registros duplicados
BS_RJ: 0 registros duplicados
BS_SC_PR: 0 registros duplicados
BS_SP: 0 registros duplicados
RN_CE: 0 registros duplicados
SE_AL: 0 registros duplicados


**Checando registros ausentes**

In [8]:
for nome, df in datasets.items():
    print(f'Dataset: {nome}\n')
    print(df.isna().sum()[df.isna().sum() > 0])
    print('-' * 33)

Dataset: BC_ES

Maré inicial                1
Vento inicial               1
Tipo do monitoramento      99
Espécies - Subordem      4410
Espécies - Família         42
Espécies - Gênero          78
Espécies - Espécie        140
Espécie ameaçada          140
dtype: int64
---------------------------------
Dataset: BS_RJ

Maré inicial                4
Vento inicial               4
Tipo do monitoramento      13
Espécies - Subordem      5931
Espécies - Família         47
Espécies - Gênero          98
Espécies - Espécie        363
Espécie ameaçada          363
dtype: int64
---------------------------------
Dataset: BS_SC_PR

Espécies - Ordem           2
Espécies - Subordem    37782
Espécies - Família       104
Espécies - Gênero        230
Espécies - Espécie       668
Espécie ameaçada         668
dtype: int64
---------------------------------
Dataset: BS_SP

Maré inicial                13
Vento inicial               13
Tipo do monitoramento      148
Espécies - Subordem      12251
Espécies - Fam

Dentre as colunas que apresentaram alta quantidade de registros nulos, a de "Espécie ameaçada" é a que trás mais relevância para as análises, pois possibilita discussão acerca de impactos em espécies com maior vulnerabilidade. 

Para decidir se vale a pena mantê-la nos dados, vamos analisar mais proximamente a proporção de registros ausentes em relação ao total.

In [9]:
for nome, df in datasets.items():
    ut.calcular_porcentagem_nulos(df, nome, 'Espécie ameaçada')

BC_ES: 0.58% de valores ausentes
BS_RJ: 3.44% de valores ausentes
BS_SC_PR: 1.29% de valores ausentes
BS_SP: 2.80% de valores ausentes
RN_CE: 3.01% de valores ausentes
SE_AL: 8.17% de valores ausentes


A maioria dos datasets apresentou baixa taxa de valores ausentes na coluna 'Espécie Ameaçada', com SE_AL tendo o maior percentual (8.17%). Esse valor ainda é aceitável e não compromete as análises, justificando a permanência da coluna.

## **Tranformação dos Dados**

Nesta etapa, foram realizadas:
* Deleção de colunas que não trazem relevância para os objetivos da análise
* Alteração dos registros de "Data/Hora" para que constem somente a data
* Alteração dos registros de "Cidade" para que constem somente a primeira cidade marcada, quando mais de uma foram inseridas

In [10]:
colunas_dispensaveis = ['Identificador do indivíduo', 'Trecho', 'Maré inicial', 'Praia', 'Vento inicial', 'Tipo do monitoramento', 'Espécies - Subordem', 'Espécies - Família', 'Espécies - Gênero']
dfs_tratados = {}

for nome,df in datasets.items():

    # Remove colunas dispensáveis
    df_tratado = df.drop(columns=colunas_dispensaveis).dropna().copy() 

    # Tratando coluna "Data/Hora"
    df_tratado['Data/Hora'] = df_tratado['Data/Hora'].dt.date    # remove horários da coluna "Data/Hora"
    df_tratado.rename(columns={'Data/Hora':'Data'},inplace=True) # muda nome da coluna "Data/Hora" para "Data"

    # Tratando coluna "Cidade"
    df_tratado = df_tratado.join(df_tratado['Cidade'].str.split(',', expand=True).add_prefix('Cidade ')) # divide coluna 'Cidade", com múltiplos registros separados por vírgula, em múltiplas colunas
    colunas_drop = [col for col in df_tratado.columns if col.startswith('Cidade') and col != 'Cidade 0'] # define dinamicamente colunas a serem deletadas, exceto a contendo somente a primeira cidade
    df_tratado = df_tratado.drop(columns=colunas_drop)                                                   # remove colunas extras de Cidade
    df_tratado.rename(columns={'Cidade 0':'Cidade'},inplace=True)                                        # renomeia coluna de cidade

    dfs_tratados[nome] = df_tratado

**Checando modificações**

In [11]:
dfs_tratados['SE_AL'].head()

Unnamed: 0,Código,Instituição executora,Estado,Estratégia do trecho,Data,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição,Cidade
0,325581,Biota,Alagoas,Diário,2024-10-22,-1.038.249,-363.215.983,Reptilia,Testudines,Lepidochelys olivacea,Sim,Arenoso,Morto,Piaçabuçu
1,325580,Biota,Alagoas,Diário,2024-10-22,-103.717.217,-363.134.683,Reptilia,Testudines,Lepidochelys olivacea,Sim,Arenoso,Morto,Piaçabuçu
2,325489,TAMAR,Sergipe,Diário,2024-10-22,-110.581.917,-3.709.627,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto,Aracaju
3,325456,TAMAR,Bahia,Diário,2024-10-22,-114.830.733,-373.694.517,Reptilia,Testudines,Lepidochelys olivacea,Sim,Arenoso,Morto,Jandaíra
4,325410,TAMAR,Sergipe,Diário,2024-10-22,-105.369,-36.494,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto,Brejo Grande


In [12]:
for nome, df in dfs_tratados.items():
    print(f"Dataset: {nome}")
    if df.isna().sum().sum() == 0: 
        print("  Não há valores ausentes.")
    else:
        print("  Valores ausentes encontrados:")
    print(f'  Tamanho final: {df.shape}')
    print('-' * 27)

Dataset: BC_ES
  Não há valores ausentes.
  Tamanho final: (24106, 14)
---------------------------
Dataset: BS_RJ
  Não há valores ausentes.
  Tamanho final: (10202, 14)
---------------------------
Dataset: BS_SC_PR
  Não há valores ausentes.
  Tamanho final: (51108, 14)
---------------------------
Dataset: BS_SP
  Não há valores ausentes.
  Tamanho final: (22915, 14)
---------------------------
Dataset: RN_CE
  Não há valores ausentes.
  Tamanho final: (3246, 14)
---------------------------
Dataset: SE_AL
  Não há valores ausentes.
  Tamanho final: (8491, 14)
---------------------------


## **Download dos Datasets Tratados**

Os datasets tratados foram convertidos para formato csv e salvos em [datasets_tratados](https://github.com/tainahguerras/PMP-Petrobras-Analise/tree/main/datasets_tratados), para serem posteriormente utilizados na criação de dashboard atrés do Power BI

In [13]:
import os

# Criando pasta e fazendo download de datasets tratados em .csv 

pasta_saida = "datasets_tratados"

os.makedirs("datasets_tratados", exist_ok=True) # cria pasta de saída no repositório

for nome, df in dfs_tratados.items():
    caminho_arquivo = os.path.join(pasta_saida, f"{nome}.csv")
    df.to_csv(caminho_arquivo, index=False, encoding="utf-8")