# **Análise dos dados de Projetos de Monitoramento de Praia (PMPs) entre os anos de 2020-2024**

## **Objetivo**:

Este notebook realiza etapas de tratamento de dados e análise inicial. Os objetivos aqui são importar os dados, inspecioná-los, fazer tratamentos e manipulações necessárias para garantir a integridade desses e confiabilidade dos resultados, além de melhor desempenho nas consultas e visualizações do dashboard criado posteriormente em PowerBI.

Os arquivos em CSV foram obtidos do Sistema de Informação de Monitoramento da Biota Aquática ([SIMBA](https://simba.petrobras.com.br/simba/web/)), utilizando filtro de datas de 01/01/2020 a 31/12/2024. Após o download, os arquivos foram hospedados em Google Drive com compartilhamento público (links disponíveis em [utils.py](https://github.com/tainahguerras/PMP-Petrobras-Analise/blob/main/utils.py)).

## **Etapas**:
1. Importação das Bibliotecas

2. Importação dos Dados

3. Inspeção dos Dados

4. Transformação dos Dados

5. Exportação do Dataset Tratado


## **Importação de Bibliotecas**

In [2]:
import pandas as pd
pd.set_option('display.max_columns', None)
import os
import re
import utils as ut # importa listas e funções definidas em utils.py

## **Importação dos Dados**

Durante a importação dos dados, definimos corretamente o tipo da coluna "Data/Hora", garantindo que o formato DD/MM/AAAA fosse reconhecido. Além disso, selecionamos previamente um conjunto de colunas relevantes para inspeção neste notebook no módulo "utils".

In [3]:
datasets = {}
nomes = ['BC_ES', 'BS_RJ', 'BS_SC_PR', 'BS_SP', 'RN_CE', 'SE_AL']

urls_convertidas = [ut.conversor_url(url) for url in ut.urls] # convertendo urls de compartilhamento do sheets para formato aceito por .read_csv()

# Criando datasets e armazenando em dicionário
for i in range(len(nomes)): 
    datasets[nomes[i]] = pd.read_csv(urls_convertidas[i],parse_dates=['Data/Hora'],dayfirst=True,low_memory=False)[ut.colunas_selecionadas]

## **Inspeção dos Dados**

In [4]:
datasets['SE_AL'].head() # Exemplo de dataset criado

Unnamed: 0,Código,Identificador do indivíduo,Instituição executora,Estado,Cidade,Praia,Trecho,Estratégia do trecho,Maré inicial,Vento inicial,Tipo do monitoramento,Data/Hora,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Subordem,Espécies - Família,Espécies - Gênero,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição,Presença de óleo,Quantidade de óleo,Estágio de desenvolvimento,Interações antrópicas
0,325581,136459,Biota,Alagoas,Piaçabuçu,zz desativado 1 Praia Pontal do Peba,zz desativado 1 APA (Peba),Diário,Vazante,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 11:44:00,-1.038.249,-363.215.983,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto,Não,,Adulto,
1,325580,136240,Biota,Alagoas,Piaçabuçu,zz desativado 1 Praia Pontal do Peba,zz desativado 1 APA (Peba),Diário,Vazante,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 11:24:00,-103.717.217,-363.134.683,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto,Não,,Adulto,
2,325489,131188,TAMAR,Sergipe,Aracaju,zz desativado 1 Praia Aracaju,zz desativado 1 Aracaju,Diário,Enchente,4 - Brisa fraca – 20 até 29 km/h,Regular,2024-10-22 09:39:00,-110.581.917,-3.709.627,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto,Não,,Juvenil,
3,325456,136554,TAMAR,Bahia,Jandaíra,zz desativado 1 Praia Mangue Seco,zz desativado 1 Mangue Seco,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 07:15:00,-114.830.733,-373.694.517,Reptilia,Testudines,Cryptodira,Cheloniidae,Lepidochelys,Lepidochelys olivacea,Sim,Arenoso,Morto,Não,,Adulto,
4,325410,137100,TAMAR,Sergipe,"Brejo Grande,Pacatuba,Pirambu",zz desativado 1 Praia Ponta dos Mangues,zz desativado 1 Anuência_Norte,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Regular,2024-10-22 06:25:00,-105.369,-36.494,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto,Não,,Juvenil,


**Checando tipagem dos dados**

In [5]:
for chave, df in datasets.items():
    print(f'Tipos de dados em {chave}:\n{df.dtypes}')
    print('-'*50)

Tipos de dados em BC_ES:
Código                                 int64
Identificador do indivíduo             int64
Instituição executora                 object
Estado                                object
Cidade                                object
Praia                                 object
Trecho                                object
Estratégia do trecho                  object
Maré inicial                          object
Vento inicial                         object
Tipo do monitoramento                 object
Data/Hora                     datetime64[ns]
Ponto - Lat                           object
Ponto - Long                          object
Espécies - Classe                     object
Espécies - Ordem                      object
Espécies - Subordem                   object
Espécies - Família                    object
Espécies - Gênero                     object
Espécies - Espécie                    object
Espécie ameaçada                      object
Caracterização do ambiente    

Todos os dados parecem estar com tipos esperados.

**Checando filtragem das datas**

Vamos verificar se a filtragem aplicada no SIMBA para o download dos datasets foi correta, considerando o intervalo definido: 01/01/2020 a 31/12/2024.

In [6]:
for nome, df in datasets.items():
    print(f"Dataset: {nome}")
    print(f"  Data mínima: {df['Data/Hora'].min()}")
    print(f'  Data máxima: {df['Data/Hora'].max()}')
    print('-' * 40)

Dataset: BC_ES
  Data mínima: 2020-01-01 07:16:00
  Data máxima: 2024-11-03 11:36:00
----------------------------------------
Dataset: BS_RJ
  Data mínima: 2020-01-01 06:49:00
  Data máxima: 2024-11-01 08:09:00
----------------------------------------
Dataset: BS_SC_PR
  Data mínima: 2020-01-01 08:15:00
  Data máxima: 2024-11-02 08:28:00
----------------------------------------
Dataset: BS_SP
  Data mínima: 2020-01-01 05:27:00
  Data máxima: 2024-11-03 08:14:00
----------------------------------------
Dataset: RN_CE
  Data mínima: 2020-01-02 07:21:00
  Data máxima: 2024-07-31 09:06:00
----------------------------------------
Dataset: SE_AL
  Data mínima: 2020-01-01 12:46:00
  Data máxima: 2024-10-22 11:44:00
----------------------------------------


A filtragem parece ter ocorrido corretamente, com períodos de registros diferindo em alguns meses de um dataset a outro.

**Checando tamanhos dos datasets**

In [7]:
for nome, df in datasets.items():
    print(f'{nome}: {df.shape}')

BC_ES: (24246, 27)
BS_RJ: (10565, 27)
BS_SC_PR: (51776, 27)
BS_SP: (23576, 27)
RN_CE: (3488, 27)
SE_AL: (9246, 27)


**Checando registros duplicados**

In [8]:
for nome, df in datasets.items():
    print(f'{nome}: {df.duplicated().sum()} registros duplicados')

BC_ES: 0 registros duplicados
BS_RJ: 0 registros duplicados
BS_SC_PR: 0 registros duplicados
BS_SP: 0 registros duplicados
RN_CE: 0 registros duplicados
SE_AL: 0 registros duplicados


**Checando registros ausentes**

In [9]:
for nome, df in datasets.items():
    print(f'Valores nulos no dataset: {nome}\n')
    print(df.isna().sum()[df.isna().sum() > 0])
    print('-' * 33)

Valores nulos no dataset: BC_ES

Maré inicial                 1
Vento inicial                1
Tipo do monitoramento       99
Espécies - Subordem       4410
Espécies - Família          42
Espécies - Gênero           78
Espécies - Espécie         140
Espécie ameaçada           140
Quantidade de óleo       24227
Interações antrópicas    23022
dtype: int64
---------------------------------
Valores nulos no dataset: BS_RJ

Maré inicial                 4
Vento inicial                4
Tipo do monitoramento       13
Espécies - Subordem       5931
Espécies - Família          47
Espécies - Gênero           98
Espécies - Espécie         363
Espécie ameaçada           363
Quantidade de óleo       10552
Interações antrópicas     9682
dtype: int64
---------------------------------
Valores nulos no dataset: BS_SC_PR

Espécies - Ordem             2
Espécies - Subordem      37782
Espécies - Família         104
Espécies - Gênero          230
Espécies - Espécie         668
Espécie ameaçada           66

Dentre as colunas que apresentaram alta quantidade de registros nulos, a de "Espécie ameaçada" é a que trás mais relevância para as análises, pois possibilita discussão acerca de impactos em espécies com maior vulnerabilidade. 

Para decidir se vale a pena mantê-la nos dados, vamos analisar mais proximamente a proporção de registros ausentes em relação ao total.

In [10]:
for nome, df in datasets.items():
    ut.calcular_porcentagem_nulos(df, nome, 'Espécie ameaçada')

BC_ES: 0.58% de valores ausentes
BS_RJ: 3.44% de valores ausentes
BS_SC_PR: 1.29% de valores ausentes
BS_SP: 2.80% de valores ausentes
RN_CE: 3.01% de valores ausentes
SE_AL: 8.17% de valores ausentes


A maioria dos datasets apresentou baixa taxa de valores ausentes na coluna "Espécie Ameaçada", com SE_AL tendo o maior percentual (8.17%). Esse valor ainda é aceitável e não compromete as análises, justificando a permanência da coluna.

## **Tranformação dos Dados**

Nesta etapa, foram realizadas as seguintes operações:

* Criação de coluna “Região”, com origem do registro
* Remoção de colunas irrelevantes para os objetivos da análise
* Tratamento de registros nulos em "Interações antrópicas" e "Quantidade de óleo", preenchendo como Ausente, e remoção de demais nulos
* Ajuste na coluna "Data/Hora", mantendo apenas a data (sem a informação de horário)
* Padronização da coluna "Cidade", registrando apenas a primeira cidade mencionada quando múltiplas foram inseridas
* Renomeação de colunas para melhor organização e compreensão dos dados
* Concatenação dos datasets em um único arquivo consolidado

**Concatenando datasets**

In [11]:
mapeamento_regioes = {
    'BC_ES': 'Bacias de Campos e Espírito Santo',
    'BS_RJ': 'Bacia de Santos',
    'BS_SC_PR': 'Bacia de Santos',
    'BS_SP': 'Bacia de Santos',
    'RN_CE': 'Bacia Potiguar',
    'SE_AL': 'Bacia de Sergipe-Alagoas'
}

# Adicionando a nova coluna "Região" a cada dataset
for nome, df in datasets.items():
    df['Região'] = mapeamento_regioes[nome]

# Concatenando todos os datasets em um só
df_concat = pd.concat(datasets.values(), ignore_index=True)
    

In [12]:
df_concat.head()

Unnamed: 0,Código,Identificador do indivíduo,Instituição executora,Estado,Cidade,Praia,Trecho,Estratégia do trecho,Maré inicial,Vento inicial,Tipo do monitoramento,Data/Hora,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Subordem,Espécies - Família,Espécies - Gênero,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição,Presença de óleo,Quantidade de óleo,Estágio de desenvolvimento,Interações antrópicas,Região
0,327574,759704,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Areia Preta,4B02,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Acionamento,2024-11-03 11:36:00,-210.369,-408.178,Reptilia,Testudines,Cryptodira,Cheloniidae,Caretta,Caretta caretta,Não,Arenoso,Morto,Não,,Adulto,,Bacias de Campos e Espírito Santo
1,327572,759664,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Lagoa Dantas,4B02,Diário,Vazante,3 - Brisa suave – 12 até 19 km/h,Regular,2024-11-03 08:31:00,-210.963,-408.462,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto,Não,,Juvenil,,Bacias de Campos e Espírito Santo
2,327564,759550,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Centro,4B02,Diário,Vazante,3 - Brisa suave – 12 até 19 km/h,Regular,2024-11-03 08:21:00,-210.583,-408.333,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto,Não,,Juvenil,,Bacias de Campos e Espírito Santo
3,327563,759479,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Itapemirim,Marinha,4B02,Diário,Vazante,3 - Brisa suave – 12 até 19 km/h,Regular,2024-11-03 07:47:00,-209.304,-407.981,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto,Não,,Juvenil,,Bacias de Campos e Espírito Santo
4,327562,759445,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Cações,4B02,Diário,Vazante,3 - Brisa suave – 12 até 19 km/h,Regular,2024-11-03 08:45:00,-211.387,-408.763,Reptilia,Testudines,Cryptodira,Cheloniidae,Caretta,Caretta caretta,Não,Arenoso,Morto,Não,,Adulto,,Bacias de Campos e Espírito Santo


**Tratando colunas**

In [13]:
colunas_dispensaveis = ['Identificador do indivíduo', 'Trecho', 'Maré inicial', 'Praia', 'Vento inicial', 'Ponto - Lat', 'Ponto - Long', 'Tipo do monitoramento', 'Espécies - Subordem', 'Espécies - Família', 'Espécies - Gênero']
nome_colunas = {'Data/Hora': 'Data', 'Espécies - Classe': 'Classe', 'Espécies - Ordem': 'Ordem', 'Espécies - Espécie': 'Espécie', 'Cidade 0':'Cidade'}
''
# Remove colunas dispensáveis
df_tratado = df_concat.drop(columns=colunas_dispensaveis).copy() 

# Trata registros em "Interações antrópicas"
df_tratado['Interações antrópicas'] = df_tratado['Interações antrópicas'].str.extract(r'Tipo:\s*([^,]+)', expand=False).fillna('Ausente')

# Preenche nulos em "Quantidade de óleo"
df_tratado[['Quantidade de óleo']] = df_tratado[['Quantidade de óleo']].fillna('Ausente')

# Remove demais nulos
df_tratado = df_tratado.dropna()

# Tratando coluna "Data/Hora"
df_tratado['Data/Hora'] = df_tratado['Data/Hora'].dt.date # remove horários da coluna "Data/Hora"

# Tratando coluna "Cidade"
df_tratado = df_tratado.join(df_tratado['Cidade'].str.split(',', expand=True).add_prefix('Cidade ')) # divide coluna 'Cidade", com múltiplos registros separados por vírgula, em múltiplas colunas
colunas_drop = [col for col in df_tratado.columns if col.startswith('Cidade') and col != 'Cidade 0'] # define dinamicamente colunas a serem deletadas, exceto a contendo somente a primeira cidade
df_tratado = df_tratado.drop(columns=colunas_drop)                                                   # remove colunas extras de Cidade

# Renomeando colunas
df_tratado.rename(columns=nome_colunas,inplace=True)       

**Checando modificações**

In [14]:
df_tratado.head()

Unnamed: 0,Código,Instituição executora,Estado,Estratégia do trecho,Data,Classe,Ordem,Espécie,Espécie ameaçada,Caracterização do ambiente,Condição,Presença de óleo,Quantidade de óleo,Estágio de desenvolvimento,Interações antrópicas,Região,Cidade
0,327574,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Diário,2024-11-03,Reptilia,Testudines,Caretta caretta,Não,Arenoso,Morto,Não,Ausente,Adulto,Ausente,Bacias de Campos e Espírito Santo,Marataízes
1,327572,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Diário,2024-11-03,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto,Não,Ausente,Juvenil,Ausente,Bacias de Campos e Espírito Santo,Marataízes
2,327564,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Diário,2024-11-03,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto,Não,Ausente,Juvenil,Ausente,Bacias de Campos e Espírito Santo,Marataízes
3,327563,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Diário,2024-11-03,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto,Não,Ausente,Juvenil,Ausente,Bacias de Campos e Espírito Santo,Itapemirim
4,327562,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Diário,2024-11-03,Reptilia,Testudines,Caretta caretta,Não,Arenoso,Morto,Não,Ausente,Adulto,Ausente,Bacias de Campos e Espírito Santo,Marataízes


In [15]:
# Checando deleção de registros com valores ausentes
if df_tratado.isna().sum().sum() == 0: 
    print("Não há valores ausentes.")
else:
    print("Valores ausentes encontrados.")

# Checando tamanho final do dataset
print(f'Tamanho final do dataset: {df_tratado.shape}')

Não há valores ausentes.
Tamanho final do dataset: (120068, 17)


In [16]:
# Checando nova coluna "Região"
print('Quantidade de registros por região:')
df_tratado['Região'].value_counts()

Quantidade de registros por região:


Região
Bacia de Santos                      84225
Bacias de Campos e Espírito Santo    24106
Bacia de Sergipe-Alagoas              8491
Bacia Potiguar                        3246
Name: count, dtype: int64

Somente por essa análise, percebemos que a quantidade de registros finais está desigualmente destribuída entre as diferentes regiões, com a Bacia de Sergipe-Alagoas e a Bacia Potiguar com menor representatividade.

In [17]:
# Checando número de cidades monitoradas por região
cidades_por_regiao = df_tratado.groupby('Região')['Cidade'].nunique().reset_index()

cidades_por_regiao.columns = ['Região', 'Número de Cidades Distintas']

cidades_por_regiao

Unnamed: 0,Região,Número de Cidades Distintas
0,Bacia Potiguar,14
1,Bacia de Santos,54
2,Bacia de Sergipe-Alagoas,7
3,Bacias de Campos e Espírito Santo,28


O mesmo é observado quando checamos o número de cidades monitoradas em cada região, levantando uma possível problemática quanto aos esforços desiguais de monitoramento nas diferentes regiões.

**Inspeção final dos dados**

Vamos checar os registros presentes colunas categóricas, garantindo que não há valores inesperados e entendendo, de forma inicial, sua distribuição

In [18]:
df_tratado['Instituição executora'].value_counts()

Instituição executora
Ambipar Response                                                                                                           21396
Trecho 06                                                                                                                  10487
Trecho 03                                                                                                                  10258
Trecho 05                                                                                                                   9412
Trecho 04                                                                                                                   8784
Trecho 07                                                                                                                   7850
Trecho 01                                                                                                                   6962
Visão Ambiental Consultoria Ltda                                           

Muitos registros de Instituição executora apresentam descrições sem valor analítico, a exemplo dos descritos somente como "Trecho".

In [19]:
df_tratado['Estado'].value_counts()

Estado
Santa Catarina             40620
Rio de Janeiro             24301
São Paulo                  22915
Paraná                     10486
Espírito Santo             10007
Sergipe                     4862
Alagoas                     2420
Rio Grande do Norte         1841
Ceará                       1405
Bahia                       1209
Estado não identificado        2
Name: count, dtype: int64

Novamente, a distruibução de registros por estados sugere esforços desiguais de monitoramento.

In [20]:
df_tratado['Estratégia do trecho'].value_counts()

Estratégia do trecho
Diário         113291
Acionamento      4041
Semanal          2234
Diário 15         502
Name: count, dtype: int64

In [21]:
print(f'Data mínima: {df_tratado['Data'].min()}\nData máxima: {df_tratado['Data'].max()}')

Data mínima: 2020-01-01
Data máxima: 2024-11-03


In [22]:
df_tratado['Classe'].value_counts()

Classe
Aves        62044
Reptilia    51962
Mammalia     6062
Name: count, dtype: int64

In [23]:
df_tratado['Ordem'].value_counts()

Ordem
Testudines           51962
Sphenisciformes      37825
Procellariiformes     8834
Suliformes            8675
Charadriiformes       6568
Cetacea               5434
Carnivora              610
Pelecaniformes         127
Sirenia                 18
Phaethontiformes         5
Gruiformes               4
Podicipediformes         3
Passeriformes            1
Piciformes               1
Coraciiformes            1
Name: count, dtype: int64

In [24]:
df_tratado['Espécie'].value_counts()

Espécie
Chelonia mydas              38463
Spheniscus magellanicus     37825
Caretta caretta              7086
Lepidochelys olivacea        5711
Sula leucogaster             4299
                            ...  
Globicephala melas              1
Phocoena spinipinnis            1
Balaenoptera bonaerensis        1
Botaurus pinnatus               1
Phoebetria fusca                1
Name: count, Length: 131, dtype: int64

In [25]:
df_tratado['Espécie ameaçada'].value_counts()

Espécie ameaçada
Não    86352
Sim    33716
Name: count, dtype: int64

In [26]:
df_tratado['Caracterização do ambiente'].value_counts()

Caracterização do ambiente
Arenoso    110497
Outros       5294
Água         3234
Rochoso       953
Mangue         90
Name: count, dtype: int64

In [27]:
df_tratado['Condição'].value_counts()

Condição
Morto    102034
Vivo      18034
Name: count, dtype: int64

In [28]:
df_tratado['Cidade'].value_counts()

Cidade
Florianópolis                  10417
Ilha Comprida                   7140
São Francisco de Itabapoana     7117
Matinhos                        6761
São Francisco Do Sul            5979
                               ...  
São José                          16
Duque de Caxias                    7
Tijucas                            3
Cariacica                          3
Cidade não identificada            2
Name: count, Length: 103, dtype: int64

In [29]:
df_tratado['Presença de óleo'].value_counts()

Presença de óleo
Não    119961
Sim       107
Name: count, dtype: int64

Presença de óleo pode ser considerado um importante KPI no contexto de monitoramento como parte de responsabilidades obrigatórias da atividade petrolífera. Pelos dados aqui analisados, temos uma propoção diminuta de registros com presença de óleo.

In [30]:
df_tratado['Quantidade de óleo'].value_counts()

Quantidade de óleo
Ausente            119961
até 25%                79
até 50%                12
mais do que 75%         8
até 75%                 8
Name: count, dtype: int64

Não só temos baixa presença de oléo, como a quantidade de óleo nos animais registrados também foi, em sua maioria, baixa (até 25%).

In [31]:
df_tratado['Estágio de desenvolvimento'].value_counts()

Estágio de desenvolvimento
Juvenil          79276
Adulto           20804
Indeterminado    19142
Filhote            729
Feto               117
Name: count, dtype: int64

In [32]:
df_tratado['Interações antrópicas'].value_counts()

Interações antrópicas
Ausente                                                           100918
Interação com pesca                                                15530
Interação com caça ou vandalismo e agressão                         1697
Interação com navios                                                1068
Interação com lixo                                                   718
Interação com dragagem                                                72
Interação com óleo                                                    62
Interação com atividade de exploração e produção de óleo e gás         3
Name: count, dtype: int64

In [42]:
df_interacao_antropica = df_tratado[df_tratado['Interações antrópicas'] != 'Ausente']
total = df_tratado.shape[0]
total_interação = df_interacao_antropica.shape[0]
total_sem_interação = df_tratado[df_tratado['Interações antrópicas'] == 'Ausente'].shape[0]
perc_interacao = (total_interação/total)*100

print(f"Temos {total_interação} registros sem interação antrópica e {total_sem_interação} registros com algum tipo de interação.")
print(f"Registros com interação representam {round(perc_interacao,2)}% do total.")

Temos 19150 registros sem interação antrópica e 100918 registros com algum tipo de interação.
Registros com interação representam 15.95% do total.


## **Exportação do Dataset Tratado**

O dataset tratado foi convertido para o formato CSV e salvo em [dataset_tratado](https://github.com/tainahguerras/PMP-Petrobras-Analise/tree/main/dataset_tratado). Ele será utilizado posteriormente na criação do dashboard no Power BI.

In [34]:
# Criando pasta e fazendo download de dataset tratado em .csv 
pasta_saida = "dataset_tratado"
sobrescrever = True

if not os.path.exists(pasta_saida):
    os.makedirs("dataset_tratado") # cria pasta de saída no repositório

if sobrescrever:
    caminho_arquivo = os.path.join(pasta_saida, "PMP_dados.csv")
    df_tratado.to_csv(caminho_arquivo, index=False, encoding="utf-8")