In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

import utils as ut

In [2]:
dataframes = {}
nomes = ['BC_ES', 'BS_SC_PR', 'BS_SP', 'BS_RJ', 'RN_CE', 'SE_AL']
urls_convertidas = [ut.conversor_url(url) for url in ut.urls] # convertendo urls de compartilhamento do sheets

for i in range(len(nomes)): 
    dataframes[nomes[i]] = pd.read_csv(urls_convertidas[i],parse_dates=['Data/Hora'],dayfirst=True,low_memory=False)[ut.colunas_selecionadas]

In [3]:
dataframes['BC_ES'].head() # Exemplo de dataframe criado

Unnamed: 0,Código,Identificador do indivíduo,Instituição executora,Estado,Cidade,Praia,Trecho,Estratégia do trecho,Maré inicial,Vento inicial,Tipo do monitoramento,Data/Hora,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Subordem,Espécies - Família,Espécies - Gênero,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição
0,327414,758929,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Itapemirim,Itaipava,4B01,Diário,Enchente,2 - Brisa leve – 6 até 11 km/h,Acionamento,2024-11-02 11:49:00,-208.943,-40.774,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto
1,327413,758920,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Cações,4B02,Diário,Vazante,1 - Leve – 1 até 5km/h,Regular,2024-11-02 08:37:00,-211.357,-40.871,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto
2,327411,758912,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Lagoa Dantas,4B02,Diário,Vazante,3 - Brisa suave – 12 até 19 km/h,Regular,2024-11-02 06:30:00,-211.059,-408.507,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto
3,327409,758899,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Barra,4B02,Diário,Vazante,1 - Leve – 1 até 5km/h,Regular,2024-11-02 07:48:00,-210.259,-408.116,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Morto
4,327369,758877,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Anchieta,Castelhanos,4A05,Acionamento,Vazia,2 - Brisa leve – 6 até 11 km/h,Acionamento,2024-11-02 11:06:00,-208.344,-406.224,Reptilia,Testudines,Cryptodira,Cheloniidae,Chelonia,Chelonia mydas,Não,Arenoso,Vivo


In [4]:
dataframes['BC_ES'].dtypes

Código                                 int64
Identificador do indivíduo             int64
Instituição executora                 object
Estado                                object
Cidade                                object
Praia                                 object
Trecho                                object
Estratégia do trecho                  object
Maré inicial                          object
Vento inicial                         object
Tipo do monitoramento                 object
Data/Hora                     datetime64[ns]
Ponto - Lat                           object
Ponto - Long                          object
Espécies - Classe                     object
Espécies - Ordem                      object
Espécies - Subordem                   object
Espécies - Família                    object
Espécies - Gênero                     object
Espécies - Espécie                    object
Espécie ameaçada                      object
Caracterização do ambiente            object
Condição  

In [5]:
# Checando tamanho dos dataframes

for nome, df in dataframes.items():
    print(f'{nome}: {df.shape}')

BC_ES: (24237, 23)
BS_SC_PR: (10560, 23)
BS_SP: (51692, 23)
BS_RJ: (23555, 23)
RN_CE: (3488, 23)
SE_AL: (9246, 23)


In [6]:
# Checando duplicatas

for nome, df in dataframes.items():
    print(f'{nome}: {df.duplicated().sum()} registros duplicados')

BC_ES: 0 registros duplicados
BS_SC_PR: 0 registros duplicados
BS_SP: 0 registros duplicados
BS_RJ: 0 registros duplicados
RN_CE: 0 registros duplicados
SE_AL: 0 registros duplicados


In [7]:
# Checando nulos

for nome, df in dataframes.items():
    print(f'Dataset: {nome}')
    print(df.isna().sum()[df.isna().sum() > 0])
    print('-' * 33)

Dataset: BC_ES
Maré inicial                1
Vento inicial               1
Tipo do monitoramento      99
Espécies - Subordem      4407
Espécies - Família         42
Espécies - Gênero          78
Espécies - Espécie        140
Espécie ameaçada          140
dtype: int64
---------------------------------
Dataset: BS_SC_PR
Maré inicial                4
Vento inicial               4
Tipo do monitoramento      13
Espécies - Subordem      5929
Espécies - Família         47
Espécies - Gênero          98
Espécies - Espécie        363
Espécie ameaçada          363
dtype: int64
---------------------------------
Dataset: BS_SP
Espécies - Ordem           2
Espécies - Subordem    37706
Espécies - Família       104
Espécies - Gênero        230
Espécies - Espécie       668
Espécie ameaçada         668
dtype: int64
---------------------------------
Dataset: BS_RJ
Maré inicial                13
Vento inicial               13
Tipo do monitoramento      148
Espécies - Subordem      12250
Espécies - Família

Texto sobre avaliar mais proximamente a coluna de espécie ameaçada

In [8]:
for nome, df in dataframes.items():
    ut.calcular_porcentagem_nulos(df, nome, 'Espécie ameaçada')

BC_ES: 0.58% de valores ausentes
BS_SC_PR: 3.44% de valores ausentes
BS_SP: 1.29% de valores ausentes
BS_RJ: 2.81% de valores ausentes
RN_CE: 3.01% de valores ausentes
SE_AL: 8.17% de valores ausentes


Texto sobre manter a coluna de espécie ameaçada

In [9]:
colunas_dispensaveis = ['Identificador do indivíduo', 'Trecho', 'Vento inicial', 'Tipo do monitoramento', 'Espécies - Subordem', 'Espécies - Família', 'Espécies - Gênero']
dfs_tratados = {}

for nome,df in dataframes.items():
    df_tratado = df.drop(columns=colunas_dispensaveis).dropna().copy()  # remove colunas dispensáveis
    df_tratado['Data/Hora'] = df_tratado['Data/Hora'].dt.date           # remove horários da coluna Data/Hora
    df_tratado.rename(columns={'Data/Hora':'Data'},inplace=True)        # muda nome da coluna Data/Hora para Data
    dfs_tratados[nome] = df_tratado

dfs_tratados['BC_ES'].head()

Unnamed: 0,Código,Instituição executora,Estado,Cidade,Praia,Estratégia do trecho,Maré inicial,Data,Ponto - Lat,Ponto - Long,Espécies - Classe,Espécies - Ordem,Espécies - Espécie,Espécie ameaçada,Caracterização do ambiente,Condição
0,327414,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Itapemirim,Itaipava,Diário,Enchente,2024-11-02,-208.943,-40.774,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto
1,327413,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Cações,Diário,Vazante,2024-11-02,-211.357,-40.871,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto
2,327411,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Lagoa Dantas,Diário,Vazante,2024-11-02,-211.059,-408.507,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto
3,327409,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Marataízes,Barra,Diário,Vazante,2024-11-02,-210.259,-408.116,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Morto
4,327369,Instituto de Pesquisa e Conservação Marinha - ...,Espírito Santo,Anchieta,Castelhanos,Acionamento,Vazia,2024-11-02,-208.344,-406.224,Reptilia,Testudines,Chelonia mydas,Não,Arenoso,Vivo


Texto sobre checar a limpeza no fim

In [10]:
for nome, df in dfs_tratados.items():
    print(f"Dataset: {nome}")
    if df.isna().sum().sum() == 0: 
        print("  Não há valores ausentes.")
    else:
        print("  Valores ausentes encontrados:")
    print(f'  Tamanho final: {df.shape}')
    print('-' * 27)

Dataset: BC_ES
  Não há valores ausentes.
  Tamanho final: (24096, 16)
---------------------------
Dataset: BS_SC_PR
  Não há valores ausentes.
  Tamanho final: (10193, 16)
---------------------------
Dataset: BS_SP
  Não há valores ausentes.
  Tamanho final: (51024, 16)
---------------------------
Dataset: BS_RJ
  Não há valores ausentes.
  Tamanho final: (22881, 16)
---------------------------
Dataset: RN_CE
  Não há valores ausentes.
  Tamanho final: (3229, 16)
---------------------------
Dataset: SE_AL
  Não há valores ausentes.
  Tamanho final: (8490, 16)
---------------------------


In [12]:
import os

# Criando pasta e fazendo download de dataframes tratados em .csv 

pasta_saida = "datasets_tratados"

os.makedirs("datasets_tratados", exist_ok=True) # cria pasta de saída no repositório

for nome, df in dfs_tratados.items():
    caminho_arquivo = os.path.join(pasta_saida, f"{nome}.csv")
    df.to_csv(caminho_arquivo, index=False, encoding="utf-8")