<a href="https://colab.research.google.com/github/IsWallison/WATER-SERVICES-AND-TECHNOLOGIES/blob/main/Analise_dos_dados_WATER_SERVICES.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### **Analise dos dados de laudos Ambientais**
*WATER SERVICES AND TECHNOLOGIES*

*by [Wallison](https://www.linkedin.com/in/wallison-borges-48312516a/)*  


Resumo:

Anexo a este documento, você recebeu uma planilha “PR2237068_laudo_1.xlsx” (A) representando um monitoramento ambiental de uma determina localidade; ela contém os resultados analíticos das amostras coletadas. A planilha foi gerada por um laboratório de análise em um layout próprio.

Recebeu também uma planilha adicional “20230701_valores_referencia.xlsx” (B) contendo os valores orientadores de uma legislação fictícia que deverão ser utilizados para comparação dos resultados analíticos contidos na primeira planilha.  

Exercício 1:
Transforme a planilha (A) em uma tabela em que cada coluna represente uma variável como no exemplo abaixo. Você pode utilizar uma nomenclatura diferente ou colunas adicionais se julgar necessário.
  
Fique atento para pontos como:

•	Colunas que podem ser removidas na transformação;

•	Colunas adicionais que podem ser adicionadas para facilitar análises futuras;

•	Tratamento de caracteres especiais;

•	Consistência e razoabilidade no tipo de dados em cada coluna;

•	Separadores decimais e de milhares;

•	Formato de data;


Para a transformação do arquivo, sugere-se utilizar o Power Query dentro do Excel ou linguagens de programação como Python e R.
Como entregável deste exercício, apresente um documento em Word ou PDF explicando sucintamente o raciocínio utilizado para transformar a tabela bem como possíveis inconsistências encontradas. Apresente também a tabela obtida na transformação e os códigos desenvolvidos caso utilize Python e/ou R.


In [1]:
# importar os pacotes necessários
import pandas as pd
import numpy as np
from google.colab import files
import warnings
import matplotlib.pyplot as plt
!pip install xlsxwriter
import xlsxwriter
warnings.filterwarnings('ignore')



In [2]:
# importar os dados
df = pd.read_excel('/content/PR2237068_laudo_1.xlsx')
df_refer = pd.read_excel('/content/20230701_valores_referencia.xlsx')

## Análise Exploratória

In [3]:
#Visualização do dataset
df.head()

Unnamed: 0.1,Unnamed: 0,id parametro,grupo parametro,Lims Codigo,unidade,lim quant,PR2237068,PR2237068.1,PR2237068.2,PR2237068.3,PR2237068.4,PR2237068.5,PR2237068.6,PR2237068.7,PR2237068.8,PR2237068.9,PR2237068.10
0,id amostra lab,,,,,,001,002,003,004,005,006,007,008,009,010,011
1,nome amostra,,,,,,RO-J,BC8,BC2,BC4,BC3,BC14,BC11,BC15,BC17,BC6,AA02
2,ponto,,,,,,PT-1,PT-1,PT-1,PT-1,PT-2,PT-2,PT-2,PT-2,PT-3,PT-3,PT-3
3,data coleta,,,,,,20/04/2022,2022-05-20 00:00:00,2022-06-19 00:00:00,2022-07-19 00:00:00,2022-04-20 00:00:00,2022-05-20 00:00:00,2022-06-19 00:00:00,2022-07-19 00:00:00,20/04/2022,2022-05-20 00:00:00,2022-06-19 00:00:00
4,inicio profundidade,,,,,,,,,,,,,,,,


Conferência do nome de todas as colunas através do método columns.

In [4]:
df.columns

Index(['Unnamed: 0', 'id parametro', 'grupo parametro', 'Lims Codigo',
       'unidade', 'lim quant', 'PR2237068', 'PR2237068.1', 'PR2237068.2',
       'PR2237068.3', 'PR2237068.4', 'PR2237068.5', 'PR2237068.6',
       'PR2237068.7', 'PR2237068.8', 'PR2237068.9', 'PR2237068.10'],
      dtype='object')

A função "info()" é usada para obter informações gerais sobre um conjunto de dados, incluindo o número de linhas e colunas, o tipo de dados de cada coluna, a quantidade de valores não-nulos e memória usada.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       50 non-null     object 
 1   id parametro     44 non-null     float64
 2   grupo parametro  44 non-null     object 
 3   Lims Codigo      44 non-null     object 
 4   unidade          43 non-null     object 
 5   lim quant        44 non-null     float64
 6   PR2237068        48 non-null     object 
 7   PR2237068.1      48 non-null     object 
 8   PR2237068.2      48 non-null     object 
 9   PR2237068.3      48 non-null     object 
 10  PR2237068.4      48 non-null     object 
 11  PR2237068.5      48 non-null     object 
 12  PR2237068.6      48 non-null     object 
 13  PR2237068.7      48 non-null     object 
 14  PR2237068.8      48 non-null     object 
 15  PR2237068.9      48 non-null     object 
 16  PR2237068.10     48 non-null     object 
dtypes: float64(2), obj

A coluna 'id parâmetro' não agrega nenhuma informação, pois se trata de um identificador único. As colunas PR2237068n deverão ser modificadas futuramente. Farei uma cópia os dados do DataFrame original (df) para um novo DataFrame (df2).


In [6]:
#Novo dataframe
df2 =  df.copy()

#removendo a coluna "id parametro" pois não agrega em nada
df2.drop(columns='id parametro', inplace=True)
df2.head()

Unnamed: 0.1,Unnamed: 0,grupo parametro,Lims Codigo,unidade,lim quant,PR2237068,PR2237068.1,PR2237068.2,PR2237068.3,PR2237068.4,PR2237068.5,PR2237068.6,PR2237068.7,PR2237068.8,PR2237068.9,PR2237068.10
0,id amostra lab,,,,,001,002,003,004,005,006,007,008,009,010,011
1,nome amostra,,,,,RO-J,BC8,BC2,BC4,BC3,BC14,BC11,BC15,BC17,BC6,AA02
2,ponto,,,,,PT-1,PT-1,PT-1,PT-1,PT-2,PT-2,PT-2,PT-2,PT-3,PT-3,PT-3
3,data coleta,,,,,20/04/2022,2022-05-20 00:00:00,2022-06-19 00:00:00,2022-07-19 00:00:00,2022-04-20 00:00:00,2022-05-20 00:00:00,2022-06-19 00:00:00,2022-07-19 00:00:00,20/04/2022,2022-05-20 00:00:00,2022-06-19 00:00:00
4,inicio profundidade,,,,,,,,,,,,,,,


Vou começar a mudar as colunas para adiantar e facilitar o projeto. rename() é a forma mais básico de renomear uma única coluna em um DataFrame do Pandas.

In [7]:
df2.rename(columns={'Unnamed: 0': 'Parametro Analisado'}, inplace=True)

Como foi solicitado que cada coluna represente uma variável, utilizei o código a seguir para selecionar as linhas com os valores referentes a datas, em seguida criei uma função para analisar se o valor era uma data, aproveitei e já salvei os valores do ponto e do nome da amostra no mesmo dicionário, ou seja, cada valor vai conter a data, ponto e nome da amostra. A última parte do código é um loop para renomear as colunas usando o mapeamento de datas, mantendo os nomes das colunas não relacionadas a datas. Antes algumas colunas se chamavam de "PR2237068n", agora vão se chamar algo parecido com "2022-04-20|RO-J|PT-1".

In [8]:
#So vou pegar os valores referentes as datas
linha_selecionada = df.loc[3][6:]

# Função para verificar se um valor é uma data
def is_date(value):
    try:
        pd.to_datetime(value)
        return True
    except:
        return False
c = 6
# Percorrer as células da linha selecionada e criar o mapeamento
mapeamento_datas = {}
for idx, value in linha_selecionada.items():
    if is_date(str(value)):
        mapeamento_datas[idx] = str(pd.to_datetime(value).date()) + '|' + str(df.loc[1][c]) + '|' + str(df.loc[2][c])
        c+=1

# Agora 'mapeamento_datas' é um dicionário onde as chaves são os valores originais
# e os valores são as datas correspondentes (apenas a parte de data)

# Renomear as colunas usando o mapeamento de datas, mantendo os nomes das colunas não relacionadas a datas
novos_nomes_colunas = []
for coluna in df2.columns:
    if coluna in mapeamento_datas:
        novos_nomes_colunas.append(mapeamento_datas[coluna])
    else:
        novos_nomes_colunas.append(coluna)

# Atualizar os nomes das colunas no DataFrame
df2.columns = novos_nomes_colunas
df2 = df2.iloc[6:]
df2.head()


Unnamed: 0,Parametro Analisado,grupo parametro,Lims Codigo,unidade,lim quant,2022-04-20|RO-J|PT-1,2022-05-20|BC8|PT-1,2022-06-19|BC2|PT-1,2022-07-19|BC4|PT-1,2022-04-20|BC3|PT-2,2022-05-20|BC14|PT-2,2022-06-19|BC11|PT-2,2022-07-19|BC15|PT-2,2022-04-20|BC17|PT-3,2022-05-20|BC6|PT-3,2022-06-19|AA02|PT-3
6,Aluminio,Metais Dissolvidos,W-METMSFL6,mg/L,0.01,<0.0100 mg/L,<0.0100 mg/L,23.3 mg/L,<0.0100 mg/L,<0.0100 mg/L,0.0141 mg/L,<0.0100 mg/L,<0.0100 mg/L,<0.0100 mg/L,<0.0100 mg/L,<0.0100 mg/L
7,Antimonio,Metais Dissolvidos,W-METMSFL1,µg/L,1.0,1.8 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L,<1.0 µg/L
8,Arsenio,Metais Dissolvidos,W-METMSFL1,µg/L,1.0,1.8 µg/L,1.6 µg/L,4.3 µg/L,2.6 µg/L,2.9 µg/L,1.7 µg/L,1.4 µg/L,<1.0 µg/L,1.0 µg/L,2.6 µg/L,<1.0 µg/L
9,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.0128 mg/L,0.00944 mg/L,0.0316 mg/L,0.00373 mg/L,0.0194 mg/L,0.00257 mg/L,0.0265 mg/L,0.0272 mg/L,0.00264 mg/L,0.00456 mg/L,0.00119 mg/L
10,Berilio Total,Metais Dissolvidos,W-METMSFL6,mg/L,0.0002,<0.00020 mg/L,<0.00020 mg/L,0.7 mg/L,<0.00020 mg/L,<0.00040 mg/L,<0.00020 mg/L,<0.00020 mg/L,<0.00020 mg/L,<0.00020 mg/L,<0.00020 mg/L,<0.00020 mg/L


 Agora irei usar a função pandas.melt() para reformular o DataFrame, também vou orderná-lo em relação à coluna "Parâmetro Analisado" e por fim vou remover algumas informações da coluna valor, como, por exemplo, "mg/L", pois essa informação já está presente na coluna "Unidade"

Para fazer uma análise dos resultados, preciso transformar os valores da coluna valor em números floats, mas percebi que alguns valores não estão precisos, por exemplo, alguns valores estão representados por um limite de detecção ou um valor abaixo do limite de quantificação em análises do laboratório (<0.050), optei por Substituir pelo Valor do Limite, no caso de <0.050, substitui por 0.050, que é o limite.



In [9]:
# Derreter as colunas de datas em uma coluna "data coleta"
df_melted_dates = df2.melt(id_vars=["Parametro Analisado", "grupo parametro",
                                    "Lims Codigo", "unidade", "lim quant"],
                                   value_vars=df2.columns[5:], # A partir da coluna PR2237068
                                   var_name="data coleta",
                                   value_name="valor")

# Filtrar as linhas em que a coluna "valor" não é vazia
df_melted_dates = df_melted_dates[df_melted_dates["valor"].notna()]

#Ordenar em ordem alfabetica
df_sorted = df_melted_dates.sort_values(by="Parametro Analisado")

#Remover mg/L"
df_sorted['valor'] = df_sorted['valor'].str.split(' ').str[0].str.strip()
df_sorted['valor'] = df_sorted['valor'].str.replace('<', '').str.replace(' µg/L', '').astype(float)

df_sorted.head()

Unnamed: 0,Parametro Analisado,grupo parametro,Lims Codigo,unidade,lim quant,data coleta,valor
287,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,2022-06-19|BC11|PT-2,0.15
199,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,2022-04-20|BC3|PT-2,4.39
375,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,2022-04-20|BC17|PT-3,3.27
67,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,2022-05-20|BC8|PT-1,1.31
155,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,2022-07-19|BC4|PT-1,0.955


Agora vou separar a coluna "data coleta" em três novas colunas: 'Data da Amostra', 'Nome da Amostra', 'Nome do Ponto', vou removê-la e aproveitar para transformar a nova coluna "Data da Amostra" no formato de data no padrão brasileiro.




In [10]:
#Divisão das colunas
df_sorted[['Data da Amostra', 'Nome da Amostra', 'Nome do Ponto']] = df_sorted['data coleta'].str.split('|', expand=True)

#Remoção da coluna
df_sorted = df_sorted.drop(columns='data coleta',axis=1)

#Converção da data
df_sorted['Data da Amostra'] = pd.to_datetime(df_sorted['Data da Amostra'])
df_sorted['Data da Amostra'] = df_sorted['Data da Amostra'].dt.strftime('%d/%m/%Y')

df_sorted.head()

Unnamed: 0,Parametro Analisado,grupo parametro,Lims Codigo,unidade,lim quant,valor,Data da Amostra,Nome da Amostra,Nome do Ponto
287,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,0.15,19/06/2022,BC11,PT-2
199,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,4.39,20/04/2022,BC3,PT-2
375,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,3.27,20/04/2022,BC17,PT-3
67,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,1.31,20/05/2022,BC8,PT-1
155,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,0.955,19/07/2022,BC4,PT-1


Vou criar três novas colunas com os valores da média, menor valor e maior valor celetado de cada parametro analisado.

In [11]:
# Converter a coluna 'valor' para valores numéricos
# df_sorted['valor'] = pd.to_numeric(df_sorted['valor'], errors='coerce')

# Agrupar por 'Parametro Analisado' e calcular as estatísticas
df_estatisticas = df_sorted.groupby('Parametro Analisado')['valor'].agg(['mean',
                                                                         'median',
                                                                         'min',
                                                                         'max',
                                                                         ]).round(4)
df_estatisticas.head()

Unnamed: 0_level_0,mean,median,min,max
Parametro Analisado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alcalinidade em pH 4,2.0695,1.66,0.15,4.39
Alcalinidade em pH 8,0.15,0.15,0.15,0.15
Aluminio,2.1276,0.01,0.01,23.3
Antimonio,1.0727,1.0,1.0,1.8
Arsenio,1.9909,1.7,1.0,4.3


Juntar as colunas criadas anteriormente(média, menor valor e maior valor) com o dataset com todos os dados.

In [12]:
# Juntar os 2 datasets levando em consideração a coluna Parametro Analisado
df_final = pd.merge(df_sorted, df_estatisticas, on='Parametro Analisado', how='inner')
df_final

Unnamed: 0,Parametro Analisado,grupo parametro,Lims Codigo,unidade,lim quant,valor,Data da Amostra,Nome da Amostra,Nome do Ponto,mean,median,min,max
0,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,0.150,19/06/2022,BC11,PT-2,2.0695,1.66,0.15,4.39
1,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,4.390,20/04/2022,BC3,PT-2,2.0695,1.66,0.15,4.39
2,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,3.270,20/04/2022,BC17,PT-3,2.0695,1.66,0.15,4.39
3,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,1.310,20/05/2022,BC8,PT-1,2.0695,1.66,0.15,4.39
4,Alcalinidade em pH 4,Outros,W-ALK-PCT,mmol/L,0.15,0.955,19/07/2022,BC4,PT-1,2.0695,1.66,0.15,4.39
...,...,...,...,...,...,...,...,...,...,...,...,...,...
479,pH,Outros,W-PH-PCT,,1.00,7.320,20/05/2022,BC14,PT-2,7.5009,7.83,3.58,8.60
480,pH,Outros,W-PH-PCT,,1.00,7.450,19/07/2022,BC4,PT-1,7.5009,7.83,3.58,8.60
481,pH,Outros,W-PH-PCT,,1.00,7.710,20/05/2022,BC8,PT-1,7.5009,7.83,3.58,8.60
482,pH,Outros,W-PH-PCT,,1.00,8.600,20/05/2022,BC6,PT-3,7.5009,7.83,3.58,8.60


Agora vou Renomear algumas colunas e ordenalas para ficar mais padronizada e mais facil de visualizar.

In [13]:
#Renomear as colunas
df_final.rename(columns={'Lims Codigo': 'Lims Codigo', 'unidade':'Unidade',
                         'lim quant':'Limite de Quantificacao',
                         'valor':'Valor Coletado','mean':'Media Coletada',
                         'min':'Minimo Coletado','max':'Maximo Coletado','median':
                         'Mediana Coletada'},inplace=True)

#Ordenar as Colunas
df_final = df_final[['Nome do Ponto','Nome da Amostra','Data da Amostra',\
                     'Parametro Analisado','Unidade','Limite de Quantificacao',\
                     'Media Coletada','Mediana Coletada','Minimo Coletado',\
                     'Maximo Coletado','Valor Coletado']]

Realizei algumas análises, adotei um critério em que qualquer valor 5 vezes maior que a média seria considerado um outlier (dado que difere significativamente de outras observações). Então criei um novo dataset apenas para os outliers.

In [14]:
media_global = df_final['Media Coletada']

# Definir o limite para identificar outliers (5 vezes a média)
limite_outlier = 5 * media_global

# Identificar pontos que possuem valores de coleta que são outliers
outliers = df_final[df_final['Valor Coletado'] > limite_outlier]

# Imprimir os pontos que possuem outliers
outliers

Unnamed: 0,Nome do Ponto,Nome da Amostra,Data da Amostra,Parametro Analisado,Unidade,Limite de Quantificacao,Media Coletada,Mediana Coletada,Minimo Coletado,Maximo Coletado,Valor Coletado
24,PT-1,BC2,19/06/2022,Aluminio,mg/L,0.01,2.1276,0.01,0.01,23.3,23.3
67,PT-1,BC2,19/06/2022,Berilio Total,mg/L,0.0002,0.0638,0.0002,0.0002,0.7,0.7
110,PT-1,BC2,19/06/2022,CO2 dissolvido,mg/L,0.0,23.7255,4.18,0.0,223.0,223.0
137,PT-1,BC2,19/06/2022,Cadmio Total,µg/L,0.5,5.9455,0.5,0.5,60.4,60.4
157,PT-3,BC17,20/04/2022,Carbonato (como CO3),mg/L,0.0,0.7418,0.0,0.0,4.22,3.94
160,PT-3,BC6,20/05/2022,Carbonato (como CO3),mg/L,0.0,0.7418,0.0,0.0,4.22,4.22
165,PT-1,BC2,19/06/2022,Chumbo Total,µg/L,1.0,2.2091,1.0,1.0,14.3,14.3
197,PT-1,BC2,19/06/2022,Cobalto Total,mg/L,0.002,0.0818,0.002,0.002,0.88,0.88
202,PT-1,BC2,19/06/2022,Cobre,mg/L,0.001,0.2095,0.0032,0.0011,2.19,2.19
239,PT-1,BC2,19/06/2022,Ferro,mg/L,0.002,0.2537,0.0256,0.002,2.43,2.43


In [15]:
outliers.columns

Index(['Nome do Ponto', 'Nome da Amostra', 'Data da Amostra',
       'Parametro Analisado', 'Unidade', 'Limite de Quantificacao',
       'Media Coletada', 'Mediana Coletada', 'Minimo Coletado',
       'Maximo Coletado', 'Valor Coletado'],
      dtype='object')

Ao investigar esses outliers, identifiquei padrões intrigantes. Grande parte dos outliers estava associada ao ponto PT-1, nome da amostra BC2 e data de coleta em 19/06/2022, em relação aos parâmetros, não achei nenhum tipo de relação

In [16]:
#Colunas a serem analisadas
col_analise = 'Nome do Ponto', 'Nome da Amostra', 'Data da Amostra',\
       'Parametro Analisado'

#olhar ponto,data e parametro. Pode ser algum parametro especifico que seja o outlier
for i in col_analise:
  print(f'{outliers[i].value_counts()[:2]}\n')

#olhar os valores coletados, pois poder ser algum defeito do aparelho
top_values = outliers['Valor Coletado'].value_counts().head(2)
print(top_values)

PT-1    14
PT-3     2
Name: Nome do Ponto, dtype: int64

BC2    11
BC8     2
Name: Nome da Amostra, dtype: int64

19/06/2022    11
20/05/2022     3
Name: Data da Amostra, dtype: int64

Carbonato (como CO3)    2
Aluminio                1
Name: Parametro Analisado, dtype: int64

23.3    1
0.7     1
Name: Valor Coletado, dtype: int64


#Possiveis causas dos outliers:#

*  Erros humanos, falhas nos equipamentos durante a coleta ou análise,
* Contaminação das amostras após a coleta.
* Acidente na região no dia da coleta contaminando a região (Opção menos provável pois os parâmetros são diferentes.





Para finalizar vou criar 2 datasets diferente, um será mais resumido e o outro mais completos com todas as estatisticas.

In [18]:
df_final_limpo = df_final.drop(columns=['Media Coletada','Minimo Coletado',
                                        'Maximo Coletado','Mediana Coletada'])

In [19]:
#Tabela com mais completa e complexa de visualizar
#df_final.to_excel('planilha01_Analise_laudo_WATER_SERVICES(A).xlsx', index=False)

excel_writer = pd.ExcelWriter('Analise_laudo_WATER_SERVICES(A).xlsx', engine='xlsxwriter')
df_final_limpo.to_excel(excel_writer, sheet_name='Tabela resumida', index=False)
df_final.to_excel(excel_writer, sheet_name='Tabela mais completa', index=False)

# Fechar o ExcelWriter para salvar o arquivo
excel_writer.save()
files.download('Analise_laudo_WATER_SERVICES(A).xlsx')

#Tabela com menos imformações
#df_final_limpo.to_excel('planilha01_Analise_laudo_WATER_SERVICES(A).xlsx', index=False)
#files.download('planilha01_Analise_laudo_WATER_SERVICES(A).xlsx')

#Segundo dataset#

Agora está na hora de começar a trabalhar com o segundo dataset (valores_referencia)

In [22]:
df_refer.head()

Unnamed: 0,codigo_parametro,valor_minimo,valor_maximo
0,Bario Total (mg/L),,1.0
1,Berilio Total (mg/L),,0.1
2,Boro Total (mg/L),,0.75
3,Cadmio Total (mg/L),,0.01
4,Chumbo Total (mg/L),,0.033


Não tenho muito o que fazer nesse dataset, vou apenas remover a unidade que estão dentre parêntesis, para ficar mais fácil de comparar os parâmetros entre os datasets.

In [23]:
# Remover o que esta dentro do parentesis '()'
df_refer_limpo = df_refer.copy()
df_refer_limpo['codigo_parametro'] = df_refer['codigo_parametro'].str.split('(').str[0].str.strip()

df_refer_limpo.head()


Unnamed: 0,codigo_parametro,valor_minimo,valor_maximo
0,Bario Total,,1.0
1,Berilio Total,,0.1
2,Boro Total,,0.75
3,Cadmio Total,,0.01
4,Chumbo Total,,0.033


Vou fazer um tratamento em relação a alguns nomes para facilitar no trabalho.


In [24]:
# Renomear para ficar mais facil uma vez que os nomes são diferentes
df_refer_limpo['codigo_parametro'] = df_refer_limpo['codigo_parametro'].replace(
    {'OD_in situ': 'Oxigenio Dissolvido','pH_in situ': 'pH',
    'Sulfeto_H2S nao dissoc': 'Sulfeto como H2S', 'Sulfato':'Sulfato como SO4--'}
     )


In [25]:
# Lista de nomes a serem verificados
nomes_a_verificar = df_refer_limpo['codigo_parametro'].unique()

# Criar listas para armazenar os nomes encontrados e não encontrados
nomes_encontrados = []
nomes_nao_encontrados = []

# Percorrer os nomes a verificar e verificar se estão na coluna 'Nome da Amostra'
for nome in nomes_a_verificar:
    if nome in df_sorted['Parametro Analisado'].values:
        nomes_encontrados.append(nome)
    else:
        nomes_nao_encontrados.append(nome)

# os nomes encontrados e não encontrados
print("Nomes encontrados:", nomes_encontrados, len(nomes_encontrados))
print("Nomes não encontrados:", nomes_nao_encontrados, len(nomes_encontrados))



Nomes encontrados: ['Bario Total', 'Berilio Total', 'Boro Total', 'Cadmio Total', 'Chumbo Total', 'Cobalto Total', 'Cromo Total', 'Fluoreto Total', 'Litio', 'Manganes Total', 'Nitrato como N', 'Nitrito como N', 'Oxigenio Dissolvido', 'pH', 'Prata Total', 'Selenio Total', 'Sulfato como SO4--', 'Sulfeto como H2S', 'Fosforo'] 19
Nomes não encontrados: ['Cianeto Livre', 'Cobre Dissolvido', 'Ferro Dissolvido', 'Mercurio Total', 'Niquel Total', 'Uranio Total', 'Vanadio Total', 'Zinco Total'] 19


In [26]:
nomes_nao_encontrados

['Cianeto Livre',
 'Cobre Dissolvido',
 'Ferro Dissolvido',
 'Mercurio Total',
 'Niquel Total',
 'Uranio Total',
 'Vanadio Total',
 'Zinco Total']

Percebi que alguns nomes estão com palavras diferentes, então resolvi pegar só o primeiro nome do elemento para fazer mais uma busca.

In [27]:
nomes_nao_encontrados_espaco = []
for i in nomes_nao_encontrados:
  nomes_nao_encontrados_espaco.append(i[:i.find(' ')])

# Criar listas para armazenar os nomes encontrados e não encontrados
nomes_encontrados_segunda = []
nomes_nao_encontrados_segunda = []

# Percorrer os nomes a verificar e verificar se estão na coluna 'Nome da Amostra'
for nome in nomes_nao_encontrados_espaco:
    if nome in df_sorted['Parametro Analisado'].values:
        nomes_encontrados_segunda.append(nome)
        nomes_encontrados.append(nome)
    else:
        nomes_nao_encontrados_segunda.append(nome)

# Imprimir os nomes encontrados e não encontrados
print("Nomes encontrados:", nomes_encontrados_segunda)
print("Nomes não encontrados:", nomes_nao_encontrados_segunda)
print("Total de Nomes encontrados:",len(nomes_encontrados))

Nomes encontrados: ['Cobre', 'Ferro']
Nomes não encontrados: ['Cianeto', 'Mercurio', 'Niquel', 'Uranio', 'Vanadio', 'Zinco']
Total de Nomes encontrados: 21


A seguir renomeio algumas colunas e ordená-las, como não me foi dito como proceder, tomei a liberdade de excluir todos os dados referentes as amostras que não possuo parâmetros de referências, pois não teria como fazer nenhuma análise uma vez que não os possuo.

In [28]:
# lista para armazenar os índices das linhas a serem mantidas
indices_a_manter = []

# loop sobre cada índice e valor da coluna 'Parametro Analisado'
for index, parametro in df_sorted['Parametro Analisado'].items():
    if parametro in nomes_encontrados:
        indices_a_manter.append(index)

# dataFrame com as linhas que devem ser mantidas
df_filtrado = df_sorted.loc[indices_a_manter]

df_filtrado

Unnamed: 0,Parametro Analisado,grupo parametro,Lims Codigo,unidade,lim quant,valor,Data da Amostra,Nome da Amostra,Nome do Ponto
443,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.00119,19/06/2022,AA02,PT-3
355,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.00264,20/04/2022,BC17,PT-3
3,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.01280,20/04/2022,RO-J,PT-1
399,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.00456,20/05/2022,BC6,PT-3
179,Bario Total,Metais Totais,W-METMSFL6,mg/L,0.0005,0.01940,20/04/2022,BC3,PT-2
...,...,...,...,...,...,...,...,...,...
263,pH,Outros,W-PH-PCT,,1.0000,7.32000,20/05/2022,BC14,PT-2
175,pH,Outros,W-PH-PCT,,1.0000,7.45000,19/07/2022,BC4,PT-1
87,pH,Outros,W-PH-PCT,,1.0000,7.71000,20/05/2022,BC8,PT-1
439,pH,Outros,W-PH-PCT,,1.0000,8.60000,20/05/2022,BC6,PT-3


Vou renomear as colunas do segundo dataframe (valores de referência) para juntar os dois mais facilmente.

In [29]:
#Renomear algumas colunas
df_refer_limpo.rename(columns={'codigo_parametro': 'Parametro Analisado',
                   'valor_minimo':'Valor Minimo','valor_maximo':'Valor Maximo'},
                      inplace=True)
df_refer_limpo.head()

Unnamed: 0,Parametro Analisado,Valor Minimo,Valor Maximo
0,Bario Total,,1.0
1,Berilio Total,,0.1
2,Boro Total,,0.75
3,Cadmio Total,,0.01
4,Chumbo Total,,0.033


Combinando os dois datasets baseando na coluna 'Parametro Analisado'

In [30]:
#Combinar os datasets em relação a coluna Parametro Analisado
df_combinado = pd.merge(df_final, df_refer_limpo, on='Parametro Analisado', how='inner')
df_combinado.drop(columns=['Media Coletada', 'Minimo Coletado', 'Maximo Coletado'], axis=1, inplace=True)

df_combinado.head()

Unnamed: 0,Nome do Ponto,Nome da Amostra,Data da Amostra,Parametro Analisado,Unidade,Limite de Quantificacao,Mediana Coletada,Valor Coletado,Valor Minimo,Valor Maximo
0,PT-3,AA02,19/06/2022,Bario Total,mg/L,0.0005,0.0094,0.00119,,1.0
1,PT-3,BC17,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.00264,,1.0
2,PT-1,RO-J,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.0128,,1.0
3,PT-3,BC6,20/05/2022,Bario Total,mg/L,0.0005,0.0094,0.00456,,1.0
4,PT-2,BC3,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.0194,,1.0


Resolvi criar uma nova coluna com as análises se os valores obtidos estão dentro dos valore mínimos e máximos, chamei a coluna de "Conformidade". Se os valores estiverem entre o mínimo e o máximo serão categorizados como "Conforme" caso contrário serão "Não Conforme".

In [31]:
df_combinado['Conformidade'] = ((df_combinado['Valor Minimo'].isna() | (df_combinado['Valor Coletado'] >= df_combinado['Valor Minimo']))
                                & (df_combinado['Valor Maximo'].isna() | (df_combinado['Valor Coletado'] <= df_combinado['Valor Maximo'])))

# Substituir os valores na coluna 'Conformidade'
df_combinado['Conformidade'] = np.where(df_combinado['Conformidade'], 'Conforme', 'Não Conforme')

df_combinado.head()

Unnamed: 0,Nome do Ponto,Nome da Amostra,Data da Amostra,Parametro Analisado,Unidade,Limite de Quantificacao,Mediana Coletada,Valor Coletado,Valor Minimo,Valor Maximo,Conformidade
0,PT-3,AA02,19/06/2022,Bario Total,mg/L,0.0005,0.0094,0.00119,,1.0,Conforme
1,PT-3,BC17,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.00264,,1.0,Conforme
2,PT-1,RO-J,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.0128,,1.0,Conforme
3,PT-3,BC6,20/05/2022,Bario Total,mg/L,0.0005,0.0094,0.00456,,1.0,Conforme
4,PT-2,BC3,20/04/2022,Bario Total,mg/L,0.0005,0.0094,0.0194,,1.0,Conforme


Agora vou verificar quantos resultados foram classificados como conforme e não conforme.

In [32]:
# Identificar quem são os "Não Conforme"
conforme = df_combinado[df_combinado['Conformidade'] == 'Conforme']
nao_conforme = df_combinado[df_combinado['Conformidade'] == 'Não Conforme']
print(f"Temos um total de {nao_conforme.shape[0]} analises que estão classificadas\
 como 'Não Conforme'")
print(f"Temos um total de {conforme.shape[0]} analises que estão classificadas\
 como 'Conforme'")

Temos um total de 43 analises que estão classificadas como 'Não Conforme'
Temos um total de 166 analises que estão classificadas como 'Conforme'


In [33]:
#olhar ponto,data e parametro. Pode ser algum parametro especifico que seja o outlier
for i in col_analise:
  print(f'{nao_conforme[i].value_counts()[:4]}\n')

#olhar os valores coletados, pois poder ser algum defeito do aparelho
top_values = nao_conforme['Valor Coletado'].value_counts().head(3)
print(top_values)

PT-1    19
PT-2    15
PT-3     9
Name: Nome do Ponto, dtype: int64

BC2     9
BC3     4
BC11    4
BC15    4
Name: Nome da Amostra, dtype: int64

19/06/2022    16
20/04/2022    10
20/05/2022     9
19/07/2022     8
Name: Data da Amostra, dtype: int64

Cadmio Total          11
Chumbo Total          11
Selenio Total         11
Sulfato como SO4--     4
Name: Parametro Analisado, dtype: int64

1.0    18
0.5    10
0.7     1
Name: Valor Coletado, dtype: int64


Por fim o código para baixar o arquivo final em formato de xlsx.

In [35]:
df_combinado.to_excel('Analise_laudo_WATER_SERVICES(B).xlsx', index=False)
files.download('Analise_laudo_WATER_SERVICES(B).xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>