In [1]:
# Import all dependencies for the final transformation
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [3]:
# Read the initial transformed file:
df = pd.read_excel('excel.xlsx', skiprows=1)

display(df)

Unnamed: 0,Sample_ID,file_id,WL Code,Poço,Tipo da amostra,Direção Amostra,Número do testo,"Profundidade, m",Porosidade %,Densidade,...,Curva,Coeficiente litológico,Coeficiente de cimentação,Expoente de Saturação,Unidade,Fluxo Fracionário,Permeabilidade do Fluido Deslocante (%),Permeabilidade do Fluido Deslocado (%),Kg (abs),Saturação Água (%)
0,100,6031766.0,WL000564736,Well A,A,VH1,,2038,20.7,2.71,...,,,,,,,,,,
1,101,6031766.0,WL000564736,Well A,A,VH1,,2049,24.8,2.76,...,,,,,,,,,,
2,102,6031766.0,WL000564736,Well A,A,VH1,,2028,2.3,2.69,...,,,,,,,,,,
3,103,6031766.0,WL000564736,Well A,A,VH1,,2050,22.5,2.75,...,,,,,,,,,,
4,104,6031766.0,WL000564736,Well A,A,VH1,,2074,26.7,2.77,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2628,2728,6038927.0,WL000768721,Well X,Amostra Lateral,VH1,-,5314,105,265,...,,,,,UO-SEAL,,,,,
2629,2729,6038927.0,WL000768721,Well X,Amostra Lateral,VH1,-,5318,112,267,...,,,,,UO-SEAL,,,,,
2630,2730,6038927.0,WL000768721,Well X,Amostra Lateral,VH1,-,5322,124,264,...,,,,,UO-SEAL,,,,,
2631,2731,6038927.0,WL000768721,Well X,Amostra Lateral,VH1,-,53261,133,263,...,,,,,UO-SEAL,,,,,


In [4]:
# Table contents of the column data
display(df.columns)

Index(['Sample_ID', 'file_id', 'WL Code', 'Poço', 'Tipo da amostra',
       'Direção Amostra', 'Número do testo', 'Profundidade, m', 'Porosidade %',
       'Densidade', 'Permeab. Long. (mD)', 'Pressão Conf. (psi)',
       'DATA_INICIO POÇO', 'Fluido Deslocante', 'Fluido Deslocado',
       'Permeabilidade Absoluta (%)', 'Pressão (psid)', 'Saturação (%)',
       'Método', 'Curva', 'Coeficiente litológico',
       'Coeficiente de cimentação', 'Expoente de Saturação', 'Unidade',
       'Fluxo Fracionário', 'Permeabilidade do Fluido Deslocante (%)',
       'Permeabilidade do Fluido Deslocado (%)', 'Kg (abs)',
       'Saturação Água (%)'],
      dtype='object')

In [9]:
# create a mapping of column names to database fields
column_map = {
    'Sample_ID': 'sample_id',
    'file_id': 'file_id',
    'WL Code': 'wl_code',
    'Poço': 'poco',
    'Tipo da amostra': 'tipo_amostra',
    'Direção Amostra': 'direcao_amostra',
    'Número do testo': 'numero_testo',
    'Profundidade, m': 'profundidade',
    'Porosidade %': 'porosidade',
    'Densidade': 'densidade',
    'Permeab. Long. (mD)': 'permeabilidade_long',
    'Pressão Conf. (psi)': 'pressao_conf',
    'DATA_INICIO POÇO': 'data_inicio_poco',
    'Fluido Deslocante': 'fluido_deslocante',
    'Fluido Deslocado': 'fluido_deslocado',
    'Permeabilidade Absoluta (%)': 'permeabilidade_absoluta',
    'Pressão (psid)': 'pressao',
    'Saturação (%)': 'saturacao',
    'Método': 'metodo',
    'Curva': 'curva',
    'Coeficiente litológico': 'coeficiente_litologico',
    'Coeficiente de cimentação': 'coeficiente_cimentacao',
    'Expoente de Saturação': 'expoente_saturacao',
    'Unidade': 'unidade',
    'Fluxo Fracionário': 'fluxo_fracionario',
    'Permeabilidade do Fluido Deslocante (%)': 'permeabilidade_fluido_deslocante',
    'Permeabilidade do Fluido Deslocado (%)': 'permeabilidade_fluido_deslocado',
    'Kg (abs)': 'kg_abs',
    'Saturação Água (%)': 'saturacao_agua'
}

column_names = []
for value in column_map.values():
    column_names.append(value)

# rename the columns using the mapping
df = df.rename(columns=column_map)

# Since the language seems to be portugese, replaces all commas with full stops:
df[2:] = df[2:].replace(',','.',regex=True)

# Identify all the columns with numerical data to convert into float datatype from string
columns = ['profundidade', 'porosidade', 'densidade', 'permeabilidade_long', 
'pressao_conf', 'pressao', 'saturacao', 'coeficiente_cimentacao', 'expoente_saturacao', 
'fluxo_fracionario', 'permeabilidade_fluido_deslocado', 'kg_abs', 'saturacao_agua']

# Convert the columns to float, excluding non-numeric values
df[columns] = df[columns].apply(pd.to_numeric, errors='coerce')

# Sort the data by well name then by depth.
df = df.sort_values(by=['poco', 'profundidade'])

df = df.drop_duplicates(subset=column_names[2:])


display(df)

Unnamed: 0,sample_id,file_id,wl_code,poco,tipo_amostra,direcao_amostra,numero_testo,profundidade,porosidade,densidade,...,curva,coeficiente_litologico,coeficiente_cimentacao,expoente_saturacao,unidade,fluxo_fracionario,permeabilidade_fluido_deslocante,permeabilidade_fluido_deslocado,kg_abs,saturacao_agua
2,102,6031766.0,WL000564736,Well A,A,VH1,,2028.0,2.3,2.69,...,,,,,,,,,,
5,105,6031766.0,WL000564736,Well A,A,VH1,,2035.0,20.2,2.71,...,,,,,,,,,,
0,100,6031766.0,WL000564736,Well A,A,VH1,,2038.0,20.7,2.71,...,,,,,,,,,,
3,103,6031766.0,WL000564736,Well A,A,VH1,,2050.0,22.5,2.75,...,,,,,,,,,,
6,106,6031766.0,WL000564736,Well A,A,VH1,,2052.0,17.7,2.71,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1403,1503,6037915.0,WL000774024,Well Z,Amostra Lateral,VH1,-,4750.0,22.4,2.66,...,,,,,,,,,,
1404,1504,6037915.0,WL000774024,Well Z,Amostra Lateral,VH1,-,4751.0,15.7,2.66,...,,,,,,,,,,
1405,1505,6037915.0,WL000774024,Well Z,Amostra Lateral,VH1,-,4752.0,19.8,2.65,...,,,,,,,,,,
1406,1506,6037915.0,WL000774024,Well Z,Amostra Lateral,VH1,-,4755.0,8.2,2.65,...,,,,,,,,,,


In [11]:
# Create the file that will be checked for errors:
df.to_csv('transformed_data.csv', index=False, encoding='latin-1')



In [None]:
        # if sorted_data.iloc[idx]['porosidade'] < 1 and sorted_data.iloc[idx]['densidade'] < 1 and sorted_data.iloc[idx]['permeabilidade_long'] < 1:
        #     return val

# Fill in the empty space

# df = df.replace('', np.nan).fillna(0)

# print(df[df['tipo_amostra'] == 'Amostra Plug'])
# print(df[df['tipo_amostra'] == 'P - Amostra Plug'])
# df_merged = pd.merge(df[df['tipo_amostra'] == 'Amostra Plug'], df[df['tipo_amostra'] == 'P - Amostra Plug'], 'right',)


# def update_zeroes(val, sorted_data, col_list):
#     if val == 0:
#         # Find the index of the current value
#         sub_df = sorted_data.loc[sorted_data[col_list].apply(tuple, axis=1) == val]
#         if not sub_df.empty:
#             idx = sub_df.index[0]

#             # Find the index of the previous and next non-zero values with the same 'poco' value
#             prev_idx = idx - 1
#             while prev_idx >= 0 and sorted_data.iloc[prev_idx]['poco'] != sorted_data.iloc[idx]['poco']:
#                 prev_idx -= 1

#             next_idx = idx + 1
#             while next_idx < len(sorted_data) and sorted_data.iloc[next_idx]['poco'] != sorted_data.iloc[idx]['poco']:
#                 next_idx += 1

#             # If the previous and next values have the same 'poco' value, use their average as the new value
#             if prev_idx >= 0 and next_idx < len(sorted_data):
#                 if sorted_data.iloc[prev_idx]['poco'] == sorted_data.iloc[next_idx]['poco']:
#                     new_val = sorted_data.iloc[prev_idx:next_idx+1][col_list].mean(axis=0).values
#                     return new_val

#             # If the previous or next value does not have the same 'poco' value, use the previous value in the same 'poco'
#             if prev_idx < 0:
#                 new_val = sorted_data.iloc[next_idx][col_list].values
#             elif next_idx >= len(sorted_data):
#                 new_val = sorted_data.iloc[prev_idx][col_list].values
#             elif sorted_data.iloc[prev_idx]['poco'] == sorted_data.iloc[idx]['poco']:
#                 new_val = sorted_data.iloc[prev_idx][col_list].values
#             else:
#                 new_val = sorted_data.iloc[next_idx][col_list].values

#             return new_val
#     return val


# def fill_zeros(data):
#     '''
#     Replaces 0 values with the mean of values above and below if they have the same 'poco' value

#             Parameters:
#                     data (dataframe): The dataframe to be modified

#             Returns:
#                     filled_data (dataframe): The modified dataframe with 0 values filled in
#     '''
#     filled_data = data.copy()
#     col_list = [col for col in filled_data.columns if col not in ['poco', 'profundidade']]
#     for col in col_list:
#         sub_df = filled_data.loc[filled_data[col] != 0]
#         filled_data[col] = filled_data[col].apply(lambda x: update_zeroes(x, sub_df, col_list))
#     return filled_data

# df_filled = fill_zeros(df)