# Transformación de los datos en bruto

## Modulos a emplear

In [3]:
# Importamos las librerias a utilizar
import pandas as pd
import numpy as np
import sys
import os

# Funciones importadas como modulos
notebook_dir = os.getcwd()
scripts_dir = os.path.join(notebook_dir, "..", "src")
sys.path.append(scripts_dir)
from data_transform.load_csv import load_csv
from data_transform.map_cimas_to_depth_multiple import map_cimas_create_columns

# Codigo para imprimir mas de una salida de la misma celda
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Cargamos la informacion de los registros de pozo y cimas

In [4]:
# Definimos las rutas de los registros de pozo y cimas 
logs_file_name = "logs_pijije_rhob_nphi_dtco_syn.csv"
tops_file_name = "tops_pijije_rhob_nphi_dtco_syn.csv"
path_well_logs = os.path.join(notebook_dir, "..", "data", "raw", logs_file_name)
path_well_tops = os.path.join(notebook_dir, "..", "data", "raw", tops_file_name)

# Cargamos la informacion de los pozos
well_logs_df = load_csv(path_well_logs)

# Cambiamos el tipo de de columnas a float
columnas_convertir = ["md", "dtco","dtsm", "gr", "rp"]
well_logs_df[columnas_convertir] = well_logs_df[columnas_convertir].astype(float)

# Verificamos que no exista ninguna valor negativo en md
well_logs_df = well_logs_df[well_logs_df["md"] >= 0]

# Cargamos la informacion de las cimas
well_tops_df = load_csv(path_well_tops)

# Cambiamos el tipo de columna a float
well_tops_df["md"] = well_tops_df["md"].astype(float)

# Ordena el DataFrame de cimas por 'MD' para asegurarte de que esté en el orden correcto
well_tops_df = well_tops_df.sort_values(by='md')

# Borramos la cima "PT"
well_tops_df = well_tops_df[well_tops_df["surface"] != "PT"]

## Juntamos las cimas con los pozos

In [7]:
# Mapeamos las cimas con los registros de pozo 
pijije_df = map_cimas_create_columns(well_tops_df, well_logs_df, False)

## Creamos el DataSet con la informacion procesada

In [9]:
# Guardamos el DataSet pijije_procesed en formato csv
processed_file_name = "data_pijije_rhob_nphi_dtco_syn.csv"
path_to_save = os.path.join(notebook_dir, "..", "data", "processed", processed_file_name)
pijije_df.to_csv(path_to_save, index=False)