# Análisis de registros de pozos prospectivos de hidrocarburos y reconstruccion de curvas con Python/Sklearn.

Por: Miguel La Cruz.

In [1]:
#Importamos librerías preliminares a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
import functions

In [7]:
#Importamos la data de los pozos
Well_1 = pd.read_csv("../data/raw/Well_1_mincols.csv", sep=";")
Well_3 = pd.read_csv("../data/processed/Well_3_modeldata.csv", sep=";")

Como sabemos, el ***machine learning*** tiene un sin fin de aplicaciones y sirve para desarrollar soluciones óptimas a diversas diversas problemáticas.

En el campo de la petrofísica tiene una utilidad considerable y cada día en aumento, aplicada al análisis de clusters para determinar facies sedimentarias, generación de curvas de pozos sintéticas, entre otros.

En el presente análisis abordaremos la posibilidad de reparar curvas (registros) de baja calidad disponibles en un pozo, ya sea por la presencia de derrumbes u otros factores que pueden alterar la respuesta de dichos registros. Evaluaremos dos pozos ("Well_1", "Well_3")

Los datos que utilizamos serán:

* **DEPTH**: Profundidad en pies
* **CAL**: Medida caliper en pulgadas
* **NPHI**: Porosidad neutrón en fracciones
* **DT**: Sónico en ms/pie
* **GR**: Gamma ray en grados API
* **RHOB**: Densidad en g/cm3
* **RLLD**: Registro eléctrico profundo en ohm/mts
* **RT**: Registro eléctrico en ohm/mts
* **BS**: Tamaño de mecha en pulgadas

**Colummnas a utilizar (Well_1)**

<img src="img/excel_img_2.png" alt="eximg_1" width="700"/>

* #### **Primer paso: Convertir la data de "object" a "float"**

La data es recibida en formato .las y al transformarla a .csv para trabajar de manera cómoda surgen cambios en el tipo de formato de las columnas, por lo tanto es necesario transformar las columnas a float para poder operar con ellas.

<br>

* #### **Segundo paso: Reparar errores por conversión de data**

La data es recibida en formato .las y al transformarla a .csv para trabajar de manera cómoda surgen errores en la data, como valores exagerados (con "0s" de más), por lo tanto es necesario examinar estos errores y corregirlos.

<br>

* #### **Tercer paso: Visualización preliminar**

Echamos un breve vistazo al estado de la data para determnar presencia de valores anómalos y nulos.

<br>

* #### **Cuarto paso: Eliminación de valores nulos**

Hacemos una limpiza rápida de valores nulos, al no poseer demasiados.

<br>

* #### **Quinto paso: Visualización de las curvas en tracks**

Una de las herramientas más utilizadas (o la más utilizada) es la visualización de curvas en tracks, por lo que procedemos a generarlos.

<br>

* #### **Sexto paso: Creación de flags**

Creamos "flags" de datos por encima de 0.30 (porosidades demasiado altas) y debajo de 0 (nulos) para ver en que zona del pozo se encuentran y determinar cual es su causa, así como la posibilidad de eliminarlos (anomalías causadas por datos deteriorados).

<br>

* #### **Séptimo paso: Eliminación de valores anómalos**

Al determinar la causa de los valores anómalos presentes procedemos a eliminarlos

<br>

* #### **Octavo paso: Prueba y selección de modelos**

Varios modelos son probados y se selecciona el que mejor repare la curva de NPHI sin caer en overfitting. Se utiliza como métrica el "MAE" (Mean absolute error).

<br>

* #### **Noveno paso: Utilizamos el mejor modelo para predecir las curvas de NPHI de ambos pozos**

Utilizamos el mejor modelo para predecir las curvas de NPHI de ambos pozos, habiendo determinado anteriormente que un modelo funcionaría para ambos pozos (pozos del mismo campo con distribución de datos y valores muy similares)

<br>

* #### **Décimo paso: Analizamos visualmente las reparaciones en las curvas**

Analizamos visualmente las reparaciones en las curvas y que se necesitaría para mejorar la predicción.
