# Índice

1\. [Introducción](#introduccion)\
    1.1\. [Objetivos](#objetivos)\
2\. [Datos y librerías](#datosylibrerias)\
    &nbsp;&nbsp;&nbsp;&nbsp;2.1 [Librerías](#librerias)\
    &nbsp;&nbsp;&nbsp;&nbsp;2.2\. [Datos](#datos)\
    &nbsp;&nbsp;&nbsp;&nbsp;2.3\. [Conociendo los datos](#conociendolosdatos)\
        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.3.1\. [df0](#df0)\
        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.3.2\. [df1](#df1)\
        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.3.3\. [df2](#df2)\
    &nbsp;&nbsp;&nbsp;&nbsp;2.4\. [Limpieza de datos](#limpiezadedatos)\
3\. [Primer modelo](primermodelo)\
    &nbsp;&nbsp;&nbsp;&nbsp;3.1\. [Comparación](#comparacion)\
4\. [Cálculo de ganancias](#calculodeganancias)\
    &nbsp;&nbsp;&nbsp;&nbsp;4.1\. [Variables importantes](#variablesimportantes)\
    &nbsp;&nbsp;&nbsp;&nbsp;4.2\. [Costo por pozo](#costoporpozo)\
    &nbsp;&nbsp;&nbsp;&nbsp;4.3\. [Ganancias](#ganancias)\
5\. [Conclusión general](#conclusiongeneral)

<a id="introduccion"></a>
## Introducción

Este proyecto tiene como objetivo ayudar a la compañía minera OilyGiant a identificar la ubicación óptima para la instalación de un nuevo pozo minero. Contamos con datos de múltiples reservas distribuidas en tres regiones.

Mediante el uso de un modelo predictivo basado en regresión lineal, analizaremos estos datos para determinar la ubicación más favorable para la instalación del nuevo pozo. Este análisis nos permitirá calcular las potenciales ganancias y evaluar los riesgos asociados a cada ubicación y región.

<a id="objetivos"></a>
### Objetivos

- Identificar la región que promete las mayores ganancias proyectadas.
- Evaluar los riesgos y beneficios asociados a los pozos y regiones.

<a id="datosylibrerias"></a>
## Datos y librerías

<a id="librerias"></a>
### Librerías

In [76]:
import pandas as pd
from scipy import stats as st

from numpy.random import RandomState

from sklearn.linear_model import LogisticRegression 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

<a id="datos"></a>
### Datos

In [77]:
try:
    df0 = pd.read_csv('C:/Users/Alejandro/Downloads/geo_data_0.csv')
except:
    df0 = pd.read_csv('/datasets/geo_data_0.csv')
try:
    df1 = pd.read_csv('C:/Users/Alejandro/Downloads/geo_data_1.csv')
except:
    df1 = pd.read_csv('/datasets/geo_data_1.csv')
try:
    df2 = pd.read_csv('C:/Users/Alejandro/Downloads/geo_data_2.csv')
except:
    df2 = pd.read_csv('/datasets/geo_data_2.csv')

<a id="conociendolosdatos"></a>
### Conociendo los datos

Para analizar estos datos, es fundamental comprender su estructura. Dado que la mayoría de los datos son numéricos, utilizaremos los métodos describe, info y head. Estos nos permitirán explorar las primeras filas de cada DataFrame, así como sus columnas, tipos de datos y distribución estadística.

<a id="df0"></a>
#### df0

In [78]:
df0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [79]:
df0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [80]:
df0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


<a id="df1"></a>
#### df1

In [81]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [82]:
df1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [83]:
df1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


<a id="df2"></a>
#### df2

In [84]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [85]:
df2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [86]:
df2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


<a id="limpiezadedatos"></a>
### Limpieza de datos

Es habitual encontrarnos con datos faltantes o incorrectos en nuestros conjuntos de datos. En este caso, tenemos una columna que no aporta información y podría confundir a nuestro modelo. Para evitar este problema, eliminaremos la columna "id" de cada DataFrame.

Además, vamos a agrupar los DataFrames en una lista. Esto nos permitirá optimizar el espacio y hacer que el código sea más eficiente. Es importante tener en cuenta que solo realizaremos cambios en esta lista, los DataFrames originales permanecerán intactos.

In [87]:
dfs = [df0, df1, df2]

In [88]:
for df in range(len(dfs)):
    dfs[df] = dfs[df].drop('id', axis=1)

Revisamos uno de los DataFrames para confirmar el cambio que realizamos.

In [89]:
dfs[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.1 MB


<a id="primermodelo"></a>
## Primer modelo

Los datos se dividirán en un 75% para entrenamiento y un 25% para validación. Este proceso se realizará para cada DataFrame con el que estamos trabajando.

Los datos de cada región están ordenados de la misma manera, con tres columnas que serán nuestros atributos (f0, f1 y f2). Aunque desconocemos el significado de estas columnas, tanto nosotros como el modelo predictivo consideramos que son datos importantes y relevantes para el análisis.

Por otro lado, la columna "product" será nuestro objetivo (target).

In [90]:
rs = RandomState(54321) # Fijemos una semilla

In [91]:
targets = [] # Donde juntaremos los target de validación
preds = [] # Donde juntaremos las predicciones de validación

for i in range(len(dfs)):
    df_train, df_valid = train_test_split(dfs[i], test_size=0.25, random_state=rs) # Dividmos los datos
    features_train = df_train.drop(['product'], axis=1) # Creamos features de entrenamiento
    target_train = df_train['product'] # Creamos targets de entrenamiento
    features_valid = df_valid.drop(['product'], axis=1) # Creamos features de validación
    target_valid = df_valid['product'] # Creamos target de validación
    
    reg = LinearRegression() # Creamos la regresión
    reg.fit(features_train, target_train) # Entrenamos a la regresión

    pred = reg.predict(features_valid) # Hacemos predicciones con el modelo
    ecm = mean_squared_error(target_valid, pred) # Calculamos el ECM
    recm = ecm**0.5 # Calculamos el RECM
    mean = dfs[i]['product'].mean() # Calculamos el promedio
    
    # Agregamos las informaciones a las listas externas
    targets.append(target_valid.reset_index(drop=True))
    preds.append(pd.Series(pred))
    
    # Imprimimos los resultados
    print('Región', i)
    print('Promedio de las reservas:', mean)
    print('RECM:', recm)
    print()

Región 0
Promedio de las reservas: 92.50000000000001
RECM: 37.68341093860808

Región 1
Promedio de las reservas: 68.82500000000002
RECM: 0.8885222400411976

Región 2
Promedio de las reservas: 95.00000000000004
RECM: 40.136726733973994



<a id="comparacion"></a>
### Comparación

¿Es posible? El modelo de la región 1 tuvo un RECM menor a 1, cercano al valor ideal de 0. Esto sugiere que todas sus predicciones fueron casi exactas.

Al parecer, la región 1 ha logrado predecir la cantidad de producto en los pozos de manera casi perfecta. Verificaremos si esto se mantiene cuando evaluemos los modelos.

En las otras dos regiones, encontramos valores de RECM mayores a 22. Esto indica que los modelos no son capaces de realizar predicciones tan precisas, y las predicciones suelen tener errores de más de 22 unidades de producto.

<a id="calculodeganancias"></a>
## Cálculo de ganacias

Vamos a proceder con el cálculo de las posibles ganancias que la compañía podría obtener. Para esto, estableceremos algunas condiciones bajo las cuales trabajaremos.

Condiciones:

- Durante la exploración de la región, se realizará un estudio de 500 puntos, de los cuales se seleccionarán los mejores 200 puntos para el cálculo del beneficio.
- El presupuesto destinado al desarrollo de 200 pozos petroleros es de 100 millones de dólares.
- Cada barril de materias primas genera ingresos por un total de 4.5 USD. Por lo tanto, el ingreso por unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
- Después de la evaluación de riesgos, solo se mantendrán las regiones con riesgo de pérdidas inferior al 2.5%. Entre las regiones que cumplen con este criterio, se seleccionará aquella que tenga el beneficio promedio más alto.

<a id="variablesimportantes"></a>
### Variables importantes

Además de las condiciones establecidas para el cálculo, es necesario identificar y aislar las variables necesarias para llevar a cabo el análisis. Para cada región, necesitaremos conocer la cantidad de producto por pozo, ordenada en orden descendente, con el fin de considerar únicamente los mejores 200 pozos. También calcularemos la cantidad de producto necesaria para establecer un pozo sin pérdidas y la compararemos con la cantidad promedio de producto por pozo en cada región.

In [92]:
# Variables generales
costo_pozo = 100000000/200 # Costo de 200 pozos dividido por pozos
ingreso_producto = 4500 # Ingreso por unidad de producto
riesgo_max = 0.025 # 2.5%

# Región 0
product_0 = df0.loc[:,'product'].sort_values(ascending=False)
mean_0 = product_0.mean()

# Región 1
product_1 = df1.loc[:,'product'].sort_values(ascending=False)
mean_1 = product_1.mean()

# Regiön 2
product_2 = df2.loc[:,'product'].sort_values(ascending=False)
mean_2 = product_2.mean()

<a id="costoporpozo"></a>
### Costo por pozo

Ahora que disponemos de las variables necesarias, procederemos a calcular la cantidad de producto necesaria para instalar un pozo sin pérdidas.

In [93]:
print('Cantidad de producto necesario en un pozo:', costo_pozo/ingreso_producto)
print()
print('Producto promedio en región 0:', mean_0)
print('Producto promedio en región 1:', mean_1)
print('Producto promedio en región 2:', mean_2)

Cantidad de producto necesario en un pozo: 111.11111111111111

Producto promedio en región 0: 92.50000000000001
Producto promedio en región 1: 68.825
Producto promedio en región 2: 95.0


Como podemos observar, un pozo requiere una cantidad de producto mayor al promedio encontrado en cualquier región para alcanzar el punto mínimo donde se eliminen los gastos y comiencen a generarse ganancias. Este hecho confirma la importancia de seleccionar únicamente los pozos con la mayor cantidad de producto disponible. Por curiosidad, examinemos la cantidad de producto en los mejores pozos de cada región.

In [94]:
print('Mayor cantidad de producto en región 0:')
print(product_0.head())
print()
print('Mayor cantidad de producto en región 1:')
print(product_1.head())
print()
print('Mayor cantidad de producto en región 1:')
print(product_2.head())
print()

Mayor cantidad de producto en región 0:
8826     185.364347
99818    185.362690
94175    185.355615
1925     185.354980
45291    185.352015
Name: product, dtype: float64

Mayor cantidad de producto en región 1:
53864    137.945408
97083    137.945408
88340    137.945408
64879    137.945408
7288     137.945408
Name: product, dtype: float64

Mayor cantidad de producto en región 1:
79705    190.029838
93444    190.013589
35099    190.011722
21943    190.010982
37870    190.010029
Name: product, dtype: float64



Una posible explicación para que el modelo de la región 1 haya podido alcanzar un RECM de 0 podría ser que los valores dentro de esta región se encuentran dentro de un rango más estrecho en comparación con las otras dos regiones. Tanto el promedio como el producto de los pozos más grandes de esta región son notablemente menores en comparación con las otras dos regiones.

<a id="ganancias"></a>
### Ganancias

Desarrolla una función para calcular las ganancias generadas por un conjunto de pozos de petróleo seleccionados y modela las predicciones:

- 4.1. Selecciona los pozos con los valores más altos de predicciones.
- 4.2. Resume el volumen objetivo de reservas de acuerdo con estas predicciones.
- 4.3. Presenta los hallazgos: sugiere una región para el desarrollo de pozos petroleros y justifica la elección. Calcula el beneficio por el volumen de reservas obtenido.

Ahora que tenemos la cantidad mínima necesaria para que un pozo sea viable, podemos iniciar el cálculo de las ganancias totales basadas en los mejores pozos. Para ello, solo consideraremos los 200 pozos con el mayor producto predicho de cada muestra de 500 pozos.

Por lo tanto, es crucial ordenar estos datos y calcular las posibles ganancias a obtener. Comencemos por desarrollar la función que llevará a cabo este proceso. Posteriormente, obtendremos las predicciones y aplicaremos la función.

In [95]:
def revenue(target, product, count):
    prod_sorted = product.sort_values(ascending=False) 
    selected = target[prod_sorted.index][:count] 
    return 4500 *sum(selected)-100000000

In [96]:
num_bootstrap = 1000
n = 0
for tar, pred in zip(targets, preds):
    profits = []
    for i in range(num_bootstrap):
        #hacer muestro con remplazo por el tamaño de muestra sugerido en el target y con la misma semilla del principio
        target_subsample = pd.Series(tar).sample(n=500, replace=True, random_state=rs)
        #utilizar el índice de este muestreo para las predicciones
        pred_subsample = pred[target_subsample.index]
        #calcular el profit con la función de arriba y agregarlo a la lista vacía
        profits.append(revenue(target_subsample, pred_subsample, 200))
    #transformar la lista de profits en una serie
    profits = pd.Series(profits)
    #calcular la media
    mean = profits.mean()
    #obtener intervalos de confianza
    trust_down = profits.quantile(0.025)
    trust_up = profits.quantile(0.975)
    #calcular la media de los datos negativos de la serie
    loss = (profits < 0).mean()
    
    print('Región', n)
    print('Ganancia promedio:', mean)
    print('Riesgo de perdida:', loss)
    print('Rango de confianza desde', trust_down, 'hasta', trust_up)
    print()
    n += 1

Región 0
Ganancia promedio: 4128884.9328680914
Riesgo de perdida: 0.068
Rango de confianza desde -1031901.464448056 hasta 9768852.938127648

Región 1
Ganancia promedio: 4907373.115252653
Riesgo de perdida: 0.011
Rango de confianza desde 602181.185877391 hasta 9022825.697601425

Región 2
Ganancia promedio: 3379517.6657345025
Riesgo de perdida: 0.123
Rango de confianza desde -2154139.9047276992 hasta 8988732.3884589



<a id="conclusiongeneral"></a>
## Conclusión general

Al concluir este proyecto, hemos recopilado la información necesaria para seleccionar la mejor región donde instalar los extractores de petróleo y así obtener la mayor ganancia con el menor riesgo posible. La región 1 emerge como la opción más adecuada para este propósito. Podemos respaldar esta decisión con dos argumentos sólidos.

En primer lugar, al observar la certeza de las predicciones en la sección 4, notamos que las predicciones para la región 1 fueron casi perfectas según la métrica RECM. Aunque también observamos que el promedio de producto por pozo en la región 1 es el más bajo entre las regiones analizadas, la alta certeza en la cantidad de producto pronosticada nos indica un menor riesgo para futuras operaciones en esta región.

En segundo lugar, en la sección 5, observamos que la región 1 promete generar las mayores ganancias. Las ganancias esperadas en esta región son más del doble de las pronosticadas para la región 0, que ocupa el segundo lugar. Además, vale la pena mencionar que la región 2 anticipa grandes pérdidas si se intenta extraer el producto de sus pozos. Considerando los altos promedios de producto que tienen las regiones 0 y 2, es probable que esto se deba a algunos pocos pozos específicos con una cantidad muy alta de producto. Identificar estos pozos podría ser un objetivo para investigaciones futuras.

Con la información disponible, la instalación de los nuevos extractores de petróleo en la región 1 parece ser la mejor opción. En esta región, podemos maximizar las ganancias mientras minimizamos los riesgos.