# Introduccion.

Este proyecto es para que la compañía minera OilyGiant pueda encontrar el mejor lugar para colocar un nuevo pozo minero. Para esto, contamos con la información de multiples reservas en 3 regiones.

Utilizando el modelo predictivo de tipo regresión lineal, estudiaremos estos datos para poder encontrar el mejor lugar para instalar un nuevo pozo. Esto nos ayudará a calcular las posibles ganancias y los riesgos asociados a cada pozo y región.

Objetivos:
- Encontrar la región que proporcione las mayores ganancias predichas.
- Calcular riesgos y ganancias de pozos y regiones.

Condiciones:

- Solo la regresión lineal es adecuada para el entrenamiento de modelos (el resto no son lo suficientemente predecibles).
- Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.
- El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.
- Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
- Después de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.

## Importamos librerias.

In [17]:
# Cargamos las librerias que vamos a necesitar.
import pandas as pd
from scipy import stats as st

from numpy.random import RandomState
from sklearn.preprocessing import OrdinalEncoder
from sklearn.linear_model import LogisticRegression 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

## Preprocesamiento de datos.

### DataFrame 1

En este proceso verificaremos la informacion general, datos nulos y duplicados de cada DataFrame.

In [18]:
# Cargamos el primer DataFrame y visualizamos.
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_0

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [19]:
# Vemos informacion general y tipos de datos.
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [20]:
# Verificamos datos duplicados.
data_0.duplicated().sum()

0

In [21]:
# Verificamos datos nulos.
data_0.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Este DataFrame estaba listo pra ser utilizado.

### DataFrame 2

In [22]:
# Cargamos el segundo DataFrame y visualizamos.
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_1

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [23]:
# Vemos informacion general y tipos de datos.
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [24]:
# Verificamos datos duplicados.
data_1.duplicated().sum()

0

In [25]:
# Verificamos datos nulos.
data_1.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Este DataFrame estaba listo para ser utilizado.

### DataFrame 3

In [26]:
# Cargamos el segundo DataFrame y visualizamos.
data_2 = pd.read_csv('/datasets/geo_data_2.csv')
data_2

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [27]:
# Vemos informacion general y tipos de datos.
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [28]:
# Verificamos datos duplicados.
data_2.duplicated().sum()

0

In [29]:
# Verificamos datos nulos.
data_2.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Ya tenemos tambien este DataFrame listo para ser utilizado.

A continuacion vamos a decidir que hacer con la columna id, para esto vamos a entrenar el modelo con Regresion Lineal usando ordinal encoder entrenaremos otro modelo de la misma manera pero quitando esa columna, usaremos solamente la metrica de accuracy y recm y decidiremos en base a los resultados, la razon de usar el ordinal encoder es que al usar codificacion one hot el kernel moria supongo por la gran cantidad de columnas que se generarian usando esa codificacion.

### modelo con ordinal encoder.

In [30]:
# Usamos ordinal encoder en columna id y dividimos los datos.
encoder = OrdinalEncoder()
data_0['id'] = encoder.fit_transform(data_0['id'].values.reshape(-1,1))
features_0 = data_0.drop(['product'], axis=1)
target_0 = data_0['product']
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
features_0, target_0, test_size = 0.25, random_state=12345)

In [31]:
features_train_0

Unnamed: 0,id,f0,f1,f2
27212,88373.0,0.022450,0.951034,2.197333
7866,81902.0,1.766731,0.007835,6.436602
62041,36485.0,0.724514,0.666063,1.840177
70185,74130.0,-1.104181,0.255268,2.026156
82230,67786.0,-0.635263,0.747990,6.643327
...,...,...,...,...
4094,81943.0,1.863680,-0.298123,1.621324
85412,55257.0,-1.162682,-0.014822,6.819941
2177,17759.0,0.862688,-0.403776,1.867662
77285,36623.0,0.846235,-0.489533,1.058786


In [32]:
# Entrenamos al modelo.
model_0 = LinearRegression() 
model_0.fit(features_train_0, target_train_0)
score_train = model_0.score(features_train_0, target_train_0)
score_valid = model_0.score(features_valid_0, target_valid_0)

print('Accuracy del modelo de regresion logistica en el conjunto de entrenamiento', score_train)
print('Accuracy del modelo de regresion logistica en el conjunto de validacion', score_valid)

predict_0 = model_0.predict(features_valid_0)
ecm = mean_squared_error(target_valid_0, predict_0) 
recm = ecm**0.5
print(recm)

Accuracy del modelo de regresion logistica en el conjunto de entrenamiento 0.2742398416158951
Accuracy del modelo de regresion logistica en el conjunto de validacion 0.27993870853903435
37.57953931631639


### modelo sin columna id.

In [33]:
# Cremoa nuevo DataFrame quitando columna id.
data_0_clean = data_0.drop(['id'], axis=1)

In [34]:
data_0_clean.head()

Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647
3,-0.032172,0.139033,2.978566,168.620776
4,1.988431,0.155413,4.751769,154.036647


In [35]:
# Dividimos los datos.
features_0 = data_0_clean.drop(['product'], axis=1)
target_0 = data_0_clean['product']
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
features_0, target_0, test_size = 0.25, random_state=12345)

In [36]:
features_train_0.head()

Unnamed: 0,f0,f1,f2
27212,0.02245,0.951034,2.197333
7866,1.766731,0.007835,6.436602
62041,0.724514,0.666063,1.840177
70185,-1.104181,0.255268,2.026156
82230,-0.635263,0.74799,6.643327


In [37]:
# Entrenamos al modelo.
model_0 = LinearRegression() 
model_0.fit(features_train_0, target_train_0)
score_train = model_0.score(features_train_0, target_train_0)
score_valid = model_0.score(features_valid_0, target_valid_0)

print('Accuracy del modelo de regresion logistica en el conjunto de entrenamiento', score_train)
print('Accuracy del modelo de regresion logistica en el conjunto de validacion', score_valid)

predict_0 = model_0.predict(features_valid_0)
ecm = mean_squared_error(target_valid_0, predict_0) 
recm = ecm**0.5
print(recm)

Accuracy del modelo de regresion logistica en el conjunto de entrenamiento 0.27423906493940775
Accuracy del modelo de regresion logistica en el conjunto de validacion 0.27994321524487786
37.5794217150813


Vemos que los resultados de las metricas son practicamente los mismos con ligeras variaciones que no son significativas por lo que para el entrenamiento de los modelos quitaremos la columna id de todos los DataFrame.

In [38]:
dfs = [data_0, data_1, data_2]

In [39]:
for df in range(len(dfs)):
    dfs[df] = dfs[df].drop('id', axis=1)

In [40]:
dfs[0].head()

Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647
3,-0.032172,0.139033,2.978566,168.620776
4,1.988431,0.155413,4.751769,154.036647


### Conclusion.

Ya tenemos todos los DataFrame limpios y listos para comenzar a entrenar el modelo, como se nos pidio sera el modelo de Regression Lineal y usaremos un bucle for para hacer la division y entrenamoento de los tres modelos en un solo bloque de codigo.

## Entrenando al modelo.

Los datos se dividirán en 75% entrenamiento y 25% validación. Este proceso se hará para cada Dataframe con los cuales estamos trabajando, tomando nuestros features de las columnas 'f0', 'f1' y 'f2' y nuestro target sera la columna 'product'.

In [41]:
rs = RandomState(12345) # fijamos una semilla

targets = [] # se almacenan target de validación
preds = [] # se almcenan predicciones 

for i in range(len(dfs)):
    df_train, df_valid = train_test_split(dfs[i], test_size=0.25, random_state=rs) # dividmos los datos, creamos targets y features.
    features_train = df_train.drop(['product'], axis=1) 
    target_train = df_train['product'] 
    features_valid = df_valid.drop(['product'], axis=1) 
    target_valid = df_valid['product'] 
    
    reg = LinearRegression() 
    reg.fit(features_train, target_train) # entrenamos el modelo

    predicted = reg.predict(features_valid) # hacemos predicciones 
    ecm = mean_squared_error(target_valid, predicted) 
    recm = ecm**0.5 # Calculamos el RECM
    mean = dfs[i]['product'].mean() # Calculamos el promedio de produccion
    
    
    targets.append(target_valid.reset_index(drop=True))# Agregamos las informaciones a las listas
    preds.append(pd.Series(predicted))
    
    print('Región', i)
    print('Promedio de las reservas:', mean)
    print('RECM:', recm)
    print()

Región 0
Promedio de las reservas: 92.50000000000001
RECM: 37.5794217150813

Región 1
Promedio de las reservas: 68.82500000000002
RECM: 0.889736773768065

Región 2
Promedio de las reservas: 95.00000000000004
RECM: 39.958042459521614



### Conclusion.

Tenemos el modelo de la region 1 con los mejores resultados con un RECM muy bajo comparado con las regiones 1 y 2 tambien observamos que el promedio de las reservas es mas bajo que el de estas dos regiones, resulta muy extraño tener resultados tan diferentes, por lo pronto seguiremos con el calculo de ganancias.

## Calculo de ganancias.

Vamos a guardar nuestras variables que fueron proporcionadas, calcularemos la produccion minima para no tener pozos con perdidas y calcularemos la media de produccion en cada region.

In [50]:
# Guardamos las variables, Variables 
cost_per_well = 100000000/200 # presupuesto por cada pozo
income_per_well = 4500 # ingreso por unidad de producto
risk = 0.025 # riesgo de perdida de 2.5%

# ordenamos los valores y obtenemos media de produccion de cada region
product_0 = data_0.loc[:,'product'].sort_values(ascending=False)
mean_0 = product_0.mean()


product_1 = data_1.loc[:,'product'].sort_values(ascending=False)
mean_1 = product_1.mean()


product_2 = data_2.loc[:,'product'].sort_values(ascending=False)
mean_2 = product_2.mean()

In [51]:
print('Cantidad de producto para no generar perdidas:', cost_per_well/income_per_well)
print()
print('Producto promedio región 0:', mean_0)
print('Producto promedio región 1:', mean_1)
print('Producto promedio región 2:', mean_2)

Cantidad de producto para no generar perdidas: 111.11111111111111

Producto promedio región 0: 92.50000000000001
Producto promedio región 1: 68.825
Producto promedio región 2: 95.0


Vemos que ninguna region genera en promedio la cantidad necesaria para no generar perdidas necesitamos saber si existen pozos en cada region que cumplan con la produccion necesaria.

In [53]:
# Mostramos los prieros registros ordenados de la produccion.
print('Mejores pozos en región 0:')
print(product_0.head())
print()
print('Mejores pozos en región 1:')
print(product_1.head())
print()
print('Mejores pozos en región 1:')
print(product_2.head())
print()

Mejores pozos en región 0:
8826     185.364347
99818    185.362690
94175    185.355615
1925     185.354980
45291    185.352015
Name: product, dtype: float64

Mejores pozos en región 1:
53864    137.945408
97083    137.945408
88340    137.945408
64879    137.945408
7288     137.945408
Name: product, dtype: float64

Mejores pozos en región 1:
79705    190.029838
93444    190.013589
35099    190.011722
21943    190.010982
37870    190.010029
Name: product, dtype: float64



Si tenemos pozos en las tres regiones que cumplen con la produccion necesaria y vemos que el promedio de la region 1 es el mismo en los cinco pozos que mostramos talvez por eso el modelo funciono tan bien en esta region en particular.

### Funcion para calculo de ganancias.

Vamos a seleccionar los mejores 200 pozos en cada region calcularemos sus ganancias, el porcentaje de perdida y el intervalo de confianza, para eso usaremos los parametros que se nos solicitan usando 1000 muestras de bootstrapping.

In [54]:
# Definimos la funcion para el calculo de ganancias.
def revenue(target, product, count):
    product_sorted = product.sort_values(ascending=False) 
    selected = target[product_sorted.index][:count] 
    return 4500 *sum(selected)-100000000

In [61]:
# Aplicamos la funcion en bucle a los 200 pozos con mejor produccion en cada region.
num_bootstrap = 1000
n = 0
for tar, pred in zip(targets, preds):
    profits = []
    for i in range(num_bootstrap):
        target_subsample = pd.Series(tar).sample(n=500, replace=True, random_state=rs) # usamos la misma semilla que determinamos antes.
        pred_subsample = pred[target_subsample.index]
        profits.append(revenue(target_subsample, pred_subsample, 200))
   
    # calculamos la media de las ganancias
    profits = pd.Series(profits)
    mean = profits.mean()
    # calculaos intervalos de confianza
    trust_down = profits.quantile(0.025)
    trust_up = profits.quantile(0.975)
    #calcular la media de los datos negativos de la serie
    loss = (profits < 0).mean()
    
    print('Región', n)
    print('Promedio de ganancias:', mean)
    print('Riesgo de perdida:', (loss * 100).astype(str) + '%')
    print('Rango de confianza desde', trust_down, 'hasta', trust_up)
    print()
    n += 1

Región 0
Promedio de ganancias: 4162890.9229957634
Riesgo de perdida: 7.3%
Rango de confianza desde -1655595.9635828945 hasta 9774004.936984124

Región 1
Promedio de ganancias: 5010298.289157128
Riesgo de perdida: 1.2%
Rango de confianza desde 623344.679106499 hasta 9357600.749571417

Región 2
Promedio de ganancias: 3912838.7342902496
Riesgo de perdida: 8.5%
Rango de confianza desde -1557765.9248545754 hasta 9202251.445885437



## Conclusion general.

Despues de realizar las pruebas con los datos que se nos solicitan sabemos que el mejor lugar para realizar una inversion en excavacion de pozos petroleros es la region 1, comenzando con los resultados de RECM al momento de la prediccion de los modelos la cual fue muy baja y nos daba buenos primeros indicios y con los ultimos calculos se expresa de manera clara ya que es el que genera la mayor cantidad de ganancias promedio y el menor porcentaje de perdida, agregando que la region que da las menores ganancias y mayores perdidas es la region 3 y dicha region tambien obtuvo el resultado RECM mas alto.