# Proyecto: La mejor zona para extracción de petróleo.
---
En este proyecto tenemos la meta de asesorar a la empresa OilyGiant para encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo. 

El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares por lo cual tenemos que brindar una respuesta que ayude a la empresa a obtener la mayor cantidad de ganancias. 

## Descarga y preparacion de datos.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats as st

from numpy.random import RandomState

In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [6]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [8]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


### Filtracion de columnas.
---
A continuacion voy a filtrar la columna "id" de todos las datasets por 2 grandes razones:
1.- Si los datos son codificados con One-Hot, obtendriamos aproximadamente un poco menos de 10,000 columnas que alentaran bastante nuestro modelo.
2.- Yo considero que no aportan informacion importante para el modelo a la hora de predecir cual pozo es mejor que otro. 

In [9]:
data_0 = data_0.drop('id', axis=1)
data_1 = data_1.drop('id', axis=1)
data_2 = data_2.drop('id', axis=1)

In [10]:
data_0.head()

Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647
3,-0.032172,0.139033,2.978566,168.620776
4,1.988431,0.155413,4.751769,154.036647


## Entrenamiento y prueba de modelo.
---
Vamos a construir un modelo usando funciones que tengan todos los procesos necesarios. Para lograr esto usaremos los datos de la region Geo 0.

In [11]:
def split_the_data(data):
    
    target = data['product']
    features = data.drop('product', axis=1)
    
    features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
    
    return features_train, features_valid, target_train, target_valid

features_train_0, features_valid_0, target_train_0, target_valid_0 = split_the_data(data_0)

print(features_train_0.shape)
print(features_valid_0.shape)

(75000, 3)
(25000, 3)


In [12]:
def train_the_model_and_predict(features_train, target_train, features_valid, target_valid):
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    
    volumen_medio_predicho = predicted_valid.mean()
    
    MSE = mean_squared_error(target_valid, predicted_valid)
    RMSE = MSE ** 0.5
    
    return RMSE, volumen_medio_predicho, predicted_valid

rmse, volumen_medio_predicho, predicted_valid_0 = train_the_model_and_predict(features_train_0, target_train_0, features_valid_0, target_valid_0)

print(rmse)
print(volumen_medio_predicho)

37.5794217150813
92.59256778438035


La RECM nos indica que, en promedio, nuestras predicciones erraron por aproximadamente 37,579 barriles de petróleo. Me parece bastante ya que el volumen medio predicho es de 92,592 barriles de petróleo.

### Region Geo 1.
---
Crearemos un nuevo modelo usando las funciones desarrolladas anteriormente, pero ahora usaremos los datos de la region Geo 1.

In [13]:
features_train_1, features_valid_1, target_train_1, target_valid_1 = split_the_data(data_1)

print(features_train_1.shape)
print(features_valid_1.shape)

(75000, 3)
(25000, 3)


In [14]:
rmse, volumen_medio_predicho, predicted_valid_1 = train_the_model_and_predict(features_train_1, target_train_1, features_valid_1, target_valid_1)

print(rmse)
print(volumen_medio_predicho)

0.893099286775617
68.728546895446


La RECM nos indica que, en promedio, nuestras predicciones erraron por aproximadamente 893 barriles de petróleo. Me parece perfecto ya que el volumen medio predicho es de 68,728 barriles de petróleo. Podemos ver que este modelo predijo mucho mejor que el anterior, supongo que los datos proporcionados son de mayor calidad.

### Region Geo 2.
---
Crearemos un nuevo modelo usando las funciones desarrolladas anteriormente, pero ahora usaremos los datos de la region Geo 2.

In [15]:
features_train_2, features_valid_2, target_train_2, target_valid_2 = split_the_data(data_2)

print(features_train_2.shape)
print(features_valid_2.shape)

(75000, 3)
(25000, 3)


In [16]:
rmse, volumen_medio_predicho, predicted_valid_2 = train_the_model_and_predict(features_train_2, target_train_2, features_valid_2, target_valid_2)

print(rmse)
print(volumen_medio_predicho)

40.02970873393434
94.96504596800489


La RECM nos indica que, en promedio, nuestras predicciones erraron por aproximadamente 40,029 barriles de petróleo. Me parece una exageracion ya que el volumen medio predicho es de 94,965 barriles de petróleo.

## Preparacion para el cálculo de ganancias.
---
Para que un pozo pozo petrolífero sea rentable, este debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). Podemos ver que ningun volumen medio se acerca a esta cantidad asi que tenemos que escoger los 200 pozos con los valores de predicción más altos de cada una de las 3 regiones.

In [17]:
data_0 = pd.DataFrame({'Target': target_valid_0.tolist(), 'Predicted': predicted_valid_0})
data_1 = pd.DataFrame({'Target': target_valid_1.tolist(), 'Predicted': predicted_valid_1})
data_2 = pd.DataFrame({'Target': target_valid_2.tolist(), 'Predicted': predicted_valid_2})

In [18]:
data_0.head(20)

Unnamed: 0,Target,Predicted
0,10.038645,95.894952
1,114.551489,77.572583
2,132.603635,77.89264
3,169.072125,90.175134
4,122.32518,70.510088
5,37.735331,69.127076
6,139.227191,125.106759
7,72.491987,87.643849
8,11.465993,86.035871
9,110.562031,98.655311


In [19]:
def best_200(values):
    
    best_200 = values.sort_values(by='Predicted',ascending=False).head(200)
        
    return best_200

In [20]:
best_200_data_0 = best_200(data_0)

best_200_data_0

Unnamed: 0,Target,Predicted
9317,162.810993,180.180713
219,153.639837,176.252213
10015,162.153488,175.850623
11584,96.893581,175.658429
23388,178.879516,173.299686
...,...,...
7888,179.683422,148.507064
7890,95.396917,148.481767
24051,160.361464,148.476498
24160,102.186603,148.436761


In [21]:
best_200_data_1 = best_200(data_1)

best_200_data_1

Unnamed: 0,Target,Predicted
20430,137.945408,139.818970
7777,137.945408,139.773423
8755,137.945408,139.703330
1178,137.945408,139.560938
4285,137.945408,139.516754
...,...,...
12774,137.945408,138.421423
8040,137.945408,138.416960
2257,137.945408,138.413881
17108,137.945408,138.412834


In [22]:
best_200_data_2 = best_200(data_2)

best_200_data_2

Unnamed: 0,Target,Predicted
22636,175.103291,165.856833
24690,131.627481,165.679685
7811,141.160070,163.439962
1581,159.676082,162.062589
6751,142.135203,161.797476
...,...,...
5541,104.949568,142.490763
18126,89.492500,142.485922
11122,184.895101,142.465777
22669,137.480469,142.454763


## Cálculo de ganancias.
---
Vamos a calcular la ganancia potencial de los 200 pozos principales por región para despues proponer la mejor región para el desarrollo de pozos petrolíferos.

In [23]:
def ganancia_potencial(region):  
    
    inversion = 100000000
    total = region['Target'].sum()*4500
    
    ganancia = total-inversion
    
    return total, ganancia

In [24]:
total_data_0, ganancia_data_0 = ganancia_potencial(best_200_data_0)

print(f'Total generado: ${total_data_0} millones de dolares')
print(f'Ganancia libre: ${ganancia_data_0} millones de dolares')

Total generado: $133208260.43139851 millones de dolares
Ganancia libre: $33208260.43139851 millones de dolares


In [25]:
total_data_1, ganancia_data_1 = ganancia_potencial(best_200_data_1)

print(f'Total generado: ${total_data_1} millones de dolares')
print(f'Ganancia libre: ${ganancia_data_1} millones de dolares')

Total generado: $124150866.96681511 millones de dolares
Ganancia libre: $24150866.966815114 millones de dolares


In [26]:
total_data_2, ganancia_data_2 = ganancia_potencial(best_200_data_2)

print(f'Total generado: ${total_data_2} millones de dolares')
print(f'Ganancia libre: ${ganancia_data_2} millones de dolares')

Total generado: $127103499.63599832 millones de dolares
Ganancia libre: $27103499.635998324 millones de dolares


Yo considero que la mejor zona a explotar es la region 0, ya que podriamos obtener una ganancia libre de poco mas de 30 millones de dolares. Si en un futuro se busca realizar otra inversion, la region 2 parece ser la indicada. 

## Cálculo de riesgos y ganancias para cada región.

### Utilizando las predicciones, vamos a emplear la técnica del bootstrapping con 1000 muestras de 500 datos para hallar la distribución de los beneficios completamente al azar.

In [27]:
def bootstrapping(data):
    state = np.random.RandomState(12345)
    ganancia_for_mil_subsamples = []

    for _ in range(1000):
        subsample = data.sample(n=500, replace=True, random_state=state)
        best_200_data = best_200(subsample)
        total_data, ganancia_data = ganancia_potencial(best_200_data)
        ganancia_for_mil_subsamples.append(ganancia_data)


    return ganancia_for_mil_subsamples

### Beneficio promedio.

In [28]:
ganancia_for_mil_subsamples_data_0 = bootstrapping(data_0)

print(f'Ganancia libre en promedio para zona 0: ${int(sum(ganancia_for_mil_subsamples_data_0)/1000)} millones de dolares')

Ganancia libre en promedio para zona 0: $3961649 millones de dolares


In [29]:
ganancia_for_mil_subsamples_data_1 = bootstrapping(data_1)

print(f'Ganancia libre en promedio para zona 1: ${int(sum(ganancia_for_mil_subsamples_data_1)/1000)} millones de dolares')

Ganancia libre en promedio para zona 1: $4560451 millones de dolares


In [30]:
ganancia_for_mil_subsamples_data_2 = bootstrapping(data_2)

print(f'Ganancia libre en promedio para zona 2: ${int(sum(ganancia_for_mil_subsamples_data_2)/1000)} millones de dolares')

Ganancia libre en promedio para zona 2: $4044038 millones de dolares


Podemos ver que despues de usar el bootstrapping y seleccionar los valores completamente al azar, el beneficio promedio de cada region cambia significativamente. Esto se debe a que estamos mezclando pozos rentables con aquellos que no cumplen el minimo de produccion esperada de manera completamente aleatoria. 

Ahora la region que mas beneficio promedio genera es la zona 1, con poco mas de 45 millones de dolares. Como cambiaron las posiciones despues de usar los valores que nuestro modelo predijo.

#### Intervalo de confianza del 95% para el volumen promedio de unidades por region.

##### Intervalo de confianza. Zona 0.

In [31]:
ganancia_for_mil_subsamples_data_0 = pd.Series(ganancia_for_mil_subsamples_data_0)

lower = ganancia_for_mil_subsamples_data_0.quantile(0.025)
upper = ganancia_for_mil_subsamples_data_0.quantile(0.975)

print(f"Intervalo de confianza para zona 0: ({int(lower)} , {int(upper)})")

Intervalo de confianza para zona 0: (-1112155 , 9097669)


##### Intervalo de confianza. Zona 1.

In [32]:
ganancia_for_mil_subsamples_data_1 = pd.Series(ganancia_for_mil_subsamples_data_1)

lower = ganancia_for_mil_subsamples_data_1.quantile(0.025)
upper = ganancia_for_mil_subsamples_data_1.quantile(0.975)

print(f"Intervalo de confianza para zona 1: ({int(lower)} , {int(upper)})")

Intervalo de confianza para zona 1: (338205 , 8522894)


##### Intervalo de confianza. Zona 2.

In [33]:
ganancia_for_mil_subsamples_data_2 = pd.Series(ganancia_for_mil_subsamples_data_2)

lower = ganancia_for_mil_subsamples_data_2.quantile(0.025)
upper = ganancia_for_mil_subsamples_data_2.quantile(0.975)

print(f"Intervalo de confianza para zona 2: ({int(lower)} , {int(upper)})")

Intervalo de confianza para zona 2: (-1633504 , 9503595)


#### Calculo de riesgo de pérdidas.

In [34]:
def calculo_de_riesgo_v2(ganancias):
    
    return ((ganancias<0).mean())*100

In [36]:
porcentaje_riesgo_perdida_0_v2 = calculo_de_riesgo_v2(ganancia_for_mil_subsamples_data_0)

print(f"Porcentaje de riesgo de perdida para zona 0: {porcentaje_riesgo_perdida_0_v2} %")

Porcentaje de riesgo de perdida para zona 0: 6.9 %


In [37]:
porcentaje_riesgo_perdida_1_v2 = calculo_de_riesgo_v2(ganancia_for_mil_subsamples_data_1)

print(f"Porcentaje de riesgo de perdida para zona 1: {porcentaje_riesgo_perdida_1_v2} %")

Porcentaje de riesgo de perdida para zona 1: 1.5 %


In [38]:
porcentaje_riesgo_perdida_2_v2 = calculo_de_riesgo_v2(ganancia_for_mil_subsamples_data_2)

print(f"Porcentaje de riesgo de perdida para zona 2: {porcentaje_riesgo_perdida_2_v2} %")

Porcentaje de riesgo de perdida para zona 2: 7.6 %


### Conclusiones.
---
Una de las condiciones que la empresa puso fue que después de la evaluación de riesgo, podiamos mantener solo las regiones con riesgo de pérdidas inferior al 2.5%. Podemos ver que la unica region que cumple esta regla es la zona 1, asi que lo indicado seria explotar esta misma. 

Nuestra conclusion difiere totalmente de la realizada en el punto 4, pero se entiende que la zona 2 pudiera ser un poco mas estable y segura para invertir. 