# Introducción

<font color=green>
Este proyecto consiste en encontrar la mejor región para un nuevo pozo. Para completar este proyecto, contamos con la información de 3 regiones con múltiples reservas.
    
    
Utilizaremos el modelo predictivo del tipo regresión lineal, estudiando los datos, nos ayudará encontrar el mejor lugar para instalar un nuevo pozo, calculando las posibles ganancias y riesgos asociados a cada pozo y región.   
    
</font>

# Objetivo

<font color=green>
Pasos para elegir la ubicación:

- Recolecta los parámetros del pozo de petróleo en la región seleccionada: calidad del petróleo y volumen de reservas;
- Construye un modelo para predecir el volumen de reservas en los nuevos pozos;
- Selecciona los pozos de petróleo con los valores estimados más altos;
- Elige la región con el mayor beneficio total para los pozos de petróleo seleccionados.
</font>

# Librerías y Datos

## Librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from numpy.random import RandomState

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Datos

In [2]:
try:
    data0 = pd.read_csv('geo_data_0.csv')
except:
    data0 = pd.read_csv('/datasets/geo_data_0.csv')
try:
    data1 = pd.read_csv('geo_data_1.csv')
except:
    data1 = pd.read_csv('/datasets/geo_data_1.csv')
try:
    data2 = pd.read_csv('geo_data_2.csv')
except:
    data2 = pd.read_csv('/datasets/geo_data_2.csv')

### Exploración de Datos

<font color=green>
Empezamos con el primer set de datos
</font>

In [3]:
data0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.4+ MB


<font color=green>
    Observamos 100.000 filas y 5 columnas, sin datos faltantes para el primer set de datos.
</font>

In [4]:
data0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [5]:
data0.tail()

Unnamed: 0,id,f0,f1,f2,product
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764
99999,1CWhH,1.764754,-0.266417,5.722849,149.633246


<font color=green>
Seguimos con el segundo set de datos
</font>

In [6]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.4+ MB


<font color=green>
    Observamos 100.000 filas y 5 columnas, sin datos faltantes para el segundo set de datos.
</font>

In [7]:
data1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [8]:
data1.tail()

Unnamed: 0,id,f0,f1,f2,product
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364
99999,relB0,-3.426139,-7.794274,-0.003299,3.179103


<font color=green>
Tercer set de datos
</font>

In [9]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.4+ MB


<font color=green>
    Observamos 100.000 filas y 5 columnas, sin datos faltantes para el tercer set de datos.
</font>

In [10]:
data2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [11]:
data2.tail()

Unnamed: 0,id,f0,f1,f2,product
99995,4GxBu,-1.777037,1.12522,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.08008
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253
99999,V9kWn,-2.551421,-2.025625,6.090891,102.775767


<font color=green>
Para los tres set de datos, tenemos la misma observación final. Tienen la misma cantidad de filas y columnas y no tienen datos faltantes ni formato mal asignado. Teniendo la siguiente descripción de las columnas:

- id: identificador único de pozo de petróleo

- f0, f1, f2: tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)

- product: volumen de reservas en el pozo de petróleo (miles de barriles)
</font>

### Limpieza de datos

In [12]:
datas = [data0, data1, data2]

In [13]:
#como tenemos una columna de formato objeto, la eliminaremos para poder correr nuestro modelo:
for df in range(len(datas)):
    datas[df] = datas[df].drop('id', axis=1)

In [14]:
#Revisemos 1 de los DataFrames y si se hizo el cambio:
datas[1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4)
memory usage: 3.1 MB


In [15]:
rs = RandomState(54321) # Fijemos una semilla

In [16]:
targets = [] # Donde juntaremos los target de validación
preds = [] # Donde juntaremos las predicciones de validación

for i in range(len(datas)):
    df_train, df_valid = train_test_split(datas[i], test_size=0.25, random_state=rs) # Dividmos los datos
    features_train = df_train.drop(['product'], axis=1) # Creamos features de entrenamiento
    target_train = df_train['product'] # Creamos targets de entrenamiento
    features_valid = df_valid.drop(['product'], axis=1) # Creamos features de validación
    target_valid = df_valid['product'] # Creamos target de validación
    
    model = LinearRegression() # Creamos la regresión
    model.fit(features_train, target_train) # Entrenamos a la regresión

    pred = model.predict(features_valid) # Hacemos predicciones con el modelo
    ecm = mean_squared_error(target_valid, pred) # Calculamos el ECM
    recm = ecm**0.5 # Calculamos el RECM
    mean = datas[i]['product'].mean() # Calculamos el promedio
    
    # Agregamos las informaciones a las listas externas
    targets.append(target_valid.reset_index(drop=True))
    preds.append(pd.Series(pred))
    
    # Imprimimos los resultados
    print('Región', i)
    print('Promedio de las reservas:', mean)
    print('RECM:', recm)
    print('-'*45)

Región 0
Promedio de las reservas: 92.49999999999976
RECM: 37.68341093860808
---------------------------------------------
Región 1
Promedio de las reservas: 68.82500000002561
RECM: 0.8885222400411965
---------------------------------------------
Región 2
Promedio de las reservas: 95.00000000000041
RECM: 40.136726733973994
---------------------------------------------


<font color=green>
Según los resultados de la comparación, podemos observar lo siguiente:

- La Región 1 obtuvo el mejor valor RECM, menor a 1. Indicando que todas sus predicciones fueron correctas. Siendo las otras dos regiones con un valor RECM muy superior, significando que sus predicciones no son tan confiables.

- La Región 2 y Región 0 son las con un promedio de las reservas mucho mayores que la Región 1.
</font>

### Cálculo de ganancias
<font color=green>
Para calcular las posibles ganancias que la compañía podría llegar a obtener, tenemos las suguientes condiciones:
    
- Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.

- El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.
- Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
- espués de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.
</font>


In [17]:
#Variables generales
costo_pozo = 100000000 / 200 #Costo del pozo dividido por cantidad de pozos
ingreso = 4500 # ingreso por unidad de producto
riesgo = 0.025 #2.5% riesgo de pérdidas

#Región 0
product_0 = data0.loc[:,'product'].sort_values(ascending=False)
mean_0 = product_0.mean()

#Región 1
product_1 = data1.loc[:,'product'].sort_values(ascending=False)
mean_1 = product_1.mean()

#Región 2
product_2 = data2.loc[:,'product'].sort_values(ascending=False)
mean_2 = product_2.mean()

<font color=green>
Creadas las variables necesarias, podremos calcular la cantidad de producto que necesitamos para instalar un pozo sin pérdidas.    
</font>

In [18]:
print('Cantidad de producto necesario para cada pozo:', costo_pozo/ingreso)
print()
print('Producto promedio en la Región 0', mean_0)
print('Producto promedio en la Región 1', mean_1)
print('Producto promedio en la Región 2', mean_2)

Cantidad de producto necesario para cada pozo: 111.11111111111111

Producto promedio en la Región 0 92.49999999999864
Producto promedio en la Región 1 68.82500000003763
Producto promedio en la Región 2 94.99999999999906


<font color=green>
Como podemos observar, el pozo necesita más producto que el encontrado en los promedios de las regiones.
Esto nos podría indicar que solamente podremos utilizar los pozos con mayor cantidad de producto. 
</font>

In [19]:
#Veamos los pozos más grande según la zona
print('Mayor cantidad de producto en Región 0:')
print(product_0.head())
print()
print('Mayor cantidad de producto en Región 1:')
print(product_1.head())
print()
print('Mayor cantidad de producto en Región 2:')
print(product_2.head())
print()

Mayor cantidad de producto en Región 0:
8826     185.364347
99818    185.362690
94175    185.355615
1925     185.354980
45291    185.352015
Name: product, dtype: float64

Mayor cantidad de producto en Región 1:
27985    137.945408
19395    137.945408
45694    137.945408
45706    137.945408
83396    137.945408
Name: product, dtype: float64

Mayor cantidad de producto en Región 2:
79705    190.029838
93444    190.013589
35099    190.011722
21943    190.010982
37870    190.010029
Name: product, dtype: float64



<font color=green>
Observamos que los pozos de la Región 1 son notoriamente inferiores a los de las otras dos regiones. 
</font>

### Ganancias

<font color=green>
Conociendo la cantidad mínima que ddebe tener un pozo para ser opción viable, podemos empezar a calcular las ganancias totales según los mejores pozos. Para esto consideraremos solamente los 200 pozos con mayor producto predecido de cada muestra de 500 pozos. Necesitamos ordenar estos datos y calcular las posibles ganancias por obtener. La siguiente función hará esto. Después obtendremos las predicciones y aplicaremos la función.
</font>

In [20]:
def revenue(target, product, count):
    product_sorted = product.sort_values(ascending = False)
    selected = target[product_sorted.index][:count]
    return 4500 * sum(selected)-100000000

In [27]:
numero_bootstrap = 1000
n = 0
for tar, pred in zip(targets, preds):
    profits = []
    for i in range(numero_bootstrap):
        target_subsample = pd.Series(tar).sample(n=500, replace=True, random_state=rs) #hace el muestreo con reemplazo por el tamaño de muestra sugerida en el target y con la misma semilla del principio
        
        pred_subsample = pred[target_subsample.index] #utiliza el índice de este muestreo para las predicciones
        
        profits.append(revenue(target_subsample, pred_subsample, 200)) #calcula el profit con la función de arriba y lo agrega a la lista vacía
    
    profits = pd.Series(profits) #transforma la lista de profits en una serie
    
    mean = profits.mean() #calcula la media de profits
    
    trust_down = profits.quantile(0.025) #obtiene los intervalos de confianza
    trust_up = profits.quantile(0.975)
    
    loss = (profits < 0).mean() #calcula la media de datos negativos de la serie
    
    
    
    print('Región', n)
    print('Ganancia promedio', mean)
    print('Riesgo de pérdido', loss)
    print('Rango de confianza desde', trust_down, 'hasta', trust_up)
    print()
    n +=1
    

Región 0
Ganancia promedio 4091964.161025635
Riesgo de pérdido 0.069
Rango de confianza desde -1378000.7900885504 hasta 9782589.38193375

Región 1
Ganancia promedio 4838918.466881409
Riesgo de pérdido 0.013
Rango de confianza desde 684440.4652178127 hasta 8694301.728862958

Región 2
Ganancia promedio 3372541.4912180565
Riesgo de pérdido 0.119
Rango de confianza desde -2493034.058101564 hasta 9042710.898389574



# Conclusión
<font color=green>
Según el último análisis efectuado, podremos concluir lo siguiente:
</font>

<font color=green>
La región 1 resultó ser la región más indicada para la extracción del producto de los pozos. Por qué? Por que la ver la predicción, la métrica RECM obtuvo un resultado casi perfecto. Si bien, el resultado que vimos en el promedio, la región 1 fue la más baja comparado con las otras dos regiones, podemos asegurar una mejor extracción según el rango de confianza y el riesto de pérdida es menor también. Pero a su vez, la ganancia promedio es la más alta.
    
Si bien, en un principio las regiones 0 y 2, indicaban ser más indicadas que la región 1, por sus altos promedios de productos y altas cantidades de productos, estos tienen mayor riesto de pérdida. Sobretodo la región 2.
</font>