# <center>**PROYECTO 10**</center> 

### **Descripción del proyecto**

Trabajas en la compañía de extracción de petróleo OilyGiant. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.


**Las instrucciones son las siguiente:**
1. Descarga y prepara los datos. Explica el procedimiento.

2. Entrena y prueba el modelo para cada región en geo_data_0.csv:
    - Divide los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25
    - Entrena el modelo y haz predicciones para el conjunto de validación.
    - Guarda las predicciones y las respuestas correctas para el conjunto de validación.
    - Muestra el volumen medio de reservas predicho y RMSE del modelo.
    - Analiza los resultados.
    - Coloca todos los pasos previos en funciones, realiza y ejecuta los pasos 2.1-2.5 para los archivos 'geo_data_1.csv' y 'geo_data_2.csv'.

3. Prepárate para el cálculo de ganancias:
    - Almacena todos los valores necesarios para los cálculos en variables separadas.
    - Dada la inversión de 100 millones por 200 pozos petrolíferos, de media un pozo petrolífero debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). Compara esta cantidad con la cantidad media de reservas en cada región.
    - Presenta conclusiones sobre cómo preparar el paso para calcular el beneficio.

4. Escribe una función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modela las predicciones:
    - Elige los 200 pozos con los valores de predicción más altos de cada una de las 3 regiones (es decir, archivos 'csv').
    - Resume el volumen objetivo de reservas según dichas predicciones. Almacena las predicciones para los 200 pozos para cada una de las 3 regiones.
    - Calcula la ganancia potencial de los 200 pozos principales por región. Presenta tus conclusiones: propón una región para el desarrollo de pozos petrolíferos y justifica tu elección.

5. Calcula riesgos y ganancias para cada región:
    - Utilizando las predicciones que almacenaste en el paso 4.2, emplea la técnica del bootstrapping con 1000 muestras para hallar la distribución de los beneficios.
    - Encuentra el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas. La pérdida es una ganancia negativa, calcúlala como una probabilidad y luego exprésala como un porcentaje.
    - Presenta tus conclusiones: propón una región para el desarrollo de pozos petrolíferos y justifica tu elección. ¿Coincide tu elección con la elección anterior en el punto 4.3?

## <center>PASO 1</center>

In [1]:

# Importación de librerías


import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
# Asignación de data frames a sus respectivas variables

geo_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_2 = pd.read_csv('/datasets/geo_data_2.csv')

## <center>PASO 2</center>

### Análisis de datos para GEO_0

In [3]:
geo_0.info()
display(geo_0.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
# Función que realiza la divición del dataframe en conjunto de validación, entrenamiento. Entrena el modelo de regreción linear y regresa las variables para obtener media, MSE, y predicciones.
def geotest(data, size, randost):
    target = data['product']
    features = data.drop(['product', 'id'], axis=1)
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=size, random_state=randost)

    model = LinearRegression()
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    mse = mean_squared_error(target_valid, predicted_valid)
    predicted_mean = predicted_valid.mean()

    return predicted_mean, mse, predicted_valid

In [5]:
# Asignación de variables para el modelo geo_0
mean_geo_0, mse_geo_0, predicted_geo_0 = geotest(geo_0, 0.25, 12345)
rmse_geo_0 = mse_geo_0 ** 0.5

print('La raiz cuadrada del error cuadratico medio para el modelo de geo_0 es:', rmse_geo_0)
print('La media de los volumenes predichos por el modelo es de:', mean_geo_0)

La raiz cuadrada del error cuadratico medio para el modelo de geo_0 es: 37.5794217150813
La media de los volumenes predichos por el modelo es de: 92.59256778438035


**Conclusión para la región GEO_0**

Al analizar los resultados para la región geo_0, observamos que el error cuadrático medio (MSE) es de 37.5. Este valor indica la magnitud de la variación en los volúmenes de petróleo producidos por pozo petrolero en relación con las predicciones del modelo. Por otro lado, la media de los volúmenes de petróleo predicha por el modelo es de 92.5 barriles. Esto sugiere que, en promedio, el modelo predice que cada pozo en esta región producirá alrededor de 92.5 barriles de petróleo

### Análisis de datos para GEO_1

In [6]:
geo_1.info()
display(geo_1.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [7]:
# Llamada de función y asignación de variables para el modelo geo_1
mean_geo_1, mse_geo_1, predicted_geo_1 = geotest(geo_1, 0.25, 12345)
rmse_geo_1 = mse_geo_1 ** 0.5

print('La raiz cuadrada del error cuadratico medio para el modelo de geo_1 es:', rmse_geo_1)
print('La media de los volumenes predichos por el modelo es de:', mean_geo_1)

La raiz cuadrada del error cuadratico medio para el modelo de geo_1 es: 0.8930992867756165
La media de los volumenes predichos por el modelo es de: 68.728546895446


**Conclusión para la región GEO_1**

Al analizar los resultados para la región geo_1, observamos que el error cuadrático medio (MSE) es de 0.89. Este valor indica la magnitud de la variación en los volúmenes de petróleo producidos por pozo petrolero en relación con las predicciones del modelo. Por otro lado, la media de los volúmenes de petróleo predicha por el modelo es de 68.7 barriles. Esto sugiere que, en promedio, el modelo predice que cada pozo en esta región producirá alrededor de 68.7 barriles de petróleo.

En comparación con la región anterior, su media es menor por poco mas de 20 barriles pero su MSE es de 0.89, una cifra muy pequeña, indicando que el modelo entrenado es mas exacto en su predicción. 

### Análisis de datos para GEO_2

In [8]:
geo_2.info()
display(geo_2.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [9]:
# Llamada de función y asignación de variables para el modelo geo_1
mean_geo_2, mse_geo_2, predicted_geo_2 = geotest(geo_2, 0.25, 12345)
rmse_geo_2 = mse_geo_2 ** 0.5

print('La raiz cuadrada del error cuadratico medio para el modelo de geo_1 es:', rmse_geo_2)
print('La media de los volumenes predichos por el modelo es de:', mean_geo_2)

La raiz cuadrada del error cuadratico medio para el modelo de geo_1 es: 40.02970873393434
La media de los volumenes predichos por el modelo es de: 94.96504596800489


**Conclusión para la región GEO_2**

Al analizar los resultados para la región geo_2, observamos que el error cuadrático medio (MSE) es de 40. Este valor indica la magnitud de la variación en los volúmenes de petróleo producidos por pozo petrolero en relación con las predicciones del modelo. Por otro lado, la media de los volúmenes de petróleo predicha por el modelo es de 94.96 barriles. Esto sugiere que, en promedio, el modelo predice que cada pozo en esta región producirá alrededor de 94.96 barriles de petróleo.

En comparación con las regiones anteriores, éste modelo es muy parecido al primero de la region 'geo_0' por lo que necesitaremos un análisis mas profundo para sacar conclusiones acerca de rentabilidad. 

## <center>PASO 3</center>

### Preparación para el cálculo de ganancias

1. Los valores necesarios para los cálculos ya se encuentran en variables separadas, estos son los valores predecidos por el modelo para cada zona:
    * Zona 0: predicted_geo_0
    * Zona 1: predicted_geo_1
    * Zona 2: predicted_geo_2

2. Dada la inversión de 100 millones por 200 pozos petrolíferos, de media un pozo petrolífero debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). La comparación con la cantidad media de reservas en cada región es la siguiente:
    * para la zona 0, su media fue de: 92.6
    * para la zona 0, su media fue de: 68.7
    * para la zona 0, su media fue de: 94.96

3. Las conclusiones sobre cómo preparar el paso para calcular el beneficio:
    * Crear una función para ordenar los volúmenes por zonas de mayor a menor.
    * Filtrar solo aquellos cuyo rendimiento sea de mas de 111.1 unidades para obtener ganancias.
    * A las ganancias totales restar los gastos de inversión para comparar que zonas son las que dan mas rendimientos. 


## <center>PASO 4</center>

### Cálculo de ganancias y modelo de predicciones

In [10]:
# creación de función para filtrar los 200 pozos mas rentables y resumir sus volumenes totales.
def geosorted(data, count):
    psorted = np.sort(data)[::-1][:count]
    total_vol = np.sum(psorted)
    return psorted, total_vol

In [11]:
# Asignación de valores:

geo0_sorted, geo0_total = geosorted(predicted_geo_0, 200)
geo1_sorted, geo1_total = geosorted(predicted_geo_1, 200)
geo2_sorted, geo2_total = geosorted(predicted_geo_2, 200)

In [12]:
# Visualización de datos de mayor a menor
print(geo0_sorted[:5])
print(geo1_sorted[:5])
print(geo2_sorted[:5])
print()

# De acuerdo al punto anterior 111.1 barriles nos dan un total de 500,000 de ganancia. Entonces para poder recuperar la inversión de 100 MD.
# necesitaremos un total de  22,220 barriles que es el resultado de multiplicar 111.1 x 200. Entonces a continuación presentaremos el total de barriles por zona

print('El volumen total de los 200 pozos mas redituables de la zona 0 es de:', geo0_total)
print('El volumen total de los 200 pozos mas redituables de la zona 1 es de:', geo1_total)
print('El volumen total de los 200 pozos mas redituables de la zona 2 es de:', geo2_total)
print()

# La siguiente función calcula la ganancia obtenida por zona.


def profit(total):
    geo_profit = total * (500000/111.1) - 100000000
    return geo_profit

# Ahora que ya tenemos la función para obtener las ganancias totales, la aplicamos por zona:


print('La ganancia obtenida en la zona 0 es de:', profit(geo0_total))
print('La ganancia obtenida en la zona 1 es de:', profit(geo1_total))
print('La ganancia obtenida en la zona 2 es de:', profit(geo2_total))

[180.18071306 176.25221317 175.85062328 175.65842896 173.29968618]
[139.81896981 139.77342296 139.70333031 139.56093759 139.51675429]
[165.85683317 165.67968527 163.43996233 162.0625895  161.79747628]

El volumen total de los 200 pozos mas redituables de la zona 0 es de: 31102.330838811387
El volumen total de los 200 pozos mas redituables de la zona 1 es de: 27746.02678216347
El volumen total de los 200 pozos mas redituables de la zona 2 es de: 29603.898658318358

La ganancia obtenida en la zona 0 es de: 39974486.223273575
La ganancia obtenida en la zona 1 es de: 24869607.480483666
La ganancia obtenida en la zona 2 es de: 33230867.049137533


**CONCLUSIÓN**

Basándonos en los cálculos realizados, se observa que la ganancia obtenida en la zona GEO_0 supera significativamente a las otras dos regiones, con un total de $39,974,486. Esto sugiere que, después de restar la inversión inicial, la zona GEO_0 parece ser la más rentable para invertir. Por lo tanto, recomendaríamos considerar GEO_0 como la mejor opción para futuras inversiones debido a su mayor potencial de ganancias.

## <center>PASO 5</center>

### Cálculo de riesgos y ganancias para cada región

In [31]:
# Función para calcular beneficios y riezgo de pérdida utilizando bootstrapping.
def geo_bootstrap(data, samples, fract):
    data = pd.Series(data)
    state = np.random.RandomState(12345)
    counter = 0
    values = []

    for i in range(samples):
        target_subsample = data.sample(
            n=fract, replace=True, random_state=state)
        totalvol = np.sum(target_subsample)
        values.append(totalvol)
        if totalvol < 22220:
            counter += 1

    values = pd.Series(values)
    lossprt = counter / len(values)
    mean = values.mean()
    lower = values.quantile(0.05)

    return lossprt, mean, lower

**RIESGO Y GANANCIA PARA LA ZONA GEO_0**

In [33]:
lossprt_0, mean_0, lower_0 = geo_bootstrap(geo0_sorted, 1000, 144)

print('El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de:', mean_0,
      'los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de ganancia de:', mean_0 * (500000/111.1) - 100000000)
print('el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de:',
      lossprt_0 * 100, '%')
print('Con una probabilidad del 95% podemos asegurar que nuestro volumen será de:', lower_0,
      'El cual, al momento de recuperar la inversión, tendremos un total de:', lower_0 * (500000/111.1) - 100000000)

El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de: 22391.35122647881 los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de ganancia de: 771157.6349181533
el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de: 1.6 %
Con una probabilidad del 95% podemos asegurar que nuestro volumen será de: 22270.95366871548 El cual, al momento de recuperar la inversión, tendremos un total de: 229314.44066372514


**RIESGO Y GANANCIA PARA LA ZONA GEO_1**

In [56]:
lossprt_1, mean_1, lower_1 = geo_bootstrap(geo1_sorted, 1000, 144)

print('El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de:', mean_1,
      'los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de:', mean_1 * (500000/111.1) - 100000000)
print('el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de:',
      lossprt_1 * 100, '%')
print('Con una probabilidad del 95% podemos asegurar que nuestro volumen será de:', lower_1,
      'El cual, al momento de recuperar la inversión, tendremos un total de:', lower_1 * (500000/111.1) - 100000000)

El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de: 19977.026474543156 los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de: -10094390.303586155
el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de: 100.0 %
Con una probabilidad del 95% podemos asegurar que nuestro volumen será de: 19971.59549372905 El cual, al momento de recuperar la inversión, tendremos un total de: -10118832.16143541


**RIESGO Y GANANCIA PARA LA ZONA GEO_2**

In [57]:
lossprt_2, mean_2, lower_2 = geo_bootstrap(geo2_sorted, 1000, 144)

print('El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de:', mean_2,
      'los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de:', mean_2 * (500000/111.1) - 100000000)
print('el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de:',
      lossprt_2 * 100, '%')
print('Con una probabilidad del 95% podemos asegurar que nuestro volumen será de:', lower_2,
      'El cual, al momento de recuperar la inversión, tendremos un total de:', lower_2 * (500000/111.1) - 100000000)

El beneficio promedio de la zona GEO_0 para los pozos petroleros mas redituables es de: 21312.692698624123 los cuales, una vez retirando la inversión inicial, con el 72% de los datos nos da un total de: -4083291.1853099763
el porcentaje de riesgo para la zona GEO_0, con un bootstrapping del 72% es de: 100.0 %
Con una probabilidad del 95% podemos asegurar que nuestro volumen será de: 21209.07809194987 El cual, al momento de recuperar la inversión, tendremos un total de: -4549603.54658024


**CONCLUSIÓN**

Después de realizar un análisis exhaustivo utilizando la técnica del bootstrapping en tres zonas potenciales para el desarrollo de pozos petrolíferos, se ha llegado a la conclusión de que la zona GEO_0 emerge como la opción más favorable. Esta elección se fundamenta en varios factores clave que destacan la viabilidad y el potencial de rentabilidad de esta zona en particular.

En primer lugar, al evaluar el beneficio promedio de los pozos petrolíferos en cada zona, se observó que la zona GEO_0 exhibió el beneficio promedio más alto en comparación con las otras dos zonas. Este indicador señala que los pozos en la zona GEO_0 tienen el potencial de generar mayores ganancias en promedio, lo que representa una ventaja significativa en términos de retorno de la inversión.

Además, al considerar el riesgo asociado con el desarrollo de pozos petrolíferos, se encontró que la zona GEO_0 presenta el riesgo más bajo de sufrir pérdidas. Con solo un 1.6% de probabilidad de pérdidas, los pozos petrolíferos en esta zona ofrecen una mayor seguridad en términos de rentabilidad.

Es importante destacar que al utilizar un bootstrapping del 72% de los datos, la zona GEO_0 fue la única que no reportó pérdidas en ninguna de las muestras de bootstrap. Esta consistencia en los resultados indica una estabilidad y confiabilidad en la rentabilidad de los pozos petrolíferos en esta zona, lo que refuerza aún más su atractivo como ubicación para el desarrollo petrolero.

Por otro lado, al examinar el intervalo de confianza del 95%, se pudo determinar con un alto grado de certeza que el volumen promedio de producción de los pozos en la zona GEO_0 estará dentro de un rango específico. Este intervalo proporciona una estimación precisa y confiable de las ganancias potenciales.

En resumen, basado en el análisis detallado realizado mediante el bootstrapping, la zona GEO_0 se destaca como la opción más viable y prometedora para el desarrollo de pozos petrolíferos. Con su beneficio promedio superior, riesgo reducido, consistencia en los resultados y estimaciones confiables del potencial de ganancias, la zona GEO_0 representa una oportunidad excepcional para maximizar los rendimientos en la industria petrolera.
