# Proyecto 10: Aprendizaje automático en negocios

## Descripcion del proyecto

Trabajas en la compañía de extracción de petróleo OilyGiant. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.

Para completar esta tarea, tendrás que realizar los siguientes pasos:

- Leer los archivos con los parámetros recogidos de pozos petrolíferos en la región seleccionada: calidad de crudo y volumen de reservas.
- Crear un modelo para predecir el volumen de reservas en pozos nuevos.
- Elegir los pozos petrolíferos que tienen los valores estimados más altos.
- Elegir la región con el beneficio total más alto para los pozos petrolíferos seleccionados.

Tienes datos sobre muestras de crudo de tres regiones. Ya se conocen los parámetros de cada pozo petrolero de la región. Crea un modelo que ayude a elegir la región con el mayor margen de beneficio. Analiza los beneficios y riesgos potenciales utilizando la técnica bootstrapping.

## Condiciones


- Solo se debe usar la regresión lineal para el entrenamiento del modelo.
- Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.
- El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.
- Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
- Después de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.

Los datos son sintéticos: los detalles del contrato y las características del pozo no se publican.

## Descripcion de los datos


Los datos de exploración geológica de las tres regiones se almacenan en archivos:

- geo_data_0.csv. 
- geo_data_1.csv. 
- geo_data_2.csv. 

- id — identificador único de pozo de petróleo
- f0, f1, f2 — tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)
- product — volumen de reservas en el pozo de petróleo (miles de barriles).

## Instrucciones del proyecto


1. Descarga y prepara los datos. Explica el procedimiento.
2. Entrena y prueba el modelo para cada región en geo_data_0.csv:

    2.1 Divide los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25

    2.2 Entrena el modelo y haz predicciones para el conjunto de validación.

    2.3 Guarda las predicciones y las respuestas correctas para el conjunto de validación.

    2.4 Muestra el volumen medio de reservas predicho y RMSE del modelo.

    2.5 Analiza los resultados.

    2.6 Coloca todos los pasos previos en funciones, realiza y ejecuta los pasos 2.1-2.5 para los archivos 'geo_data_1.csv' y 'geo_data_2.csv'.

3. Prepárate para el cálculo de ganancias:

    3.1 Almacena todos los valores necesarios para los cálculos en variables separadas.

    3.2 Dada la inversión de 100 millones por 200 pozos petrolíferos, de media un pozo petrolífero debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). Compara esta cantidad con la cantidad media de reservas en cada región.

    3.3 Presenta conclusiones sobre cómo preparar el paso para calcular el beneficio.

4. Escribe una función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modela las predicciones:

    4.1 Elige los 200 pozos con los valores de predicción más altos de cada una de las 3 regiones (es decir, archivos 'csv').

    4.2 Resume el volumen objetivo de reservas según dichas predicciones. Almacena las predicciones para los 200 pozos para cada una de las 3 regiones.

    4.3 Calcula la ganancia potencial de los 200 pozos principales por región. Presenta tus conclusiones: propón una región para el desarrollo de pozos petrolíferos y justifica tu elección.

5. Calcula riesgos y ganancias para cada región:

    5.1 Utilizando las predicciones que almacenaste en el paso 4.2, emplea la técnica del bootstrapping con 1000 muestras para hallar la distribución de los beneficios.

    5.2 Encuentra el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas. La pérdida es una ganancia negativa, calcúlala como una probabilidad y luego exprésala como un porcentaje.

    5.3 Presenta tus conclusiones: propón una región para el desarrollo de pozos petrolíferos y justifica tu elección. ¿Coincide tu elección con la elección anterior en el punto 4.3?

## Evaluación del proyecto

Hemos definido los criterios de evaluación para el proyecto. Lee esto con atención antes de pasar al ejercicio.

Esto es lo que los revisores buscarán cuando evalúen tu proyecto:

- ¿Cómo preparaste los datos para el entrenamiento?
- ¿Seguiste todos los pasos de las instrucciones?
- ¿Consideraste todas las condiciones del negocio?
- ¿Cuáles son tus hallazgos sobre el estudio de tareas?
- ¿Aplicaste correctamente la técnica bootstrapping?
- ¿Sugeriste la mejor región para el desarrollo de pozos? ¿Justificaste tu elección?
- ¿Evitaste la duplicación de código?
- ¿Mantuviste la estructura del proyecto y el código limpio?

Ya tienes tus hojas informativas y los resúmenes de los capítulos, por lo que todo está listo para continuar con el proyecto.

¡Buena suerte!

## paso 1

### Cargar datos

In [1]:
# Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from IPython.display import HTML
from math import sqrt

In [2]:
# Importar data frame 
data_0 = pd.read_csv('datasets/geo_data_0.csv')
data_1 = pd.read_csv('datasets/geo_data_1.csv')
data_2 = pd.read_csv('datasets/geo_data_2.csv')

# Data 3 ------------------------------
display(HTML('<h1> Dataframe 0  '))
display(data_0.head())
display(data_0.info())
display(data_0.describe())
display(HTML('<hr>'))

# Data 1  -----------------------------
display(HTML('<h1> Dataframe 1  '))
display(data_1.head())
display(data_1.info())
display(data_1.describe())
display(HTML('<hr>'))

# Data 2 ------------------------------
display(HTML('<h1> Dataframe 2  '))
display(data_2.head())
display(data_2.info())
display(data_2.describe())
display(HTML('<hr>'))


# comentario
comentario = """ 
<h2> Comentario sobre la exploracion inicial del archivo </h2>
<p> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus volutpat sagittis convallis. Maecenas placerat non diam vitae tempor. Cras tempor consectetur turpis porttitor hendrerit. Vivamus et leo volutpat, ultrices dolor non, molestie enim. Nulla scelerisque ullamcorper risus sed rhoncus. In sed diam ut dolor aliquet dictum ut in leo. Integer eu varius nulla. Nullam vel erat accumsan arcu iaculis pellentesque. Quisque quis nulla sit amet urna elementum tristique. Suspendisse mi arcu, feugiat quis ipsum quis, rhoncus sagittis eros. Aliquam lectus dui, faucibus quis elementum ac, pharetra imperdiet arcu. </p>
<p> Suspendisse in malesuada nisi, ut accumsan massa. Phasellus non pulvinar enim. Aliquam ut semper augue, in placerat urna. Aenean eu nisi ut mauris consequat posuere at sed neque. Maecenas feugiat velit ipsum, ac consectetur tellus posuere vel. Sed congue scelerisque tincidunt. Integer sed nisi purus. Proin id mi turpis. Donec vestibulum massa fermentum enim sodales, sed varius ex auctor. Nulla facilisi. Praesent venenatis convallis ante ut porta. Etiam cursus lorem lorem.  </p>

"""
display(HTML(comentario))



Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


## Paso 2

### Definir funcion para Entrenar y probar modelos para cada región en los dataframes:

In [10]:
# Funcion para crear modelos
def process_data(data):
     # División de los datos
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=123)
    
    # Entrenamiento del modelo
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Predicciones y evaluación
    predictions = model.predict(X_valid)
    rmse = sqrt(mean_squared_error(y_valid, predictions))
    mean_product = predictions.mean()
    
    return rmse, mean_product, predictions

# Aplicar funcion
results = {}
for i, data in enumerate([data_0, data_1, data_2], start=1):
    rmse, mean_product, predictions = process_data(data)
    results[f'Region {i}'] = {'RMSE': rmse, 'Mean Product': mean_product}

results

{'Region 1': {'RMSE': 37.64786282376177, 'Mean Product': 92.54936189116309},
 'Region 2': {'RMSE': 0.8954139804944315, 'Mean Product': 69.28001860653976},
 'Region 3': {'RMSE': 40.12803006598514, 'Mean Product': 95.09859933591373}}

## Paso 3


In [4]:
# Definir las condiciones dadas
presupuesto_total = 100_000_000  # 100 millones de dólares
numero_de_pozos = 200
ingreso_por_barril = 4.5
ingreso_por_unidad = 4500  # Ingresos por mil barriles

# Calcular el costo por pozo y el volumen necesario por pozo para evitar pérdidas
costo_por_pozo = presupuesto_total / numero_de_pozos
unidades_necesarias_por_pozo = costo_por_pozo / ingreso_por_unidad

# Volumen necesario por pozo en miles de barriles para evitar pérdidas
volumen_necesario_por_pozo = unidades_necesarias_por_pozo  # Esto ya está en miles de barriles

volumen_necesario_por_pozo

111.11111111111111

## PASO 4

In [22]:
def calcular_ganancia(predicciones, ingreso_por_unidad, top_n=200):
    if not isinstance(predicciones, pd.Series):
        predicciones = pd.Series(predicciones)
    predicciones_seleccionadas = predicciones.nlargest(top_n)
    volumen_total_reservas = predicciones_seleccionadas.sum()
    ganancia_total = volumen_total_reservas * ingreso_por_unidad
    
    return ganancia_total, volumen_total_reservas

predictions_region_3 = process_data(data_2) 
predictions_region_3 = predictions_region_3[2]

ganancia, volumen = calcular_ganancia(predictions_region_3, ingreso_por_unidad)

print(f"Volumen total: {volumen:.2f} miles de barriles, ganancia: ${ganancia:,.2f}")

Volumen total: 29943.44 miles de barriles, ganancia: $134,745,494.00


## PASO 5


In [None]:
def bootstrapping_ganancias(predicciones, n_iteraciones, top_n, costo_por_pozo, ingreso_por_unidad):
    ganancias = []
    for _ in range(n_iteraciones):
        # Muestra aleatoria con reemplazo
        muestra = np.random.choice(predicciones, size=top_n, replace=True)
        # Calcular la ganancia para esta muestra
        ganancia = np.sum(muestra) * ingreso_por_unidad - (costo_por_pozo * top_n)
        ganancias.append(ganancia)
    
    # Convertir la lista de ganancias en un array de numpy para análisis
    ganancias = np.array(ganancias)
    
    # Calcular el beneficio promedio
    beneficio_promedio = np.mean(ganancias)
    
    # Calcular el intervalo de confianza del 95%
    confianza_inf, confianza_sup = np.percentile(ganancias, [2.5, 97.5])
    
    # Calcular el riesgo de pérdidas
    riesgo_perdidas = np.mean(ganancias < 0) * 100  # Porcentaje de veces que la ganancia es negativa
    
    return beneficio_promedio, confianza_inf, confianza_sup, riesgo_perdidas

# Ejecutar el bootstrapping para la región 1 (como ejemplo)
n_iteraciones = 1000
beneficio_promedio, confianza_inf, confianza_sup, riesgo_perdidas = bootstrapping_ganancias(
    predicciones_reg1, n_iteraciones, 200, costo_por_pozo, ingreso_por_unidad)

beneficio_promedio, confianza_inf, confianza_sup, riesgo_perdidas
