# PROYECTO DE APRENDIZAJE AUTOMÁTICO EN NEGOCIOS

En este proyecto trabajaremos con los datos de la compañía de extracción de petróleo OilyGiant y nuestro objetivo será encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.

Para completar esta tarea, tendremos que leer los archivos que contienen los parámetros recogidos de pozos petrolíferos en la región seleccionada: calidad de crudo y volumen de reservas. Posteriormente crearémos un modelo que pueda predecir el volumen de reservas en pozos nuevos y con esta información podrémos elegir los pozos petrolíferos que tienen los valores estimados más altos.

Ademas deberemos elegir la región con el beneficio total más alto para los pozos petrolíferos que hemos seleccionado, para lograrlo analizaremos los datos que tenemos sobre muestras de crudo de tres regiones, con esto crearemos un modelo que ayude a elegir la región con el mayor margen de beneficio. 

Analizaremos los beneficios y riesgos potenciales utilizando la técnica bootstrapping.

## Descargar y preparar los datos

Importamos todas las librerías que vayamos a necesitar en este proyecto y procedemos a cargar nuestros datos asi como a revisar la información contenida en los mismos.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

In [4]:
df1= pd.read_csv("datasets/geo_data_0.csv")
df2= pd.read_csv("datasets/geo_data_1.csv")
df3= pd.read_csv("datasets/geo_data_2.csv")

In [5]:
df1.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [6]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
# Verificar valores nulos
print(df1.isnull().sum())

# Verificar valores duplicados
print(df1.duplicated().sum())


id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
0


Respecto a nuestro primer dataframe tenemos lo siguiente:
id — identificador único de pozo de petróleo
f0, f1, f2 — tres características de los puntos 
product — volumen de reservas en el pozo de petróleo (miles de barriles).

Es importante mencionar que en df1 no tenemos valores duplicados ni tampoco valores nulos por lo que podemos continuar con el desarrollo del proyecto.

In [8]:
df2.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [9]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [10]:
# Verificar valores nulos
print(df2.isnull().sum())

# Verificar valores duplicados
print(df2.duplicated().sum())

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
0


Respecto a nuestro segundo dataframe tenemos lo siguiente: 
id — identificador único de pozo de petróleo
f0, f1, f2 — tres características de los puntos 
product — volumen de reservas en el pozo de petróleo (miles de barriles).

Es importante mencionar que no tenemos valores duplicados ni tampoco valores nulos por lo que podemos continuar con el desarrollo del proyecto.

In [11]:
df3.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [12]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [13]:
# Verificar valores nulos
print(df3.isnull().sum())

# Verificar valores duplicados
print(df3.duplicated().sum())

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
0


Respecto a nuestro tercer dataframe tenemos lo siguiente:
id — identificador único de pozo de petróleo
f0, f1, f2 — tres características de los puntos 
product — volumen de reservas en el pozo de petróleo (miles de barriles).

Es importante mencionar que no tenemos valores duplicados ni tampoco valores nulos por lo que podemos continuar con el desarrollo del proyecto.

## Entrenar y probar el modelo para cada región en geo_data_0.csv:

### Dividir los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25.

In [14]:
features=df1[['f0', 'f1', 'f2']]
target= df1['product']
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)

In [15]:
#Ajustar el escalador usando solo los datos de entrenamiento
scaler = StandardScaler()
scaler.fit(features_train)

#Transformar tanto los datos de entrenamiento como los de validación
features_train_scaled = scaler.transform(features_train)
features_valid_scaled = scaler.transform(features_valid)

### Entrenamiento del modelo y predicciones para el conjunto de validación. 

In [16]:
#Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(features_train, target_train)
#Hacer predicciones en el conjunto de validación
target_pred = model.predict(features_valid)

### Guardar las predicciones y las respuestas correctas para el conjunto de validación.

In [17]:
predictions = pd.DataFrame({'target_valid': target_valid, 'target_pred': target_pred})

### Mostrar el volumen medio de reservas predicho y RMSE del modelo. 

In [18]:
rmse = mean_squared_error(target_valid, target_pred, squared=False)
volumen_medio_1 = target_pred.mean()

# Mostrar resultados
print(f'Volumen medio de reservas predicho df 1: {volumen_medio_1}')
print(f'Error cuadrático medio (RMSE) df 1: {rmse}')


Volumen medio de reservas predicho df 1: 92.59256778438035
Error cuadrático medio (RMSE) df 1: 37.5794217150813


### Analisis los resultados.

**CONCLUSIONES "df1":**

De los resultados obtenidos podemos ver que el volumen medio de reservas predicho es de: 92.59256778438035 y el error cuadrático medio (RMSE) del mismo es: 37.5794217150813, eso quiere decir que el volumen predicho por pozo es de 92 mil quinientos noventa y dos barriles, un valor alto, sin embargo el RMSE nos dice que en promedio, las predicciones del modelo se desvían del valor real en unos 37.58 miles de barriles. Teniendo en cuenta el riesgo en lo posterior será importante realizar un analisis más detallado utilizando la técnica del Bootstrapping.

### Colocar todos los pasos previos en funciones, realizar y ejecutar los pasos 2.1-2.5 para los archivos 'geo_data_1.csv' y 'geo_data_2.csv'.

In [19]:
def dividir_datos(df):
    features = df[['f0', 'f1', 'f2']]  
    target = df['product']  
    features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
    return features_train, features_valid, target_train, target_valid  

def entrenar_modelo(features_train, target_train):
    """Entrena un modelo de regresión lineal con los datos proporcionados."""
    model = LinearRegression()
    model.fit(features_train, target_train)
    return model

def predicciones(model, features_valid):
    """Realiza predicciones con el modelo entrenado."""
    return model.predict(features_valid)

def calcular_métricas(target_valid, target_pred):
    """Calcula el volumen medio de reservas predicho y el RMSE."""
    rmse = mean_squared_error(target_valid, target_pred, squared=False)
    mean_predicted_volume = target_pred.mean()
    return mean_predicted_volume, rmse

def proceso_completo(df, nombre_df):
    """Realiza todo el proceso de entrenamiento, predicción y cálculo de métricas."""
    features_train, features_valid, target_train, target_valid = dividir_datos(df)
    
    model = entrenar_modelo(features_train, target_train)
    
    target_pred = predicciones(model, features_valid)
    
    mean_predicted_volume, rmse = calcular_métricas(target_valid, target_pred)
    
    print(f'Resultados para {nombre_df}:')
    print(f'Volumen medio de reservas predicho: {mean_predicted_volume}')
    print(f'Error cuadrático medio (RMSE): {rmse}')
    print('---------------------------------------------') #para poder diferenciar mis respuestas
    
    return mean_predicted_volume, rmse

# Ejecutar el proceso para df2 y df3
volumen_medio_2, rmse_2 = proceso_completo(df2, 'df2')
volumen_medio_3, rmse_3 = proceso_completo(df3, 'df3')

Resultados para df2:
Volumen medio de reservas predicho: 68.728546895446
Error cuadrático medio (RMSE): 0.893099286775617
---------------------------------------------
Resultados para df3:
Volumen medio de reservas predicho: 94.96504596800489
Error cuadrático medio (RMSE): 40.02970873393434
---------------------------------------------


**CONCLUSIONES "df2":**

De los resultados obtenidos podemos ver que el volumen medio de reservas predicho es de: 68.728546895446 y el error cuadrático medio (RMSE) del mismo es: 0.893099286775617, estos resultados nos indican  que en esta region se tiene un volumen menor a la region anterior y el error cuadrático medio es bastante mas alto, practicamente esta errando en todas las predicciones, teniendo en cuenta el riesgo de estos resultados en lo posterior será importante realizar un analisis más detallado utilizando la técnica del Bootstrapping.

**CONCLUSIONES "df3":**

De los resultados obtenidos podemos ver que el volumen medio de reservas predicho es de: 94.96504596800489 y el error cuadrático medio (RMSE) del mismo es: 40.02970873393434, lo que nos permite observar que en esta region se tiene el volumen de reservas más alto de todas, sin embargo; el error cuadrático medio no es bajo por lo que de igual manera debemos considerar el riesgo de usar el modelo en las codiciones en las que está y sera mejor en lo posterior realizar un analisis más detallado utilizando la técnica del Bootstrapping.

## Cálculo de ganancias:

### Almacenar todos los valores necesarios para los cálculos en variables separadas.

In [40]:
inversion_total = 100000000  # 100 millones de dólares
numero_pozos = 200
valor_minimo_por_pozo_dolares = 500000  # 500 mil dólares
valor_minimo_por_pozo_unidades = valor_minimo_por_pozo_dolares / 4500  # 111.1 unidades (miles de barriles)


### Dada la inversión de 100 millones por 200 pozos petrolíferos, de media un pozo petrolífero debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). Comparacion de esta cantidad con la cantidad media de reservas en cada región. 

In [41]:
valor_minimo_por_pozo_unidades = 111.1  # miles de barriles

def comparar_volumen_por_region(volumen_medio, nombre_df):
    if volumen_medio >= valor_minimo_por_pozo_unidades:
        print(f'En {nombre_df}, el volumen medio de reservas predicho ({volumen_medio:.2f} miles de barriles) es suficiente para evitar pérdidas.')
    else:
        print(f'En {nombre_df}, el volumen medio de reservas predicho ({volumen_medio:.2f} miles de barriles) no es suficiente para evitar pérdidas.')

# Comparar para df1, df2, df3
comparar_volumen_por_region(volumen_medio_1, 'df1')
comparar_volumen_por_region(volumen_medio_2, 'df2')
comparar_volumen_por_region(volumen_medio_3, 'df3')


En df1, el volumen medio de reservas predicho (92.59 miles de barriles) no es suficiente para evitar pérdidas.
En df2, el volumen medio de reservas predicho (68.73 miles de barriles) no es suficiente para evitar pérdidas.
En df3, el volumen medio de reservas predicho (94.97 miles de barriles) no es suficiente para evitar pérdidas.


Los resultados indican que en ninguna de las tres regiones (df1, df2, df3), el volumen medio de reservas predicho es suficiente para evitar pérdidas, los pozos en estas regiones no alcanzan las 111.1 unidades (miles de barriles) mínimas para cubrir con el valor de 500,000 dólares por pozo, esto implica un riesgo para nosotros ya que la inversión de 100 millones de dólares podría no ser rentable en estas condiciones, es algo que debemos tomar muy en cuenta al tomar las decisiones finales sobre la implementación de medidas para el negocio.

### Conclusiones sobre cómo preparar el paso para calcular el beneficio.

Como comentamos anteriormente el volumen medio de reservas predicho es menor al mínimo necesario, esto implica que debemos considerar este particular al realizar nuestro cálculo del beneficio, así podremos tener en mente los riesgos asociados y en el futuro podemos planificar estrategias de mitigación, sin embargo, continuando con nuestro proyecto vamos a filtrar y seleccionar los pozos con las mejores predicciones de reservas para concentrar la inversión en los pozos más prometedores y lo realizaremos de la siguiente manera:

Primero vamos a calcular el Volumen Total de Reservas, después realizaremos el cálculo del Ingreso Total, compararemos con la Inversión Total los ingresos potenciales para determinar si se alcanza un beneficio o se incurre en pérdidas. 

## Función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modelado de las predicciones:

### Elegir los 200 pozos con los valores de predicción más altos de cada una de las 3 regiones (es decir, archivos 'csv').


In [46]:
def calcular_ganancia(model, features_valid, inversion_total, precio_por_unidad, numero_pozos=200):
    """Calcula la ganancia estimada y selecciona los mejores pozos."""
    # Hacer predicciones usando el modelo entrenado
    predicciones = model.predict(features_valid)
    
    # Seleccionar los 200 pozos con las predicciones más altas
    mejores_pozos = np.argsort(predicciones)[-numero_pozos:]  # Obtener los índices de los mejores pozos
    
    # Calcular el volumen total de reservas de los mejores pozos
    volumen_total_reservas = predicciones[mejores_pozos].sum()
    
    # Calcular la ganancia
    ganancia_total = volumen_total_reservas * precio_por_unidad - inversion_total
    
    return ganancia_total, mejores_pozos

# Entrenamiento del modelo para df2 y df3
features_train_df2, features_valid_df2, target_train_df2, target_valid_df2 = dividir_datos(df2)
model_df2 = entrenar_modelo(features_train_df2, target_train_df2)

features_train_df3, features_valid_df3, target_train_df3, target_valid_df3 = dividir_datos(df3)
model_df3 = entrenar_modelo(features_train_df3, target_train_df3)

# Calcular la ganancia usando los modelos entrenados
ganancia_df1, mejores_pozos_df1 = calcular_ganancia(model, features_valid, inversion_total, precio_por_unidad)
ganancia_df2, mejores_pozos_df2 = calcular_ganancia(model_df2, features_valid_df2, inversion_total, precio_por_unidad)
ganancia_df3, mejores_pozos_df3 = calcular_ganancia(model_df3, features_valid_df3, inversion_total, precio_por_unidad)

# Mostrar resultados
print(f'Ganancia estimada para df1: {ganancia_df1}')
print(f'Ganancia estimada para df2: {ganancia_df2}')
print(f'Ganancia estimada para df3: {ganancia_df3}')



Ganancia estimada para df1: 39960488.77465129
Ganancia estimada para df2: 24857120.51973544
Ganancia estimada para df3: 33217543.96243258


### Resumir el volumen objetivo de reservas según dichas predicciones. Almacenar las predicciones para los 200 pozos para cada una de las 3 regiones.

In [47]:
def proceso_completo2(df, nombre_df):
    """Realiza todo el proceso de entrenamiento, predicción y cálculo de métricas."""
    features_train, features_valid, target_train, target_valid = dividir_datos(df)
    
    model = entrenar_modelo(features_train, target_train)
    
    target_pred = predicciones(model, features_valid)
    
    mean_predicted_volume, rmse = calcular_métricas(target_valid, target_pred)
    
    return target_pred, mean_predicted_volume, rmse

def calcular_volumen_objetivo(target_pred, n=200):
    """Selecciona los n pozos con las mayores predicciones y calcula el volumen objetivo de reservas."""
    # Ordenar las predicciones en orden descendente y seleccionar los 200 pozos con las predicciones más altas
    top_pred_indices = np.argsort(target_pred)[-n:]
    top_predicciones = target_pred[top_pred_indices]
    volumen_objetivo_reservas = top_predicciones.sum()
    return volumen_objetivo_reservas, top_predicciones

# Ejecutar el proceso para df1, df2 y df3
target_pred_df1, _, _ = proceso_completo2(df1, 'df1')
target_pred_df2, _, _ = proceso_completo2(df2, 'df2')
target_pred_df3, _, _ = proceso_completo2(df3, 'df3')

# Calcular el volumen objetivo de reservas para los 200 pozos con mayores predicciones en cada DataFrame
volumen_objetivo_df1, mejores_pozos_df1 = calcular_volumen_objetivo(target_pred_df1)
volumen_objetivo_df2, mejores_pozos_df2 = calcular_volumen_objetivo(target_pred_df2)
volumen_objetivo_df3, mejores_pozos_df3 = calcular_volumen_objetivo(target_pred_df3)

print(f'Volumen objetivo de reservas para los 200 pozos seleccionados en df1: {volumen_objetivo_df1} miles de barriles')
print(f'Volumen objetivo de reservas para los 200 pozos seleccionados en df2: {volumen_objetivo_df2} miles de barriles')
print(f'Volumen objetivo de reservas para los 200 pozos seleccionados en df3: {volumen_objetivo_df3} miles de barriles')

# Almacenar las predicciones para los 200 pozos con mayores predicciones
predicciones_df1 = pd.DataFrame({'target_pred': mejores_pozos_df1})
predicciones_df2 = pd.DataFrame({'target_pred': mejores_pozos_df2})
predicciones_df3 = pd.DataFrame({'target_pred': mejores_pozos_df3})


Volumen objetivo de reservas para los 200 pozos seleccionados en df1: 31102.330838811395 miles de barriles
Volumen objetivo de reservas para los 200 pozos seleccionados en df2: 27746.02678216343 miles de barriles
Volumen objetivo de reservas para los 200 pozos seleccionados en df3: 29603.89865831835 miles de barriles


### Calcular la ganancia potencial de los 200 pozos principales por región. Presentacion de conclusiones: proposición de una región para el desarrollo de pozos petrolíferos y justificación de elección.

In [48]:
def calcular_ganancia_potencial(volumen_objetivo_reservas, precio_por_unidad, inversion_total):
    """Calcula la ganancia potencial dado el volumen objetivo de reservas y el precio por unidad."""
    valor_total = volumen_objetivo_reservas * precio_por_unidad  # Valor total en dólares
    ganancia_potencial = valor_total - inversion_total  # Ganancia potencial
    return ganancia_potencial

# Calcular la ganancia potencial para los 200 pozos principales en cada región
ganancia_potencial_df1 = calcular_ganancia_potencial(volumen_objetivo_df1, precio_por_unidad, inversion_total)
ganancia_potencial_df2 = calcular_ganancia_potencial(volumen_objetivo_df2, precio_por_unidad, inversion_total)
ganancia_potencial_df3 = calcular_ganancia_potencial(volumen_objetivo_df3, precio_por_unidad, inversion_total)

print(f'Ganancia potencial para los 200 pozos principales en df1: ${ganancia_potencial_df1:,.2f}')
print(f'Ganancia potencial para los 200 pozos principales en df2: ${ganancia_potencial_df2:,.2f}')
print(f'Ganancia potencial para los 200 pozos principales en df3: ${ganancia_potencial_df3:,.2f}')


Ganancia potencial para los 200 pozos principales en df1: $39,960,488.77
Ganancia potencial para los 200 pozos principales en df2: $24,857,120.52
Ganancia potencial para los 200 pozos principales en df3: $33,217,543.96


La region 1 parece ser la región indicada para el desarrollo del pozos petroleros ya que los resultados nos muestran que esta tendría la mayor ganancia para nuestra empresa al poder sacar mas barriles tambien de petroleo al mercado.

## Calcular riesgos y ganancias para cada región:

### Utilizando las predicciones en el paso 4.2, emplearé la técnica del bootstrapping con 1000 muestras para hallar la distribución de los beneficios.

In [49]:
numero_muestras = 1000  # Número de muestras para el bootstrapping
def calcular_beneficio(predicciones, precio_por_unidad, inversion_total):
    """Calcula el beneficio a partir de las predicciones."""
    return (predicciones * precio_por_unidad).sum() - inversion_total

def bootstrap_beneficios(predicciones, numero_muestras, precio_por_unidad, inversion_total):
    """Realiza bootstrapping para estimar la distribución de beneficios."""
    beneficios = [calcular_beneficio(np.random.choice(predicciones, size=len(predicciones), replace=True),
                                     precio_por_unidad, inversion_total) for _ in range(numero_muestras)]
    return np.array(beneficios)

# Realizar bootstrapping para df1, df2 y df3
beneficios_df1 = bootstrap_beneficios(predicciones_df1['target_pred'], numero_muestras, precio_por_unidad, inversion_total)
beneficios_df2 = bootstrap_beneficios(predicciones_df2['target_pred'], numero_muestras, precio_por_unidad, inversion_total)
beneficios_df3 = bootstrap_beneficios(predicciones_df3['target_pred'], numero_muestras, precio_por_unidad, inversion_total)

### Encontrar el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas. La pérdida es una ganancia negativa, calcúlada como una probabilidad y luego exprésada como un porcentaje.

In [50]:
def resumen_beneficios(beneficios):
    """Calcula estadísticas descriptivas para la distribución de beneficios."""
    beneficio_promedio = beneficios.mean()
    intervalo_confianza_95 = np.percentile(beneficios, [2.5, 97.5])
    riesgo_de_perdidas = (beneficios < 0).mean() * 100  # Proporción de beneficios negativos como porcentaje
    
    return {
        'Beneficio promedio': beneficio_promedio,
        'Intervalo de confianza 95%': intervalo_confianza_95,
        'Riesgo de pérdidas (%)': riesgo_de_perdidas
    }

# Obtener resúmenes
resumen_df1 = resumen_beneficios(beneficios_df1)
resumen_df2 = resumen_beneficios(beneficios_df2)
resumen_df3 = resumen_beneficios(beneficios_df3)

# Imprimir resultados
print(f'Resumen de beneficios para df1:')
for key, value in resumen_df1.items():
    print(f'{key}: {value}')

print(f'\nResumen de beneficios para df2:')
for key, value in resumen_df2.items():
    print(f'{key}: {value}')

print(f'\nResumen de beneficios para df3:')
for key, value in resumen_df3.items():
    print(f'{key}: {value}')


Resumen de beneficios para df1:
Beneficio promedio: 39961606.12669901
Intervalo de confianza 95%: [39162485.12669949 40734295.76571938]
Riesgo de pérdidas (%): 0.0

Resumen de beneficios para df2:
Beneficio promedio: 24858318.17197824
Intervalo de confianza 95%: [24823324.42102553 24892884.93713671]
Riesgo de pérdidas (%): 0.0

Resumen de beneficios para df3:
Beneficio promedio: 33210478.019699425
Intervalo de confianza 95%: [32539481.6861584  33917539.64849491]
Riesgo de pérdidas (%): 0.0


### Conclusiones

Mi elección sigue siendo la región 1 al igual que en el punto 4.3, ya que las ganacias son superiores. En la región df1 existe el beneficio promedio más alto: $39,961,606.13 y un intervalo de confianza estrecho, lo que indica que es la región más rentable y con un riesgo mínimo. Esto la convierte en la mejor opción segun lo que hemos analizado. Aunque df3 también tiene un beneficio significativo, es menor que en df1. El intervalo de confianza es razonablemente estrecho, lo que indica una estabilidad en las predicciones, pero es menos atractiva que df1 en términos de ganancias, por último df2 tiene el beneficio promedio más bajo y un intervalo de confianza muy estrecho, lo que indica una alta precisión en las predicciones, pero es la menos rentable de las tres regiones.

Conclusión Final:
La región df1 es la mejor opción para la inversión, ya que ofrece el mayor beneficio promedio con un riesgo de pérdidas nulo. La estabilidad de las predicciones dentro del intervalo de confianza también es un punto a favor, asegurando que las ganancias proyectadas son confiables.